GDT score 计算

  GDT(Global distance test),可用来表示两个蛋白结构的相似程度,是蛋白质结构 refinement 领域常用的一个评价标准。
  使用 PyMOL 计算 native 和 model 两个结构的 CA 原子的 rmsd 值,它首先会使用所有的 CA 原子进行 fit,得到 r1,然后排除一部分原子,再次计算得到 r2,多次迭代(默认是五次??)之后得到最终的 rmsd 值。因此如果直接将 PyMOL 的计算结果与其它软件的计算结果相比的话会略小。
  那么 GDT 是什么呢?它与 RMSD 有何异同呢?
  对于给定的 cutoff(eg. 4A),GDT score 的值表示的是能够使得 fit 之后的 rmsd 小于 4A 的最大的原子数目比例。通常需要计算不同 cutoff 对应的 GDT score,然后取平均值。于是便有了 GDT-TS(Total Score),对应于 cutoff 分别取 1,2,4,8A 时的 GDT score 的均值;GDT-HA(High Accuracy),对应于 cutoff 分别取 0.5,1,2,4A 时的 GDT score 的均值。显然,GDT-HA 使用更小的 cutoff,比 GDT-TS 更加严格。
  相较于传统的单纯以 RMSD 值作为结构差异的评价标准,GDT 的结果更加稳健,因为在 RMSD 计算中,少数 loop 区结构的较大差异便可以显著影响整体的 RMSD 的值,而 GDT 的计算却能够弱化这种影响。

  下面简单列出 GDT score 计算常用的两种软件,及其使用方式。

LGA

LGA(Local-Global Alignment),可以使用在线版本或者离线版本。
计算之前需要先将两个 pdb 文件合并,然后存放在 MOL2 文件夹,并创建一个 TMP 文件夹,否则无法计算。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
lga -4 -o2 -gdc -lga_m -stral    # 建议 

lga -3 -ie -o1 -sda -d:4 –gdc_sc combined.pdb # de shaw protein refinement article

lga -1 -atom:CA amber-amoeba.pdb
lga -3 -o1 -sda -d:5 amber-amoeba.pdb > log.dat

####
# 结果提取
GDT_TS: grep "GDT PERCENT_AT" | awk '{print ($4+$6+$10+$18)/4.0}'
GDT_HA: grep "GDT PERCENT_AT" | awk '{print ($3+$4+$6+$10)/4.0}'
GDT_TS: grep SUMMARY | awk '{print $7}'

RMSD: grep "Std_ASGN_ATOMS" | awk '{print $3}'

####
# parameters
-1 # 计算标准的 rmsd
-3 # GDT and LCS analysis
-d:f # 距离的cutoff, 单位是A,默认为5.0
-gdt # 可与 -3 选项同时使用,
-sda or -sia # 是否基于序列(对于sda,两个结构的残基编号和链ID需要相同)
-gdc #
-gdc_sc # automated selection of all flags required for GDC_sc calculations

-o0 or o1 or o2 # 不输出/输出molecule1/输出molecule2 的结构到TMP 文件夹

-rmsd # 在 align 之后额外再算 rmsd 或者 GDC

-ie # 忽略输入PDB中的error

bougui505

bougui505.github.io/2017/07/13/globaldistance_test(gdt)and_longest_continuous_segments(lcs)with_python.html
bougui505.github.io/2018/01/24/compute_the_global_distance_test
(gdt)_with_pymol.html


Ref: