01
背景
肿瘤突变负荷 (Tumor Mutational Burden, TMB) 对实体瘤免疫治疗药物的选择具有重要价值。使用覆盖数百 Kb 碱基至数 Mb 碱基的靶向测序 (大 Panel,Panel 的覆盖范围建议超过1 Mb) 是检测 TMB 的主流方法,但其准确性受肿瘤体细胞突变检测能力和 TMB 计算规则等多种因素的复杂影响[1]。
2022 年 2 月,国家卫生健康委临检中心公布了 2021 年“肿瘤突变负荷 (TMB) 检测生物信息学分析流程室间质量评价预研活动结果报告”,报告显示配对样本和非配对样本的 TMB 检测合格率分别仅为 50.0% 和 14.3%。2022 年 9 月,国家卫生健康委临床检验中心公布了 2022 年《全国实体肿瘤高通量测序 (大Panel) 肿瘤突变负荷检测室间质量评价预研结果报告》,报告显示参评实验室配对样本的 TMB 检测整体合格率为 79.2%。
体细胞突变检测的准确性是 TMB 计算的基础。然而,最近一次参评实验室间的准确性差异显著:样本总体召回率 (Recall) 从 0.460 到 0.996 不等;总体精确率 (Precision) 从 0.082 到 0.982 不等;总体 F1 score 从 0.149 到 0.988 不等。参评实验室使用的体细胞突变分析软件多达数 10 款,但有 48.28% 的实验室选取了 GATK Mutect/Mutect2。
作为一款免费并持续快速更新的 NGS 变异分析软件,GATK (Genome Analysis Toolkit) 深得众多研究者的推崇,每年基于 GATK 发表的文章和研究诊断不计其数。但 GATK 不同版本的迭代导致一个潜在的问题,使用不同版本的 GATK 分析同一份数据时,得到的变异差异到底有多大?
本文中,我们尝试使用多个版本的 GATK 软件,分析 TMB 标准品基于全外显子捕获测序的数据,探讨不同版本的 GATK 分析软件对体细胞突变检测和 TMB 值的影响。
02
GATK 简介
GATK 最初于 2010 年发布,主要用于寻找人类基因组和外显子的 SNP 和 Indel。后经过多个版本迭代和功能丰富,GATK 逐步成为生信领域的突变检测行业翘楚。2017 年,GATK 和 Intel 合作推出了经典版本 GATK3.8。2018 年 GATK4 推出,核心算法更新并增加了拷贝数变异、宏基因组、短突变、结构变异分析等新功能。GATK4 仅在 2018 年就更新 20 多次,并仍以每年约 6 个 release 的趋势不断推陈出新[2]。
03
分析方法和软件
测序数据均基于纳昂达全外显子靶向捕获方案,测序深度 > 500x,测序方式均为 MGI PE150。
我们选用了上述 4 个不同版本的 GATK,分析 6 对 TMB 标准品的体细胞突变,并使用如下过滤标准计算 TMB 值:变异位点的总体测序深度 ≥ 10;支持变异位点的深度 ≥ 2;变异频率 (VAF) ≥ 5%;人群变异数据库中的频率 ≤ 1% 或不明确;去除同义突变。
GATK3.8 和 GATK4 中的分析工具略有不同,导致分析时长存在巨大差异。在突变检测前的优化步骤中,GATK3.8 需要使用外部 picard (Version 2.18.26-SNAPSHOT) 软件合并分析数;在处理已比对 bam 文件时需要用到内置的 RealignerTargetCreator 和 IndelRealigner 工具。而 GATK4 已整合 picard 软件;并直接对 MarkDuplicates 后的 bam 文件进行 BQSR,不再使用 RealignerTargetCreator 和 IndelRealigner 工具。因此,GATK3.8 需要依次经过 5 个步骤:MarkDuplicates (picard)、RealignerTargetCreator、IndelRealigner、BaseRecalibrator 和 PrintReads,而 GATK4 只需要经过 3 个步骤:MarkDuplicates、BaseRecalibrator 和 ApplyBQSR。整体而言,GATK3.8 在 bam 处理步骤耗时约是 GATK4 的 5 倍,而 GATK4 的不同版本间的 bam 处理时间基本保持不变。
在突变检测步骤的时长更是与版本密切相关。GATK3.8 中的 Mutect2 体细胞突变检测的时长平均比 GATK4 的时长高 30 倍!此外,GATK4 Mutect2 的分析时长随着版本更新持续降低,未来可能会进一步降低。GATK3.8 Mutect2 如此耗时,其一是未选择多线程运行;其二是 vcf 过滤等功能均封装在 Mutect2 中。如果改用多线程分析以及拆分染色体运行 (如 6 条染色体并行运行),GATK3.8 Mutect2 的分析时长也会显著降低。在 GATK4 Mutect2 中,即使不用多线程,其最消耗资源计算模块 pairHMMmore 默认为 4 线程 (本文中使用了 10 线程),整体运行速度会加快。另外,GATK4 将 vcf 过滤等步骤独立了出来,也降低 Mutect2 工具运行时间。
04
体细胞突变一致性及 TMB 比较
不同版本 GATK 检测出的原始体细胞突变、体细胞突变中的 PASS 突变、检测出的 PASS 并通过 TMB 过滤条件后的突变如图1. 所示。不同版本 GATK Mutect2 工具检测出的原始突变差异非常大,GATK3.8 与 GATK4 两个大版本间差异尤为明显,这极可能是 GATK3.8 未过滤去除 germline-resource 的原因。对原始突变仅挑选 PASS 的突变位点后,不同版本 GATK 之间的突变位点差异大大缩小;当对检测出的 PASS 突变位点经过深度、频率、非同义突变、人群频率过滤后,一致性与 PASS 突变位点虽然无明显改进,但突变位点数进一步缩小,此时得到的突变数可用于计算 TMB 值。
图1. 不同版本 GATK 检测出的突变位点差异比较
令人欣慰的是,四个不同版本 GATK 中计算得到的 TMB 如图2. A 所示,各版本计算出的 TMB 值均与参考值极为接近,仅有 GATK3.8 稍低一些。各版本计算的 TMB 值与标准值的线性回归 R square 值均 > 0.98,其中三个版本 GATK4 的 R square 值均 > 0.99,这表明各个 GATK 版本计算的 TMB 与标准参考 TMB 值相关性极强 (图2. B)。
向下滑动查看
图2. 不同版本的GATK计算的TMB值与参考值比较
05
不同 GATK 版本在突变检测位点的差异
我们接着以 TMB06 样本为例,进一步分析四个 GATK 版本计算 TMB 时纳入突变的差异,重点考察各自独有的突变 (图3. )。GATK3.8 纳入的独有突变有 13 个,而大部分 (7 个) 都位于 germline-resource 文件中。这意味着使用 GATK3.8 Mutect2 工具时,应对检测出的 vcf 文件额外使用 germline-resource 进行过滤。当我们通过 bam 文件查看另外三个版本 GATK 的特有突变,发现其实在所有版本 GATK 生成的 bam 文件中,这些突变位点 reads 分布是一致的,区别仅是不同版本 GATK 给出了不一致的分析结果。我们推测这可能是不同版本中 Mutect2 的算法微调的原因。
图3. 不同版本 GATK 用于计算 TMB06 样本 TMB 值时的突变韦恩图
例如,GATK4.2.6.1 版本中有一独特体细胞突变 chr15:84908940-84908941_AC>GT,其他版本 GATK 中均未检测到该突变。但使用 IGV 软件查看肿瘤样本 bam 文件可以发现,其实四个版本 GATK 在该位点都观察到 AC>GT 突变 (图4. )。虽然突变频率接近 60%,但是肿瘤样本此处覆盖深度较低 (~70x,MQ > 20);对照样本也有此突变且频率在 2% 左右,并且覆盖深度达到了肿瘤样本的 8 倍以上 (~1150x 16 倍,MQ > 20),所以这是一个较难判定真伪的突变位点。也因此,只有 GATK4.2.6.1 版本将该突变位点报出。这一突变导致编码氨基酸由 LeuArg 变为 LeuCys (R279C),但并未影响 GOLGA6L4 基因的主要功能区域,数据库中没有相关报道,故该突变危险程度未知 (图5. )。
图4. 不同版本的 GATK 检测出的突变差异
图5. chr15:84908940-84908941_AC>GT 突变蛋白质注释解释
06
总结
GATK 软件是目前生信行业中突变位点分析的主流软件,但是因版本更新频繁,体细胞检测工具 Mutect2 也处于一直更新的状态。对研究者而言,不同版本的 GATK 的体细胞检测是否存在差异对持续分析是至关重要的。本文通过选取 GATK 经典版 GATK3.8 和三个不同的 GATK4 版本,分析 TMB 标准品体细胞突变并计算 TMB 来进行评估。
从检测结果来看,不同版本 Mutect2 工具原始检测出的体细胞突变位点差距巨大,但是 PASS 的突变位点一致性相对较好。虽然对 PASS 突变位点经过过滤后计算的 TMB 值与标准品 TMB 参考值存在一定上下浮动,但是与标准 TMB 参考值的相关性极高,说明检测同一样本的 TMB 时,使用任意版本的 GATK 的结果是近似的。
然而,由于样本 TMB 状态是根据 TMB 阈值判断,当样本的 TMB 值介于 TMB-H 和 TMB-L 阈值上下时,不同版本的 GATK 的判断结果可能会不一致。假定某一样本真实 TMB 值为 10.8 mut/Mb,TMB-H 的阈值为 > 10 mut/Mb,不同版本 GATK 计算的 TMB 值可能在 9-11 mut/Mb 之间。此时尽管计算的 TMB 值与真实 TMB 值接近,根据此时阈值判断的 TMB 状态则会不同。这意味着 TMB 检测时校准线建立和阈值划分上,亟需建立相关标准。
最后,由于不同版本 GATK 特有突变极少,且大多为难判断真伪的突变,我们建议肿瘤致病突变筛查时,当使用固定版本的 GATK 未筛选出致病驱动突变,可额外选择不同版本 GATK 或其他突变检测软件作为辅助,以尽量避免假阴性分析结果。
回
复
关
键
词
关注公众号,并在聊天对话框回复【GATK】查看全流程分析命令。
07
相关产品推荐
向下滑动查看
关于纳昂达科技
http://www.njnad.com/
纳昂达科技秉承“ Nano Trans More ”的核心理念和“靶向精准,用心服务诊断”的奋斗宗旨,致力于为科研院校、医疗机构、临检单位、产业公司、测序服务商等提供专业化和高质量的靶向测序产品与闭环解决方案。
纳昂达科技已通过高新技术企业、江苏省科技型中小企业和南京市精准高通量测序工程技术研究中心认定,并拥有 > 2,000 平米的高通量测序研发中心和 > 4,000 平米的GMP级别 (YY/T 0287-2017 idt ISO 13485:2016) 体外诊断试剂生产基地,建立了从市场调研、产品设计、生产制造到售后服务完整的质量管理体系。
纳昂达专注于精准靶向试剂和配套自动化仪器的开发、生产、销售和服务,目前拥有 MGI 和 Illumina 双测序平台多款 NadPrepⓇ 文库构建试剂盒和全套液相杂交相关产品。明星产品包括 NGS 全流程自动化工作站、肿瘤全外显子 Panel、泛实体瘤和血液肿瘤Panel以及呼吸道病毒 Panel 等,并提供全面完善的双平台捕获探针定制化服务。纳昂达科技的靶向捕获产品拥有与国际同行业媲美的高质量水准,获得了客户一致的信赖。
纳昂达的销售网络覆盖全国并已外延至海外地区。纳昂达将与客户共成长,对客户的需求全力以赴,为全球用户提供靶向测序解决方案和 IVD 试剂原料。
Nanodigmbio
电话:400 871 7699
邮箱:sales@njnad.com
网址:www.njnad.com
参考文献
[1] https://www.nccl.org.cn/ptCn
[2] https://github.com/broadinstitute/gatk/releases