与传统一代 Sanger 测序,荧光定量 PCR,FISH 等分子诊断技术相比,二代测序技术(NGS)在通量、检测范围、灵敏度和特异性方面具有很大的优势。因此,NGS测序技术不断被应用于肿瘤,遗传病,病原微生物领域,同时对检测结果的准确性也提出了更高的要求。以血液 ctDNA 检为例,2022 年 6 月 16 日 IMvigor010 研究中基于血液 ctDNA 监测在早期肿瘤根治术后辅助治疗中的应用,表明了液体活检技术可以作为手术后判断是否有必要进行免疫辅助治疗的预测性指标[1] 。然而,在最新的 ESMO 临床血液 cfDNA 诊断中提及, ctDNA 可以作为晚期癌症患者基因分型和治疗选择的标准,但是检测准确性是难点。受限于 cfDNA 在血液中含量低并且半衰期短等原因,如何做好此类高难度样本的高通量测序实验是个很重要的问题。这其中除了 ctDNA 自身特性的原因以为,还牵涉上游原材料、实验操作、测序、生信分析以及报告解读等内容,所有流程环环相扣。其中,酶、接头、探针、引物等原材料又是整个湿实验的核心。
本文,我们将以上游原材料中的“接头”为主题进行介绍,一起探讨 Adaptor 在整个测序中的作用。
接头的本质是一段短的碱基序列,作为桥梁连接待测 DNA 片段与 Flow-cell。以 Illumina 测序平台为例(图1. ),包括三个部分:与 Flow-cell 上寡核苷酸链相同或互补的片段 P5/P7;测序引物结合部分 Read1/2;用于区分不同样本的 Index。Index 是混样中不同样本的“身份证”,一般长 6nt 或 8nt(现在一般 8-10nt),四种碱基的不同排列组合可以形成不同的 Index标识。
图1. illumina 双端 index 接头示意图
接头分类方法主要有两种,根据 Index 位置可以将接头分为单端 Index 接头和双端 Index 接头。单端 Index 接头指的是仅在一端存在 Index(一般在 P7 端),双端 Index 接头指的在 P5 和 P7 端均存在 Index。测序仪的产量在不断增加,双端 Index 比单端 Index 能容纳更多数目的样本,所以双端 Index 的接头被广泛使用。
早期阶段测序接头结构主要以Illumina的 Y 字型为主(图1),随后国产MGI测序平台崛起,市面上也不再是 Y 字型接头为主。从设计上讲,MGI测序接头与Y字型接头类型存在很大的差异,MGI测序接头Linear adapter 与 Bubble adapter 长度不同但两端互补配对,因此会产生小泡状结构(图2),得名“泡状接头”。但总体而言,Y 型的接头和泡状接头虽然形态不同,但核心功能是一致的,都是作为桥梁连接待测 DNA 片段与测序仪的芯片并为文库打上标签。
图2. MGI 接头示意图
另外,接头还可分为全长型接头和截短型接头。全长型接头包括 P5/P7+ Index 序列 + Read 1/2,连接到待测 DNA 片段之后,可不进行 PCR 扩增直接上机测序(DNA 量足够时可直接上机, DNA 量不够时还需进行 PCR 扩增)(图3. A)。截短型接头通过 TA 互补配对的方式连接到待测 DNA 片段上后,二轮扩增引物与接头部分区域互补配对,再经由扩增酶富集,完成包含完整接头的 DNA 文库(图3. B)。与全长型接头相比,截短型接头的建库方式在分子标签和扩增子建库方法学中更具兼容性。为此,2018 年纳昂达在 MGI 原有接头方案中,重新设计并开发了同时兼容分子标签和扩增子建库的配套接头方案(图3.B)。
图3. 接头类型 A. 全长型接头;B. 截短型接头
Illumina 平台的测序仪和华大平台的测序仪各有优势,且用户群体广泛。但测序仪价值不菲,并且测序流程较为复杂。为了扩大MGI平台的适用范围,华大智造在2018年很快推出了一款名为 MGIEasy 的通用文库转换试剂盒,可将 Illumina 平台文库快速转换成适用于MGI平台的单链环状文库。但是这种方式需要额外增加 5-10 个循环的 PCR 扩增,从某种意义上讲,文库在测序前又增加了冗余,也一定程度上抹平了MGI测序平台低Dup的优势。
为了解决这个问题,纳昂达在 2022 年 2 月推出了双平台通用的建库试剂 NadPrep® Universal Stubby Adapter (UDI) Module 系列接头模块(图4. ),全新设计的双端唯一 10nt Index,可以满足 Illumina 平台 8 nt 或 10 nt Index 读取模式,同时也全面兼容 MGI 测序平台,测序文库直接环化即可上机测序,无需任何PCR扩增转化(图5. )。
图4. NadPrep® Universal Stubby Adapter (UDI) Module 表现示例
A. 96 种 Index 类型文库产量。50 ng 片段化 gDNA (Promega female, G1521),按 NadPrep® DNA Library Preparation Kit (for Illumina®) 说明书操作,分别使用 1~96,扩增 5 个循环,平均文库产出均 >1000 ng;B. 96 种 Index 类型文库的数据有效拆分率。测序平台:Illumina Novaseq 6000,PE150;MGISEQ-2000, PE150。
图5. 纳昂达双平台 (MGI & Illumina) 通用接头
随着市场的需求和技术的发展,测序仪的单次测序通量也在不断提升。最新的 Illumina 以及华大智造的测序仪,均可一次产出数百乃至上千 Gb(TB 级)的数据。以华大 DNBSEQ-T7 测序仪为例,每天可生产 1.5 - 6 TB 的数据。这样的通量进行全外显子测序(如 Exome Plus Panel v2.0,20 Gb/sample,250×)大约可测 288 个样本,进行泛实体瘤检测(如NanOnco Plus Panel v2.0,5 Gb/sample,1000×)大约可测 1152 个样本。如果接头种类过少则不能满足大通量测序平台需求,所以,更多数量的测序结构种类具有迫切需求。
那么,如何增加可用接头的种类呢?刚才我们提到的接头上 Index 就是能够区分样本的标签,但是现阶段大多数 Index 方案主要为 96 或者 192 种组合的,并且并不完全是双端唯一,所以纳昂达在2020年推出了全新的双端唯一标签接头(Unique Dual Index,UDI)产品,将 Index 的组合进一步扩增至 768,足以满足更多样本混合的需求。
图 6. MDI 表现示例。A. 96 个 MDI 类型文库产量。100 ng 片段化 gDNA,按 NadPrep® DNA Library Preparation Module (for MGI) 说明书操作,分别使用 MDI-97~MDI-192,扩增 5 个循环,平均文库产出均 >1000 ng;B. 96 个 MDI 类型文库的数据有效拆分率。测序模式:MGISEQ-2000,PE100。
在文库制备、测序和数据分析中的各个环节,可能会由于合成错误、污染、操作不当、PCR 异常扩增、测序错误、生信分析错误等,导致标签错配,造成数据串扰产生错误的分析结论。特别在进行血液 ctDNA 检测的时候,需要检测大量低频突变,这个时候数据串扰对结果准确性的影响将会更大。
Illumina 曾在白皮书中发布了关于测序串扰的数据结果:Illumina 测序平台的 ExAmp 扩增方式本身就会导致高达 0.25 - 7% 的标签错配率。华大智造测序平台因使用 PCR-free 的 DNB 扩增方式,单 Index 接头时标签错配率较低(平均为 0.0004%,最高至 0.001%)。但靶向捕获时,由于多个步骤均与标签错配的产生有关,因此串扰问题会更为突出。双端唯一类型的接头(Unique Dual Index, UDI)则可极大缓解标签错配的影响。
纳昂达 MDI 双端唯一 Index 方案引入文库两端的 Index 序列均是唯一的,且一对一组合,不存在共用。只有两端均带有完全正确 Index 序列的 Reads 才能进入后续的样本分析,从而能够有效剔除标签错配的 Reads,避免样本之间的数据串扰,因此,在搭配更高通量测序数据时,可以有效避免假阳性。
表1. MDI 双端唯一index与普通双端唯一index方案对比
PCR 偏好性是一个无法回避的问题,高 GC 含量的片段更不容易被扩增,加上指数型扩增的原理,会对部分变异的检出造成影响,特别是低频变异。当变异频率 <1% 时,真实变异容易淹没在样本保存、核酸建库扩增和二代测序过程中引入的背景噪音中。但低频变异的检测具有很强的临床意义,比如 ctDNA 检测更能发挥分子病理诊断的作用,实时监测肿瘤复发。但 ctDNA 与活体组织相比,检出阳性率低,低频检出的有效性不足是其中的重要原因。
如何解决这个问题呢?分子标签(Unique Molecular Identifier, UMI)是一个行之有效的办法。通过在两端的接头上增加特异的 UMI 序列使原始 DNA 文库两端被打上标记,测序后不仅得到待测目的片段的序列信息,同时能获得两端 UMI 的信息。结合比对和同源簇(consensus family)分析,可有效排除 DNA 损伤、PCR 扩增错误、测序错误等环节引入的假性突变。
图7. 双端分子标签错误校正示意图
有相同双端分子标签及起始分子的多个测序读长(reads),通过链一致性分析成为单个读长,进行错误校正。互补双链的同源簇分析则可进一步错误校正。
纳昂达开发的 NadPrep®️ 血浆游离 DNA 双端分子标签文库构建试剂盒,就是一款含双端分子标签的一款接头,非常适用于血浆游离 DNA(cfDNA) 超低频突变的分析。
此外,超高深度测序后的含量测序数据又是生信分析的一个难点。关于这个问题,纳昂达在2020年初就与 sention 和求臻医疗进行了共同的探索。开发了针对高深度测序背景信号过滤的分析流程,同步优化低频突变分析方式,尤其加强了低至 0.1% 的突变分析。目前,Sentieon 已可向所有用户开放经联合优化的 UMI 分析方案。
表2. 2 种方案检测标准品中已知突变情况
不论是双端唯一的标签,还是双平台的建库设计,归根结底是为了提高高通量测序的质量。因此,在完成设计后,如何把控合成质量又是另外一个非常关键的环节。今年年初我们公司核酸工厂的投入运营(图8),可以直接将串扰率控制在十万分之一以下(表3)。
图8. 不同批次 MDI双端唯一index 文库产出
表3. 数据串扰占比
最后,随着高通量测序技术的快速发展,基于 NGS 的检测技术不断应用于肿瘤、遗传病、病原微生物诊断和筛查,在如此大的背景下,检测结果的准确性将是行业发展的重要条件,也更符合终端应用的需求。
避免串扰能减少假阳性,分子标签可以大幅减少 PCR 扩增偏好,同时,足够的接头数量又能大幅增加上机灵活性,接头合成质量又会成为整个接头部分的核心。因此我们将继续聚焦 NGS 靶向捕获测序领域,在保证品质和质量的前提下,致力于为科研院校、医疗机构、临检单位、产业公司、测序服务商等提供专业化和高质量的靶向测序产品与闭环解决方案。
8
相关产品信息
关于纳昂达科技
nanodigmbio
纳昂达科技秉承“ Nano Trans More ”的核心理念和“靶向精准,用心服务诊断”的奋斗宗旨,致力于为科研院校、医疗机构、临检单位、产业公司、测序服务商等提供专业化和高质量的靶向测序产品与闭环解决方案。
纳昂达科技已通过高新技术企业、江苏省科技型中小企业和南京市精准高通量测序工程技术研究中心认定,并拥有 > 2,000 平米的高通量测序研发中心和 > 4,000 平米的 GMP 级别 (YY/T 0287-2017 idt ISO 13485:2016) 体外诊断试剂生产基地,建立了从市场调研、产品设计、生产制造到售后服务完整的质量管理体系。
纳昂达专注于精准靶向试剂和配套自动化仪器的开发、生产、销售和服务,目前拥有 MGI 和 Illumina 双测序平台多款 NadPrep®文库构建试剂盒和全套液相杂交相关产品。明星产品包括 NGS 全流程自动化工作站、肿瘤全外显子 Panel、泛实体瘤和血液肿瘤 Panel 以及呼吸道病毒 Panel 等,并提供全面完善的双平台捕获探针定制化服务。纳昂达科技的靶向捕获产品拥有与国际同行业媲美的高质量水准,获得了客户一致的信赖。
纳昂达的销售网络覆盖全国并已外延至海外地区。纳昂达将与客户共成长,对客户的需求全力以赴,为全球用户提供靶向测序解决方案和 IVD 试剂原料。
Nanodigmbio
nanodigmbiotech
电话:400 871 7699
邮箱:sales@njnad.com
网址:www.njnad.com
参考文献
[1] Powles T, Assaf Z J, Davarpanah N, et al. CtDNA guiding adjuvant immunotherapy in urothelial carcinoma[J]. Nature, 2021, 595(7867): 432–437.