知识百科

遗传标记的第二代基因测序技术进展

来源:《真科检》  作者: 刘宝年  日期:2020-08-26

  个体识别和亲权鉴定是法医遗传学实践中的两个主要任务, 目前主要采用的手段是通过毛细管电泳 (capillary electrophoresis, CE) 检测荧光标记的PCR产物进行基因分型。随着DNA技术的发展, 新的检测分析技术不断地引入到法医遗传学领域, 以期提高检测效能。同时, 法医学实践中的复杂生物检材, 如微量检材、降解检材和混合检材等, 以及复杂亲缘关系鉴定, 如祖母与孙女关系鉴定等, 对现有的检测分析技术提出了挑战。

  随着二代测序技术的逐渐发展和成熟, 以及其所具有的优势, 二代测序技术在法医遗传学领域中的应用越来越受到重视。目前, 各种二代测序平台的研究进展和分析应用已被广泛报道。在法医遗传学领域, 基于二代测序技术的检测体系不断地推出, 分析技术也不断更新, 但在实践应用中也面临着一些挑战。本文就目前法医遗传学领域的遗传标记二代测序及分析技术等的研究进展进行总结, 希望能为相关研究和应用提供参考。

  1、遗传标记的二代测序技术

  虽然不同的二代测序平台采用的技术有所不同, 但主要的测序流程都包括样本准备、文库构建、测序反应和数据处理等四个步骤。而法医遗传学领域对遗传标记进行二代测序多采用靶向测序策略, 即在文库构建前使用位点特异性引物靶向扩增目的片段, 获得遗传标记的DNA片段库。需要注意的是, 与传统的PCR-CE技术一样, 以PCR为基础的靶向富集可能由于引物的扩增效率导致遗传标记的测序深度低或杂合子等位基因不平衡, 或者由于引物结合区变异导致扩增失败引起等位基因的丢失, 从而影响基因分型的准确性。

  相比传统的PCR-CE技术, 二代测序技术能够获得STR基因座等位基因的核酸序列, 可鉴定长度相同但序列存在差异的等位基因, 进而提高了基因座的系统效能。同时, 样品中的DNA分子含量最终以数字化形式表示, 这使得二代测序技术在混合检材分析中更具有优势。然而, 二代测序技术的读长较短, 限制了其对于一些长片段遗传标记的检测;也由于二代测序技术获得的信息含量多及测序过程中可能出现的测序错误, 这增加了遗传标记分析的难度。

  2、遗传标记的二代测序检测

  目前, 利用二代测序检测遗传标记的研究工作主要集中在评估现有检测体系和建立新检测体系方面, 这将对建立稳定、准确和适用的检测体系奠定基础。在这些检测体系中, 大多数基因座具有分型准确、杂合子等位基因平衡性好, 测序深度高和背景噪音低等特点, 但也有一些基因座检测方面仍需要进一步的调整和优化。

  2.1 短串联重复检测及等位基因命名

  短串联重复序列 (short tandem repeats, STRs) 具有高度的多态性, 在法医遗传学实践中占重要地位, 也是目前法医物证鉴定应用最广的遗传标记。

  Thermo Fisher公司设计的HID STR 10-plex检测体系能够分析9个常染色体STRs (autosomal STRs, A-STRs) 和一个性别位点, 扩增片段长度为103~205bp.Fordyce等对该检测体系进行评估表明, 76%~86%的测序数据 (reads) 含有完整的等位基因, 只有3%~6%是stutter数据和10%~20%是背景噪音;序列分析也能够鉴定更多的等位基因, D3S1358, D8S1179和v WA在10个样品中分别含有9、8、8个以序列为基础的等位基因, 而以长度为基础的等位基因分别只有4、6、5个等位基因;在敏感性分析方面, 50pg样本DNA能够获得全部的STR分型结果, 在1:20的混合比情况下可获得低含量样品的部分STRs的分型结果;同时, 该检测体系对犯罪现场生物检材进行STR分型也明显优于常规的PCR-CE技术。

基因测序仪

  Early Access STR Kit v1作为HID STR 10-plex的扩展体系, 可同时检测24个A-STRs和1个性别位点;Guo等对该体系评估表明, 除了测序深度高、背景噪音低、敏感性高等特点之外, 在降解检材的STR分型中也具有明显的优越性, 但也发现D21S11存在分型错误的现象。

  Promega公司设计的Power SeqTMAuto 18-plex能够检测17个A-STRs和1个性别位点, Power SeqTMAuto 24-plex能够检测22个A-STRs、1个Y-STR和一个性别位点。使用Mi Seq平台对两个该检测体系评估表明, 两个检测体系都具有测序深度高、杂合子等位基因平衡的特点;62pg样本DNA可获得完整或几乎完整的分型, 但随着样品量的降低容易出现等位基因不平衡;同时也发现Penta D基因座可能由于引物结合位点的稀有变异引起等位基因丢失。

  二代测序能够鉴定长度相同但序列存在差异的STR基因座等位基因, 这使得对等位基因的命名非常重要。目前, 针对以序列为基础的STR基因座等位基因命名还没有统一的规范。Gelardi等提出了一个等位基因命名原则, 等位基因命名包括基因座、重复次数、重复序列信息和序列变异共4个要素, 其中未被命名的序列变异需要列出染色体定位, 如D16S539[5]GATA[1]GAGA[1]GATArs11642858[A].

  van der Gaag等也提出了一个新的命名方案, 包含基因座、CE中的命名、染色体定位、重复序列信息和序列变异。然而, 由于测序体系和分析软件采用的引物序列和分析方法不同, 直接影响基因座侧翼序列中的SNPs和插入缺失多态性的检测与分析, 从而可能导致同一等位基因在不同的测序体系和分析方法中命名不一致。

  此外, 染色体DNA双链中的单链选择作为命名基础也影响二代测序数据中的STR基因座等位基因命名。最近, Van Neste等设计了针对二代测序数据中的基因座等位基因数据库 (Forensic Loci Allele Database, FLAD) , 这将有助于更好地收集和了解各基因座等位基因信息, 也可以促进等位基因命名规范化。

  2.2 单核苷酸多态性检测

  单核苷酸多态性 (single nucleotide polymorphisms, SNPs) 是人类基因组中含量最丰富的DNA序列多态性, 其在法医遗传学领域中越来越受到重视, 被认为是第三代遗传标记。

  Borsting等通过Ion Torrent测序平台对136个常染色体SNPs (autosomal SNPs, A-SNPs) 和33个Y-SNPs在分型结果一致性、检测敏感性、杂合子等位基因平衡等方面的评估结果, 去除了其中46个A-SNPs和6个Y-SNPs, 重新加入了7个Y-SNPs, 建立了HID-Ion Ampli Seq™Identity Panel检测体系。Guo等对该检测体系进行评估显示, 100 pg样本DNA可获得完整的分型结果, 在1:9混合比情况下也可获得低含量样品的部分STRs的分型结果;但该检测体系存在rs1463729和rs727811双链的扩增不平衡、rs7520386存在杂合子等位基因不平衡和分型可重复性差等现象。

  Zhang等学者使用该体系进行分型一致性评估表明, 除rs576261在9947A样品中分型不一致外, 其余SNPs分型结果均一致;对45个个体进行分型表明, 7个SNPs (rs7520386、rs4530059、rs214955、rs1523537、rs2342747、rs576261和rs12997453) 存在杂合子等位基因不平衡或测序深度不高等现象。由于目前仍缺少对二代测序数据分析的统一标准, 两个研究出现的差异可能是由于采用的评估标准和分析方法不同。

  另一个基于Ion Torrent平台的HID-Ion AmpliSeq Ancestry Panel检测体系可检测165个SNPs, 扩增产物平均长度127 bp, 该检测体系主要提供来自全球八个主要区域的祖先信息。Churchill等使用12个样品对该体系评估显示, 162个SNPs的两条引物扩增效率比在0.6~1.0之间。TG Espregueira等使用该检测体系对104个格陵兰人进行祖先信息分析表明, 该检测体系能够很好地对祖先信息进行分析, 但在24个个体中存在有1~8个SNPs不能成功分型。因此, 这些引物扩增不平衡和分型不成功的基因座仍需要进一步的调整和优化。

测序技术发展

  2.3 STRs与SNPs复合检测

  相比Ion Torrent平台采用STRs和SNPs独立检测的体系和分析方法, 基于Mi Seq平台的Foren Seq DNA Signature Prep检测体系同时检测STRs和SNPs, 包括27个A-STRs、24个Y-STRs、7个X-STRs、94个身份识别SNPs、56个祖源SNPs和22个表型SNPs.该检测体系包含两个不同的引物混合系列, 引物混合系列A (Primer Mix A) 包含上述58个STRs和94个身份识别SNPs的引物。

  引物混合系列B (Primer Mix B) 在A的基础上又增加了上述的56个祖源SNPs和22个表型SNPs的引物。该检测体系的beta版可检测63个STRs (29个A-STRs、25个Y-STRs和9个X-STRs) 和95个身份识别SNPs, 也可选择性再检测56个祖源SNPs和22个表型SNPs.Churchill等对该检测体系评估指出, 同时对大量STRs和SNPs进行分型, 有助于利用基因座的分型和等位基因含量进行混合样品比例的分析。

  在一致性研究中, 除DYS392存在等基因丢失外, 其余STRs与PCR-CE分型结果一致;除rs10488710, rs430046和rs2342747三个SNPs存在等位基因丢失外, 其余与Ampli Seq™Identity Panel共有的SNPs (两个检测含有84个相同的SNPs) 分型一致。

  2.4 线粒体基因组测序

  二代测序可以测定线粒体全基因组的核酸序列, 因而可以获得线粒体基因组的全部遗传标记信息。目前, 针对法医基因组学研究中线粒体基因组的二代测序检测体系相对较少。NEXTflex™mt DNA-Seq检测体系采用DNA外切酶消化核基因组, 对线粒体基因组碎片化后构建二代测序文库。相比, 更多的学者常采用线粒体基因组特异性的重叠引物进行PCR扩增, 富集线粒体基因组后构建二代测序文库。

  最近, Jodie等会议报道使用HID-Ion Ampli Seq™Mitochondrial Tiling Path Panel检测体系进行骨骼线粒体基因组分析, 然而目前仍缺少该体系的详细评估。不同的学者可能使用的引物组合不同, 常使用的引物组合有2对引物、8对引物或12对引物。研究表明, 线粒体基因组的二代测序结果与经典Sanger测序结果的差异率低, 存在的差异主要来源于多聚核酸序列区。

  3、二代测序的遗传标记分析

  对二代测序产生的大量数据逐个地人工分析并不切实际, 因而很多二代测序数据的遗传标记分析和解读软件被开发, 为二代测序应用于法医遗传学实践提供了基础。然而, 对二代测序数据的准确分析和解读仍是目前最大的挑战, 如多聚核苷酸序列区分析、对序列错误容忍的程度和对阈值 (threshold) 的设置等。通过加强人机交互对话, 提供位点特异性的分析等将有助于增加二代测序数据分析的准确度。

  目前, Warshauer等开发的STRait Razor软件能够利用二代测序平台产生的FASTQ数据分析44个遗传标记 (22个A-STRs和22个Y-STRs) , 该软件的最新版已能够分析86个遗传标记 (31个A-STRs、28个Y-STRs、26个X-STRs和1个性别位点)。最近, NC Van等开发的My-ForensicLoci-queries (My FLq) 分析软件同样能够利用二代测序平台产生的FASTQ数据分析STRs, 新的My FLq版本提供了图形界面, 能够更好地增加人机对话, 以及提供了更多的参数设置选择。

  然而, STRait Razor使用基因座重复序列侧翼的一对寡核苷酸序列定义靶序列及My FLq使用基因座特异引物定义靶序列, 两个软件都只分析重复序列区域, 不分析重复序列侧翼的核酸序列。相比, Friis等基于Python语言开发的STRin NGS程序能够利用二代测序平台产生的FASTQ数据或SAM数据, 使用基因座重复序列侧翼的寡核苷酸序列定义靶序列和分析STRs基因座的重复序列, 同时使用基因座重复序列的侧翼序列与人基因组参考序列比对分析SNPs, 因而能从二代测序数据中获得更多的信息。

  在基于测序平台的数据分析中, Ion Torrent软件及其STR、SNP插件 (plugins) 可以利用Ion Torrent平台产生的数据和自定义的目标序列文件分别对STRs、SNPs进行分析。Meiklejohn等学者通过评估HID-Ion Ampli Seq™Identity Panel检测体系对比该软件与CLC Genomics Workbench软件, 分析表明HID SNP Genotyper和CLC Genomics Workbench对SNPs的分型存在一些差异, 但差异主要来源于一些等位基因的频率。

  基于Illumina测序平台的Foren Seq™通用分析软件 (Foren Seq™Universal Analysis Software) 采用一站式的分析方式对STRs和SNPs进行分型, 也可以对分型结果进行生物祖先信息及表型信息进行分析。相比Foren Seq™通用分析软件具有较少的可操作空间, Ion Torrent软件采用附加软件对遗传标记分析具有更大的灵活性。

  线粒体基因组序列能够使用常规的二代测序数据分析软件进行分析, 一些研究工作者们也开发了一些便于线粒体基因组序列分析的软件, 如MTool Box软件等。基于Ion Torrent软件的Variant Caller For Mt DNA插件和基于Mi Seq平台的mt DNA Mi Seq Reporter (MSR) 插件及mt DNA Variant Analyzer软件也被开发用于线粒体基因组序列分析。

  4、展望

  伴随二代测序技术不断发展, 法医学领域应用的相关检测体系和分析技术不断地推陈出新, 但离法医遗传学实践需要仍然有一定的距离。

  首先, 二代测序的读长和准确度一直是限制其广泛运用的一个重要因素, 进一步提高读长以覆盖更长的遗传标记和提高测序数据的筛选分析技术将更有助于其在法医遗传学领域的应用。

  其次, 需要提高二代测序分析技术的通用性和一致性, 以及发展针对二代测序中等位基因的命名方法, 这将有助于全球范围内等位基因的比对和促进二代测序技术在法医遗传学领域中的应用。

  再次, 未来的检测体系除了应具有更高的灵敏性、更灵活的选择性外, 还应能够提供更加丰富的样本信息含量, 如通过对遗传标记的分析, 能更加详细地反映个体特征, 这也将更能满足二代测序技术在法医遗传学实践中的需要。

  相信随着二代测序技术发展及在法医学领域应用研究的进一步深入, 将会有更具可操作性的检测技术、更多更具鉴别能力的遗传标记及更高效的检测体系及分析技术出现。

手机(24小时)18030879397

在线咨询:09:00~17:30