·技术与应用·

基于Ion Torrent PGMTM测序平台的CSF1PO和D18S51基因座分析

杨仪尊1,2,平 原2

(1.复旦大学生命科学学院,上海 200438;2.上海市公安局物证鉴定中心 法医物证学现场应用技术公安部重点实验室 上海市现场物证重点实验室,上海 200083)

摘 要:目的应用二代测序(next generation sequencing,NGS)技术对CSF1PO和D18S51基因座进行分析检测,研究CSF1PO和D18S51基因座的序列多态性。方法采集165例中国汉族无关个体外周血样,应用QIAamp DNA Mini试剂盒提取样本DNA,Ion Plus Fragment Library试剂盒构建文库,在Ion Torrent PGMTM测序平台上进行DNA序列测定,针对新发现的等位基因进行Sanger测序验证。应用Torrent SuiteTMv5.0.2和Integrative Genomics Viewer软件分析数据,进行基因型鉴定和频率统计,运用PowerState v12软件对数据进行统计学处理。结果应用NGS技术同时获得了CSF1PO和D18S51基因座长度多态性和序列多态性,在CSF1PO基因座中,发现了1个新的基因型,在D18S51基因座中,发现2个新的基因型。采用Sanger测序法对NGS技术检测新发现的等位基因进行验证,验证结果一致。结论应用二代测序技术可检测CSF1PO和D18S51基因座核心重复序列的结构,提高基因座的识别效能。

关键词:法医遗传学;序列分析,DNA;CSF1PO;D18S51;二代测序;Ion Torrent PGMTM测序系统

短串联重复(short tandem repeat,STR)序列在人类基因组中因多态信息含量高、数量丰富,适用于常见生物检材的分析检验。目前采用毛细管电泳(capillary electrophoresis,CE)方法获得STR分型被广泛应用于法医DNA实验室中[1-3],但CE方法仅能检测STR序列的长度多态性,无法获得基因座序列多态性信息。应用二代测序(next generation sequencing,NGS)技术对STR基因座进行分型是目前法医遗传学领域的研究热点,由于其可同时获得STR长度多态性及序列多态性的遗传信息,从而提高STR基因座的个体识别能力,具有良好的应用前景[4-11]。目前,二代测序技术的两大主流测序平台为美国Illumina公司的MiSeq系列测序平台和美国Thermo Fisher Scientific公司的Ion Torrent系列测序平台。本研究利用Ion Torrent个体化操作基因组测序平台(personal genome machine,PGM),对中国汉族165名无关个体在CSF1PO和D18S51基因座的遗传多态性进行研究,为二代测序技术应用于法医遗传学相关研究提供参考数据。

1 材料与方法

1.1 样本采集与DNA提取

采集165名无亲缘关系的中国汉族人群志愿者外周血样本,所有研究对象均根据知情同意原则签署知情同意书。应用QIAamp DNA Mini试剂盒(德国QIAGEN公司)在BioRobot EZ1工作站(德国QIAGEN公司)上提取基因组DNA,所有操作按说明书进行。用QubitTMdsDNA HS Assay试剂盒和Qubit®2.0荧光计(美国Thermo Fisher Scientific公司)进行DNA定量。

1.2 STR复合扩增

采用Primer3Plus工具设计CSF1PO和D18S51基因座的引物,使用美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)的 BLAST®(https://blast.ncbi.nlm.nih.gov/Blast.cgi)进行引物特异性验证[12],引物序列见表1。使用QIAGEN Multiplex PCR试剂盒(德国QIAGEN公司)进行PCR扩增,反应体系为 20μL,包括:复合引物(0.2μmol/L)各 0.5μL,2×PCR 反应混合物 10μL,DNA 模板 1ng,加水补至 20 μL。 PCR 反应条件:95℃ 10 min;94℃30s,61℃ 90s,72℃ 60s,10 个循环;94℃ 30s,59℃90 s,72℃ 60 s,20 个循环;60 ℃ 30 min;4℃保存。PCR产物用1%琼脂糖凝胶电泳进行检测。PCR产物采用Agemourt AMPure XP磁珠(美国Beckman Coulter公司)纯化后采用QubitTMdsDNA HS Assay试剂盒和Qubit®2.0荧光计进行定量检测。

表1 CSF1PO和D18S51基因座的引物序列

注:扩增子大小参考的基因组版本号为GRCh38;F表示正向引物,R表示反向引物

基因座 引物序列(5′→3′) 碱基位置 长度/bp CSF1PO F:GTGTTCCAACCTGAGTCTGCCAAG Chr5:150076324-150076375 221 R:CATTTCCTGTGTCAGACCCTGTTC D18S51 F:CACTGCACTTCACTCTGAGTGAC Chr18:124894865-124894916 240 R:GGACATGTTGGCTTCTCTCTGTTC

1.3 文库构建

纯化后的PCR产物采用Ion Plus Fragment Library试剂盒(美国Thermo Fisher Scientific公司)进行末端修复,磁珠纯化后使用Ion XpressTMBarcode Adapters试剂盒(美国Thermo Fisher Scientific公司)添加标签序列接头(Barcode)和公用接头(P1 adapter)构建文库。文库在磁珠纯化后使用High Sensitivity DNA Analysis试剂盒(美国Agilent公司)在2100 Bioanalyzer Instruments(美国Agilent公司)上对回收的文库质量进行检测。检测后的DNA片段加入通用测序扩增引物进行扩增富集,磁珠纯化后采用QubitTMdsDNA HS Assay试剂盒和Qubit®2.0荧光计进行定量检测,根据结果将样本的扩增产物等量混合。操作过程参照Thermo Fisher Scientific公司官方网站中提供的Ion Torrent操作手册。

1.4 乳液PCR与测序

采用Ion PGMTMHi-QTMOT2试剂盒(美国Thermo Fisher Scientific公司)在Ion OneTouchTM2系统上进行乳液PCR,将反应文库与测序微珠连接并扩增,反应完成后通过Ion OneTouchTM富集系统进行微珠富集,同时去除未连接文库的空微珠[13]。根据测序通量选择相应的Ion TorrentTM芯片——Ion 318 v2(美国Thermo Fisher Scientific公司),采用Ion PGMTMHi-QTMSequencing试剂盒(美国Thermo Fisher Scientific公司)按照产品说明书配制测序体系,在Ion Torrent PGMTM测序平台上进行测序反应。

1.5 数据分析

采用配套的Torrent SuiteTMv5.0.2软件(美国Thermo Fisher Scientific公司)对电信号进行捕获和转换,按照以下步骤完成等位基因检验:(1)筛选出测序所得序列两端与引物序列能够完全匹配的数据;(2)序列核心重复区域中1bp替换也一并纳入,以获得更多的遗传多态性信息;(3)根据核心重复区域序列进行聚类,以读取各STR基因座的等位基因,对核心区域序列相同但测序方向不同的序列进行合并,并统计各等位基因所得的序列数目,结合Torrent SuiteTMv5.0.2 和 Integrative Genomics Viewer(IGV,加利福尼亚大学研究部)软件对测序结果进行初步分析,得到整体数据量、变异信息、平均测序深度等[14]。测序深度次数定义为一次实验中某等位基因被检出的次数;等位基因覆盖率定义为当样本在同一基因座上检测得到的两个等位基因不相同时,这两个等位基因的序列数目之比[15];等位基因比例定义为样本等位基因的序列数目与总的序列数目之比[16];stutter比例定义为比样本目标等位基因少一个重复单位或多一个重复单位的等位基因序列数目与总的序列数目之比[17]。运用PowerState v12软件(美国Promega公司)对数据进行统计学处理,获得CSF1PO和D18S51基因座的个体识别率(discrimination power,DP)、多态信息含量(polymorphic information content,PIC)、二联体非父排除率(probability of paternity exclusion in duos,PEduo)、三联体非父排除率(probability of paternity exclusion in trios,PEtrio)等群体遗传学参数。

1.6 基于CE方法的常染色体STR检验

应用GlobalFilerTMExpress PCR扩增试剂盒(美国Thermo Fisher Scientific公司)在9700型PCR仪(美国AB公司)上进行扩增,反应体系及反应条件按照试剂盒说明书进行。用3500xL基因分析仪(美国AB公司)进行CE,由Data Collection软件收集数据,使用GeneMapperTMv3.0软件进行STR分析获取分型结果,该STR分型结果用于和Ion Torrent PGMTM测序平台的检测结果进行比较。

1.7 Sanger测序验证

针对Ion Torrent PGMTM测序平台检测中发现的新的等位基因,采用Sanger测序法进行验证。测序反应体系及反应条件遵照BigDyeTMTerminator v3.1 Cycle Sequencing试剂盒(美国Thermo Fisher Scientific公司)的说明书进行,PCR产物使用3500xL基因分析仪进行电泳检测。

2 结 果

本研究应用二代测序技术对165名中国汉族无关个体的样本进行了测序,所有样本在CSF1PO和D18S51基因座都扩增成功,测序结果中大于50×以上测序深度的基因型位点均纳入分析[18]。CSF1PO和D18S51基因座的测序深度、等位基因覆盖率、等位基因比例、stutter比例分别通过计算得到,结果见表2。

表2 CSF1PO和D18S51基因座的测序结果 (n=165,±s)

基因座 测序深度次数stutter比例/%CSF1PO 981±446 60.3±21.6 73.8±5.3 5.4±2.7 D18S51 1205±526 62.7±15.7 69.3±4.1 6.5±2.9等位基因覆盖率/%等位基因比例/%

实验结果中STR等位基因的命名按照国际法医遗传学会(International Society of Forensic Genetics,ISFG)推荐的命名法[19]及 STRBase(SRD-130,https://strbase.nist.gov/index.htm)数据库现有的命名原则进行。本研究应用Ion Torrent PGMTM测序平台得到的CSF1PO和D18S51基因型与PCR-CE方法得到的基因型一致,其中4例样本的等位基因具有相同的序列长度但核心重复序列结构有差异。Ion Torrent PGMTM测序平台获得的165名中国汉族无关个体CSF1PO和D18S51基因座的等位基因序列信息和频率见表3。

表3 CSF1PO和D18S51基因座的等位基因序列信息和频率 (n=165)

基因座 等位基因序列信息 个数 频率CSF1PO CSF1PO[CE7]-Chr5-GRCh38 150076324-150076375[ATCT]71 0.003 CSF1PO[CE9]-Chr5-GRCh38 150076324-150076375[ATCT]916 0.048 CSF1PO[CE10]-Chr5-GRCh38 150076324-150076375[ATCT]1080 0.242 CSF1PO[CE11]-Chr5-GRCh38 150076324-150076375[ATCT]1174 0.224 CSF1PO[CE12]-Chr5-GRCh38 150076324-150076375[ATCT]12122 0.370 CSF1PO[CE12]-Chr5-GRCh38 150076324-150076375[ATCT]5GTCT[ATCT]62 0.006 CSF1PO[CE13]-Chr5-GRCh38 150076324-150076375[ATCT]1328 0.085 CSF1PO[CE14]-Chr5-GRCh38 150076324-150076375[ATCT]144 0.012 CSF1PO[CE15]-Chr5-GRCh38 150076324-150076375[ATCT]153 0.009 D18S51 D18S51[CE11]-Chr18-GRCh38 124894865-124894916[AGAA]111 0.003 D18S51[CE12]-Chr18-GRCh38 124894865-124894916[AGAA]128 0.024 D18S51[CE13]-Chr18-GRCh38 124894865-124894916[AGAA]1364 0.194 D18S51[CE13]-Chr18-GRCh38 124894865-124894916[AGAA]9AGGA[AGAA]31 0.003 D18S51[CE14]-Chr18-GRCh38 124894865-124894916[AGAA]1474 0.224 D18S51[CE15]-Chr18-GRCh38 124894865-124894916[AGAA]1561 0.185 D18S51[CE16]-Chr18-GRCh38 124894865-124894916[AGAA]1649 0.148 D18S51[CE17]-Chr18-GRCh38 124894865-124894916[AGAA]1722 0.067 D18S51[CE18]-Chr18-GRCh38 124894865-124894916[AGAA]1817 0.052 D18S51[CE19]-Chr18-GRCh38 124894865-124894916[AGAA]198 0.024

续表3

注:粗体表示等位基因核心重复结构中的单核苷酸差异

基因座 等位基因序列信息 个数 频率D18S51 D18S51[CE20]-Chr18-GRCh38 124894865-124894916[AGAA]2010 0.030 D18S51[CE21]-Chr18-GRCh38 124894865-124894916[AGAA]217 0.021 D18S51[CE21]-Chr18-GRCh38 124894865-124894916[AGAA]17AGAG[AGAA]31 0.003 D18S51[CE22]-Chr18-GRCh38 124894865-124894916[AGAA]225 0.015 D18S51[CE23]-Chr18-GRCh38 124894865-124894916[AGAA]232 0.006

应用二代测序技术检测观察到CSF1PO和D18S51基因座具有长度相同但核心重复序列不同的等位基因3种,采用Sanger测序法对其进行验证,验证结果均与采用Ion Torrent PGMTM测序平台检测得到的结果一致。该3种等位基因核心重复序列的Sanger测序验证图见图1。

采用PCR-CE法和二代测序技术检测分别获得CSF1PO和D18S51基因座的等位基因,运用PowerState v12软件计算得到群体遗传学参数 DP、PIC、PEduo、PEtrio,详见表4。结果显示:与CE方法相比较,运用二代测序技术进行检测,CSF1PO的DP由0.891提高至0.893,PIC 由 0.701提高至 0.704,PEduo由 0.376提高至 0.387,PEtrio由 0.472 提高至 0.482;D18S51 的 DP由 0.955提高至 0.956,PIC由 0.820提高至 0.832,PEtrio由 0.511提高至 0.527,PEtrio由 0.622提高至0.633。

图1 CSF1PO和D18S51基因座的Sanger测序验证图

表4 CSF1PO和D18S51基因座采用两种技术得到的群体遗传学参数 (n=165)

二代测序DP PIC PEduoPEtrioDP PIC PEduoPEtrioCSF1PO 0.891 0.701 0.376 0.472 0.893 0.704 0.387 0.482 D18S51 0.955 0.820 0.511 0.622 0.956 0.832 0.527 0.633基因座CE

3 讨 论

本研究基于Ion Torrent PGMTM测序平台进行高通量序列检测,仅使用一块Ion 318 v2芯片,可一次对几百万条DNA分子进行序列测定,实现了大规模并行测序。Ion Torrent PGMTM测序结果显示:在165例样本的CSF1PO基因座中,有2例在第6个核心重复序列发生了碱基置换(A→G),产生新的等位基因([ATCT]5GTCT[ATCT]6),CHURCHILL 等[20]也 报 道 了该种新的等位基因;在165例样本的D18S51基因座中,1例在第10个核心重复序列发生了碱基置换(A→G),产生新的等位基因([AGAA]9AGGA[AGAA]3),另1例在第18个核心重复序列发生了碱基置换(A→G),产生新的等位基因([AGAA]17AGAG[AGAA]3)。应用二代测序技术既获得了CSF1PO和D18S51基因座的长度多态性信息以兼容传统的PCR-CE分型结果,同时又获得了CSF1PO和D18S51基因座的序列多态性信息,使具有相同长度的基因座通过核心重复序列的结构差异而得以区分。采用PowerState v12软件计算得到PCR-CE和二代测序技术两种检测方法的遗传学参数(DP、PIC、PEduo、PEtrio),比较发现 CSF1PO和 D18S51 基因座的 DP、PIC、PEduo、PEtrio均有所提高,表明CSF1PO和D18S51基因座的识别效能提高,为未来探索解决混合斑检验、复杂亲缘关系鉴定等法医学疑难问题提供了全新的思路。

本研究为使Ion Torrent PGMTM测序平台生成的基因座数据信息和PCR-CE法检测生成的基因座数据信息有效对接,采用了第26届ISFG会议提出的建议[19]:(1)导出CSF1PO和D18S51基因座核心重复序列的FASTA格式信息并形成数据库,获取等位基因的频率信息;(2)CSF1PO和D18S51基因座的等位基因命名全部按照最新参考序列GRCh38进行命名,命名次序为STRBase数据库使用的基因座名称和重复次数,染色体编号和使用的参考基因组版本号,核心序列的起始和终止位置,具体重复序列。

随着商业化试剂盒的开发,二代测序技术可应用于常染色体和性染色体STR多位点并行检测、单核苷酸多态性分析以及线粒体全序列测定等[13,21-25],在法医遗传学研究上具有广阔的空间和多样化的前景,为侦破刑事案件提供了更多方法上的选择。但就目前而言,将其应用到法庭科学常规检测中还有一定的限制:(1)应用二代测序技术较PCR-CE方法检测在原理和应用上有很大的更新,实验流程比较繁琐,实验耗时较长;(2)应用二代测序技术产生的数据信息量高达几千兆甚至更多,数据分析较为复杂,对技术人员的操作水平及分析能力要求较高;(3)法医DNA实验室现有的仪器设备投入使用时间不长,短期内不可能全部替换。未来,随着案件样本的复杂性、多样性及总数量增加,采用信息含量更多、数据准确性更高的新技术替代传统的DNA检验技术是学科发展的必然趋势,但仍需要大量的研究工作加以评估。

参考文献:

[1] BUTLER J M.Advanced topics in forensic DNA typing:methodology[M].Amsterdam: Elsevier Academic Press,2012.

[2] HANSSEN E N,LYLE R,EGELAND T,et al.Degradation in forensic trace DNA samples explored by massively parallel sequencing[J].Forensic Sci Int Genet,2017,27:160-166.

[3]PILLAI S,GOPALAN V,LAM A K.Review of sequencing platforms and their applications in phaeochromocytoma and paragangliomas[J].Crit Rev Oncol Hematol,2017,116:58-67.

[4]REUTER J A,SPACEK D V,SNYDER M P.Highthroughput sequencing technologies[J].Mol Cell,2015,58(4):586-597.

[5] IOZZI S,CARBONI I,CONTINI E,et al.Forensic genetics in NGS era:new frontiers for massively parallel typing[J].Forensic Sci Int Genet Suppl Ser,2015,5:e418-e419.

[6] WANG J,YU H,ZHANG V W,et al.Capturebased high-coverage NGS:a powerful tool to uncover a wide spectrum of mutation types[J].Genet Med,2016,18(5):513-521.

[7]CARBONI I,FATTORINI P,PREVIDER C,et al.Evaluation of the reliability of the data generated by next generation sequencing from artificially degraded DNA samples[J].Forensic Sci Int Genet Suppl Ser,2015,5:e83-e85.

[8] BØRSTING C,MORLING N.Next generation sequencing and its applications in forensic genetics[J].Forensic Sci Int Genet,2015,18:78-89.

[9] 张素华,边英男,赵琪,等.二代测序技术在法医学中的应用进展[J].法医学杂志,2016,32(4):282-289.

[10]BOTTINO C G,CHANG C W,WOOTTON S,et al.STR genotyping using ion torrent PGM and STR 24-plex system:performance and data interpretation[J].Forensic Sci Int Genet Suppl Ser,2015,5:e325-e326.

[11]GOODWIN S,MCPHERSON J D,MCCOMBIE W R.Coming of age:ten years of next-generation sequencing technologies[J].Nat Rev Genet,2016,17(6):333-351.

[12]UNTERGASSER A,NIJVEEN H,RAO X,et al.Primer3Plus,an enhanced web interface to Primer3[J].Nucleic Acids Res,2007,35(Web Server issue):W71-W74.

[13]ZHAO X,MA K,LI H,et al.Multiplex Y-STRs analysis using the ion torrent personal genome machine (PGM)[J].Forensic Sci Int Genet,2015,19:192-196.

[14]RUITBERG C M,REEDER D J,BUTLER J M.STRBase:a short tandem repeat DNA database for the human identity testing community[J].Nucleic Acids Res,2001,29(1):320-322.

[15]CHURCHILL J D,SCHMEDES S E,KING J L,etal.Evaluation oftheIllumina®BetaVersion ForenSeqTMDNA Signature Prep Kit for use in genetic profiling[J].Forensic Sci Int Genet,2016,20:20-29.

[16]GELARDI C,ROCKENBAUER E,DALSGAARD S,et al.Second generation sequencing of three STRs D3S1358,D12S391 and D21S11 in Danes and a new nomenclature for sequenced STR alleles[J].Forensic Sci Int Genet,2014,12:38-41.

[17]FORDYCE S L,MOGENSEN H S,BØRSTING C,et al.Second-generation sequencing of forensic STRs using the Ion TorrentTMHID STR 10-plex and the Ion PGMTM[J].Forensic Sci Int Genet,2015,14:132-140.

[18]GUO F,ZHOU Y,LIU F,et al.Evaluation of the Early Access STR Kit v1 on the Ion Torrent PGMTMplatform[J].Forensic Sci Int Genet,2016,23:111-120.

[19]PARSON W,BALLARD D,BUDOWLE B,et al.Massively parallel sequencing of forensic STRs:Considerations of the DNA commission of the International Society for Forensic Genetics(ISFG) on minimal nomenclature requirements[J].Forensic Sci Int Genet,2016,22:54-63.

[20]CHURCHILL J D,NOVROSKI N M M,KING J L,et al.Population and performance analyses of four major populations with Illumina’s FGx Forensic Genomics System[J].Forensic Sci Int Genet,2017,30:81-92.

[21]ZHAO X,LI H,WANG Z,et al.Massively parallel sequencing of 10 autosomal STRs in Chinese using the ion torrent personal genome machine (PGM)[J].Forensic Sci Int Genet,2016,25:34-38.

[22]CASALS F,ANGLADA R,BONET N,et al.Length and repeat-sequence variation in 58 STRs and 94 SNPs in two Spanish populations[J].Forensic Sci Int Genet,2017,30:66-70.

[23]STEPANOV V,VAGAITSEVA K,KHARKOV V,et al.Forensic and population genetic characteristics of 62 X chromosome SNPs revealed by multiplex PCR and MALDI-TOF mass spectrometry genotyping in 4 North Eurasian populations[J].Leg Med (Tokyo),2016,18:66-71.

[24]ZHANG S,BIAN Y,CHEN A,et al.Developmental validation of a custom panel including 273 SNPs for forensic application using Ion Torrent PGM[J].Forensic Sci Int Genet,2017,27:50-57.

[25]GOUVEIA N,BRITO P,BOGAS V,et al.Massively parallel sequencing of forensic samples using Precision ID mtDNA Whole Genome Panel on the Ion S5TMSystem[J].Forensic Sci Int Genet Suppl Ser,2017,6:e167-e168.

Analysis of CSF1PO and D18S51 Loci Based on Ion Torrent PGMTMPlatform

YANG Yi-zun1,2,PING Yuan2
(1.School of Life Sciences,Fudan University,Shanghai 200438,China;2.Shanghai Key Laboratory of Crime Scene Evidence,Key Laboratory of Forensic Evidence and Science Technology,Ministry of Public Security,Institute of Forensic Science,Shanghai Public Security Bureau,Shanghai 200083,China)

Abstract:ObjectiveTo analyse and detect CSF1PO and D18S51 loci by next generation sequencing(NGS) technology for the study on their sequence polymorphism.MethodsThe peripheral blood samples were collected from 165 unrelated individuals of Chinese Han population.DNA samples were obtained by QIAamp DNA Mini kit.The library was constructed by Ion Plus Fragment Library.DNA sequencing analysis was performed on Ion Torrent PGMTMPlatform.The newfound alleles were verified by Sanger sequencing.Data were analysed by Torrent SuiteTMv5.0.2 and Integrative Genomics Viewer for the genotype identification and frequency count.The data were analysed statistically by PowerState v12.ResultsThe length and sequence polymorphisms of CSF1PO and D18S51 loci were simultaneously obtained by NGS technology.A new genotype was found on CSF1PO locus,and two new genotypes on D18S51 locus.Sanger sequencing was used to verify the newfound alleles found by NGS technology,and the results of verification showed consistency.ConclusionThe structure of core repeats on CSF1PO and D18S51 loci was detected by NGS in this study for the improvement of the identifying performance of locus.

Keywords:forensic genetics;sequence analysis,DNA;CSF1PO;D18S51;next generation sequencing;Ion Torrent PGMTMsequencing system

作者简介:杨仪尊(1988—),女,硕士研究生,主要从事法医物证学检验;E-mail:shnuyyz@163.com

文章编号:1004-5619(2018)05-0520-06

doi:10.12116/j.issn.1004-5619.2018.05.017

文献标志码:A

中图分类号:DF795.2

收稿日期:2017-11-16)

(本文编辑:张素华)