HapMap五周年回首
作者简介:曾长青,九游会j9北京基因组所研究员,博士生导师。CUSBEA奖学金、优异青年基金、首批新世纪百万万人才工程国家级人选获得者。作为“十五”重大攻关项目课题组长、国际HapMap妄想Steering Committee Member和 “中华单体型图协作组”召集人,认真HapMap“中国卷”的实验。主要从事疾病相关基因定位、群体遗传学和基因组多态研究,部分效果在Nature,Nature Genetics, PNAS等杂志揭晓。
今年10月,是人类基因组国际HapMap妄想启动8周年和这一重大国际相助的主要使命完成5周年。几年间,全球规模的基因组特殊是人类基因组的研究,已经成为生命科学的最前沿学科,HapMap也成为应用最为普遍、深入并一直完善更新的人类最大数据库。本文回首性介绍HapMap妄想及其近年来在基因组学和人类康健领域的主要作用。
1、人类基因组的HapMap和国际HapMap妄想
(1)何谓HapMap
HapMap是Haplotype Map 的简称,Haplo意为简单,在基因组中专指来自怙恃的一对染色体中的一条。Haplotype就是单条染色体中的一段,译作单体型(有人译作单倍型),是形貌遗传差别的一种主要方法。DNA作为遗传物质,不但编码了物种间的差别,物种内差别个体之间的差别也含在其中,均体现为基因组之间的DNA序列差别,也就是基因组的多态性上。
DNA由四种核苷酸单个毗连而成,基因组最常见的多态就是单核苷酸多态(single nucleotide polymorphism),简写为SNP或SNPs(复数),指在群体中染色体的某一位点上由差别的核苷酸组成(图1)。
图1 单核苷酸多态位点SNP和单体型。A:在来自4个个体的一段6kb序列上,大部分核苷酸相同但有5处显示差别(彩色)即SNPs。B:这段6kb区域的20个邻近SNPs组成单体型(Haplotypes)。摘自Nature. 426:189-193。
现在发明的人类基因组中的SNP位点已经凌驾一万万。在人群中,染色体上每一二百个核苷酸就有一个SNP位点。单体型形貌的是一段单条染色体上的序列差别,就是由SNP位点的顺序排列组成。因此也可以说单体型是划分来自怙恃的单条染色体上SNP的漫衍和转达模式。凭证相近SNP的连锁特征(即连锁不平衡),单体型上的多个SNPs还可以由少数几个tag即标签SNP代表。Haplotype Map是单体型图谱,就是全基因组上所有DNA序列的SNP漫衍和人群频率、标签SNPs、连锁性子与纪律等。
(2)HapMap的内容
HapMap的内容是一个重大的“人类遗传用表”。遗传学研究的实质在于剖析变异及其转达纪律。关于人类基因组中的千百万个SNPs来说,只管许多SNPs关于体现型可能并没有孝顺,个体的性状差别,也就是恣意两小我私家之间的遗传差别,就蕴藏在这些SNPs和单体型之中。若是说人类基因组测序妄想翻开了我们自身的遗传密码这本天书,那么地球上每小我私家的天书都是一种版本,HapMap展现的就是差别天书版本之间的差别与纪律。从个体的基因组测序到全基因组SNPs在人群中的漫衍和单体型的构建,HapMap妄想标记着群体基因组学研究的最先,旨在通过关于海量SNPs的人群检测及其盘算剖析,构建全人类的遗传用表,从而研究者可以从中查到基因组中种种位置的SNP以及在主要人群中的组成、频率和单体型与标签SNP情形。
(3)HapMap的主要价值
HapMap的主要价值在于展现重大性疾病的遗传因素。重大性疾病是相关于单基因病(如血友病等)而言,也是常见疾病,如高血压、肿瘤、精神性疾病、糖尿病等。其爆发往往是遗传和情形因素配相助用的效果,遗传因素涉及多个基因和分子通路,而不体现为单基因的孟德尔遗传。因此罹患这类疾病的易感性,包括对差别情形或药物的敏感性等,都隐匿在多个基因的微效变异即SNP和单体型及其组合中,并且有很大的个体差别。因此,展现这类疾病的遗传模式需要大宗的群体样本和发明与检测极多的SNPs举行关联剖析,这在HapMap构建之前险些是不可能的。国际单体型图妄想(TheInternational HapMap Project)的主要目的就是构建差别人群的高密度SNP图谱,通太过析盘算确立单体型及其中SNPs的连锁性子和标签SNPs,从而使研究职员可以凭证这一重大的遗传图表和所展现的人类群体的分子遗传机制,为发明重大性疾病的相关易感基因确定研究计划和选择需要举行剖析的标签SNPs。
(4)HapMap妄想的启动和主要使命的完成
国际单体型图妄想经由3年的妄想,于2002年10月29日在华盛顿召开由加拿大、中国、日本、尼日利亚、英国和美国6个加入国代表出席的第一次战略聚会;岷笮髯(Consortium)召开新闻宣布会向全球宣布这一妄想的正式启动。HapMap妄想加入国中加、中、日、英和美国划分肩负全基因组10%,10%,25%,24%和31%的SNP分型使命。尼日利亚提供非裔样品,中国和日本配合提供亚裔样品,美国提供了欧裔样品。第一次战略聚会上决议了HapMap两阶段的战略。第一阶段是针对非、亚、欧裔的270个DNA样品在全基因组规模以平均每5 000个核苷酸(5 kb)一个SNP的密度举行大规模SNP分型判断,构建5 kb单体型图。第二阶段是将HapMap的分型密度增至2kb左右。HapMap妄想的运作由各国代表组成的Steering Committee及其下属的若干事情小组认真执行实验。
3年后的2005年10月26日,由国际协作组总认真人,现任美国NIH认真人Francis Collins向全天下宣布了一个拥有数亿数据的人类基因组单体型图的乐成构建,以及一个更细腻的遗传图谱即将完成(图2)。
图2 2005年10月26日美国盐湖城HapMap新闻宣布会场,国际协作组认真人,时任美国国立人类基因组研究所所长FrancisCollins代表所有加入国和国际协作组宣布人类基因组单体型图的圆满完成。
各中心的重大起劲使分型密度比预计提高了近40%,共针对一百多万SNPs构建了密度约3.6kb的数据库和HapMap。美国卫生和公共效劳部部长Mike Leavitt在会上评价和形貌了HapMap妄想的意义和远景。新闻宣布会上还刊行了载有HapMap及其长文“人类基因组的单体型图谱”的Nature杂志。HapMap这一使命的完成,也标记着这个重大项目的“中国卷”的完成。中国科学家为这一妄想做出了10%的孝顺。
(5)HapMap妄想的后期事情和希望
HapMap妄想的第一阶段使命完成后,国际协作组委托Perlegen Sciences 完成第二阶段扩大SNP分型密度的使命。2007年10月18日,国际协作组在Nature上揭晓了凭证第二阶段数据构建的人类基因组的第二代HapMap。至HapMap 二期共发明了凌驾一万万的人类基因组的SNPs,完成了约310万SNPs(≥5%)在270个样品中的分型反应。这些SNPs约占展望的遗传变异的25%~35%,并使第二代HapMap的区分率抵达平均不到1kb一个SNP,比预定妄想凌驾100%,准确度抵达99.8%。
为使HapMap具有更大参考性,在前两个阶段近10亿SNP数据的基础上,一个新的人群剖析HapMap 3启动并于2010年9月在Nature上揭晓了新的海量数据。与前两期内容差别的是,HapMap 3旨在大宗扩充人群样本和发明低频率SNPs。共160万的常见SNPs在来自全球11小我私家群的1 184个体中举行了分型反应,使HapMap具有更普遍的代表性。同时,还在其中692样品中举行了1Mb区域(10kb×10)的重测序,以发明新的低频率SNPs。显然,随着更大都据的爆发,人类基因组的HapMap将一直更新使之涵盖更多人群特异数据和具有更为细腻的区分率。
2、重新相识的基因和染色体——HapMap关于人类基因组结构的重大孝顺
(1)基因寄义的修订
早在2005年之初,HapMap尚未完成之时,Science就展望这一妄想的完成将是生命科学取得的最重大希望之一;至昔时底HapMap又被两院院士评为天下10大科技希望中的第5位。简直,HapMap妄想的效果与应用及其由此引出的更多基因组规模的深入研究带来了遗传学和基因组学的周全知识更新,甚至包括现代分子生物学看法中的基因与染色体的结构。作为HapMap的卫星项目最先的ENCODE 妄想(Encyclopedia Of DNAElements,DNA元件百科全书)于2007年宣告完成。这一扩展到涉及11个国家80家机构加入的研究通过整合盘算测序数据和实验剖析,判断出人类基因组中所有的功效组分,包括编码基因、非编码基因、调控区域、染色体结构维持和调理等所有类型DNA元件的漫衍和组织方法。相助组同时在Nature和Genome Research上揭晓了29篇论文,详尽形貌了在所剖析的1%人类基因组区域内最为完整的心理功效元件,还对许多古板的分子生物学界说做出倾覆性扩展或修订。例如,microRNA,非编码RNA等的普遍保存使“一个基因一个酶”,“中心规则”等都不再是生命科学的清规戒律。这些革命性希望为进一步熟悉基因组的功效蓝图开发了蹊径,对疾病的遗传研究爆发了重大影响。
(2)全新的结构差别和拷贝数变异看法
虽然HapMap妄想的目的是关于单核苷酸多态位点的模式剖析,一个未曾预见的重大效果是通过关于单体型的剖析所发明的基因组中同样普遍保存的结构差别(structural variation,SV),包括DNA序列的插入、删除、倒位、易位等。这些结构差别巨细很不均一,可在数十个至数百万核苷酸之间。HapMap 展现出结构变异是基因组中一种常见但由于经典检测手艺的缺陷而知之甚少的遗传多态性。由于许多结构多态可在HapMap这一高密度差别图谱上留下“印记”,近年来随着对HapMap的剖析使用使人类关于自身染色体的结构多态性爆发了全新的熟悉。仅2006年就有3个小组从差别角度构建了人类基因组的缺失图谱。随着对DNA片断的插入和删除愈来愈多的发明,拷贝数变异(copy numbervariation, CNN)成为形貌这类遗传差别的最新名词。这类新发明的遗传变异笼罩了人类基因组约莫20%的区域,预计10%~20%的可“调理”基因活性的遗传变异是CNV。同SNP一样, CNV可导致先天性疾病并与多种重大性疾病的爆发有关。HapMap的完成不但导致了人类基因组拷贝数目多态性妄想(The CNV Project)的启动,也为高通量筛查CNV 提供了全新的研究战略和实验手段。需要指出的是,拷贝数变异多爆发在重复序列,现在关于“断点”位置的细腻确定极具手艺挑战性。因此一些研究曾导致CNV在基因组中的笼罩度达40%~60%的过高预计。准确定位CNV有待于更先进手段如单分子测序等的生长。
3、HapMap妄想关于基因组科学和系统生物学的极大推动
若是说人类基因组妄想涤讪了基因组学的基础,HapMap妄想则开启了群体基因组学的时代,并且在很洪流平上加入催生了系统生物学的生长。HapMap提供了全基因组SNPs 的群体漫衍图谱并展现了人群内的遗传结构,不但构建了“群体基因组学(populationgenomics)” 基础还建设了一种新的研究战略。这些使自然选择和人群演化成为近年来基因组学研究的又一热门;诖,近年来还获得了若干人类阳性自然选择图谱和数据库。尤其值得一提的是,2010年我国多个小组通过自力或相助研究,数月间先后在Science,PNAS,Mol. Biol. Evol.刊登多篇文章叙述藏族关于高原低氧顺应性的剖析效果,所有研究均接纳HapMap的汉族数据作为比照举行较量。这些效果不但为深入的群体遗传学研究和疾病的遗传因素及基因功效剖析提供了新的视野,还大大加深了人类关于情形的顺应历程和人群表型分解的熟悉。
HapMap妄想不但带来更多全基因组规模的大型研究,还大大推动了对多个物种的系统基因组学研究。如上述ENCODE 妄想完成之后,一个更大规模的多物种ENCODE项目又开展起来,以剖析ENCODE守旧区域在差别物种中的细节,进一步相识物种演化历程中的基因组系统转变。使用HapMap数据举行的基因表达研究,还为分子通路和网络研究涤讪了数据基础。正是这些研究的搜集和整合,增进了系统生物学的爆发和深入开展。
4、应用遗传用表剖析疾病缘故原由
人类遗传用表HapMap已经普遍用于疾病研究。HapMap妄想的立项目的是为重大性疾病的基因定位研究提供基础数据、研究战略和先进手艺。在此之前,重大性疾病的遗传研究始终缺乏有用计划。主要缘故原由在于这些疾病不但是遗传和情形因素配相助用的效果,并且其遗传因子涉及多个基因和多条基因产品互作的分子网络或代谢通路。在这类疾病的遗传因子中每个基因的变异关于疾病的孝顺并不显著,但其某种未知整合却成为个体罹患疾病的危害。同时,这些差别的易感基因或位点在疾病中的作用有很大的个体差别。因此,若是在群体规模将所有的SNPs举行筛查以确定疾病的相关基因,这在耗资上是无法做到的。HapMap妄想应用基因组学“单体型板块”、“标签SNP”等原理,一方面形貌了个体差别位点的漫衍和转达纪律,另一方面构建了以人群中遗传差别的转达模式为主要内容的图谱。其中无冗余的分型SNPs凌驾310万,连同用于质控和低频率SNP位点,整个HapMap妄想在270个样品中举行了分型的SNPs抵达630多万,凌驾所预计保存的人类SNPs数目的一半。这些供全球免费下载的数十亿份数据,为种种规模的病例-比照关联剖析提供了极为主要的工具和数据,使大规模的关于重大性疾病的关联剖析成为可行的易感基因定位手段。关于较为古板的使用家系样品举行的单基因病连锁剖析,HapMap的海量数据使高密度SNPs成为比古板的微卫星标记有更高的剖析度和准确率的遗传标记,并使连锁与关联剖析的团结使用成为更为有用的定位要领。
从HapMap妄想对外发放数据,就揭开了通过SNP分型举行病例-比照的关联剖析的序幕。HapMap的完成使候选基因或全基因组的病例-比照关联剖析在全球规模获得普及,并且增进了几个“超大型”的重大性疾病遗传因素剖析妄想的立项和实验,包括GAIN(geneticAssociation Information Network,遗传关联信息网络)、POPRES(POPulation REference Sample,群体参照样本)、WTCCC(The Welcome Trust Case-Control Consortium,Welcome基金会病例比照协作组)和多个针对某一疾病如高血压等的大型团结研究。其配合特点是接纳包括标签SNPs的全基因组芯片,举行GWA(genome-wideassociation)研究,又称GWAS(GWA studies),即不思量先验知识直接通过对大样品量(上千份)举行整个基因组的关联剖析研究。例如,2007年11月WTCCC报告了对凌驾16000个样本所举行的针对双向情绪障碍等7种常见重大性疾病的GWAS效果,在克罗恩病(Crohn’s disease)等5个疾病中发明至少一个易感基因信号。GAIN 妄想则为注重力疏散/多动症等6种重大性疾病的GWAS研究提供支持,寻找易感基因和新的诊断要领。HapMap作为人类遗传用表已经普遍用于疾病相关基因定位研究。
重大性疾病相关基因定位研究是恒久探索缓和慢积累的历程。然而,大宗全球性的大规模GWAS研究亦逐渐袒露出许多问题和局限,包括部分大型研究没有发明显著信号,差别人群效果重复性差,无法诠释疾病相关信号的生物学意义,易感性关于疾病的真正孝顺缺乏评估和与指导临床相脱节等。这些现实上显示出展现多基因常见疾病遗传机制的重大性和难度,也反应了一些初期关于使用现有要领一举解决重大性疾病遗传机理的期待可能过于乐观简朴。关于一种涉及多种分子通路的重大性疾病来说,发明其所有的遗传因素也许犹如完成一幅重大的拼图(jigsaw),需要大宗元件的积累和逐渐拼接。以现有基因组学知识思量和综合剖析GWAS效果,人群的遗传配景差别和部分易感性位点是较低频SNP可能是GWAS信号不显著和人群重复性差的主要缘故原由。别的,样品网络历程中临床标准的取舍、分类、控制等方面的差别,也可能降低重复试验的区分率。对此,将千人基因组等项目发明的低频率SNPs也整合至GWAS研究中,以及扩大样品量或举行若干个类似GWAS的团结剖析即Meta analysis,将使发明阳性信号的可能性大为提高。最近,一个由凌驾100个研究中心加入的糖尿病相关国际协作组对总共8 000多个病人和近40 000比照举行荟萃剖析,发明了12个与胰岛素渗透相关的II型糖尿病的易感基因和位点。别的,随着越来越多的远距离调控因子及非编码RNA的发明,非基因区的信号也将获得越来越多的诠释。毋庸置疑,与基因组学及其先进手艺的迅速更新相比,在HapMap基础上以关联剖析为主的大规模重大性疾病易感基因的定位研究无疑将是一个恒久探索缓和慢积累才华最终周全整合效果的历程。
5、HapMap妄想关于中国基因组科学的重大推动
犹如人类基因组妄想,HapMap妄想的完成是一个里程碑式的成绩,从研究战略到剖析与推算的多种手段和算法,均代表了最先进的科研效果和希望,具有极高应用性和立异性。HapMap“中国卷”为构建占人类基因组10%的3号、21号染色体和8号染色体短臂的单体型图以及提供一半的亚洲样品。主要内容于2002年纳入国家“十五”科技攻关妄想,其中2.5%的使命由香港立异科技署和香港大学教育资助委员会团结资助的香港小组完成。HapMap中国卷10%的使命量关于肩负团队是极为严肃的磨练和挑战。HapMap其他成员都是拥有高通量SNP分型系统和履历富厚的一流中心,只有中国团队从购置装置装备最先,各方面从一最先就落伍他人一年。特殊是,北京课题组资金严重缺乏。双重重大压力下团队背水一战,超负荷追赶,接纳一系列步伐提高反应能力和降低本钱,节约一切可能经费,最终在精诚相助和相互资助下,中国团队完成了凌驾3 500万的SNP分型反应,保质保量地完成了中国卷使命并成为最早完成补洞的国家。
从人类基因组妄想的1%到HapMap妄想的10%,中国同蓬勃国家一起加入了展现人类遗传机制全貌的两个雄伟妄想,也是其中唯一爆发数据的生长中国家。1%项目的加入使我国在基因组学这一学科领域获得迅速起跑,HapMap10%的孝顺则标示着中国科学在基因组学这一新兴学科中的奔腾生长。这一历史历程不鲜明示了我国在基因组学的重大前进以及国民和国力关于这一人类最至公益项目的支持,还体现了中国科学家捉住历史机缘、掌握学科前沿希望,从落伍领域冲天而起的拼搏与乐成。中国的加入生长训练了研究步队,并极大增进了基因组学在中国的开展。在中华民族的遗传多态和重大疾病的基因组研究方面,多项主要研究效果和高水平论文每年都在递增爆发。我国在这一领域已经获得大宗天下领先效果并将以更大的生命力一连生长下去。
6、基因组科学发动的先进手艺手段的生长
基因组科学生长的一个主要特点就是与先进手艺手段极其细密的相互团结和增进,正是这种亲近关系爆发了科学与手艺配合的迅猛生长。同早期测序手艺落伍的情形差别,多种较量成熟的SNP分型手艺在HapMap妄想的实验之初已经生长起来,从而包管了HapMap妄想的3年圆满完成。HapMap妄想不但有力推动了SNP手艺的快速生长,还大大增进了多种基因组学手艺的研发。特殊是多种密度的全基因组SNP芯片为病例-比照研究提供的有用工具,险些被所有大型疾病相关研究接纳。同时,在SNP杂交芯片基础上,多种全基因组规模的其他分子检测芯片陆续开发出来,包括定量检测转录本表达、microRNA、DNA甲基化等检测芯片,已在人和多种模式生物中获得大宗应用。通过基于SNP或微列阵的较量基因组杂交(comparative genomic hybridization,Array-CGH),则成为发明和研究拷贝数目差别的主要手段。
值得一提的是用于SNP分型的高通量芯片杂交手艺还催生了应用微型“霰弹法”测序战略的二代测序手艺的研发,近两三年来以高通量为特点的新一代测序仪已经成熟并迅速占领了市场。无论在研究战略和手段,照旧剖析内容的种类和深度上,二代测序仪的普及都带来了基因组学研究的革命性思绪和希望。如群体基因组规模的测序项目千人基因组妄想的前期事情(Pilot project)已由二代测序手段完成,包括对两个三体家系的深度测序(平均42X),159个HapMap样品的低度测序(2-6X)和对697个体的部分外显子测序。美国NIH启动的肿瘤基因组妄想(The Cancer Genome Atlas,TCGA)现在正在以胶质细胞瘤、肺癌和卵巢癌为先导,通过二代测序举行肿瘤基因组的剖析。别的,在SNP杂交芯片的基础上与二代测序同时生长起来的尚有通太过子探针举行基因组上目的序列捕获的手艺。凭证研究需要的定制靶点探针和针对全基因组编码部分的商品化外显子探针将目的序列从整个基因组上特异性捕获下来,与二代测序联用,已经成为一种新的研究要领,极大增进了相关基因定位、医学重测序等重大性疾病研究。
7、公益事业的绚烂规范
作为重大国际性公益事业,HapMap的乐成相助和完成,再一次突破基因专利关于人类康健事业的挑战。自人类基因组测序的事情框架图揭晓,研究SNP和基因组多态性便成为新的研究热门。特殊是,人类基因组的SNP图谱是通向确定重大性疾病易感基因与位点的钥匙,导致又一次泛起了多个私营集团因基因专利的重大商机而多方位兴起的全基因组规模研究热潮,再次使人类基因组妄想所提出的数据共享原则受到严重挑战。由此,国际协作组提出了人类基因组研究的第二个战略使命,以多国相助形式配合构建单体型图的国际HapMap妄想应运而生。为了与可能的基因或SNP专利赶超时间,协作组特殊接纳了凭证项目进度随时宣布数据的战略。在HapMap网站上将所有阶段性数据即时发出供全球研究职员无偿使用(www.hapmap.org)。最终HapMap的所有数据,包括低频和有数SNPs、分型手艺、算法与效果等,所有无偿宣布,供全球其他研究所用。
这些行动使人们再一次扫除了对大规模疾病相关基因和位点的专利的忧虑。犹如测序妄想的全人类共享运作与私营企业试图争先基因专利的强烈竞争的一个更大规模的重演,最终受政府支持的公益项目以其无法逾越的规模和速率迫使多个启动更早的企业相关项目,特殊是针对重大性疾病的妄想放弃关于SNPs的专利实验。不止一个企业有偿或无偿地将数据纳入到HapMap妄想中,甚至从竞争转为主要加入者。最终一个高密度的HapMap和现在拥有数十亿数据的人类基因组多态数据库成为全人类共有的名贵财产。
还在HapMap妄想酝酿之时,少数资深学者关于这一耗资甚大的妄想所构建的HapMap能否为后续的疾病相关基因研究提供主要数据怀有疑问并影响到一些我国学者。同时还保存是否“值得”耗资加入这样的公益项目的疑问。对此,自2004年最先显露的全球规模关于HapMap效果的大宗应用已经充分证实晰HapMap数据关于遗传多态和基因组研究的不可替换的主要意义,HapMap的涤讪用关于后续开展的系列全基因组规模研究的重着述用现实上大大凌驾预料。而中国作为加入国之一,现在在基因组学方面获得的瞩目成绩亦早已证实益莫大焉。HapMap妄想已经将基因组学研究引向新的阶段,对人类康健爆发着深远影响。一个周全展现所有重大性疾病的相关基因和人类遗传机制的时代正在来临。
本文揭晓于:《科学新闻》中国生物研究热门论文特约稿——Vol. 5 No. 6 2010