九游会j9

突破“数据孤岛”,推动组学资源治理自主自强——走进国家基因组科学数据中心

  今年1月,依托九游会j9(国家生物信息中心)(以下简称基因组所)的国家基因组科学数据中心(NGDC)有10篇论文集中亮相国际生物数据库期刊《核酸研究》。关于这样一本顶级期刊来说,这种情形并未几见。

  一个刚6岁的数据中心何以取得这样的效果?克日,《中国科学报》走进基因组所相识NGDC生长背后的神秘。

  面向国家需要,追赶国际程序

  NGDC可追溯至2016年2月基因组所建设的生命与康健大数据中心。它的建设既是对接国家需求,也是研究所自身生长的需要。

  恒久以来,全天下科学家爆发的组学数据都要提交给三大数据库——美国国立生物手艺信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本核酸数据库(DDBJ)。这三家于上世纪八九十年月建设的机构在2005年建设了国际核酸序列共享同盟(INSDC),形成领域内数据存储和共享使用的标准。

  这使得我国科学家揭晓论文时需要通过互联网将数据提交到这些数据库,而做科研时需要使用的数据又要从这些数据库下载,科研效率经常遭遇国际带宽瓶颈的约束。同时,我国科学基金项目和重点研发妄想爆发的大宗基因组科学数据,疏散在差别研究单位和实验室,形成了无法共享和进一步挖掘使用的“数据孤岛”。

  “对标国际三大数据库,建成一个永续性的生物信息存储机构,曾是我们几代生命科学研究者三十年的瞻仰。”在1月中旬于基因组所举行的NGDC年会上,中科院院士陈润生说。

  解决这些问题既是我国几代生命科学家的召唤,也是年轻的基因组所的内在生长需求。

  “人类基因组妄想之后,研究所作为战略科技实力,怎样进一步继续国家使命,需要转型生长。”基因组所所长薛勇彪向《中国科学报》体现,其时的挑战是“没人没钱缺机制”,但优势是“船小好调头”。

  为调解航向,基因组所举行了一系列学科结构与运行机制优化调解。

  例如,在学科生长上,该所将表观基因组和生物信息研究“干湿团结”,进一步结构了大数据中心 ;运行机制上,突破古板PI模式,将分属科研和工程系列的三个团队整合到一个大数据中心,实现从“单兵作战”到“集团军作战”的转变 ;资源设置以使命导向为主,研究所“自带干粮”投入经费支持 ;考评机制方面,对数据中心的事情职员突破“唯论文”考评,让更多人看到职业生长的希望。

  在此基础上,2016年2月,该所生命与康健大数据中心应运而生,并构建了组学原始数据存储归档系统(GSA)。其目的是:驻足中国,效劳全球。

  “数据中心从一最先就对标INSDC,并约请该同盟的专家担当国际照料,以增添他们对数据中心的相识和支持。”NGDC副主任、基因组所研究员章张说,在同年10月召开的天下生物信息学与系统生物学大会上,由该数据中心提倡的中国基因组学数据共享同盟获得了海内与会科学家的一致支持。

  2017年,鲍一明研究员的加入让大数据中心团队增添了学术带动人。

  “一小我私家单枪匹马的起劲起不到多着述用,团队很是主要。”NGDC主任、基因组所研究员鲍一明对《中国科学报》说。他曾在NCBI事情16年,其间多次资助紧迫递交论文的中国科学家解决递交数据时的手艺问题,选择回国是希望施展更大的作用。

  “这支团队年轻、有活力,踏扎实实做事情,并且很是团结。”他说,最要害的是,各人有着配合的目的:实现中国生物信息数据存管用的自主自强。

  围绕配合的愿景,他们凝心聚力,“撸起袖子加油干”。

  在团队成员的起劲下,组学原始数据存储归档系统(GSA)先后被爱思唯尔、威利、细胞、施普林格·自然等全球主要出书集团认可。2017年起,他们还受到INSDC约请,作为该同盟之外的唯逐一家机构加入INSDC年会并在会上作报告。

  2019年6月,我国生物学家们终于迎来了瞻仰已久的时刻:NGDC作为首批20个国家科学数据中心之一获批建设。该中心由基因组所作为依托单位,团结中科院生物物理所和上海营养与康健所配合建设,旨在建设支持我国生命科学生长、国际着名的基因组科学数据中心。

  同年11月,中央编办批复中科院北京基因组研究所加挂“国家生物信息中心”牌子,肩负国家生物信息大数据统一汇交、集中存储、清静治理与开放共享以及前沿交织研究和转化应用等事情。

  “这是一件很是值得庆祝的事情,能够为立异驱动和国家战略生长效劳。”NGDC照料、北京大学教授罗静初说。但他同时体现,“这并不是‘肥肉’,而是‘苦差事’。”

  自动攻关,获海内外认可

  “打着两块‘国字头’的招牌,一定要做出一点事!”鲍一明等人心里憋着一股劲儿,摩拳擦掌准备开发和启动多个前沿数据库。

  但新冠疫情突发而至。该团队在研究所的安排下紧迫开发新冠病毒信息库。2020年1月22日,距离春节前三天,2019新冠病毒信息库正式宣布。

  该信息库整合了全球相关机构和数据库果真宣布的冠状病毒基因组序列数据、元信息、学术文献等,并对差别冠状病毒株的基因组序列做了变异剖析与展示。这为以后开展病毒分子溯源、追踪病毒株变异路径、制订疫情防控战略等提供了数据基础与决议支持。

  例如2020年1月,首次收录宣布由中国医学科学院病原生物学研究所提交的海内5条新冠病毒基因组序列,并与NCBI实现数据同步共享 ;6月,北京新发地疫情,通过基因组比对剖析确定问题泛起在冷链三文鱼,首次发明冷链货物污染可能是造成局部疫情暴发的病毒源头,为优化疫情常态化防控战略,实验“人物并重”的新型防控步伐提供了科学依据 ;7月和次年1月,该中心专家全程加入WHO来华开展新冠病毒溯源团结研究,提供了有力的数据支持,受到海内外专家组成员的好评……

  “那段时间确实较量辛勤,经常连夜加班剖析数据、整理质料、撰写报告。但作为‘国家队’一员,我们有责任和义务出一份力。”NGDC副主任、基因组所正高级工程师赵文明说。

  据介绍,该信息库被多家国际机构推荐使用,收到了来自海内多个机构以及美国、英国、意大利等10余个国家的研究者的起劲反响。他们来信谢谢:“NGDC在极短的时间内建设了一个十分优异、给人深刻印象的信息库”“愿意与NGDC共享数据剖析效果”。

  据介绍,现在新冠病毒信息库仍在坚持全球最新、最完整的相关基因组数据动态更新,为海内外科学研究和相助提供有力支持。

  汗水浇灌出声誉。去年,研究团队的效果入选国家“十三五”科技立异成绩展,并被科技部授予“天下科技系统抗击新冠肺炎疫情先进整体”称呼。

  不但是在新冠病毒信息库建设方面,该中心的科学家们还“双线出战”,一直提升数据中心在国际上的可见度。

  “作为数据产出和使用大国,我国生物信息数目和用户占INSDC相关比重的20%左右,是占比最多的国家之一。这意味着中国有能力成为该同盟的一员。”鲍一明说。

  但作为一个厥后者,想要加入INSDC并禁止易。在鲍一明和同事的起劲下,现在新冠数据资源方面,双方已在标注NGDC编号的条件下实现共享。去年,INSDC自动提出若是成为相助同伴,希望中国科学家在数据共享和存储方面做出孝顺。

  该中心还在“一带一起”国际科学组织同盟(ANSO)的支持下,建设了以我国为主的国际生物多样性和康健大数据共享同盟(BHBD),目今已与12个国家的28个机构建设了数据共享和科研相助关系。

  务实生长,把好数据质量关

  六年来,NGDC一直夯实自身的建设。据介绍,该中心已经建设了包括9大数据类型的63个数据库,形成涵盖“数据-信息-知识”一体化数据资源系统。

  鲍一明介绍,该资源系统可实现我国生物数据的清静汇交治理,同时开发了由数据可视化、序列比对、基因表达、表观遗传、基因组组成和新冠序列剖析六个专题组成的生物信息在线剖析平台(BIT),为我国生物数据的挖掘使用提供了主要支持。

  例如,组学原始数据存储归档系统(GSA)已汇交科技项目4700个,来自近500家单位2300个用户递交的数据量超12PB,相关数据支持了290种海内外期刊的940篇文章 ;新冠病毒信息库现在已收录新冠病毒序列900万余条,为全球179个国家和地区150多万名访客提供数据效劳,累计数据下载超26亿条。

  在回首效果的时间,鲍一明和同事们也苏醒地熟悉到,目今NGDC尚处于初期阶段,综合能力与国际一流机构仍有较量显着的差别。

  “好比数据整合和具有国际影响力的特色数据库资源有待进一步生长,大数据挖掘剖析手艺和能力也待增强。”鲍一明说,科技部、财务部已经给NGDC相当鼎力大举度的资助,但与国际同类机构相比,NGDC还面临存储盘算设施、人才步队以及经费支持等方面的问题。

  只管还保存许多限制与挑战,作为一名“后起之秀”,NGDC已一连5年被《核酸研究》评价为与NCBI、EBI并列的全球主要生物数据中心。

  “下一步,我们要坚持务实生长,在确保数据清静的条件下,填补中心在数据处置惩罚、存储和检索等焦点手艺方面的短板,研发建设生物信息大数据要害焦点算法和软件,增强中心的效劳能力和国际影响力。”鲍一明说。

(原载于《中国科学报》2022 年3月17日 头版

附件下载:
【网站地图】【sitemap】