国家基因库一期完工_热点新闻_新闻资讯

4月25日，关注深圳创新驱动与转型升级的媒体采访团（人民日报、新华社、光明日报、经济日报、中央人民广播电台、中国国际广播电台、中央电视台、中新社、中国日报以及南方日报、广东电视台等媒体的60余位编辑记者）调研了位于深圳盐田区的华大基因。

华大基因首席执行官CEO杨爽透露，华大基因组建和运营的深圳国家基因库一期建设已经完工，“内部装修中，装修完毕即可入驻。”该基因库将打造“三库两平台”，存储、管理、利用好我国遗传资源，为我国生命科学和生物经济发展提供支撑平台。

梅永红

此前，关于国家基因库最为知名的新闻，则是去年9月，原山东济宁市委副书记、市长梅永红加盟华大基因，并出任深圳国家基因库负责人。这一事件先后被各大媒体争先报道，针对梅永红的这一任职，华大基因董事长汪建曾公开表示，梅永红曾有农业部与科技部二十多年的工作经历，由他出任国家基因库负责人，既符合他自身的兴趣与志向，又能施展长期积累的科技管理经验、战略运筹和综合能力。

梅永红接受媒体采访时也曾表示，个人抱负能够与国家战略结合、生物经济前景中亦藏有巨大潜力，能够用自己的能力为华大基因做一些工作、为中国的生物经济产业做一些有价值的事情，我就非常满足了。

梅永红眼中的深圳国家基因库

2011年1月，国家发改委批复同意深圳依托华大基因组建国家基因库。同年10月，国家发改委、财政部、工业和信息化部以及当时的卫生部批复，深圳国家基因库由深圳华大基因组建及运营，是国家“十二五”重点基础能力建设项目。其位于深圳市大鹏街道下沙片区“禾塘仔”地块，建设规模约116000平米，建筑外形基本参照了云南元阳哈尼梯田，分两期建设，是继美国国家生物技术信息中心（NCBI）、欧洲生物信息研究所（EBI）、日本DNA数据库（DDBJ）之后的第四个国家级基因库，

此前，梅永红在即将接掌深圳国家基因库时曾表示深圳国家基因库被定义为“官办民营”、“国家购买服务”的模式。”社会有能力、有资源投入一个平台运营的时候，政府更多是提供政策的支持和提供资金购买服务，这样效率会更高。在建设阶段，国家基因库的运营资金来自国家发改委、深圳市和华大基因三方，其中国家层面的资金占大头，由发改委方面投入。按照目前规划，基因库投入使用后将由华大基因进行运行维护。

华大是在国家的支持下，构建一个国家级平台，跟社会上现有的各种机构合作，形成一个开放、合作的平台。这样的一个平台，不是华大一家能够做得了的，一定要有国家的支持。这件事情首先是国家需要。国家需要平台来支撑未来的生物经济。华大基因目前有着很强的基因解读能力，在世界上也处于前列，我想这是国家选择华大的重要原因。

2016年，除了总部建设之外，国家基因库最需要的是足够的样本。借助国家和各部委的支持，尽快形成基因库的联盟，比如中科院、各大学和其他拥有自己基因库的机构。目前的基因资源都局限在各个机构内部，他希望能够整合这些资源使它们可以被资源共享、开放利用。

我相信，国家立这个项，不仅仅是要建一个基因库，更重要的是要建一个基因共享机制。“梅永红解释说，现在机构们的开放度都不够，基因资源一般是政府所有、机构所有，甚至研究组个人所有，要推动它们之间进行开放合作，非常困难。

因此，要完成基因联盟、实现基因共享，除了横向与各个拥有基因资源的结构沟通，梅永红更重要的工作是要纵向与各部委进行协调沟通，进行”很好的顶层设计“，实现制度上的突破。

对这一涉及多方面政策和多部委的复杂制度突破该如何实现，梅永红说自己”一直在思考“：”我相信能够突破。今天世界上很多国家都能做到，为什么我们就做不到呢？我不相信。“他认为，由社会系统来操盘这个国家级平台，少了很多部门和系统的局限—可以用很多的机制去实现目标，比如市场机制、知识产权的机制、利益机制、人才机制等。

关于国家基因库

国家基因库的基本构成

根据的介绍，国家基因库着眼于为本国生命科学研究和生物产业发展提供基础性和支撑性服务平台，储存和管理本国特有的遗传资源、生物信息和基因数据，是维系一个民族生存与发展的命脉，具有国家水平、服务国家战略需求的创新科研和产业基础项目。

国家基因库集生物资源样本库、生物信息数据库和生物资源信息网络为一体，通过建立高水平的生物资源样本库、高效的生物信息数据处理、存储与管理系统以及覆盖广泛的联盟网络，有效保护、合理开发和利用我国生物资源及基因数据资源，充分调动、发挥及整合各地区、各单位的资源和技术优势，积极开展广泛交流与合作，搭建信息资源研究开发的基础性支撑平台，提高我国生命科学研究水平和国际影响力，促进我国生物产业发展。

国家基因库构成

资源样本的应用

国家基因库以生物资源为依托，形成资源到科研到产业的全贯穿、全覆盖模式，实现大资源、大数据、大科学、大产业的整合与应用。应用方向主要包括：人类健康、新型农业、物种多样性及生态环境保护。

基因库资源样本的应用

1、人类健康：数字健康管理、临床检测的准确率、疾病防治及生物制药的针对性需要大样本量数据的支撑，以便验证技术的可靠性，确定最佳策略，同时充分考虑人群差异。

2、新型农业：动植物分子育种、功能基因的发掘、新能源的开发利用，需要以大量物种资源为基础，搭建大型基因型和表型数据库，为育种者和开发者提供完整的信息指导，加快育种和开发进程。

3、物种多样性及生态环境保护：通过收集和保存各种有价值的种质资源，建立大规模的资源库或保护区，保护物种的多样性，并阐明外界条件和生物之间的相互作用，对生态环境起到保护和监测作用。

基因库主要进展及科研成果

国家基因库：生物资源库

生物资源库包括人类和非人两种资源类型，其中非人资源方向包括动物细胞资源、植物种质资源、微生物资源和海洋资源四大类型。通过收集人和非人两个方向的不同来源和形式的资源样本（动、植物活体细胞，微生物菌株，人类组织细胞，重要濒危物种，血液和小分子等），形成大规模、高质量、规范化的样本资源库。确保我国生物资源尤其是我国的特有物种、濒危物种、具有重要经济价值和科学研究价值的物种以及生态系统物种种群的安全性，有效的保护我国生物资源的多样性，可持续利用生物资源，为人类社会可持续发展提供物质基础。

样本资源类型

国家基因库：生物样本库

国家基因库样本库致力于建立生物样本库建库的标准规范，与联盟伙伴分享建库的流程和方法，共创科研思路，探索样本利用的有效途径，提升国内样本库的整体水平。同时，国家基因库样本库能为科研、医药、临床等工作者提供实验技术服务，并根据研究的需要提供和执行全面的解决方案。国家基因库大鹏基地的生物样本库存储空间未来可拓展至8,000㎡，至2015底可存储3,000万份生物样本的存储。

样本全程管理系统

该系统不仅能对样本保存、出入库进行管理，而且能对样本的整个流程进行管理与监控，包括样本采集、运输、前处理、保存、应用等整个样本流向过程。另外，本系统设有端口，能与HIS等外部系统关联，做到信息全覆盖。

样本资源管理系统

大规模、多层次的样本存储空间

样本库服务项目

1）标准化建设咨询。

通过联盟建立覆盖国内乃至国际的生物资源信息网络，共同搭建资源信息、技术、人才平台，共同承担重大项目，实现科学产业突破。并有由专业知识、经验丰富组成的国家基因库团队专注于为合作伙伴提供生物样品库基础设施、设备耗材相关产品建议，实施标准流程、信息系统、质量管理等平台的搭建。

2）个性化保存。

依托大规模、高质量、规范化的生物样本资源及深圳华大基因研究院的核酸及蛋白测序技术、高性能计算平台、国际领先水平的基因组科学研究，为广大用户提供样品收集、组学数据获得、全组贯穿分析、科研成果应用等一套个性化样品保存和应用方案。

3）第三方实验室服务。

拥有一支经验丰富、技术娴熟的人才队伍，并具备完善的标准资源，一流的实验环境，低成本、高通量、自动化的生产设备，可以进行规模化的生产，科学化的管理，高效的运营。我们本着“科技以人为本”的理念为广大用户提供包括样品采集、样品保存、样品提取、样品检测等优质服务。

4）样本库解决方案。

国家基因库能为需要建立样本库的合作伙伴提供样本库建设的指导支持及个性化的解决方案。拥有丰富样本库建设经验的团队将从样本库建设前期的经费预算、样本库及相关实验室的规划布局到硬件设施的配备、仪器软件的配置等项目对样本库建立的整体规划及各个相关方面进行梳理，并可根据实际需求派出技术人员进行样本库建设的现场支持与指导。同时，我们有专门的团队可根据需求及样本库的实际情况，从前期样本的收集、处理、运输及保存到后期样本在生物、医学领域的应用提供个性化的解决方案和指导意见。

国家基因库--生物信息数据库

生物信息数据库汇集包含基因组、转录组、蛋白质组、表观组、代谢组及临床表型等数据信息，预计最终将达到500PB级别的巨量数据容量。将会成为“大数据”生物学时代研究生物生长发育、衰老、死亡以及向产业化推广的有利工具。

大数据

依托国家基因库资源样本库丰富的生物样本资源及深圳华大基因研究院高通量测序平台、高性能计算平台、信息存储能力和信息分析能力的支撑，生成海量数字化样本资源。

生物信息数据库-大数据

存储和计算

与国家超算中心、深圳超算中心、广州超算中心等机构展开战略性合作。总存储能力达到20PB，总峰值计算能力达到212Tflops,并拥有云存储技术，有能力为海量生物资源表型数据及组学数据进行存储、处理和分析。

云存储与计算模式

开放性平台

（1）存储生物基因数据：运用云存储技术，保存海量贯穿组学数据，为后续研究提供数据保障。（2）提供生物信息检索：国家基因库为开放性、公益性科研平台，向用户提供生物信息检索、比较、分析等服务。（3）服务生命科学研究：依托深圳华大基因研究院云计算与云存储技术，向各科研机构提供生命科学研究平台。

2015年7月份，国家基因库联合联盟成员及合作伙伴共同搭建了E-BioBank资源信息共享平台（简称“E-BioBank平台”），将致力于国内外生物资源的整合，并促进样本的科学应用。该平台先后建立了样本定位、项目资源、技术支持、样本库目录等四大模块，分别从样本库建设、样本采集、保存与管理、样本应用等全方位多角度营造生物样本库行业的资源信息共享生态圈。据悉，平台已整合人类、动物、植物、微生物等样本资源55.6万份，共享科研项目信息10余项，分享行业技术性文件400余份，与100多家单位建立联盟合作关系。

国家基因库战略性意义及应用前景

国家基因库着眼于为本国生命科学研究和生物产业发展提供基础性和支撑性服务平台，储存和管理本国特有的遗传资源、生物信息和基因数据，是维系一个民族生存与发展的命脉，具有国家水平、服务国家战略需求的创新科研和产业基础项目。国家基因库以生物资源为依托，践行从资源到科研到产业的全贯穿、全覆盖模式，实现大资源、大数据、大科学、大产业的整合与应用。

此前国家基因库执行主任周欣电话会议精要

国家基因库与华大基因的关系

华大通过深圳市政府提出建构数据库的提议，得到了深圳市政府的大力支持。2011年国家发改委批复同意深圳依托华大基因研究院组建国家基因库。基因库一期的建设由国家、地方及华大基因共同投资建设，华大基因为承办方。按照目前规划基因库投入使用后将由华大基因进行运行维护。

基因组项目目的是为了整个领域未来更好地发展。在未来不会出现华大基因和其他基因公司之间的恶性竞争。分享数据、资源整合、扩大平台降低成本，达到1 1>2的效果使我们所追求的。

国家基因库战略性意义

目前世界范围内在美国、欧洲、日本有三个大的生物数据库。我国近十年来生物科技发展迅猛但是没有独立的国家级的数据库。我国生物科学家在国际期刊发表文章时无偿将数据提交给外国数据库，不但造成诸多不便，更使得国家遗传资源长期外流。建立国家级的基因库对于我国相关领域的发展有着长远的意义。

我们希望将国家基因库做成全世界第四大的基因数据库。国际三大数据库目前积累数据40-50PB。我们希望我国的基因库最终可以达到几百个PB的数据承载量。这样大的数据体量与后端产业的发展机会甚至政策制定息息相关。从针对单一类型疾病的机理的研究，到基于大人群特别是健康人群的普适性筛查，科研方法在不断改进。基于统计学的数据分析让我们可以得到更可信更有说服力的结论。当样本库数量达到一定程度时我们可以直接从数据库信息得到疾病机理、疗效的数据，而不需要像过去做很多基础性调研。未来发展方向是非常明确地：无论是科学领域还是相关产业或是政策制定都需要有提供大人群、大样本、大数据的平台进行支持。这是国家投入如此大人力物力建立这个国家级基因库的根本原因。

建立样本库的必要性

基因库计划制定时深圳市政府做了前瞻性的提案：不仅要做数据库还要样本库。所有关注的遗传信息存在于样本中，建立能够追溯数据的样本库是非常有必要的。目前国际上三大数据库均缺乏样本库的建构。我们认为样本和数据库对于未来发展都很重要。现在三大数据库虽然经过同行评审还是有错误和污染情况，如果有完善的样本追溯系统则可以人为纠错。例如育种行业，如果可以把样本及生物学信息（表型：毛色、弯直等等）整合则可以更好的指导育种。将样本和数据有机关联是我们的努力方向。

样本库构成及形式

基因库特别是样本库包括人、动植物，及代表生物多样性的各种物种。样本库由人样本及非人样本组成。样本的物种分布将由实际应用/科研需求的体量比重决定。目前已有样本中约99%为人样本，预计在未来样本扩充过程中人样本仍将占主导地位。与医学相关的人样本会占主要部分，体现了医疗、科研产业的分布情况。基因库样本数据体量目前还不能达到精准医疗/个性化医疗所需要的数据量。预期在2015年年底国家基因库样本库可以达到1000万份样本，数据库达到500PB数据量。目前国内医院领先的疾病研究科室（对某类疾病有较长的研究历史及较强研究兴趣）经过十几年积累后生物样本库的规模约10-20万份。我们希望基因库达到的1000万样本的体量体现了对未来我国科研、产业发展规模的预期。

采取多形式

保存。从活体到生殖细胞、组织、血样、DNA、RNA。每个物种的保存形式、时间、体量需要按照需求（例如是否是科研用途为主）具体决定。我们希望以尽可能全的形式保存样本，以方便今后在各个领域的应用。

对万亿市场的解读

“万亿市场”的提出是对相关市场的一个引导，也是一个相对保守的估计。目前国家基因库处于样本搭建、数据整理过程。数据产生只是第一步，数据解释分析是下一步过程。对于这样大的市场，基因库本身不可能承担所有的外延及下游的项目。相信基因库的建立会对所有与样本和数据相关的下游产业起到很好的先导作用。基因库的建构主要承担了这样的责任：对下一步科研和产业的发展方向正确的认知和布局；在平台的技术上和标准上甚至科研和产业的文化上起到先导的作用。同时基因库的建立是一个多方合作、共同摸索的过程，是过去的研究和应用没有涉及的高度。

美国国家生物技术信息中心（NCBI）

1988年，美国参议员ClaudePepper意识到信息计算机化过程方法对指导生物医学研究的重要性，发起了在1988年11月4日建立国立生物技术信息中心（NCBI）的立法。NCBI是在NIH的国立医学图书馆（NLM）的一个分支，其任务包括建立关于分子生物学，生物化学，和遗传学知识的存储和分析的自动系统；实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的先进方法的研究；加速生物技术研究者和医药治疗人员对数据库和软件的使用；全世界范围内的生物技术信息收集的合作努力。

NCBI有一个多学科的研究小组包括计算机科学家、分子生物学家、数学家、生物化学家、实验物理学家及结构生物学家，集中于计算分子生物学的基本的和应用的研究。这些研究者不仅仅在基础科学上做出重要贡献，而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织，序列的分析和结构的预测。目前研究计划的一些代表是：检测和分析基因组织，重复序列形式，蛋白domain和结构单元，建立人类基因组的基因图谱，HIV感染的动力学数学模型，数据库搜索中的序列错误影响的分析，开发新的数据库搜索和多重序列对齐算法，建立非冗余序列数据库，序列相似性的统计显着性评估的数学模型，和文本检索的矢量模型等。另外，NCBI研究者还坚持推动与NIH内部其他研究所及许多科学院和政府的研究实验室的合作。

欧洲生物信息研究所（EBI）

欧洲生物信息研究所建立于1994年，是欧洲分子生物学实验室的一部分，致力于以信息学手段解答生命科学问题。主要研究任务包括为科学界提供免费生物信息资源、促进基础研究、提供培训和传播行业尖端技术。为科学界建立和维护生物学数据库，提供免费的数据和生物信息服务，支持生物学数据的存储和挖掘，促进科技进步；通过生物信息学的基础研究继续推动生物学发展；为各个层次的科学工作者提供生物信息学培训；支持帮助边缘尖端科技成果向工业界的转化；协调欧洲生物数据的提供。

欧洲生物信息研究所拥有超过20年生物信息学研究和服务经验，是全球收集和传播生物数据、提供免费生物信息服务的欧洲节点。该所管理维护着世界最全面的分子生物数据库，其中很多是生物学家熟悉的数据库，例如ENA（核酸序列数据库），Ensembl（基因组），ArrayExpress（基因表达数据），UniProtKB蛋白质序列，InterPro（蛋白质家族/域/蛋白指纹等）和PDBe（大分子结构）。

同时，欧洲生物信息研究所管理和维护着多个大型生物信息公共数据库，跨基因组学，蛋白质组学，化学信息学，转录组学，系统生物学等，同时创建了多种工具供让研究人员分析和分享信息。欧洲生物信息研究所提供最优质的研究环境、无数跨学科的合作机会以及遍及世界各地的培训课程。

日本DNA数据库（DDBJ）

日本DNA数据库DDBJ（DNADataBankofJapan），于1984年建立，是世界三大DNA数据库之一，与NCBI的GenBank，EBI的EMBL数据库共同组成国际DNA数据库，每日都交换更新数据和信息，并主持两个国际年会－国际DNA数据库咨询会议和国际DNA数据库协作会议，互相交换信息，因此三个库的数据实际上是相同的。

DDBJ主要向研究者收集DNA序列信息并赋予其数据存取号，信息来源主要是日本的研究机构，亦接受其他国家呈递的序列，数据库通过WWW环球网，匿名FTP，e-mail或Gopher方式为广大研究人员服务。

他们开发了SQmateh工具，用来搜索基因或蛋白质中短的碱基或氨基酸序列区域，并建立了简便且易操作的SOAP（simpleobjectaeeessprotoco1）服务器。它的数据主要通过Sakura和MST工具来完成。与NCBI,EBM共同构成DNA三大数据库，这三大数据中心各自收集序列数据，并通过网络每天进行数据交换。近来三大数据库合作的项目主要包括TPA（tirdpannotation）、CON（struct）或CON（tig）和XML数据交换格式的建立。TPA是一种基于已有数据库中的核酸序列产生的注释数据，它的格式与传统的GenBank一样，只是包含了“TPA”标签。CON（struct）或CON（tig）用于存储一些片段的拼接信息，这些片段是序列长度大于350000bp的核酸被分割而产生的，但这种长度限制在2004年6月就被取消。

• 航天计量技术保障仪器设备科研工作开展	• “异味操场“频发学者:跑道应作强制检测标准
• 遥感监测2015报告发布生态环境倍受关注	• 药品零差率改革临近医疗服务利益调整变艰难