超级计算机在探究基因奥秘、蛋白质结构、生物信息以及药物设计等方面已经成为不可或缺的工具。
例如通过超计算机对生物大分子进行深入研究,从原子水平上来掌握生物大分子的三维结构和生物功能之间的关系,并在此基础上进行药物设计,是国内外生物医药研究的重要方向之一。与此同时,利用超级计算机进行高通量虚拟药物筛选在药物研发中的作用显得日益重要,也已成为国际上药物研发不可或缺的重要组成部分。
在基因组学研究中,高通量测序是最重要的数据来源。然而,高通量测序技术的飞速发展,使得基因组学研究的数据急剧增长,急需超级计算机进行处理和分析。
◆ 虚拟筛选服务:包括基于现有数据库的分子对接、虚拟筛选结果分析等。
◆ 包括受体-配体体系、蛋白-蛋白体系、蛋白-DNA体系、蛋白-金属体系、多肽-蛋白体系、膜蛋白体系等多种体系的动力学模拟分析,以及应用CPU和GPU平台进行分子动力学模拟分析的平台服务。
◆ 生物信息学分析服务:具备存储、处理和分析全基因组从头测序、全基因组重测序、外显子测序、转录组测序、小RNA测序等海量生物信息数据的能力,以及丰富的软件和数据库资源。
围绕华大基因、上海药物研究所、军事医学科学院、天津药研院等聚焦了一批生物医药研发公司;形成了高端生物技术人才培育基地;节省了华大基因等企业和科研院所用于构建基因数据处理平台的数千万资金,成为我国生命科学、新药研发最重要的模拟和分析处理平台,推动上海药物所等单位在该领域取得诸多国际领先成果。
案例一:大规模基因数据处理分析
“天河一号”支持华大基因开展大规模生物基因处理及数据存储:开发了基于GPU的高效基因测序处理软件,并利用该软件进行了3000株水稻的基因组重测序分析,短序列比对程序相对于之前应用的CPU版本速度提高15倍,且输出格式不需要在进行转换,降低了I/O消耗;构建Hadoop平台,将原来华大拥有的100个节点规模的计算平台扩展至数千节点,大幅度缩短项目的计算时间。构建华大基因北方基因库,基因数据规模已经超过1PB。开发完成了基于天河系统的群体基因型高分辨率分析软件,使用“天河一号”的Gaea软件15个小时便能完成人类64X的WGS数据所有分析过程。
图1 全基因组测序成果
案例二:基因检测平台
基于“天河一号”构建基因检测产业化服务平台,截至2016年12月底,支持天津华大基因已完成耳聋基因检测40万例,检出遗传性耳聋1071例,并发现耳聋致病基因的携带者20688例,有效避免了下一代罹患耳聋悲剧的发生;无创产前检测项目累计检测逾9万例,检出各类染色体异常共883例;新生儿遗传代谢病检测累计检测12.3万例,检出阳性携带者436例。
图2 “天河”产前检查基因处理平台
案例三:高通量虚拟药物筛选
中科院上海药物研究所药物发现与设计中心,通过“天河一号”超级计算机运用分子对接、动力学模拟方法,从20万个化合物中挑选出25个候选分子,经电生理测试确认9个KCNQ2新激动剂,其中两个在两类动物模型中表现出优异的抗癫痫活性。国际顶级期刊Cell Research在线发表了该研究结果。
图3 KCNQ2与ztz240结合模式研究
案例四:家禽基因组生物信息分析平台
中国农业大学基于“天河一号”上搭建了家禽基因组生物信息分析平台。利用“天河一号”,目前已经成功完成了家鸭驯化研究中的大规模基因组重测序数据分析工作,一共获取了3920万个变异信息。利用这些基因组遗传变异信息,构建了家鸭的驯化历史,鉴定了蛋鸭与肉鸭的选择信号。在野鸭的驯化过程中,影响大脑和神经发育的基因受到了强烈的正向选择。此外,通过Fst分析成功定位了一个鸭白羽性状的基因。这些促进了动物驯化历史的了解,同时为未来的育种工作提供了理论基础。国际知名大数据领域杂志《GigaScience》在线发表了该研究成果。
案例五:哺乳动物演化
江苏师范大学基于天河一号超级计算机在哺乳动物演化研究领域取得重要进展。相关研究结果以“Genomicevidence reveals a radiation of placental mammals uninterrupted by the KPgboundary (《基因组证据揭示有胎盘类哺乳动物的演化辐射未受KPg界限影响》)”在国际顶级学术期刊《美国科学院学报》在线发表。
该研究首次用实证数据模拟出了长久以来国际上不同分子钟研究结果之间相互冲突这一现象,找到了解决长期以来分子钟研究结果之间及其与化石记录之间的冲突的最佳途径。研究首次用实证数据模拟出了长久以来国际上不同分子钟研究结果之间相互冲突这一现象,表明对数据集和分子钟方法与模型的不当应用与处理是不同分子钟研究结果之间相互冲突的主要原因。通过综合应用似然比统计检验和计算机模拟分析,研究人员找到解决这一难题的最佳途径,表明长期以来分子钟研究结果之间及其与化石记录之间的冲突可以通过优化分子钟模型、参数和数据集分割方式得到解决。这一研究结果为应用大规模基因组数据和分子钟方法解决长期以来生命之树中的各主要类群演化时间的争议提供新的技术途径。
国家超级计算天津中心拥有能够处理PB级甚至EB级的海量基因组数据的研究平台,在贯穿生物产业的产学研发展,加快我国生物产业发展,支撑科研以及企业用户最大化地运用基因组技术服务社会、创造效益等方面发挥了巨大作用。