国产AI蛋白质结构预测再现突破,用单条序列解决3D结构,彭健团队:“AlphaFold2以来最后一块拼图补齐了”

计算生物领域,出现一则最新进展:

AI 预测蛋白质 3D 结构,仅通过单条蛋白序列就能搞定。

也就是说,AI 预测蛋白质结构,可以不需要蛋白质进化过程中的同源信息。一些人工设计的蛋白质药物和工业合成用酶,也可以通过 AI 预测 3D 结构,确定其对人体的功能。

达成这一成就的 AI 算法名为OmegaFold,在最近的全球持续蛋白质预测竞赛中,整体预测能力已经与 DeepMind 此前开发的AlphaFold2,和华盛顿大学开发的RoseTTAFold不相上下,甚至有些指标优于后两者。

研究成果来自国内 AI 创新药物公司华深智药,一家成立不到一年的中国初创企业,孵化自张亚勤旗下的清华大学人工智能产业研究院。

据华深智药披露,其最新开发的OmegaFold算法,实现了用单一蛋白质序列预测蛋白质 3D 结构的能力。

而且在测试准确度上,和 AlphaFold2 和 RoseTTAFold 不相上下。

同时在测试速度,快于 AlphaFold2 和 RoseTTAFold。

具体测试过程,是这样的:

研究团队分别对 CASP 和 CAMEO 的蛋白质数据集进行了测试,其中 CASP 数据集有 29 个蛋白质,CAMEO 数据集有 146 个单链蛋白质。

(PS:这里的 CASP 和 CAMEO,是蛋白质结构预测领域最重要的两项比赛)

作为对比,在测试中,研究团队在上 OmegaFold 仅输入单一蛋白质序列,对 AlphaFold2 和 RoseTTAFold,则是在默认模式下输入多重序列(MSA)。

最终,CAMEO 数据集测试,OmegaFold 预测的蛋白质 3D 结构,平均局部距离差异测试(LDDT:全球结构预测领域主要评价指标)得分为 0.82。

而 AlphaFold2 与 RoseTTAFold 的得分,分别是 0.75 和 0.86。

CASP 数据集的测试结果,OmegaFold 的平均 TM 分值 *(评估蛋白质结构拓扑学相似性的常用指标)为 0.79,与 AlphaFold2 不相上下,不过略低于 RoseTTAFold 0.81 的分数。

研究团队表示,从结果来看,采用单序列进行预测的 OmegaFold,已经整体达到或超越了采用多序列预测的 AlphaFold2 和 RoseTTAFold。

而且,研究团队还发现,因为只采用单一序列预测蛋白质的 3D 结构,因此在 AI 算法的训练和预测速度上,也有很大提升,蛋白质结构预测时间,可以被压缩到数秒内。

Helixon 团队还同时发现,仅通过氨基酸序列来预测三维结构,不仅减少了同源序列所带来的噪音,还能够提高训练和预测的计算速度,使得蛋白质结构可以在数秒内被预测完毕。

基于此,研究团队用 OmegaFold,对两类缺乏蛋白质同源进化信息的蛋白质,抗体蛋白质和孤儿蛋白质进行结构预测。

结果发现,OmegaFold 在这两类蛋白质,尤其是抗体的关键功能区结构预测,有突破性的进展。

而这类缺乏蛋白质同源进化信息的蛋白质,恰好是 AlphaFold2 和 RoseTTAFold 无法到达的盲区。

对此,华深智药创始人彭健认为,这项研究成果意味着:

蛋白质 3D 结构预测,并不需要同源序列的存在,也不需要知道任何进化信息。

而华深智药表示:

OmegaFold 的出现补全了蛋白质三维结构预测的最后一块拼图。

另外,华深智药还披露了 OmegaFold 背后的技术细节。

具体来看,OmegaFold 能够用单一序列取代多重同源序列,是因为研究团队采用了一种,基于几何信息的深度学习模型——OmegaPLM。

该学习模型可以根据蛋白质的序列信息,预测原子坐标,同时经过训练学习,预测原子在三维空间的距离。

在不断的迭代之后,可以让这些预测出来的原子坐标和距离,满足基本的几何定律,最终形成蛋白质结构。

OmegaFold 的能力,和背后的技术原理整明白了,最后还剩下一个问题:

公开信息显示,华深智药是一家 AI 创新药物研发商,成立于 2021 年 6 月,总部位于北京,最早是由张亚勤旗下的清华大学人工智能产业研究院孵化而来。

早在去年 12 月份,华深智药开发的 HeliXonAI 算法,就在全球持续蛋白质结构预测竞赛 CAMEO 上,实现对 AlphaFold2 的反超,以 84.0 的 lDDT 预测精确度得分,刷新了 CAMEO 竞赛得分记录。

一家成立半年左右的初创企业,出道即巅峰。

而巅峰背后的关键先生,就是华深智药创始人彭健。

彭健,伊利诺伊大学厄巴纳 - 香槟分校(UIUC)计算机科学系及医学院终身教授,计算生物领域的知名大牛,机器学习与蛋白质结构和功能预测的顶级科学家。

他在博士期间设计的著名算法 RaptorX,以及在 UIUC 任教期间设计的 DeepContact 算法,多次在 CASP 比赛中获得领先的成绩,并很早就尝试将深度学习的技术引入这个领域。

彭健也因此在 2016 年获得有"诺奖风向标"之称的斯隆研究奖,并于 2020 年获得计算生物领域最高奖奥弗顿奖(Overton Prize),成为该奖项 20 年来唯一的华人得主。

去年 6 月,彭健看到 AI 在生物制药领域的应用前景,于是就在清华大学人工智能产业研究院孵化之下,正式创办华深智药。很快便完成了千万美元级天使轮融资。

同时在今年 6 月,成立一周年之际,华深智药又完成由五源资本领投,高榕资本、Neumann Capital 以及三家天使轮投资方襄禾资本、高瓴创投、清智资本跟投的 A 轮融资,融资金额近 5 亿元人民币。

参考链接:

[ 1 ] https://helixon.s3.amazonaws.com/omegafold.pdf

[ 2 ] https://twitter.com/peng_illinois/status/1538536909814874113

posted @ 22-07-26 05:57 作者:admin  阅读:
彩名堂平台,彩名堂官网,彩名堂网址,彩名堂下载,彩名堂app,彩名堂开户,彩名堂投注,彩名堂购彩,彩名堂注册,彩名堂登录,彩名堂邀请码,彩名堂技巧,彩名堂手机版,彩名堂靠谱吗,彩名堂走势图,彩名堂开奖结果

Powered by 彩名堂 @2018 RSS地图 HTML地图