生物学领域重磅突破:Evo-2模型首次实现基因组从头设计

  • 2026-01-07 06:16:48

2025年2月19日,生物学界迎来了一项具有里程碑意义的突破——Arc研究所的Patrick Hsu和Brian Hie团队,携手斯坦福大学、加州大学伯克利分校、加州大学旧金山分校及英伟达的科学家,共同发布了有史以来最大的生物学人工智能模型——Evo-2。这一模型不仅规模庞大,其训练使用了超过2000个英伟达H100 GPU,更重要的是,Evo-2为科研人员提供了完全开源的访问,使全球的研究者都能利用这一前沿工具。

Evo-2的核心功能在于其对12.8万个基因组DNA序列的训练,涵盖从单细胞生物如细菌和古菌到复杂的真核生物,包括植物和人类。该模型能够理解、建模和设计遗传信息,甚至能从头编写整个染色体,承诺准确预测各种基因突变的影响。这在助力生命科学研究,特别是医疗健康和生物工程领域,有着重要的应用前景。

这一模型的前身为Evo,最早在2024年11月15日发表的一篇题为《Sequencing modeling and design from molecular to genome scale with Evo》的论文中提出。Evo专注于原核生物和噬菌体的基因组,能够在DNA、RNA和蛋白质层面进行预测和生成。然而,Evo-2在前者的基础上进一步扩展了空间,以全基因组的复杂性挑战包括真核生物在内的各种生物体的基因组。

令人瞩目的是,Evo-2采用了Striped Hyena 2架构,这是一种新的卷积混合架构,结合了多种操作符,相较于传统的Transformer架构,在训练速度和推理效率上具备显著优势。具体而言,Evo-2的训练过程分为两个阶段:预训练阶段使用8192碱基对的上下文窗口专注于功能性遗传元件,而中训练阶段则扩展到100万碱基对的上下文,用于学习真核生物中基因之间长距离的相互作用。这一创新设计使得Evo-2能够准确捕捉基因组的复杂性,从而在生成和设计方面表现出强大的能力。

经过验证,Evo-2展示了其在跨生命领域基因组生成方面的优越性。该模型能够以较高自然性和连贯性生成线粒体基因组序列、单细胞生物(如细菌)基因组以及真核生物(如酵母)的整个染色体序列。通过推理时搜索的策略,Evo-2还能在推理过程动态优化生成的结果,提高了生成过程的可控性。

在应用前景方面,Evo-2蕴含着巨大的潜力。在医疗保健和药物研发领域,该模型有可能揭示人类疾病的遗传机制,促进新药的研发,从而减少临床实验和动物实验的时间与成本。在农业应用中,Evo-2可助力科学家开发更适应气候变化的高产作物。在合成生物学领域,更是能助力设计新型生物燃料及环境友好的材料。

值得注意的是,Evo-2的产生也引发了一些安全性考量,团队从基本数据集中特意排除了可能感染人类和其他复杂生物的病原体,确保工具的安全有效。

Evo-2的发布,不只是一个技术层面的突破,更是对未来生物科学的重要推动。这种可编程的模型在未来或将为生命科学的多样性提供一个“应用商店”,帮助科研人员快速从原理到应用的转化,促进生物工程和合成生物学的快速发展。

在这里,我们看到人工智能技术与生命科学的深度融合,为科学研究和工业应用带来了新的可能性。对于希望在AI与生物学领域创新的研究者和企业来说,使用像Evo-2这样的工具,将极大地推动他们的研究和开发进程,带来前所未有的效率和准确性。

总之,Evo-2不仅是深度学习与生物学结合的前沿成果,也是在全球范围内推动基因组学研究的强大力量。这一平台的开源特性,更为全球科研人员铺设了通往未来的快速道路。拥抱这一新技术,或许正是通向未来生物科学的新起点。

解放周末!用AI写周报又被老板夸了!点击这里,一键生成周报总结,无脑直接抄 → https://ai.sohu.com/pc/textHome?trans=030001_yljdaikj返回搜狐,查看更多

友情链接
Copyright © 2022 中国世界杯_多哈世界杯 - dianxinto.com All Rights Reserved.