新方法使用普通电脑组装基因组只需几分钟

【大纪元2021年09月24日讯】(大纪元记者李少维编译报导)麻省理工学院(MIT)和法国巴斯德研究院(Institut Pasteur)合作开发了一套全新的组装基因序列的方法,仅需使用普通的个人电脑,组装整套基因序列速度比现在最先进的方法快近百倍,所用的资源只需五分之一。

这份9月4日发表于《细胞·系统》(Cell Systems)的研究说,研究人员从语言学模型获得启发,如果按照单词、而不是使用字母汇编语言,速度会快很多。

这份研究的作者之一麻省理工学院数学教授伯杰(Bonnie Berger)说:“这种快速组装基因组的能力对于评估肠道微菌变化、细菌感染相关的疾病有重要作用,能够快速进行治疗,挽救生命。”

2003年由世界多国科学家合作组装完成第一份人类的基因序列,耗资27亿美元,花了十几年的时间才完成。之后至今,虽然基因测序成本在降低、耗时在减少,但是由于涉及的数据量大、算法复杂,现在仍然需要很强大的电脑、耗时几天才能完成。

伯杰和同事借鉴了语言学的模型,在现有德•布鲁因图(de Bruijn graph)的基础上,他们开发了最小空间化德•布鲁因图(minimizer-space de Bruin graph,简称mdBG),使用核苷酸短序列,而不是单个的核苷酸。

“我们的最小空间化德•布鲁因图只储存整套核苷酸的一小部分,但是却能保留整个基因组的结构,所以这个方法比传统的德•布鲁因图效率高出好几个数量级。”

研究人员用这个新方法挑战组装果蝇基因、以及美国太平洋生物科学公司(PacBio)提供的人体基因数据,并以现今为止最准确的HiFi数据作为标准。

结果显示,使用这个新方法所花的时间比其它基因组装算法少了33倍,电脑内存(RAM)少用了8倍。从软件的角度比较,这套算法比Peregrine组装法快了81倍,内存少用18倍;比hifiasm组装法快338倍,内存少用19倍。

之后,研究人员还用这个方法为661,406个细菌基因组建立索引,这份数据是目前为止同类中最大型的一份。他们发现,扫描整个数据集找到抗菌耐药基因只需13分钟,如果用常规的序列对照方法则需要7个小时。

责任编辑:朱涵儒