新闻资讯
JCIM丨酶成品英国AI研发中心在蛋白质热稳定性预测领域实现重大突破
企业动态
发布时间:
2025-02-28
浏览次数:

近日,酶成品英国AI研发中心和英国伯明翰大学刘健教授研究团队共同在国际知名学术期刊Journal of Chemical Information and Modeling(影响因子5.7)发表了题为“ ProCeSa: Contrast-Enhanced Structure-Aware Network for Thermostability Prediction with Protein Language Models”(ProCeSa: 基于对比增强结构感知网络进行蛋白质语言模型的热稳定性预测)的文章,展示了酶成品研究团队在AI辅助合成生物学工程领域的实力和最新研究成果。

原文链接:https://doi.org/10.1021/acs.jcim.4c01752

JCIM丨酶成品英国AI研发中心在蛋白质热稳定性预测领域实现重大突破

1、研究项目简介

蛋白质热稳定性预测在生物技术、酶工程和药物设计等领域具有重要意义。传统的实验方法虽然可靠,但往往耗时费力且成本高昂。本研究项目提出了一种新型的蛋白质热稳定性预测模型ProCeSa(Protein Contrast-enhanced Structure-aware),旨在直接从蛋白质序列中准确预测其热稳定性。

ProCeSa创新性地将蛋白质语言模型(PLMs)与对比学习相结合,无需显示其三维结构即可捕获序列和结构信息。模型首先利用预训练的PLMs生成初始序列表示和接触图,并通过图卷积网络(GCN)学习结构特征。然后将结构和序列表示分别作为正样本和锚点表示,同时通过策略性的氨基酸采样构建负样本表示。这种方法能够帮助模型学习影响蛋白质稳定性的序列和结构特征之间的内在关系。

与现有方法相比,ProCeSa既避免了对详细结构信息的依赖,也克服了基于结构预测方法的潜在不准确性。这项研究不仅推进了计算生物学的发展,也为蛋白质工程和设计提供了新的思路。其实际应用价值显著,可能为工业酶的设计与筛选和治疗性蛋白质开发等领域带来突破性进展。

2、ProCeSa算法梳理

ProCeSa算法首先利用预训练蛋白质语言模型(PLMs)对输入序列进行特征编码,通过多层感知机(MLP)将高维特征映射到学习空间,获取序列的隐含表示。在结构信息建模方面,利用图卷积神经网络(GCN)构建了基于氨基酸残基间相互作用的空间特征提取器,并引入了对称归一化的接触图(从蛋白质语言模型中提取),有效捕获了残基间的局部和全局结构关系。

JCIM丨酶成品英国AI研发中心在蛋白质热稳定性预测领域实现重大突破

ProCeSa结构图

算法的核心创新在于设计了基于三元组的对比学习策略,通过精心构造的正负样本对进行表征学习。具体而言,从序列表征和结构表征中采样固定数量的氨基酸残基,将具有相同类别标签的残基对作为正样本,而选取具有不同类别标签的残基构建负样本集。这种策略不仅增强了模型对序列-结构关联性的理解,还提高了对不同热稳定性特征的区分能力。

在特征聚合阶段,ProCeSa采用了自注意力池化机制,通过可学习的注意力权重自适应地整合不同长度蛋白质的氨基酸特征。最终,算法通过联合优化对比损失和预测损失,在保持模型泛化能力的同时,实现了序列到热稳定性的预测。这种多层次的特征学习和优化策略使ProCeSa能在不依赖复杂结构信息的情况下,准确预测蛋白质的热稳定性。

3、实验结果

本研究在HotProtein数据集上对比了ProCeSa和其他5个算法。

(1)分类任务:在HotProtein数据集的各个子数据集上,ProCeSa模型表现优于其他基线模型(Table 1)。通过结合先进的ESM-C模型与对比学习,ProCeSa精度进一步得到了提升。

HP-S2C5子数据集上的ROC曲线(Figure 2)显示出使用了对比学习的ProCeSa精度优于其他模型。对HP-S2C5中五个蛋白质类别的单个ROC曲线进行分析(Figure 3),显示出不同的趋势,ProCeSa-ESM-C在所有类别中表现出均衡的精度,表明了其稳健性。大多数模型在低温类别中实现了最高的AUC,而ProCeSa-ESM-C在高温类别中表现最佳,这可能是由于ESM-C能够更好地捕捉高温蛋白质相关的特征。

JCIM丨酶成品英国AI研发中心在蛋白质热稳定性预测领域实现重大突破

JCIM丨酶成品英国AI研发中心在蛋白质热稳定性预测领域实现重大突破

详细数据如下表:

JCIM丨酶成品英国AI研发中心在蛋白质热稳定性预测领域实现重大突破

 (2)回归任务:在HotProtein数据集的各个子数据集上,使用了ESM-C和对比学习的ProCeSa得到了最高预测精度。这些结果凸显了ESM-C在提高表征质量方面的有效性,以及对比学习能够改进序列和结构特征的建模。
详细数据见下表:

JCIM丨酶成品英国AI研发中心在蛋白质热稳定性预测领域实现重大突破

(3)泛化能力:在DeepStabP数据集上,ProCeSa-ESM-C模型的表现与基于ProtT5-XL PLM的DeepStabP模型相当,但参数数量显著减少(600M vs 3B),体现了该模型的通用性。

4、总结

ProCeSa 是一个全新的蛋白质热稳定性预测模型,它创新性地将蛋白质语言模型与对比学习相结合,在不依赖详细3D结构数据的情况下实现高准确度预测。该模型采用序列-结构双流特征提取架构,通过预训练PLMs和MLP提取序列特征,同时利用GCN构建氨基酸残基关系图获取结构信息。模型的核心在于创新设计的三元组对比学习框架,通过构造序列-结构正样本对和策略性负样本采样来增强特征表示能力。最后,采用自注意力池化机制实现了不同长度蛋白质的统一表示,并通过端到端训练达成了准确的热稳定性预测。实验表明,ProCeSa在HotProtein数据集上表现优于其他方法,可以成为蛋白质工程和设计的有力计算工具。

5、关于酶成品

酶成品致力于成为绿色活性原料全球领导者,采用新一代合成生物技术,专注于实现肽、蛋白、糖、核酸、脂类等生物活性原料的绿色生产。公司依托创业团队20多年的科研积累和产业经验,建立了国内领先的多学科交叉技术平台,已实现司美格鲁肽、S-玻色因、麦角硫因、依克多因、胶原三肽、母乳低聚糖、神经酰胺、NAD+、NMN、蓝铜肽、肌肽、谷胱甘肽等数十种绿色活性原料的规模化生产,累计为功效护肤、生物医药、营养健康、动物营养等领域超2000家知名企业提供高品质绿色活性原料。

酶成品在研发投入、规模和产值等方面位居国际同类企业前列,承担多项省市重点研发项目,已申请技术发明专利近200项,获得国家专精特新小巨人企业、国家高新技术企业、广东省博士后创新实践基地、深圳市孔雀团队、深圳市潜在独角兽企业、珠海市创新创业团队、甘肃省专精特新中小企业等国家、地方各类称号十余项,获评2024年深圳市高成长企业20强、2023年《哈佛商业评论》高能创新团队奖、2022年深圳高成长企业TOP100等多项荣誉。


参考资料:

- 代码:https://github.com/notabigfish/procesa

- 原文:Zhou, F.; Zhang, S.; Zhang, H.; Liu, J. ProCeSa: Contrast-Enhanced Structure-Aware Network for Thermostability Prediction with Protein Language Models. J. Chem. Inf. Model. 2025, DOI: https://doi.org/10.1021/acs.jcim.4c01752