中国科学院生物与化学交叉研究中心

中文 | EN

中心概况

 
您的位置: 首页 > 科学研究 > 科研进展
科研进展

Analytical Chemistry | 朱正江课题组发表基于神经网络构建的离子淌度质谱CCS值数据库AllCCS2

发布时间:Sep 7, 2023

中国科学院上海有机化学研究所生物与化学交叉研究中心朱正江研究员团队在Analytical Chemistry杂志在线发表了题为“AllCCS2: Curation of Ion Mobility Collision Cross-Section Atlas for Small Molecules Using Comprehensive Molecular Representations”的研究论文(Analytical Chemistry, 2023, https://doi.org/10.1021/acs.analchem.3c02267)。该工作在AllCCSNature Communications, 2020, https://doi.org/10.1038/s41467-020-18171-8)的基础上,进一步利用多种类型分子表征建立了离子淌度质谱CCS值的神经网络预测模型和数据库。朱正江课题组博士研究生张浩松是论文的第一作者,中国科学院上海有机化学研究所生物与化学交叉研究中心为第一单位。

图片1.jpg

 

离子淌度质谱(IMMS)的快速发展彻底改变了小分子的多维分离和分析,并应用于代谢组学、脂质组学和暴露组学研究中。在离子淌度分离中,化合物离子在电场的作用下与中性缓冲气体相互作用,导致漂移时间的差异,并以碰撞横截面积(CCS)进行表示。因此,参考CCS数据库的建立对于IMMS成功应用于小分子分析起着关键作用。目前的CCS数据库建立具有多种策略,其中基于机器学习的训练和预测由于其高精度、高效率和低成本,作为建立参考CCS数据库的策略而受到广泛欢迎。


随着多种仪器平台的发展,如漂移管离子淌度质谱(DTIMS)、行波离子淌度质谱(TWIMS)、俘获离子淌度质谱(TIMS)等,对支持不同仪器平台的CCS数据库的需求不断增加。另一方面,基于机器学习的方法通常依赖于分子表征,例如分子描述符,来建立 CCS 值和小分子之间的关系。因此,深入解析分子并获得全面表征,也是获得预测CCS值的重要挑战。而以往的研究多依赖以分子为整体的分子描述符,或只使用简化分子输入线输入系统(SMILES)字符串,这可能会忽略分子的重要拓扑信息,使得表征分子时存在局限性。针对上述问题,本工作进一步利用多种类型分子表征(包括质谱特征、分子描述符特征和使用图卷积网络提取的图特征)建立了离子淌度质谱CCS值的神经网络预测模型和数据库AllCCS2(图1)。


图片2.jpg

1. AllCCS2模型示意图

 

AllCCS2进一步纳入了新获得的实验CCS值作为训练数据,其中包括10384CCS值记录和7713个统一的CCS值,并且使用了1737CCS值作为外部数据集用于测试模型效果。AllCCS2利用多种分子表征(包括质谱特征、分子描述符和使用图卷积网络提取的图特征)建立了神经网络预测模型,实现了卓越的预测精度,在训练集、验证集和测试集中分别实现了0.31%0.72%1.64%的中值相对误差,在准确性和覆盖率方面超越了现有的CCS预测工具(图2)。


图片3.jpg

2. AllCCS2模型效果

 

此外,AllCCS2还表现出与不同仪器平台(DTIMSTWIMSTIMS)的出色兼容性。工作中还使用代表结构相似性(RSS)和模型预测变异(MPV)综合研究了AllCCS2中来自训练数据和预测模型的预测不确定性。值得注意的是,与训练集结构高度相似且模型预测变化较低的小分子表现出更高的准确性和更低的相对误差,这能够为预测结果的应用提供参考(图3)。


图片4.jpg

3. 预测误差与RSSMPV的相关关系示意图

 

AllCCS2是支持IMMS技术应用的宝贵资源,为了方便相关领域研究者使用该工具,AllCCS2数据库和预测工具可在http://allccs.zhulab.cn/免费访问。相关技术和软件的商业用途需要联系朱正江研究员进行授权使用。


该工作得到了国家自然科学基金委、科技部、中国科学院、上海市科委等的资助。


论文链接:https://pubs.acs.org/doi/10.1021/acs.analchem.3c02267


中国科学院生物与化学交叉研究中心 版权所有 电话:021-68582285/68582282
地址:上海市浦东张江高科技园区海科路100号 沪ICP备05005485号-3