布鲁克:利用CCS检测和深度学习研究4D-蛋白质组学

2021年4月02日 09:06:54 来源: 布鲁克质谱
收藏到BLOG

  近日,Matthias Mann教授团队和Fabian Theis教授组*共同在《Nature Communication》上发表开创性成果,标题为“Deep learning the collisional cross sections of the peptide universe from a million experiment alvalues”。(doi.org/10.1038/s41467-021-21352-8)1

  * Matthias Mann教授在德国马克斯·普朗克生物化学研究所和丹麦哥本哈根大学Novo-Nordisk基金会蛋白质研究中心担任双重职务。Fabian Theis教授在慕尼黑亥姆霍兹中心的德国环境卫生研究中心和德国慕尼黑大学数学系担任双重职务。

  研究亮点

  * 在timsTOF Pro系统上,通过捕集离子淌度(TIMS)和平行累积连续碎裂(PASEF)技术,获得了5种生物体蛋白质组全裂解液的100多万个CCS数据。

  * 使用MaxQuant处理360多个LC-TIMS-MS/MS数据得到的大规模CCS数据。

  * 通过CCS值比对,在重复测量的347885个肽段CCS值中,变异系数中值(CV)为0.4%,这表明了TIMS的CCS值在长时间、不同仪器间的运行中具有非常好的重现性。

  * CCS数据的精确度(CV<1%)足以建立一个深度递归神经网络。该网络仅基于蛋白质基因组肽段序列便可以准确预测ccs值(r>0.99)。

  * 利用深度学习功能,可以预测任何肽段和生物体的CCS值,为先进4D-蛋白质组TIMS/PASEF工作流程奠定基础,实现对肽段新一维度CCS信息的充分利用。

  这篇文章将timsTOF Pro上测得的CCS值作为肽段离子固有的重要特征,用于提高4D-鸟枪法蛋白质组学分析中肽段和蛋白质鉴定的可信度。由于基于质谱的蛋白质组学非常依赖获得谱图与蛋白质序列数据库的匹配准确度,因此准确的CCS值有利于缩窄候选列表。这对于在复杂基质,例如在血浆蛋白质组学、肽组学、免疫肽组学或宏蛋白质组学等需要准确测量低肽段信号的高灵敏度蛋白质组学来说至关重要。

图1:timsTOF Pro上测得CCS值的精确度、准确度与可利用度。

  文章第一作者Florian Meier博士现在是德国耶拿大学医院功能蛋白质组学的助理教授,他说:“通过timsTOF Pro获得的肽段CCS值的规模和精确度足以仅透过肽段序列去训练深度学习模型并准确地预测其CCS值。肽段中包含的氨基酸与其CCS值之间关联性,使其具有极大的潜力可以提高蛋白质鉴定的可信度。由于肽段的CCS值完全由其线性氨基酸序列决定,因此它们具有高度可预测性.通过模型的深度学习,人们可以准确预测此前未检测肽段的CCS值。我们从5种生物体的蛋白质裂解液中获得了超过200万个CCS值,其中包括大约50万个独特性肽段,成为迄今为止最全面的CCS数据集。”

图2:肽段CCS值预测的深度学习流程。

  Matthias Mann教授补充说:“源代码是公开可用的,这样可以加快人类肽库的建立和预测模型的进一步开发。概念上,我们的CCS模型可以使dia-PASEF减少数据库建立的工作量,从而使工作更快速、成本更低。此外,预测的CCS值能利用诸如Pan Human Library等的文库 (PanHuman Library包含10,000多种人类蛋白质)来进行靶向蛋白质组学分析。

图3:使用TIMS和PASEF进行的大规模CCS测量。

  a)通过消化,预分级,和色谱分离的全细胞蛋白质组的提取流程。以PASEF模式运行的TIMS-QTOF质谱仪。b)本研究中按生物体分类的CCS数据。c)肽段C末端氨基酸的频率。d)肽段N末端氨基酸的频率。e) 559,979个独特数据点的分布,包括修改序列和电荷分布,在CCS与m/z二维图按电荷状态进行颜色编码,CCS为纵坐标,m/z为横坐标,m/z和CCS的密度分布在顶部和右轴上。此数据为源数据文件提供。

  Fabian Theis教授表示:“由于深度学习,特别是使用递归神经网络需要大量样本来进行预测。因此当Matthias跟我商量共同进行相关研究时,我感到非常高兴,我们可以仅仅基于肽段的序列就能够预测肽段的生化特性。我个人很喜欢的一点是,我们可以对过去从未检测的肽段进行CCS值的预测与估算。”

  布鲁克蛋白质组学副总裁Gary Kruppa博士评论说:“这项研究展示了TIMS-PASEF方法中准确的CCS值用于无偏差、深度4D-蛋白质组学的巨大潜力。timsTOF平台的稳定性、高通量和超高灵敏度等特点,非常适合转化蛋白质组学研究。大规模肽段的CCS值在蛋白质鉴定和定量可信度方面提供了重要优势。此外,CCS值提高鉴定可信度的益处同样也适用于代谢组学,脂质组学和糖组学等多组学工作流程。对于我们布鲁克快速增长的timsTOF用户群来说,这是令人激动的时刻。”

  参考资料

  1. Meier, F., Köhler, N.D.,Brunner, AD. et al. Deep learning the collisional cross sections of the peptideuniverse from a million experimental values. Nat Commun 12, 1185 (2021). http://doi.org/10.1038/s41467-021-21352-8