如果把细胞比作一座微型工厂,那么蛋白质就是工厂里各司其职的工人,有的负责运输物质,有的催化化学反应,有的传递信号指令(图1)。蛋白质定位研究要做的事,本质上就是搞清楚这些工人分别在哪个岗位工作。岗位正确,细胞运转井然有序;岗位一旦出错,蛋白质无法完成本职任务,细胞的正常功能就可能被打乱,很多疾病也由此埋下隐患。因此,研究者一直关心两个问题:某种蛋白质在单个细胞里通常位于哪些亚细胞结构之中,它在不同细胞或不同状态下是否会发生定位变化[1-4]。

图1 细胞工厂地图
在实际研究中,免疫荧光显微成像[1,5]是最常用的观察手段。科学家会用不同荧光通道标记目标蛋白质和细胞器,再把这些通道叠加起来,从而判断蛋白质与细胞器的大致空间关系。不过,这类数据也有天然局限。第一,一张显微图往往包含多个细胞,同一蛋白质在不同细胞中的表达强弱和分布形态可能并不一致[6],单细胞异质性很容易被整体图像掩盖。第二,公开数据中更常见的是图像级标签,也就是只标注整张图出现了哪些亚细胞位置,却缺少每一个单细胞的精确标注[7]。这样一来,模型训练容易倾向于最显著的亮区,对弱表达、复杂形态或多标签共存的细胞不够稳定。有研究明确指出,显微图像缺乏单细胞标注,仅依赖细胞群体标注难以解析单细胞尺度的定位异质性,而多数方法基于卷积神经网络(CNN)[8],容易忽略亚细胞结构之间的关联性,单细胞定位精度因此受到限制。
那么,能否在不依赖大量人工单细胞标注的前提下,让模型既理解全局信息,又能做出更精细的单细胞定位?西安邮电大学团队提出了类相关图卷积网络(CP-GCN),提供了一种可行思路。该方法的核心思想是先在图像级学习蛋白质与亚细胞类别的对应关系,同时把标签之间的共现与关联纳入建模,再利用定位线索生成单细胞伪标签,将监督信号逐步传递到单细胞层面,最终实现更精细的单细胞蛋白质定位。(详情请点击下方阅读原文)
◆ 它想解决的是:显微图有图像级标签,却缺少单细胞精确标注,导致模型很难真正看清"每一个细胞"里的蛋白质分布。
◆ 它的核心思路是:先学习整张图里的类别关系和全局线索,再借助伪标签,把监督信息迁移到单细胞层面。
◆ 它真正值得关注的地方,不只是模型分数,而是它为"低标注成本的单细胞定位"提供了一条可扩展的方法路线。
CP-GCN并不是单纯换了一个更复杂的神经网络,而是把问题重述了一遍。如果现实世界给不了大量昂贵的单细胞标签,模型还能不能先从相对粗粒度的图像级信息中学习,再一步步逼近单细胞答案?
这类问题在生命科学里很典型,很多公开显微图像数据体量不小,但精细标注非常少;如果只盯着最亮、最显眼的区域,模型就容易忽略弱表达区域、少数细胞状态和多标签共存的复杂结构。换句话说,真正难的不是看见一个亮点,而是在复杂背景下分清这个细胞里的蛋白质到底在哪里。
CP-GCN的价值就在于,它试图同时处理三件事。一是让模型更懂不同亚细胞类别之间的差别;二是让模型知道这些类别并不是彼此孤立,而是存在共现和关联;三是把这些全局知识进一步转化成单细胞层面的判断依据。方法细节、网络结构和实验流程,详情请点击阅读原文。
为什么这类方法值得关注?因为它面对的是一个非常现实的科学数据问题。数据很多,但精确标签很少;图像很丰富,但真正需要回答的问题却越来越细。单细胞蛋白质定位不只是图像分类的升级版,它背后对应的是更细粒度的生物学问题--同一种蛋白,在不同细胞、不同状态、不同扰动条件下,到底会不会出现在不同位置?
一旦定位信息能更可靠地下沉到单细胞层面,研究者就有机会从大规模成像数据中看到过去容易被平均掉的差异。例如,哪些蛋白只在少数细胞中转位,哪些定位变化只出现在应激状态,哪些异常模式可能与疾病过程相关。这也是为什么弱监督、伪标签和单细胞图像学习[8]近几年持续受到关注。

CP-GCN虽然潜力很大,但也有明显局限。首先,伪标签不等于真标签,如果模型一开始关注偏了,后续生成的伪标签就可能把误差一步步放大,尤其是在弱表达、边界模糊或多标签交叠的情况下,这个问题会更突出。同时,单细胞分割质量会直接影响后续定位结果。因为这类方法通常要先把单个细胞分出来,再判断蛋白质的位置,一旦分割不准,后面的定位分析也会受到牵连。此外,数据集偏差仍然存在。不同实验平台、成像条件、抗体质量和细胞系之间都可能有差异,这会影响模型的泛化能力。
最后,模型发现的更多是相关性线索,而不是真正证明了机制。它可以提示哪里可能异常、哪些现象值得关注,但最终仍然需要实验验证,不能直接把预测结果当作因果结论。
从发展趋势看,单细胞蛋白质定位研究还有很大的拓展空间。现有方法主要依赖静态显微图像,今后有望进一步结合蛋白质序列、转录组、空间组学以及细胞扰动等多源信息,从看见位置走向理解变化。与此同时,随着自监督学习、多模态建模等技术不断成熟,模型在弱标注条件下的表征能力和跨数据集泛化能力还有提升空间。若能进一步引入活细胞成像和时间序列数据,相关研究也将从静态定位分析扩展到动态过程刻画,更接近真实生物学场景。未来,这类方法能否真正服务于生物学研究,还取决于模型预测、不确定性评估与实验验证之间能否形成更稳定的闭环。
把显微图像从看整张图推进到看每一个细胞,本质上是在把生命科学问题问得更细。CP-GCN的意义,不只在于它提出了一个新模型,更在于它展示了一种面向现实科研场景的策略。在标签稀缺、数据复杂的情况下,怎样尽可能从现有图像里挖出更细粒度的信息。
参考文献
[1] Thul P J, ?kesson L, Wiking M, et al. A subcellular map of the human proteome. Science, 2017, 356(6340): eaal3321
[2] Christopher J A, Stadler C, Martin C E, et al. Subcellular proteomics. Nat Rev Methods Primers, 2021, 1: 32
[3] Villanueva E, Smith T, Pizzinga M, et al. System-wide analysis of RNA and protein subcellular localization dynamics. Nat Methods, 2024, 21(1): 60-71
[4] Mahdessian D, Cesnik A J, Gnann C, et al. Spatiotemporal dissection of the cell cycle with single-cell proteogenomics. Nature, 2021, 590(7847): 649-654
[5] Ouyang W, Winsnes C F, Hjelmare M, et al. Analysis of the human protein atlas image classification competition. Nat Methods, 2019, 16(12): 1254-1261
[6] Le T, Winsnes C F, Axelsson U, et al. Analysis of the human protein atlas weakly supervised single-cell classification competition. Nat Methods, 2022, 19(10): 1221-1229
[7] Husain S S, Ong E J, Minskiy D, et al. Single-cell subcellular protein localisation using novel ensembles of diverse deep architectures. Commun Biol, 2023, 6(1): 489
[8] Zhang X, Tseo Y, Bai Y, et al. Prediction of protein subcellular localization in single cells. Nat Methods, 2025, 22(6): 1265-1275
作者简介
唐浩漾:西安邮电大学副教授,主要研究方向为:人工智能与药物筛选、智能信息处理,深度学习理论及其应用。
王濛濛:西安邮电大学控制工程专业硕士研究生,主要研究方向为人工智能与生物医药计算交叉领域。
杨思聪:西安邮电大学控制工程专业硕士研究生,主要研究方向为基于深度学习的药物靶标相互作用预测。
姚欣悦:西安邮电大学机器人工程专业硕士研究生,主要研究方向为深度学习与生物图像分析。
(作者:唐浩漾、王濛濛、杨思聪、姚欣悦)
(本文来源于公众号:生物化学与生物物理进展)
附件下载: