新年新征途,科研不止步!
今天要和大家分享的是一篇单细胞蛋白组与转录组联合分析的研究文章。众所周知,面对复杂疾病和前沿科学问题,单一组学往往难以全面刻画生物学本质。而通过多组学联合分析,从不同层面整合信息,能够更深入地洞悉数据背后的规律,真正做到事半功倍。
今天我们给大家介绍的是2025年发表的《Science》的《Mapping early human blood cell differentiation using single-cell proteomics and transcriptomics》,
看顶级期刊如何利用多组学技术,揭秘人类早期血细胞分化的奥秘!
首先我们来了解下scp-MS,scp-MS(single-cell proteomics by mass spectrometry)通过流式细胞术(FACS)等技术分选单个细胞,将其沉积到微量反应容器(如 384 孔板)中,加入裂解缓冲液(含蛋白酶抑制剂、还原剂等)破碎细胞、提取蛋白质(图 1B)。用胰蛋白酶将蛋白质水解为肽段,采用 TMTpro 等同位素标记技术进行样本 multiplexing(可同时分析 14-16 个单细胞),并加入 “载体通道”(多细胞提取物)提升肽段离子丰度,辅助质谱识别。通过液相色谱 - 质谱联用(LC-MS/MS)系统(如 Orbitrap Eclipse Tribrid)分离肽段,结合实时搜索辅助采集(RETICLE)等方法,提高肽段鉴定效率和覆盖率(图 1B)。
人类 HSPC 的单细胞蛋白质组学数据集构建
研究人员从 6 名健康供体中分离出 CD34 + 骨髓 HSPC,采用两种 FACS 分选策略(富集特定亚群、随机采样全 HSPC 群体),通过 384 孔板 scp-MS workflow 结合 RETICLE 采集法开展实验,并利用 SCeptre 工具完成数据过滤、批次校正和归一化等处理。最终成功构建了包含 2506 个细胞、2934 种蛋白质定量数据的数据集,尽管平均每细胞存在 68% 的缺失值,但数据质量已优于此前同类研究。经处理后,UMAP 嵌入未显示 TMT 通道、供体或平板相关的批次效应,主成分回归也验证了技术与生物变异占比极低,表明数据可靠性良好。通过 UMAP 聚类分析,研究人员清晰重现了 HSPC 分化层级,HSC 与 MPP 主要位于层级顶端,呈混合异质性群体,下游依次分布 LMPP、GMP、CLP 等分支,部分 MEP 与 GMP 聚类,而 CMP 则形成包含 BaEoMa 的异质性集群,这与已知的 HSPC 分化特征相符。同时,研究人员发现 Endomucin(EMCN)可作为长期 HSC 的替代表面标志物,其特异性优于传统的 CD90 和 CD49f。针对传统 FACS 分选 MEP 存在杂质的问题,研究人员新增了包含 922 个细胞的 scp-MS 数据集,通过 CD71 和 BAH-1 标志物成功精准分离出真实 MEP,这些 MEP 高表达 S100A4 和 RAP1B,而低 BAH-1 水平的假 MEP 则高表达 ELANE 和 MPO 等粒细胞分化相关蛋白,证实了低维 FACS 标志物组合在解析细胞异质性时的局限性(图 1)。
图1.流式细胞术分选的人类造血干祖细胞(HSPCs)的单细胞蛋白质组学数据集
无监督聚类揭示不同的细胞分化阶段和功能性蛋白质协方差
研究人员对 scp-MS 数据进行无监督聚类,得到 11 个集群,根据 FACS 信息和蛋白质丰度命名为 HSC、EMP、LMPP、GMDP 等,其中 Progenitors 1 和 2 包含 HSPC 向 EMP 与 LMPP 的早期分支。将这些集群的蛋白 log2 倍变化与外部 bulk 蛋白质组学数据对比,发现 scp-MS 集群与对应 bulk 群体相关性最高,如 HSC 集群的相关系数达 0.74,验证了定量准确性,且中位数比率归一化效果优于总信号归一化。差异蛋白分析揭示了各集群的特异性标志物:HSC 高表达维持染色质致密和静息状态的 H1F0;红细胞分化以 CA1 为特征标志物;BaEoMa 高表达 CD123、PRG2 和 CLC;GMDP 则富含 AZU1、ELANE、MPO 等嗜天青颗粒标志物;MDP 高表达 LGALS1、PLD4、LYZ 和 HLA-DRB1;CLP/pre-pDC 与 MDP 和 pB 共享部分标志物,但 LYZ 水平更低;pB 则以 CD10 和 TOB2B 高表达为特征。对高变异蛋白的聚类及 GO/KEGG 富集分析显示,HSC 集群富集糖酵解和氧化应激响应相关蛋白,反映了其代谢特征和应激保护机制,其他集群的富集功能也与对应分化阶段的生物学特性高度契合(图 2)。
图2.无监督聚类揭示不同的细胞分化阶段及功能性蛋白质共变异
人类造血干/祖细胞(HSPC)群体的转录组学和蛋白质组学联合分析
为实现多组学整合分析,研究人员构建了包含 9086 个细胞的 CITE-seq 数据集,经 totalVI 批处理校正和 Azimuth 注释后,成功复现 HSPC 分化层级。随后采用 GLUE 工具将 scp-MS(蛋白质)与 CITE-seq(mRNA)无配对数据进行整合,生成联合 latent space,其轮廓系数为 0.03,两种模态的细胞类型分离度在整合前后保持一致,生物信号未丢失。通过 nearest neighbor matching 将 CITE-seq 的 mRNA 标签转移至 scp-MS 数据,研究人员不仅细化了 Progenitors 1 和 2 的注释,明确其分别包含 EMP 和 LMPP 分支,还发现了早期分支标志物,如 LMPP 高表达 CD45RA、GAPDH 和 LCP1,EMP 高表达 SOD2 和 ALDH1A1。此外,在 MDP 集群中成功识别出此前 scp-MS 单独聚类未发现的 pre-mDC 亚群,该亚群以 CD123+、LYZ 低表达为特征,且 S100A11 和 COTL1 表达模式独特(图 3)。
图3.人类造血干/祖细胞(HSPC)群的转录组学与蛋白质组学单细胞多组学分析
联合潜空间上的轨迹分析重现了造血干/祖细胞的分化过程
研究人员以联合 latent space 为输入,利用 CellRank 工具计算伪时间和细胞命运概率,开展轨迹分析。结果显示,联合数据集能更准确预测 Late Eryth、GMDP、pre-mDC 等分化终点,而单一模态(scp-MS 或 CITE-seq)无法完全复现这些终端状态。谱系分配准确性也显著提升,CLP、pre-pDC、MDP 和 pre-mDC 的正确分配率从 RNA 层面的 86%、蛋白层面的 65% 均提升至联合层面的 91% 以上。对早期亚群的 mRNA 表达分析发现,HSC 静息相关基因 ATF3、KLF2 与分化相关基因 CDK6、SOX4、APEX1 的表达变化与伪时间高度相关,GSEA 富集分析揭示了抗原呈递、前列腺素代谢、核小体组装、氧化磷酸化等 HSC 维持与分化相关通路,验证了该分析方法的有效性(图 4)。
图4.联合潜空间上的轨迹分析重现造血干/祖细胞(HSPC)分化过程
蛋白质水平的信息揭示了关于造血干细胞静息和分化的额外见解
研究人员将蛋白与 mRNA 的相关性进行对比,发现二者在谱系特异性阶段(如 Late Eryth)相关性较高(r≈0.7),但在 HSC 等未成熟亚群相关性极低(r=0.19-0.24)。蛋白层面揭示了诸多 mRNA 层面未富集的独特生物学过程,HSC 中富集糖酵解、氧化应激保护(SOD1、SOD2、PRDX1、TALDO1)及染色质结构调控(H1F0、HP1BP3、H2AFY、HMGA1)相关蛋白,这些蛋白在早期 HSC 分化过程中的表达变化仅能通过 scp-MS 检测到。此外,核纤层蛋白 LMNB2 的 mRNA 与蛋白水平差异显著,提示 scp-MS 在揭示细胞形态相关信息上具有优势。为验证这些蛋白的功能重要性,研究人员通过 CRISPR/Cas9 介导敲除 SOD1、TALDO1 和 H1F0,结果显示,TALDO1 和 H1F0 敲除组的 LTC-IC 频率分别降至 1/42 和 1/80(对照组 AAVS1 为 1/14),CFU 数量轻度减少但菌落类型比例不变,表明其主要影响 HSC 功能;而 SOD1 敲除导致 HSPC 几乎无法形成集落,粒细胞分化受阻,LTC-IC 频率降至 1/153,SOD2 敲除重现类似表型,揭示人 HSPC 对氧化应激的依赖,这与小鼠模型存在物种差异(图 5)。
图 5. 造血干细胞的静息状态与分化过程在蛋白质水平上呈现不同特征
基于蛋白质组学的轨迹分析揭示了蛋白质水平特异性的功能共变
针对特定谱系的蛋白质轨迹分析发现,Late Eryth 轨迹持续高表达 ALDH1A1,且 S100A4、PRDX2、CASP6 表达逐步升高,还检测到巨核细胞祖细胞标志物 RAP1B 的瞬时高表达;GMDP 轨迹高表达 ELANE、MPO,且富集蛋白糖基化、内吞作用相关蛋白(如 B2M)。尽管 Late Eryth 谱系中 mRNA 与蛋白相关性达 0.7,但仍存在差异,如核糖体蛋白相关过程仅在蛋白层面富集;GMDP 谱系中 B2M 的 mRNA 与蛋白表达趋势相反,但 B2M 蛋白丰度与其 MHC I 复合物伙伴 HLA-A、HLA-B 高度共变。联合 mRNA-蛋白共变分析显示,低 mRNA-蛋白相关性的蛋白,其丰度更易被功能相关蛋白(同一 KEGG 通路或复合物成员)解释,如糖酵解通路的 ALDOA 与 GPI、肌球蛋白复合物的 MYL12B 与 MYH9、MHC II 复合物的 HLA-DRA 与 HLA-DRB1 等。研究人员将结果与 59 个乳腺癌细胞系的 bulk 数据对比,mRNA - 蛋白相关性排名的正相关系数为 0.35,验证了该共变特征的普遍性(图 6)。
图6.蛋白质水平轨迹分析揭示蛋白质水平特异性功能共变异
scProtVelo 模型模拟了分化过程中的翻译动态
基于mRNA与蛋白表达的时间延迟特性,研究人员开发了 scProtVelo 模型,通过学习基因特异性转录、翻译、mRNA与蛋白降解动力学参数,解释二者的动态关系。将其应用于红细胞和 pre-mDC 分化轨迹,发现模型能准确推断基因的激活 / 抑制状态,预测结果显著优于随机排列,且聚集 top100 高可能性基因的蛋白速度信息,成功复现了正确的细胞分化方向。与之形成对比的是,传统 RNA velocity 在红细胞轨迹中出现 Late→Early Erythroid 的错误反向流。与线性模型相比,scProtVelo 对蛋白丰度的解释方差提升 40%(中位 R² 从 0.36 升至 0.50),除反相关的 mRNA - 蛋白对外,几乎所有基因的建模准确性均得到提升,充分证明了该模型在揭示 mRNA 与蛋白复杂关系、解析细胞分化动态方面的优势(图 7)。
图7. scProtVelo 模型解析细胞分化过程中的翻译动力学
联用单细胞转录组和单细胞蛋白质组学(scp-MS)能优势互补,整合后形成的联合潜空间可更精准预测造血分化终点,提升谱系分配准确性(如 CLP、pre-pDC 等谱系正确率最高达 95%)。二者在分化成熟细胞中相关性较高,未成熟干细胞中相关性低,能分别捕获转录组和蛋白质组层面的独特信息,挖掘出仅蛋白质水平富集的功能关键蛋白(如 TALDO1、H1F0)。还可通过 scProtVelo 模型解析翻译动力学,更准确还原分化时空动态,解释蛋白质变异的能力较线性模型提升 40%,为单细胞多组学研究提供更全面的生物视角。
乐备实在单细胞多组学研究中具有丰富的经验,并且提供了BD Abseq 大panel的单细胞蛋白解决方案,方便您同时进行多个组学的研究,真诚欢迎各位老师同学与我们联系合作!





沪公网安备31011502400759号
营业执照(三证合一)