【生信集装箱1】经久不衰的基因集评分是怎么个事?
浏览次数:21 分享:

 新的一年,小备开了很多新专题,这期是我们【生信集装箱】的第一篇,接下来,我们将为大家整理单细胞/空间中的分析方法汇总。大家多多关注哦~

今天我们给大家介绍的是在单细胞转录组分析中常用的方法:基因集评分。基因集评分(Gene Set Scoring)是一种通过整合多个基因的表达信息来评估特定生物学功能或通路活性的分析方法。其核心思想是:将一组功能相关的基因(即基因集)作为一个整体进行量化评估,从而反映特定生物学过程在细胞或样本中的活跃程度。

   

一、常用单细胞基因集评分工具

1. UCell

特点:基于Mann-Whitney U统计量,对数据集大小和异质性鲁棒,计算需要相对更少的计算时间和内存,支持较大大规模的数据。 

应用场景:快速评估基因集活性。 

优势:UCell 可应用于任何细胞与基因数据矩阵,并包括直接与 Seurat 和 Bioconductor 的 SingleCellExperiment 对象交互的函数。

  

2. AUCell

特点:利用曲线下面积(AUC)评估基因集富集程度,独立于数据归一化方法 。

应用场景:分析基因集在单细胞表达数据中富集程度。

优势:适用于大规模数据集,结果直观(双峰分布区分高/低活性细胞)。

局限性:仅基于基因表达量,未考虑基因间的相互作用或调控关系。

 

3. AddModuleScore(Seurat)

特点:基于基因集平均值随机抽取背景基因,内置在Seurat流程中,可以十分方便的被调用。

应用场景:快速计算各种基因集在每个细胞中的评分。

局限性:结果受随机抽样影响,复现性略低,整合不同样本的情况下,即使使用相同基因集为相同细胞打分,也可能会产生不同的富集评分。仅基于基因表达量,未考虑基因间的相互作用或调控关系。

 

4.GSVA

特点:GSVA采用非参数方法,不依赖基因表达量的分布假设,适用于单细胞数据中常见的稀疏性和异质性。对每个细胞或样本,计算基因集中基因表达量的累积分布函数(ECDF),通过比较基因集内外的表达分布,得到基因集活性评分。

应用场景:分析基因集在单细胞表达数据中的活性。

优势:对稀疏性和异质性较强的单细胞数据具有较好的鲁棒性。

局限性:对于大规模单细胞数据集,计算时间可能较长;GSVA仅基于基因表达量,未考虑基因间的相互作用或调控关系。

 

5.GSEA

特点: GSEA首先根据基因在表达谱中的差异表达水平(如log2FC)进行排序,然后评估基因集在排序列表中的分布是否显著富集。

应用场景:通过计算基因集中基因在排序列表中的累积富集分数(Enrichment Score, ES),反映基因集的富集程度。评估通路或功能模块在不同细胞群体中的富集程度,揭示生物学过程的异质性。

优势:GSEA不依赖于差异表达基因的阈值选择,能够捕捉到微弱的但一致的表达变化。考虑整个基因表达谱的信息,而不仅仅是基因表达信息。

局限性:结果高度依赖基因集的质量和相关性,不合适的基因集可能导致错误结论。单细胞数据的稀疏性和异质性带来的差异分析结果可能影响GSEA的统计效能。

 

二、单细胞基因集评分的应用

1.定义特定的细胞类型

发表于《Cell》的《COVID-19 immune features revealed by a large-scale single-cell transcriptome atlas》中,为了定义炎症和细胞因子评分,作者从MSigDB数据库下载了名为“HALLMARK_INFLAMMATORY_RESPONSE”的基因集,并基于相关文献收集了细胞因子基因,并且使用AddModuleScore函数进行评估,为了筛选出最具潜力的高炎症细胞类型,作者对每个亚型的评分与所有其他亚型的评分进行了Mann-Whitney秩和检验。在PBMC中,有7个亚型(Mono_c1-CD14-CCL3、Mono_c2-CD14-HLA-DPB1、Mono_c3-CD14-VCAN、T_CD4_c08-GZMK-FOShigh、T_CD8_c06-TNF、T_CD8_c09-SLC4A10和Mega)在细胞因子和炎症评分中均显示出显著的统计学参数(p < 0.0001),因此被定义为高炎症细胞类型(下图B)。

 

2.识别关键驱动途径

在《Single-cell analysis highlights differences in druggable pathways underlying adaptive or fibrotic kidney regeneration》文章中,为了进一步了解驱动肾脏适应性不良反应的途径并确定治疗干预的潜在候选药物,作者查询了LINCS药物反应模式数据库,寻找与观察到的适应性不良肾脏特征重叠的部分。参考之前的研究,作者计算了L1000药物反应的药物原型排名列表(PRLs),并使用GSEA(基因集富集分析)查询了适应性不良PT细胞特异的差异表达基因(DEGs)对适应性不良特征具有正标准化富集分数(NES)的药物。排名前几的包括克唑替尼(crizotinib)和厄洛替尼(erlotinib)(下图b)。这些药物在肾脏疾病的实验模型中已被证明可以预防纤维化的发展。接下来作者通过实验验证这两种药物会诱导细胞焦亡,但没有诱导铁死亡。

 

3.与其它工具联用

在《Single-cell landscape of the ecosystem in early-relapse hepatocellular carcinoma》文章中,作者在对CD8 T亚群使用Monocle推断状态轨迹之后,通过Gene Set Variation Analysis (GSVA)对耗竭、细胞毒性等进行了细胞评分,并且将细胞评分的表达映射到细胞轨迹上。解释了CD8 XCL1细胞表达的耗竭评分低于CD8 CLTA4细胞,佐证了这些细胞代表了更早的细胞。

 

 

结语

以上就是我们今天的分享啦,LabEx作为一家专注多组学和多因子的科研服务公司,上述的生信分析我们都有丰富的经验。还有同步的课程可以了解:

欢迎各位老师与我们联系,我们能够结合客户的实际需求和生物学意义,为您量身定制解决方案。

 


 

乐备实是国内专注于提供高质量蛋白检测以及组学分析服务的实验服务专家,自2018年成立以来,乐备实不断寻求突破,公司的服务技术平台已扩展到单细胞测序、空间多组学、流式检测、超敏电化学发光、Luminex多因子检测、蛋白芯片、抗体芯片、PCR Array、ELISA、Elispot、多色免疫组化等30多个,建立起了一套涵盖基因、蛋白、细胞以及组织水平实验的完整检测体系。

 

我们可提供从样本运输、储存管理、样本制备、样本检测到检测数据分析的全流程服务。凭借严格的实验室管理流程、标准化实验室操作、原始数据储存体系以及实验项目管理系统,已经为超过3000家客户单位提供服务,年检测样本超过100万,受到了广大客户的信任与支持。

 

详见LabEx网站( www.u-labex.com)或来电咨询!
基因水平:PCR Array、RT-PCR、PCR、单细胞测序
蛋白水平:MSD、Luminex、CBA、Elispot、Antibody Array、ELISA、Sengenics
细胞水平:细胞染色、细胞分选、细胞培养、细胞功能
组织水平:空间多组学、多重荧光免疫组化、免疫组化、免疫荧光
数据分析:流式数据分析、组化数据分析、多因子数据分析
联系电话:4001619919
联系邮箱:labex-mkt@u-labex.com
公众平台:蛋白检测服务专家