-
Notifications
You must be signed in to change notification settings - Fork 25
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
新冠感染死亡患者的肺部单细胞图谱Python全流程 #4389
Comments
新冠感染死亡患者的肺部单细胞图谱Python全流程 by 生信技能树
这篇文献提供的代码是R与python版本,是个极好的学习单细胞与python的资源。今天先来看看文献背景。 文章信息:
呼吸衰竭是severe SARS-CoV-2感染患者死亡的主要原因,但肺组织水平的宿主反应尚不清楚。本文对19名死于COVID-19的患者和7名对照组患者的肺中约11.6万个细胞核进行了单核RNA测序。综合分析发现了细胞组成、转录细胞状态和细胞间相互作用的重大变化,从而为了解致命COVID-19的生物学提供了帮助。 看这篇文献的时候,心情突然有点那么沉重。 数据情况
总共包含 COVID-19队列(19例样本)与 对照队列Control(7例样本) COVID-19的肺细胞landscape使用单细胞核测序,经过质控流程,得到一个肺的图谱:116,314个单细胞,包括COVID-19队列79,636个细胞以及对照队列Control 36,678个细胞。9个主要的细胞类型鉴定如下:
具体的样本情况以及详细注释: 髓系细胞的异常激活髓系细胞是COVID-19肺的主要细胞成分,且比对照组肺更为普遍。我们鉴定了:
它们在diffusion component(DC)分析中被恢复为不同的轨迹,在COVID-19肺部更常见(图2a-c)。来自COVID-19个体的髓系细胞被高度和异常激活。 此外:
这些数据表明,髓系细胞是COVID-19中炎症失调的主要来源。 血浆和T细胞响应使用the variable heavy (IGHV) and light (IGLV) chains鉴定了浆细胞,T/NK细胞群体分为了:CD8+ T cells (n = 3,561), T regulatory (Treg) cells (n = 649), other CD4+ T cells (n = 7,586), and NK cells (n = 2,141)。 作者发现COVID-19肺部的T细胞丰度没有显著增加,只有细胞因子和T细胞激活和组织驻留相关程序的适度上调(上图G-I)。 肺泡上皮再生受损上皮细胞分为:
此外:在肺再生过程中,AT2细胞作为AT1细胞的祖细胞,可以分化为AT1;对照组肺中的AT2和AT1细胞形成了不同的簇。这其中有几个比较重要的基因:
COVID-19中的异位簇状细胞在捕获的气道上皮细胞中,我们发现了四种不同的轨迹:
簇状细胞参与气道炎症和肠组织再生,但它们在病毒性肺炎中的作用尚不清楚。本研究中表现如下:
病理性成纤维细胞和肺纤维化COVID-19肺部的成纤维细胞明显多于对照组(图1d),α-平滑肌肌动蛋白(α-SMA,基因名字ACTA2)免疫组化染色证实了这一发现: 纤维化程度(determined by a Sirius red fibrosis score)与疾病持续时间相关(图4a),表明COVID-19的肺纤维化随着时间的推移而增加: 此外:作者确定了五种成纤维细胞亚型:与对照肺相比,COVID-19肺中病理或中间病理成纤维细胞的频率增加(图4c)
主要细胞类型之间的配体-受体分析结果显示:
这里还有一个有意思的分析: 为了研究针对pFBs(pathological fibroblasts)的潜在治疗策略,作者从单核转录组中推断蛋白质活性,然后将pFBs与其他成纤维细胞进行比较。该分析预测pFBs将表现出JunB和JunD活性的增加(图j),它们通过增强TGFβ和STAT3信号通路诱导小鼠模型的肺纤维化,并与IL-1β的产生增加有关。最后,作者推断出pFBs中的药物作用靶点,并将MMP14和STAT3作为废除pFBs中有害程序的潜在靶点(图j)。 有好几个方法可以利用单细胞RNA数据推断蛋白层面的分子活性,下次介绍~ 数据背景接上一篇:Python图文复现2022|01-文献阅读:致命COVID-19分子单细胞肺图谱 数据获取有三种途径:
这次就从GEO下载吧,下载完后:3个文件,一个处理后的csv表达数据,一个metadata,一个原始count数据压缩包tar 原文代码:https://github.com/IzarLab/CUIMC-NYP_COVID_autopsy_lung 但是本次我们使用一个利用这个数据讲python学习的资源,
视频相关代码如下:
数据下载后,开工! 环境准备:
数据读取GSM5226574_C51样本是个肺对照样本,总共包含6099个细胞,34546个基因。
Doublet过滤
结果:doublet这一列的值越高,表明这个细胞约可能是双包体; 预测结果统计: 有1245个细胞被预测为双包体,占总细胞的20%左右,这对于10X来说,双包率有点太高了
因此,这里计算一个df值:
新增一列df值: 给这个df绘制一个分布图:
结果图: 因此,将df大于1的预测为双包体:
预测结果: 去除:还剩余5618个细胞
预处理
接着计算qc指标
结果如下: 低表达过滤:
结果图: 按照分位数来过滤细胞:
过滤之后: 线粒体比例与核糖体比例:
过滤后:
标准化Normalization标准化前后的区别可看:adata.X.sum(axis = 1)值的变化
聚类Clustering
结果图: 选择主成分:
结果图: 这里选择30个PCs,然后聚类:
结果图: 使用leiden在低维空间可视化:
结果图:聚成了11类 单个样本的分析演示到这里,下期进行所有样本整合分析~ 读取数据先定义一个函数,批量运行多个样本:这里一定要注意缩进问题
这个过程比较久,会依次读取GSE171524数据集中的26例样本,并进行上面的函数里面定义的分析。 这个过程中就可以跑去听听视频了。
将多个样本连接合并在一起,合并后共有105264个细胞:
过滤并保存:
预处理先读取上次保存的数据:105264个细胞
每个样本中的各种指标统计:
共26个样本: 低表达过滤以及数据标准化
结果图: 去Sample间的批次以及聚类这个过程运行时间也会稍长一些
结果图: 保存数据:
差异表达分析使用没有矫正的数据做差异表达分析
部分cluster的top基因:
差异结果: 使用模型标准化后的值做差异表达分析:
结果: 重新聚类后的结果可视化:总共得到34个cluster
结果图: 细胞类型注释文章中进行了三次注释,第一次注释大类,主要为9个类: 这几个类的基因文章中没有提供,就用我们自己收集的基因来进行注释好了。 在视频资源中,视频speaker老师给了一张图:是目前免疫细胞分类很详细的一张图了: https://learn.cellsignal.com/hubfs/landing-pages/2019/18-IMM-18284/18-IMM_18284-Human%20Markers%20PWHO-digital.pdf 基因可视化:
以marker为基础,绘制如下类似图,vmax参数可以进行调整让结果看起来更明显,注视不出来的可以看看每个cluster高表达的基因,查一查功能就立马可以推断出来了: 结合marker表达以及cluster特异性高表达基因: 细胞注释如下:
细胞注释结果如下: 这里注释出来了一串文献中没有的红细胞。 文献中的Fig1如下: 如果要绘制Fig1,需要对上次笔记(Python图文复现2022|03-多样本整合分析)中的注释再进行进一步的详细注释,上次注释结果: 数据读取
详细注释marker采用来自数据库:PanglaoDB https://panglaodb.se/ 首先是B,T/NK细胞,有:
上皮群:
髓系:
基质细胞:
先给出每个cluster编号以及需要填充的空格,在后续的操作中这个地方会填上每个注释结果:
注释后:
详细注释结果如下: 绘制C、D图首先对细胞进行计数:
结果图:
每种细胞类型在COVID19与control两种条件下的频率差异: 绘图:
结果图如下: C图如下:
结果图如下: 下期见~ 本次绘制图C:
数据读取
差异分析首先提取注释到的AT1与AT2
总共20741个细胞 差异分析可使用SCVI or diffxpy来做 diffxpy方法差异分析这里需要安装diffxpy这个包,还比较麻烦。需要安装在scanpy的conda环境中,安装如下:
这样就安装成功了:
差异分析:
结果如下: 查看谁是实验组,谁是对照组,并调整为 AT1 vs AT2
结果图: 挑选显著差异结果:
结果图如下,有4836个显著差异表达基因: 卡表达值:
还有1095个基因: 选择top50个基因绘制热图:
结果图: scvi方法差异分析
最终筛选到952个基因:
结果图如下: 结果保存
下次见~ 数据读取
富集分析接下来对AT1 vs AT2的差异表达基因进行功能富集分析。 python中使用的是gseapy包进行功能富集分析,需要安装在scanpy的conda环境中,并且这个包需要在联网状态下使用:
结果如下: 比较:Fig 3-d-e
结果图如下: 查看基因ETV5在两组中的表达显著性:使用mannwhitneyu进行检验
结果如下:MannwhitneyuResult(statistic=array([[17353149.]]), pvalue=array([[2.10908943e-171]])) 对DATP signature打分:Fig 3g首先从文献的补充材料table S4的找到signature集合:our_DATP_sig,总共163个基因 另存为:datp_sig.txt,不要表头 这个基因集是什么来头呢,文中描述如下:
现在想看DATPs这个基因集在AT1/AT2中不同分组COVID-19和Control的打分情况,是否支持:incomplete transition of AT2 to AT1 cells in COVID-19 lungs(在肺再生过程中,AT2细胞作为AT1细胞的祖细胞)与 除了病毒感染直接破坏肺泡上皮外,COVID-19患者的肺再生过程也受到损害 。
现在可以看到数据中多了一列datp的打分: 打分可视化:
结果如下: 显著性检验:
结果图如下: 本次国庆特刊单细胞python图文复现到此更新完毕,关于结果解读,如为什么选择绘制基因ETV5、CAV1在AT1/AT2不同分组COVID19 vs Control中的表达等等,视频中对文献结果的解读更精彩,可前往观看~ |
https://mp.weixin.qq.com/s/PFG0JXHm8BTA1ZBf-r1Lxw
The text was updated successfully, but these errors were encountered: