Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

YuLab JC | HPV插入分析 #4205

Closed
ixxmu opened this issue Dec 9, 2023 · 1 comment
Closed

YuLab JC | HPV插入分析 #4205

ixxmu opened this issue Dec 9, 2023 · 1 comment

Comments

@ixxmu
Copy link
Owner

ixxmu commented Dec 9, 2023

https://mp.weixin.qq.com/s/8KE0_eXDe0tCDbDKo5peMw

@ixxmu
Copy link
Owner Author

ixxmu commented Dec 9, 2023

YuLab JC | HPV插入分析 by YuLabSMU

概述:对HPV插入分析的几篇文献进行了整理,包括以下三个部分:HPV整合位点检测、HPV整合机制分析和HPV整合对宿主的影响。其中整合位点检测以HIVID算法为例进行介绍;HPV整合机制分析介绍了微同源介导HPV插入;HPV对宿主的影响介绍了HPV插入影响RNA表达、染色质可及性和拷贝数变异(CNV)。包含以下几篇文献:

HPV整合位点检测

HIVID: an efficient method to detect HBV integration using low coverage sequencing (Genomics, IF: 4.4)

HPV整合机制分析:

Genome-wide profiling of HPV integration in cervical cancer identifies clustered genomic hot spots and a potential microhomology-mediated integration mechanism (nature genetics, IF: 30.8)

HPV整合对宿主的影响:

(1)Comprehensive genomic characterization of head and neck squamous cell carcinomas (Nature, IF: 64.8)

(2)Diverse tumorigenic consequences of human papillomavirus integration in primary oropharyngeal cancers (Genome Research,IF : 7)

(3)Human papillomavirus integration transforms chromatin to drive oncogenesis(Genome Biology, IF: 12.3)      

 

1.整合位点检测    

其核心步骤为:

(1)去除低质量、重复以及接头污染的reads,以获得用于后续分析的干净reads。

(2)将干净reads映射到人类和HPV基因组,去除与人类或者病毒完美匹配的reads,只保留嵌合体。

(3)双末端序列组装以及整合位点合并。

(4)将NNSS > 1 作为嵌合体筛选标准。

图1:HIVID算法概述

下面分别介绍每一步的做法:

(1)去除低质量、重复以及接头污染的reads,以获得用于后续分析的干净reads

如果一个read的低质量(质量值≤5)的碱基占据了read长度的50%以上,则该read被认为是低质量read。在去除低质量读数和重复读数后,获得了用于检测病毒整合的干净reads。

(2)将干净reads映射到人类和HPV基因组    

使用 SOAP2将干净reads映射到人类和病毒基因组。删除了与人类或病毒基因组完美配对的reads,只保留嵌合体(一部分与人类基因组配对,另一部分与病毒基因组配对)用于组装,这有助于识别病毒整合位点。

(3)双末端reads组装以及整合位点合并

reads组装用于重建大约 170 bp的片段序列,增加整合位点识别的准确性。双末端reads首先被映射为同一链。如果上游端(read1)的尾部和下游端(read2)的头部重叠超过5bp且错配率小于0.2,则两端将被拼接成一个连续的序列,称为PE 组装的reads,这是重建的插入片段图2A)。为了确定病毒整合位点的确切位置,使用 BWA将 PE组装的reads重新映射到人类和病毒基因组。如果PE组装reads匹配到宿主和病毒的碱基长度大于 30 bp,则报告PE 组装reads比对结果以检测精确的整合位点。人类和病毒序列的联合位置是 病毒整合的位点(图2B)。

图2:HIVID的reads组装    

考虑到实验和生物信息学分析过程中的误差以及肿瘤的高度异质性,将20 bp内的整合位点进行合并,选择reads数最大的位点作为代表,并将其reads数重置为该区域所有整合位点的reads数之和。

(4)将NNSS > 1 作为嵌合体筛选标准

为了最大限度地减少总测序数据对每个整合位点频率的影响并消除噪声信号,使用其有效配对读数(EFR)的数量将 reads数归一化为NNSS值:

其中NSS为识别到断点的PE-组装reads数目,EFR为所有用于检测断点的clean reads数目。

2.HPV整合机制分析

以马丁院士团队的微同源分析为例介绍HPV整合机制,其结论为:人类和HPV基因组之间的微同源序列在整合断点附近显着富集,表明病毒和人类DNA之间的融合可能是通过微同源介导的DNA修复途径发生的。

微同源的定义为:连续至少2bp的宿主与hpv相同的序列。

微同源长度计算:截取插入位点两侧给定长度的序列(如5bp),如果最后一位宿主与HPV序列相同,则此侧继续延申,直到宿主与HPV序列不相同。然后统计此区域内微同源的长度与数量。

图3a展示了整合位点(中间黑线处)两侧的微同源情况;图3b为不同侧翼区长度(整合位点两侧长度)下微同源的分布情况;图三c显示了插入位点两侧的实际微同源数量显著高于随机;图3d显示了不同侧翼区长度下实际微同源数量均大于随机;图3e展示了与随机相比,基因组元件的整合位点显着富集。    

图3:微同源序列在整合位点侧翼区域显着富集

此外,也有文献提出了其他HPV整合机制的猜测,如以 DNA 复制和重组介导的“循环”模型来解释整合位点的 HPV 宿主整合多联体。

3.HPV整合对宿主的影响

HPV整合概况:下图中每一个点代表一个整合位点,x轴代表整合位点在基因组上的位置,y轴代表支持此整合位点的reads数量。整体来看,整合位点均匀分布在HPV的整个基因组中,没有显著富集的位置(图4A)。而宿主上的断点虽分布广泛,但有多处富集(图4B)。    

图4:HPV整合位点在宿主和HPV基因组的分布情况

HPV影响CNV和SV:在比较有和没有HPV整合的 100 kb 宿主基因组片段时,CNV 的频率分布明显不同(AB)。具有HPV整合的片段中,发生CNV和SV的比例高于无HPV整合的片段(C)。基因组片段内HPV整合位点越多,发生CNV和SV的比例越高(DE)。

其方法为:将宿主基因组按照100kbp为间隔划分为一个个bins,计算每个bin中的HPV插入位点数目和CNV值。根据有无HPV插入将bins分为”without HPV“和”with HPV“两组。

A:统计两组的CNV分布。

B:QQ图:将两组bins分别根据CNV值排序,然后切割为n等份,计算两组每一份的各自CNV值。并用Kolmogorov–Smirnov test计算pvalue。

C:计算两组CNV的|seg.mean| > 0.3的比例以及SV变异的比例,然后使用binomial test计算pvalue。

D和E:分别统计不同HPV插入位点数目下CNV的|seg.mean| > 0.3的比例以及SV变异的比例。    

         

 

图5:HPV整合与肿瘤中的 CNV 和 SV 相关

HPV整合影响临近基因表达:HPV的整合使得临近基因过表达。图6A的QQ图比较了病毒宿主整合位点附近 (±500 kb) 的基因表达水平的 Z-score分布(y 轴)与所有其他肿瘤中附近没有HPV整合位点的相同基因的表达水平。有整合位点的基因表达量整体上调。图6B展示了非癌症基因(–,左)与癌症基因(+,右)的异常表达基因的百分比,红色为有HPV整合位点,灰色为没有HPV整合位点,可以看出有整合位点时异常表达基因的比例更高。图6C为部分癌基因的表达情况,红色为有HPV整合位点的样本,黑色为没有,可以看出有HPV整合的样本的表达量整体高于无HPV整合的样本表达量。    

图6:HPV 整合体与邻近宿主基因的异常表达相关

         

 

HPV整合影响染色质可及性:HPV整合位置染色质状态的变化可能导致基因表达的变化,从而导致 HPV 的致瘤性。

HPV的整合改变了局部转录组和表观基因组。图7a和图7b显示有hpv插入的样本TCGA-BA-A4IH在插入位点的一侧的转录水平和染色质可及性均高于其他8个无HPV插入的样本。    

图7:HPV整合改变了局部转录组和表观基因组

另外,HPV的整合形成新的 TAD 边界(图8a),TAD边界处的RNA转录水平明显增加(图8b)。HPV可能是通过形成新的TAD边界进而影响RNA的转录。

图8:HPV的整合形成新的TAD边界

4.总结

HPV病毒和人类DNA之间的整合可能是通过微同源介导的DNA修复途径发生的。HPV整合与肿瘤中的 CNV 和 SV 相关,使得异常CNV和SV的比例增加。另外HPV整合影响了临近基因的异常表达,可能原因是通过影响染色质可及性,形成了新的TAD边界,进而影响了基因的表达水平。    

@ixxmu ixxmu changed the title archive_request YuLab JC | HPV插入分析 Dec 9, 2023
@ixxmu ixxmu closed this as completed Dec 9, 2023
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant