В данной работе определим положение гистоновых меток используя данные CHIP-Seq эксперимента. Для анализа была выбрана метка H3K9ac клеточной линии человека DND-41. Весь код анализа в файле hw2.ibynb. Коллаб сопротивлялся, пришлось локально переделывать :(
Реплики эксперимента:
- ENCFF000APV
- ENCFF000APW
Контроль: ENCFF000AOG
Прогнав все чтения через FastQC видим, что качество чтений высокое и обрезать адаптеры не нужно (файлы с полными отчётами в репозитории)
ENCFF000APV:
ENCFF000APW:
Контроль ENCFF000AOG:
В качестве последовательности на которую выравнивались чтения была взята 21 хромосома. Для выравнивания использовалась программа bowtie2
Результаты выравнивания:
File ID | Reads | Unique | Non-Unique | Non-Aligned |
---|---|---|---|---|
ENCFF000APV | 34,841,863 | 863,424 | 3,209,628 | 30,768,811 |
ENCFF000APW | 29,267,262 | 635,864 | 2,158,799 | 26,472,599 |
ENCFF000AOG | 41,060,673 | 1,376,316 | 5,323,261 | 34,361,096 |
Процент выравниваний получился больше чем ожидалось при выравнивании на самую маленькую хромосому. Скорее всего часть чтений из других хромосом ошибочно выравнялись на выбранную. Чтобы этого избежать надо было выравнивать на весь геном, но это займёт слишком много времени. Для дальнейшего анализа будем использовать только уникально откартированные чтения.
Найдём пики испоьзуя macs2 и построим диграмму Венна для сравнения полученных пиков с пиками из ENCODE
Вывод: Как и ожидалось, лишь малая часть пиков находится в 21 хромосоме. Однако как видно из диаграмм, пересечение пиков не сильно большое. Скорее всего это из-за того что мы картировали лишь на одну хромосому - ошибочно откартированные чтения из других частей генома создали ложные пики, которые мы и видим на диграммах. Если посчитать отношение совпадающих пиков ко всем пикам в ENCODE, то выйдет ~1.5% (для обоих реплик), что как раз совпадает с размером 21 хромосомы по отношению ко всему геному. Ещё интересно что во второй реплике вышло меньше пиков (хотя она имеет лишь незначительно меньше ридов)