Skip to content

abarankab/hse22_bioinf_project

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

hse22_bioinf_project

Ссылка на colab: https://colab.research.google.com/drive/17OhDA0wb68TpCfIs54p8LK3ojRkNcfhA?usp=sharing

Результаты по zhunt

Полные результаты лежат в папке zh_results.

Таблица

Название организма Число последовательностей Общая длина последовательностей Число аннотированных генов % аннотированных генов Участков z-dna с score > 500 Общая длина z-dna с score > 500
Leuconostoc carnosum 3 1701333 1732 89.16 2236 22074
Leuconostoc citreum 2 1791608 1818 84.66 4447 43406
Leuconostoc lactis 2 1903250 1941 79.7 2828 27474
Leuconostoc mesenteroides 3 2058732 2082 73.68 2069 20280
Leuconostoc pseudomesenteroides 1 2114657 2115 71.73 2794 27126

Гистограммы zh_score

download download download download download

Результаты по кластерам

Всего было получено 1936 кластеров.

Гистограммы

download

download

Таблица по выбранным кластерам

Номер кластера Функция Число генов Число z-dna в промотерах Число z-dna в генах Средний z-dna score
0 30S ribosomal protein S10 5 5 3 2836.89
1 50S ribosomal protein L34 5 5 5 948.834
2 30S ribosomal protein S9 5 5 1 753.541
3 50S ribosomal protein L14 5 5 5 883.576
4 50S ribosomal protein L16 5 5 5 712.187

По числу z-dna в промотерах и генах можно понять, что, например, у 0 и 2 кластера все участки z-dna находятся рядом с геном, но не все находятся прямо в нем. В остальных кластерах участки также находятся непосредственно в самом гене. Я не понял как более удобно описать расположение z-dna относительно гена в табличке, поэтому сделал так.

Выравнивания

Выравнивания будут в папке alignments. Я сделал их с помощью MUSCLE.

Визуализации расположения

download

download

download

download

download

Бонус

Предсказано G-квадруплексов для Leuconostoc carnosum: 5, 0 на промотерах

Предсказано G-квадруплексов для Leuconostoc citreum: 25, 1 на промотерах

Предсказано G-квадруплексов для Leuconostoc lactis: 3, 1 на промотерах

Предсказано G-квадруплексов для Leuconostoc mesenteroides: 5, 2 на промотерах

Предсказано G-квадруплексов для Leuconostoc pseudomesenteroides: 5, 1 на промотерах

Пример предсказания для Leuconostoc carnosum:

chr Start End ID length strand seq
NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome 731704 731734 NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome_731704_731734_rev 30 - CCCAAGTTCAACACCCGCCCAGCTTTACCC
NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome 871461 871502 NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome_871461_871502_rev 41 - CCCAATCACGTCCCCACAAGACACCCATCGTACCATCTCCC
NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome 1153352 1153390 NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome_1153352_1153390_rev 38 - CCCTTGTAGGTACGTCCCAATTCCCCAGTATCTGTCCC
NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome 1527864 1527902 NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome_1527864_1527902_for 38 + GGGAAAACTTTGGGCGTTATTGGTTTGGGAAATGTGGG
NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome 1531238 1531260 NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome_1531238_1531260_for 22 + GGGCTGTTGGGATGGGTCTGGG

Было найдено 40 кластеров где на одном из генов есть G-квадруплекс. И всего два где на хотя бы двух генах есть G-квадруплекс. Не было случаев чтобы G-квадруплексов было больше двух.

Приведу визуализацию двух примеров где есть два G-квадруплекса.

download

download

Был найден кластер где есть два квадруплекса возле промотера, вот его визуализация:

download

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published