Ссылка на colab: https://colab.research.google.com/drive/17OhDA0wb68TpCfIs54p8LK3ojRkNcfhA?usp=sharing
Полные результаты лежат в папке zh_results.
Название организма | Число последовательностей | Общая длина последовательностей | Число аннотированных генов | % аннотированных генов | Участков z-dna с score > 500 | Общая длина z-dna с score > 500 |
---|---|---|---|---|---|---|
Leuconostoc carnosum | 3 | 1701333 | 1732 | 89.16 | 2236 | 22074 |
Leuconostoc citreum | 2 | 1791608 | 1818 | 84.66 | 4447 | 43406 |
Leuconostoc lactis | 2 | 1903250 | 1941 | 79.7 | 2828 | 27474 |
Leuconostoc mesenteroides | 3 | 2058732 | 2082 | 73.68 | 2069 | 20280 |
Leuconostoc pseudomesenteroides | 1 | 2114657 | 2115 | 71.73 | 2794 | 27126 |
Всего было получено 1936 кластеров.
Номер кластера | Функция | Число генов | Число z-dna в промотерах | Число z-dna в генах | Средний z-dna score |
---|---|---|---|---|---|
0 | 30S ribosomal protein S10 | 5 | 5 | 3 | 2836.89 |
1 | 50S ribosomal protein L34 | 5 | 5 | 5 | 948.834 |
2 | 30S ribosomal protein S9 | 5 | 5 | 1 | 753.541 |
3 | 50S ribosomal protein L14 | 5 | 5 | 5 | 883.576 |
4 | 50S ribosomal protein L16 | 5 | 5 | 5 | 712.187 |
По числу z-dna в промотерах и генах можно понять, что, например, у 0 и 2 кластера все участки z-dna находятся рядом с геном, но не все находятся прямо в нем. В остальных кластерах участки также находятся непосредственно в самом гене. Я не понял как более удобно описать расположение z-dna относительно гена в табличке, поэтому сделал так.
Выравнивания будут в папке alignments. Я сделал их с помощью MUSCLE.
Предсказано G-квадруплексов для Leuconostoc carnosum: 5, 0 на промотерах
Предсказано G-квадруплексов для Leuconostoc citreum: 25, 1 на промотерах
Предсказано G-квадруплексов для Leuconostoc lactis: 3, 1 на промотерах
Предсказано G-квадруплексов для Leuconostoc mesenteroides: 5, 2 на промотерах
Предсказано G-квадруплексов для Leuconostoc pseudomesenteroides: 5, 1 на промотерах
Пример предсказания для Leuconostoc carnosum:
chr | Start | End | ID | length | strand | seq |
---|---|---|---|---|---|---|
NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome | 731704 | 731734 | NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome_731704_731734_rev | 30 | - | CCCAAGTTCAACACCCGCCCAGCTTTACCC |
NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome | 871461 | 871502 | NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome_871461_871502_rev | 41 | - | CCCAATCACGTCCCCACAAGACACCCATCGTACCATCTCCC |
NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome | 1153352 | 1153390 | NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome_1153352_1153390_rev | 38 | - | CCCTTGTAGGTACGTCCCAATTCCCCAGTATCTGTCCC |
NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome | 1527864 | 1527902 | NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome_1527864_1527902_for | 38 | + | GGGAAAACTTTGGGCGTTATTGGTTTGGGAAATGTGGG |
NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome | 1531238 | 1531260 | NZ_CP042374.1 Leuconostoc carnosum strain CBA3620 chromosome, complete genome_1531238_1531260_for | 22 | + | GGGCTGTTGGGATGGGTCTGGG |
Было найдено 40 кластеров где на одном из генов есть G-квадруплекс. И всего два где на хотя бы двух генах есть G-квадруплекс. Не было случаев чтобы G-квадруплексов было больше двух.
Приведу визуализацию двух примеров где есть два G-квадруплекса.
Был найден кластер где есть два квадруплекса возле промотера, вот его визуализация: