Skip to content
Permalink
master
Switch branches/tags

Name already in use

A tag already exists with the provided branch name. Many Git commands accept both tag and branch names, so creating this branch may cause unexpected behavior. Are you sure you want to create this branch?
Go to file
 
 
Cannot retrieve contributors at this time

NPG-explorer: новая программа для создания нуклеотидного пангенома и анализа близкородственных геномов прокариот

Борис Нагаев и Андрей Алексеевский.

Геномы близкородственных бактерий содержат высокосходные последовательности ортологичных фрагментов, но обычно претерпевают множественные перестройки, длинные делеции, вставки мобильных элементов и иногда горизонтально перенесенные участки.

Мы разработали новую программу, Nucleotide PanGenome explorer (NPG-explorer), предназначенную для выравнивания и анализа множества близкородственных геномов. NPG-explorer создает нуклеотидный пангеном - множество выровненных блоков, состоящих из ортологичных фрагментов. Фрагменты, у которых нет ортологов, считаются вырожденными блоками из одного фрагмента. Каждый нуклеотид из входных геномов принадлежит ровно одному блоку нуклеотидного пангенома. Параметры алгоритма: минимальная длина блока (по умолчанию 100 нуклеотидов) и минимальная идентичность (по умолчанию 90%). NPG-explorer повторяет алгоритм нахождения блоков, пока следующий критерий не будет удовлетворён: поиск BLAST всех против всех не находит новых блоков достаточной длины и идентичности.

Кроме того, NPG-explorer выдаёт следующие данные: (1) множественные выравнивания входных хромосом, представленных в виде последовательности идентификаторов блоков. Эти выравнивания позволяют находить хромосомные перестройки. (2) Файл с консенсусными последоватльностями всех блоков и файл с мутациями относительно консенсусов. Таким образом, по этим двум файлам можно полностью восстановить входные последовательности. (3) Филогенетические деревья стабильных блоков и геномов Стабильные блоки - это блоки, которые представлены ровно один раз в каждом из геномов. Эти деревья строятся с использованием диагностичесих позиций выравниваний блоков. (4) Аннотации генов, размеченные на блоки. Эти данные полезны для обнаружения и исправления несогласованностей в аннотациях генов. Программа-визуализатор представляет список блоков в интерактивном режиме. Также отображаются выравнивания блоков, разметка генов и выравнивания идентификаторов блоков.

NPG-explorer написан на C++ и распространяется на условиях лицензии GNU GPL. В программе присутствует простой скриптовый язык, предназначенный для запуска модулей.

NPG-explorer был применен к 17 геномам представителей рода Brucella; размер каждого генома составляет приблизительно 3 мегабазы. NPG-explorer работал примерно 1 час на машине, оборудованной процессором Intel Core i5. Среди 527 обнаруженных блоков из двух и более фрагментов 270 составили стабильные блоки, причем они покрывают 95% всех нуклеотидов рассматриваемых геномов. Средний уровень сходства стабильных блоков составил 99.2%. Филогенетическое дерево геномов, построенные при помощи NPG-explorer с использованием диагностических позиций согласуется с опубликованными данными о 10 геномах Brucella [1]. Выявлено 25787 точечных мутаций и 2334 делеции трёх и более нуклеотидов, которые описывают эволюцию последовательностей внутри блоков. Программа обнаружила перестановку длинного участка с первой хромосомы на вторую в Brucella suis ATCC 23445 и большую инверсию в хромосоме 2 в Brucella abortus, о которых писали ранее [2].

Работа выполнена при поддержке грантов РФФИ 14-04-01693, 13-07-00969.

[1] Wattam et al., J.Bacteriology, 191:3569-79 (2009)
[2] Tsoktouridis et al., J.Bacteriology, 185:6130-6 (2003)