NPG-explorer: новая программа для создания нуклеотидного пангенома и анализа близкородственных геномов прокариот
Борис Нагаев и Андрей Алексеевский.
Геномы близкородственных бактерий содержат высокосходные последовательности ортологичных фрагментов, но обычно претерпевают множественные перестройки, длинные делеции, вставки мобильных элементов и иногда горизонтально перенесенные участки.
Мы разработали новую программу, Nucleotide PanGenome explorer (NPG-explorer), предназначенную для выравнивания и анализа множества близкородственных геномов. NPG-explorer создает нуклеотидный пангеном - множество выровненных блоков, состоящих из ортологичных фрагментов. Фрагменты, у которых нет ортологов, считаются вырожденными блоками из одного фрагмента. Каждый нуклеотид из входных геномов принадлежит ровно одному блоку нуклеотидного пангенома. Параметры алгоритма: минимальная длина блока (по умолчанию 100 нуклеотидов) и минимальная идентичность (по умолчанию 90%). NPG-explorer повторяет алгоритм нахождения блоков, пока следующий критерий не будет удовлетворён: поиск BLAST всех против всех не находит новых блоков достаточной длины и идентичности.
Кроме того, NPG-explorer выдаёт следующие данные: (1) множественные выравнивания входных хромосом, представленных в виде последовательности идентификаторов блоков. Эти выравнивания позволяют находить хромосомные перестройки. (2) Файл с консенсусными последоватльностями всех блоков и файл с мутациями относительно консенсусов. Таким образом, по этим двум файлам можно полностью восстановить входные последовательности. (3) Филогенетические деревья стабильных блоков и геномов Стабильные блоки - это блоки, которые представлены ровно один раз в каждом из геномов. Эти деревья строятся с использованием диагностичесих позиций выравниваний блоков. (4) Аннотации генов, размеченные на блоки. Эти данные полезны для обнаружения и исправления несогласованностей в аннотациях генов. Программа-визуализатор представляет список блоков в интерактивном режиме. Также отображаются выравнивания блоков, разметка генов и выравнивания идентификаторов блоков.
NPG-explorer написан на C++ и распространяется на условиях лицензии GNU GPL. В программе присутствует простой скриптовый язык, предназначенный для запуска модулей.
NPG-explorer был применен к 17 геномам представителей рода Brucella; размер каждого генома составляет приблизительно 3 мегабазы. NPG-explorer работал примерно 1 час на машине, оборудованной процессором Intel Core i5. Среди 527 обнаруженных блоков из двух и более фрагментов 270 составили стабильные блоки, причем они покрывают 95% всех нуклеотидов рассматриваемых геномов. Средний уровень сходства стабильных блоков составил 99.2%. Филогенетическое дерево геномов, построенные при помощи NPG-explorer с использованием диагностических позиций согласуется с опубликованными данными о 10 геномах Brucella [1]. Выявлено 25787 точечных мутаций и 2334 делеции трёх и более нуклеотидов, которые описывают эволюцию последовательностей внутри блоков. Программа обнаружила перестановку длинного участка с первой хромосомы на вторую в Brucella suis ATCC 23445 и большую инверсию в хромосоме 2 в Brucella abortus, о которых писали ранее [2].
Работа выполнена при поддержке грантов РФФИ 14-04-01693, 13-07-00969.
[1] Wattam et al., J.Bacteriology, 191:3569-79 (2009)
[2] Tsoktouridis et al., J.Bacteriology, 185:6130-6 (2003)