# Гомологи, ортологи и паралоги. Поиск горизонтально перенесенных генов

Эволюционные отношения между генами и их продуктами являются фундаментальными для понимания молекулярной эволюции, функциональной геномики и филогенетики. В данном разделе рассматриваются концепции гомологии, ортологии и паралогии, а также методы обнаружения горизонтального переноса генов.

## Гомология последовательностей

**Гомология** — фундаментальное понятие в молекулярной биологии и биоинформатике, обозначающее сходство последовательностей (нуклеотидных или аминокислотных), обусловленное их происхождением от общего предка.

Важно отметить, что гомология — это качественная характеристика, а не количественная. Две последовательности либо гомологичны (имеют общего предка), либо нет. Некорректно говорить о "степени гомологии" или "процентной гомологии" — в таких случаях следует использовать термины "идентичность последовательностей" или "сходство последовательностей".

Математически гомологию можно представить как отношение эквивалентности на множестве генов:
- Рефлексивность: ген гомологичен самому себе
- Симметричность: если ген A гомологичен гену B, то ген B гомологичен гену A
- Транзитивность: если ген A гомологичен гену B, а ген B гомологичен гену C, то ген A гомологичен гену C

Гомологичные гены можно далее классифицировать на основе эволюционных событий, приведших к их дивергенции.

## Ортологи и паралоги

### Ортологи

**Ортологи** — гомологичные гены, возникшие в результате видообразования (специации). Иными словами, ортологи — это гены в разных видах, которые произошли от одного и того же гена в последнем общем предке этих видов.

Формальное определение: Пусть $G_1$ и $G_2$ — гены видов $S_1$ и $S_2$ соответственно. Гены $G_1$ и $G_2$ являются ортологами, если их последний общий предок существовал в последнем общем предке видов $S_1$ и $S_2$.

Ортологи часто (но не всегда) выполняют одинаковые функции в разных организмах. Это свойство делает их особенно ценными для:
- Функциональной аннотации геномов
- Сравнительной геномики
- Реконструкции филогенетических деревьев
- Изучения эволюционной консервативности

### Паралоги

**Паралоги** — гомологичные гены, возникшие в результате дупликации гена внутри одного генома. После дупликации копии гена могут эволюционировать независимо, что часто приводит к функциональной дивергенции.

Формальное определение: Пусть $G_1$ и $G_2$ — гены вида $S$. Гены $G_1$ и $G_2$ являются паралогами, если они возникли в результате дупликации их общего предка внутри линии, ведущей к виду $S$.

Паралоги можно далее классифицировать на:
- **Внутривидовые паралоги** — паралоги внутри одного вида
- **Аутпаралоги** — паралоги, возникшие в результате дупликации после события видообразования
- **Инпаралоги** — недавно дуплицированные гены в одной линии относительно события видообразования
- **Аутпаралоги** — паралоги, возникшие в результате дупликации до события видообразования

### Ксенологи

**Ксенологи** — гомологичные гены, приобретенные организмом через горизонтальный перенос генов (ГПГ) от неродственного организма, а не путем вертикального наследования от предка.

## Методы идентификации ортологов и паралогов

### Филогенетические методы

Филогенетические методы основаны на реконструкции эволюционной истории генов и являются наиболее точными для определения ортологов и паралогов.

**Алгоритм:**
1. Сбор гомологичных последовательностей из разных видов
2. Множественное выравнивание последовательностей
3. Построение филогенетического дерева
4. Сравнение топологии генного дерева с видовым деревом
5. Идентификация событий дупликации и видообразования

**Математическая модель:**
Пусть $T_S$ — видовое дерево, а $T_G$ — генное дерево. Для каждого узла $v$ в $T_G$ определим отображение $s(v)$ на узел в $T_S$, представляющий вид, в котором существовал ген, соответствующий узлу $v$.

Для внутреннего узла $v$ с дочерними узлами $u$ и $w$:
- Если $s(v) = lca(s(u), s(w))$ (где $lca$ — последний общий предок), то $v$ соответствует событию видообразования
- Если $s(v) = s(u) = s(w)$, то $v$ соответствует событию дупликации

### Методы, основанные на сходстве последовательностей

#### Метод реципрокного наилучшего совпадения (RBH)

**Reciprocal Best Hit (RBH)** — простой и широко используемый метод для идентификации ортологов.

**Алгоритм:**
1. Для гена $g_A$ из генома $A$ найти наилучшее совпадение $g_B$ в геноме $B$ с помощью BLAST
2. Для гена $g_B$ из генома $B$ найти наилучшее совпадение в геноме $A$
3. Если наилучшим совпадением для $g_B$ является $g_A$, то $g_A$ и $g_B$ считаются ортологами

**Формально:**
Гены $g_A$ и $g_B$ являются RBH, если:
$\text{BLAST}(g_A, B) = g_B$ и $\text{BLAST}(g_B, A) = g_A$

Этот метод имеет ограничения при наличии недавних дупликаций и неполных геномов.

#### Кластеризация на основе графов

**OrthoMCL** — алгоритм, использующий марковскую кластеризацию для идентификации ортологичных групп.

**Алгоритм:**
1. Выполнить всепротив-всех BLAST для белков из нескольких геномов
2. Построить граф сходства, где вершины — белки, а ребра взвешены значениями E-value
3. Нормализовать веса ребер для учета систематических различий между геномами
4. Применить алгоритм марковской кластеризации (MCL) для выделения ортологичных групп

**Математическая модель MCL:**
1. Начать с матрицы смежности $M$ графа сходства
2. Повторять до сходимости:
   a. Расширение: $M' = M^2$ (матричное умножение)
   b. Инфляция: $M''_{ij} = (M'_{ij})^r / \sum_k (M'_{ik})^r$, где $r > 1$ — параметр инфляции
   c. $M = M''$
3. Интерпретировать связные компоненты как кластеры

### Методы, основанные на синтении

**Синтения** — сохранение порядка генов на хромосомах между разными видами.

**Алгоритм:**
1. Идентифицировать консервативные блоки синтении между геномами
2. Гены, находящиеся в одинаковых позициях в синтенных блоках, считаются ортологами

Этот подход особенно полезен для различения ортологов и паралогов в случаях, когда последовательности имеют высокую степень сходства.

## Базы данных ортологов

Существует ряд специализированных баз данных, содержащих информацию об ортологичных отношениях между генами:

1. **OrthoMCL DB** — база данных ортологичных групп белков, полученных с помощью алгоритма OrthoMCL.

2. **OrthoFinder** — программа и база данных для идентификации ортологов, паралогов и ортологичных групп.

3. **eggNOG** (evolutionary genealogy of genes: Non-supervised Orthologous Groups) — база данных ортологичных групп и функциональных аннотаций.

4. **OrthoDB** — иерархическая каталогизация ортологов на разных таксономических уровнях.

5. **Ensembl Compara** — база данных сравнительной геномики, включающая информацию об ортологах и паралогах.

6. **KEGG Orthology (KO)** — база данных ортологичных групп, связанных с метаболическими путями и функциональными системами.

## Горизонтальный перенос генов

**Горизонтальный перенос генов (ГПГ)** или **латеральный перенос генов (ЛПГ)** — процесс, при котором организм передает генетический материал организму, не являющемуся его потомком. Этот механизм контрастирует с вертикальной передачей, которая происходит от родителя к потомку.

ГПГ играет важную роль в:
- Эволюции прокариот
- Приобретении устойчивости к антибиотикам
- Адаптации к новым экологическим нишам
- Формировании метаболических путей

### Механизмы горизонтального переноса генов

1. **Трансформация** — поглощение свободной ДНК из окружающей среды
2. **Трансдукция** — перенос ДНК посредством вирусов (бактериофагов)
3. **Конъюгация** — прямая передача ДНК между бактериальными клетками через специализированные структуры
4. **Слияние клеток** — объединение клеток с последующим обменом генетическим материалом
5. **Везикулярный транспорт** — перенос ДНК в мембранных везикулах

### Математические модели горизонтального переноса генов

Для моделирования влияния ГПГ на эволюцию используются различные математические подходы:

**Модель сети переноса генов (Gene Transfer Network, GTN):**
GTN представляет собой ориентированный граф $G = (V, E)$, где:
- $V$ — множество видов
- $E$ — множество направленных ребер, представляющих события переноса генов
- Вес ребра $w(u, v)$ — частота или вероятность переноса от вида $u$ к виду $v$

**Стохастические модели:**
Пусть $P(t)$ — вероятность горизонтального переноса гена за единицу времени $t$. Тогда:
$P(t) = 1 - e^{-\lambda t}$, где $\lambda$ — параметр, характеризующий частоту ГПГ.

**Филогенетические сети:**
В отличие от филогенетических деревьев, филогенетические сети допускают ребра, соединяющие разные ветви, что позволяет моделировать события ГПГ.

## Методы обнаружения горизонтально перенесенных генов

### Композиционные методы

Композиционные методы основаны на анализе характеристик последовательностей, которые часто различаются между геномами разных организмов.

#### Анализ GC-состава

**Алгоритм:**
1. Вычислить GC-состав для каждого гена в геноме
2. Определить среднее значение и стандартное отклонение GC-состава для генома
3. Идентифицировать гены, GC-состав которых значительно отклоняется от среднего (например, на 2 или более стандартных отклонения)

**Математическая формулировка:**
Для гена $g$ с GC-составом $GC_g$, средним GC-составом генома $\mu_{GC}$ и стандартным отклонением $\sigma_{GC}$:
$z = \frac{GC_g - \mu_{GC}}{\sigma_{GC}}$

Если $|z| > 2$, ген $g$ является кандидатом на ГПГ.

#### Анализ использования кодонов

**Алгоритм:**
1. Вычислить частоту использования каждого кодона для всех генов в геноме
2. Построить многомерное пространство использования кодонов
3. Применить методы кластеризации или выявления выбросов для идентификации генов с нетипичным использованием кодонов

**Математическая формулировка:**
Пусть $f_i(c)$ — частота использования кодона $c$ в гене $i$. Расстояние между генами $i$ и $j$ в пространстве использования кодонов можно вычислить как:
$d(i, j) = \sqrt{\sum_c (f_i(c) - f_j(c))^2}$

#### Тетрануклеотидные сигнатуры

**Алгоритм:**
1. Для каждого гена вычислить частоты всех возможных тетрануклеотидов (4-меров)
2. Сравнить полученные частоты с ожидаемыми частотами для данного генома
3. Идентифицировать гены с аномальными тетрануклеотидными сигнатурами

**Математическая формулировка:**
Для тетрануклеотида $t$ ожидаемая частота $E(t)$ на основе марковской модели второго порядка:
$E(t = x_1x_2x_3x_4) = \frac{f(x_1x_2x_3) \cdot f(x_2x_3x_4)}{f(x_2x_3)}$

где $f(x_ix_jx_k)$ — частота тринуклеотида $x_ix_jx_k$.

Отклонение наблюдаемой частоты $O(t)$ от ожидаемой:
$\delta(t) = \frac{O(t) - E(t)}{E(t)}$

### Филогенетические методы

Филогенетические методы основаны на выявлении несоответствий между филогенией генов и филогенией видов.

**Алгоритм:**
1. Построить филогенетическое дерево для исследуемого гена
2. Построить или использовать существующее видовое дерево
3. Сравнить топологии деревьев
4. Идентифицировать статистически значимые несоответствия, указывающие на возможный ГПГ

**Математические методы сравнения деревьев:**
- **Расстояние Робинсона-Фоулдса (RF):** Количество операций (добавление/удаление ребра), необходимых для преобразования одного дерева в другое
- **Расстояние четвертей (Quartet Distance):** Доля четверок таксонов, для которых топологии различаются между деревьями
- **Байесовский подход:** Вычисление апостериорной вероятности ГПГ с учетом априорных вероятностей различных эволюционных сценариев

### Методы, основанные на сходстве последовательностей

**Алгоритм:**
1. Выполнить поиск гомологов исследуемого гена в различных геномах
2. Проанализировать распределение сходства последовательностей
3. Идентифицировать аномально высокое сходство с филогенетически удаленными организмами

**Математическая формулировка:**
Пусть $S(g_i, g_j)$ — сходство между генами $g_i$ и $g_j$, а $D(S_i, S_j)$ — филогенетическое расстояние между видами $S_i$ и $S_j$.

Для каждой пары генов вычислить отношение:
$R = \frac{S(g_i, g_j)}{f(D(S_i, S_j))}$

где $f$ — функция, описывающая ожидаемое сходство в зависимости от филогенетического расстояния.

Высокие значения $R$ указывают на возможный ГПГ.

### Комплексные подходы

Современные методы обнаружения ГПГ часто комбинируют различные подходы для повышения точности:

**Алгоритм HGTector:**
1. Для каждого гена в геноме выполнить поиск гомологов в базе данных
2. Разделить результаты на три группы: близкородственные (self), умеренно родственные (close) и удаленные (distal)
3. Проанализировать распределение сходства в каждой группе
4. Идентифицировать гены с аномально высоким сходством в группе distal

**Байесовские сети:**
Используют вероятностные модели для интеграции различных источников данных (композиционные характеристики, филогенетические сигналы, функциональные аннотации) и оценки вероятности ГПГ.

## Примеры применения алгоритмов

### Пример 1: Идентификация ортологов с помощью OrthoFinder

```python
# Установка OrthoFinder
!pip install orthofinder

# Запуск OrthoFinder на наборе протеомов
!orthofinder -f proteomes_directory

# Анализ результатов
import pandas as pd

# Загрузка таблицы ортологичных групп
orthogroups = pd.read_csv("Results_orthofinder/Orthogroups.tsv", sep="\t")

# Вывод первых 5 ортологичных групп
print(orthogroups.head())

# Анализ распределения размеров ортологичных групп
import matplotlib.pyplot as plt
import numpy as np

sizes = orthogroups.iloc[:, 1:].notna().sum(axis=1)
plt.hist(sizes, bins=30)
plt.xlabel("Размер ортологичной группы")
plt.ylabel("Частота")
plt.title("Распределение размеров ортологичных групп")
plt.show()
```

### Пример 2: Обнаружение горизонтально перенесенных генов с помощью композиционного анализа

```python
import numpy as np
from Bio import SeqIO
import matplotlib.pyplot as plt

# Функция для расчета GC-состава
def calculate_gc_content(sequence):
    sequence = sequence.upper()
    gc_count = sequence.count('G') + sequence.count('C')
    total = len(sequence)
    return gc_count / total if total > 0 else 0

# Загрузка генома
genome = list(SeqIO.parse("genome.fasta", "fasta"))

# Расчет GC-состава для каждого гена
gc_contents = [calculate_gc_content(str(gene.seq)) for gene in genome]

# Статистический анализ
mean_gc = np.mean(gc_contents)
std_gc = np.std(gc_contents)

# Идентификация потенциальных ГПГ
threshold = 2  # 2 стандартных отклонения
hgt_candidates = []

for i, gc in enumerate(gc_contents):
    z_score = (gc - mean_gc) / std_gc
    if abs(z_score) > threshold:
        hgt_candidates.append((i, genome[i].id, gc, z_score))

# Визуализация результатов
plt.figure(figsize=(10, 6))
plt.hist(gc_contents, bins=30, alpha=0.7)
plt.axvline(mean_gc, color='r', linestyle='--', label=f'Среднее GC: {mean_gc:.3f}')
plt.axvline(mean_gc + threshold * std_gc, color='g', linestyle='--', 
            label=f'Порог (+{threshold}σ): {mean_gc + threshold * std_gc:.3f}')
plt.axvline(mean_gc - threshold * std_gc, color='g', linestyle='--',
            label=f'Порог (-{threshold}σ): {mean_gc - threshold * std_gc:.3f}')
plt.xlabel('GC-состав')
plt.ylabel('Количество генов')
plt.title('Распределение GC-состава генов с выделением потенциальных ГПГ')
plt.legend()
plt.show()

# Вывод кандидатов ГПГ
print(f"Найдено {len(hgt_candidates)} кандидатов на горизонтальный перенос генов:")
for i, gene_id, gc, z_score in hgt_candidates[:10]:  # Вывод первых 10 кандидатов
    print(f"Ген {gene_id}: GC-состав = {gc:.3f}, Z-score = {z_score:.3f}")
```

### Пример 3: Филогенетический анализ для выявления ГПГ

```python
from Bio import Phylo, AlignIO
from io import StringIO

# Загрузка множественного выравнивания
alignment = AlignIO.read("gene_alignment.fasta", "fasta")

# Построение филогенетического дерева гена с помощью FastTree
from Bio.Phylo.Applications import FastTreeCommandline
fasttree_cline = FastTreeCommandline(input="gene_alignment.fasta", out="gene_tree.nwk")
stdout, stderr = fasttree_cline()

# Загрузка построенного дерева гена
gene_tree = Phylo.read("gene_tree.nwk", "newick")

# Загрузка видового дерева
species_tree = Phylo.read("species_tree.nwk", "newick")

# Визуализация деревьев для сравнения
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 6))

Phylo.draw(gene_tree, axes=ax1, do_show=False)
ax1.set_title("Филогенетическое дерево гена")

Phylo.draw(species_tree, axes=ax2, do_show=False)
ax2.set_title("Видовое дерево")

plt.tight_layout()
plt.show()

# Расчет расстояния Робинсона-Фоулдса между деревьями
from dendropy import Tree
from dendropy.calculate.treecompare import symmetric_difference

tree1 = Tree.get(path="gene_tree.nwk", schema="newick")
tree2 = Tree.get(path="species_tree.nwk", schema="newick")

# Убедимся, что деревья имеют одинаковые наборы таксонов
tree1.retain_taxa_with_labels(tree2.taxon_namespace.labels())
tree2.retain_taxa_with_labels(tree1.taxon_namespace.labels())

# Расчет расстояния Робинсона-Фоулдса
rf_distance = symmetric_difference(tree1, tree2)
print(f"Расстояние Робинсона-Фоулдса между деревьями: {rf_distance}")

# Интерпретация результатов
if rf_distance > threshold:
    print("Значительное несоответствие между деревьями указывает на возможный ГПГ")
else:
    print("Деревья согласуются, что свидетельствует против гипотезы о ГПГ")
```

## Заключение

Понимание эволюционных отношений между генами (ортологии, паралогии) и механизмов горизонтального переноса генов имеет фундаментальное значение для современной биоинформатики и молекулярной биологии. Эти концепции лежат в основе:

1. **Функциональной аннотации геномов** — перенос знаний о функциях между ортологичными генами
2. **Сравнительной геномики** — изучение эволюции геномов и генных семейств
3. **Филогеномики** — реконструкция эволюционной истории видов на основе геномных данных
4. **Изучения микробной эволюции** — понимание роли ГПГ в адаптации и видообразовании
5. **Медицинской микробиологии** — исследование распространения генов устойчивости к антибиотикам

Современные вычислительные методы и алгоритмы позволяют эффективно идентифицировать различные типы гомологичных отношений и события горизонтального переноса генов, что способствует более глубокому пониманию молекулярной эволюции и функциональной организации геномов.

## Источники

1. Fitch, W.M. (1970). Distinguishing homologous from analogous proteins. Systematic Zoology, 19(2), 99-113.
2. Koonin, E.V. (2005). Orthologs, paralogs, and evolutionary genomics. Annual Review of Genetics, 39, 309-338.
3. Sonnhammer, E.L., & Koonin, E.V. (2002). Orthology, paralogy and proposed classification for paralog subtypes. Trends in Genetics, 18(12), 619-620.
4. Emms, D.M., & Kelly, S. (2015). OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy. Genome Biology, 16(1), 157.
5. Ravenhall, M., Škunca, N., Lassalle, F., & Dessimoz, C. (2015). Inferring horizontal gene transfer. PLoS Computational Biology, 11(5), e1004095.
6. Soucy, S.M., Huang, J., & Gogarten, J.P. (2015). Horizontal gene transfer: building the web of life. Nature Reviews Genetics, 16(8), 472-482.
7. Altenhoff, A.M., Glover, N.M., Train, C.M., et al. (2018). The OMA orthology database in 2018: