# Парное выравнивание

# Порядок сдачи домашнего

Вам требуется создать гит репозиторий куда вы будете складывать все ваши домашние. Под каждое домашнее вы создаете отдельную ветку куда вносите все изменения в рамках домашнего. Как только домашнее готово - создаете пулл реквест (обратите внимание что в пулл реквесте должны быть отражены все изменения в рамках домашнего). Ревьювера назначаете из таблицы - https://docs.google.com/spreadsheets/d/1vK6IgEqaqXniUJAQOOspiL_tx3EYTSXW1cUrMHAZFr8/edit?gid=0#gid=0
Перед сдачей проверьте код, напишите тесты. Не забудьте про PEP8, например, с помощью flake8. Задание нужно делать в jupyter notebook.

**Дедлайн - 30 сентября 10:00**

# Введение

**Выравнивание последовательностей** — фундаментальный инструмент в биоинформатике, позволяющий сравнивать биологические последовательности (ДНК, РНК, белки) для выявления сходства, которое может указывать на функциональные, структурные или эволюционные связи между ними.

**Парное выравнивание** подразумевает сравнение двух последовательностей для определения наилучшего соответствия между их элементами (нуклеотидами или аминокислотами). Существует два основных типа парного выравнивания:

- **Глобальное выравнивание**: направлено на выравнивание всей длины двух последовательностей, максимально учитывая все элементы.
- **Локальное выравнивание**: нацелено на поиск наилучшего соответствующего участка внутри двух последовательностей.

В данном домашнем задании мы с вами сконцентрируемся на **глобальном выравнивании**.

### Пример парного выравнивания

Рассмотрим две нуклеотидные последовательности:

```
Последовательность 1 (Seq1): A G C T A C G A
Последовательность 2 (Seq2): G C T A G A
```

**Глобальное выравнивание** (учитывает всю длину последовательностей):

```
Seq1: A G C T A C G A
Seq2: - G C T A - G A
```

### Значение выравнивания последовательностей

- **Эволюционные связи**: Сходство между последовательностями может указывать на общих предков.
- **Функциональные домены**: Выравнивание помогает идентифицировать консервативные участки, важные для функции белка или нуклеиновой кислоты.
- **Геномные исследования**: Используется для аннотации генов, предсказания структур и понимания генетических вариаций.

## Алгоритм выравнивания

- Для автоматизации процесса выравнивания используется **Алгоритм Нидлмана-Вунша**. Он предназначен для глобального выравнивания и использует динамическое программирование для нахождения оптимального выравнивания по всей длине последовательностей. 
- Для оценки сходства при выравнивании белковых последовательностей используется матрица **BLOSUM** (Blocks Substitution Matrix). Матрицы BLOSUM создаются на основе статистического анализа реальных белковых множественных выравниваний последовательностей.

### Пример множественного выравнивания (для построения матрциы BLOSUM)

Рассмотрим нуклеотидные последовательности:

```
Последовательность 1 (Seq1): A G C T A C G T G T C G C T G A A T C T A T G A C T
Последовательность 2 (Seq2): G C T A G A G C A A G G C A A C T G C A T C T
Последовательность 3 (Seq3): A C T G C A C C C A T G A A C C T C G C G C T
Последовательность 4 (Seq4): A C T G C A C C C A T G A A C C T C T C G C T
Последовательность 5 (Seq5): A C T G C A C C C A T G A A C C T C T C G C T
Последовательность 6 (Seq6): A C T G C A C C C A T G A A C C T C T C A C T
Последовательность 7 (Seq7): A C T G C A C C C A T G A A C C T C T C A C T
```

**Множественное выравнивание**:

```
Seq1: A G C T A C G T G T C G C T G A A T C T A T G A C T
Seq2: - G C T A - G A G C A - A G G C A A C T G C A T C T
Seq3: A - C T G - C A C C C - A T G A A C C T C G C G C T
Seq4: A - C T G - C A C C C - A T G A A C C T C T C G C T
Seq5: A - C T G - C A C C C - A T G A A C C T C T C G C T
Seq6: A - C T G - C A C C C - A T G A A C C T C T C A C T
Seq7: A - C T G - C A C C C - A T G A A C C T C T C A C T
```

Перед тем как приступать к реализации парного выравнивания давайте научимся считать матрицу BLOSUM.

# Матрица BLOSUM

## Подсчет частот пар нуклеотидов

### Шаг 1.1: Генерация пар нуклеотидов

Напишите функцию `generate_pairs(alignments)`, которая проходит по всем позициям выравнивания (одного столбца) и генерирует все возможные пары нуклеотидов в этой позиции.

**Пример**:

Рассмотрим на примере множественного выравнивания выше:

```
generate_pairs(["A", "A", "G"])
[('A', 'A'), ('A', 'G'), ('A', 'G')]

generate_pairs(["T", "T", "T"])
[('T', 'T'), ('T', 'T'), ('T', 'T')]

generate_pairs(["G", "G", "-"])
[('G', 'G'), ('G', '-'), ('G', '-')]

len(generate_pairs(['A', 'T', 'G', 'G', 'G', 'A', 'A']))
21
```

In [17]:
alignments = ["AGCTACGTGTCGCTGAATCTATGACT", 
              "-GCTA-GAGCA-AGGCAACTGCATCT", 
              "A-CTG-CACCC-ATGAACCTCGCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCACT",
              "A-CTG-CACCC-ATGAACCTCTCACT"
             ]

In [18]:
# ["A1a", "B2b", "C3c"] -> ["ABC", "123", "abc"]
def transpose(matrix):
    return [''.join(col) for col in zip(*matrix)]

# sorted!
# [a, b, c] -> [(a, b), (a, c), (b, c)]
def combinations(arr):
    return [tuple(sorted([arr[i], arr[j]])) for i in range(len(arr)) for j in range(i + 1, len(arr))]

# [("A", "B"), ("A", "B"), ("B", "C")] -> [("A", "B"): 2, ("B", "C"): 1]
def list_to_dict(arr):
    return {t: arr.count(t) for t in set(arr)}

# ["ABC", "123"] -> [('1', 'A'), ('2', 'B'), ('3', 'C')]
def generate_pairs(alignments):
    return [elem for row in transpose(alignments) for elem in combinations(list(row))]

Протестируем:

In [19]:
tests=[["A", "A", "G"],
       ["ABC", "123"],
       ["G", "G", "-"]]

results= [[('A', 'A'), ('A', 'G'), ('A', 'G')],
          [('1', 'A'), ('2', 'B'), ('3', 'C')],
          [('G', 'G'), ('-', 'G'), ('-', 'G')]]

for i in range(len(tests)):
    if generate_pairs(tests[i])==results[i]:
        if i==len(tests)-1:
            print("All tests passed")
        continue
    else:
        print("Test failed")
        print("test:", tests[i], "expected result:", results[i])
        break


All tests passed


### Шаг 1.2: Подсчет частот пар

Используйте полученные пары для подсчета частоты каждой пары нуклеотидов. Создайте словарь `pair_counts`, где ключом является кортеж из двух нуклеотидов, а значением — количество их совместных появлений. Пропуски в выравнивании нужно пропускать (если один из символ в выравнивании `'-'`)

**Подсказка**: Учитывайте, что матрица симметрична, поэтому пары `('A','G')` и `('G','A')` должны считаться одинаковыми.

**Пример**:

```
pair_counts = count_pairs(alignments)
pair_counts
{('A', 'A'): 85, ('G', 'G'): 37, ('C', 'C'): 143, ('T', 'T'): 88, ('A', 'G'): 21, 
 ('C', 'G'): 31, ('A', 'T'): 10, ('C', 'T'): 16, ('A', 'C'): 33, ('G', 'T'): 14}
```

In [20]:
def count_pairs(alignments):
    pairs = generate_pairs(alignments)
    filtered_pairs = [tuple(sorted(t)) for t in pairs if t[0] != "-" and t[1] != "-"]

    return list_to_dict(filtered_pairs)

Протестируем:

In [21]:
result1={('A', 'A'): 85, ('G', 'G'): 37, ('C', 'C'): 143, ('T', 'T'): 88, ('A', 'G'): 21, 
 ('C', 'G'): 31, ('A', 'T'): 10, ('C', 'T'): 16, ('A', 'C'): 33, ('G', 'T'): 14}

print(result1 == count_pairs(alignments))

True


## Вычисление ожидаемых частот

Реализуйте функцию `calculate_frequencies`, которая будет вычислять частоту нуклеотида по множественному выравниванию

**Пример**:

```
freqs = calculate_frequencies(alignments)
print("Частоты:")
for x, freq in freqs.items():
    print(f"{x}: {freq:.4f}")
    
Частоты:
A: 0.2439
G: 0.1585
C: 0.3780
T: 0.2195
```

In [22]:
def calculate_frequencies(alignments):
    characters = [x for row in alignments for x in list(row) if x != "-"]
    return {k: v / len(characters) for k, v in list_to_dict(characters).items()}

In [23]:
pair_counts = count_pairs(alignments)

freqs = calculate_frequencies(alignments)

##  Расчет логарифмических коэффициентов

- Для каждой пары нуклеотидов `(x, y)` вычислите логарифмический коэффициент замены по формуле:


$$S(x, y) = scale * \log_2 \left( \frac{observed\_freq[x, y]}{expected\_freq[x, y]} \right)$$

- Здесь `observed_freq` — наблюдаемая частота пары из `pair_counts` деленное на общее количество пар, а `expected_freq` — ожидаемая частота, которую можно вычислить как `expected_freq[x, y] = freqs[x] * freqs[y]`

- Для удобства представления округлите значения `S(x, y)` до целых чисел, умножив на масштабный фактор (например, 3).

**Пример:**

```python
scores = calculate_scores(pair_counts, freqs)
scores
{('A', 'A'): 5, ('G', 'G'): 5, ('C', 'C'): 3, ('T', 'T'): 6, ('A', 'G'): 1,
 ('C', 'G'): 0, ('A', 'T'): -3, ('C', 'T'): -3, ('A', 'C'): 0, ('G', 'T'): 0}
```


In [24]:
from math import log2
def calculate_scores(pair_counts, freqs, scale=3):
    pairs_counter = sum(pair_counts.values())
    scores = {}
    for k, v in pair_counts.items():
        observed_freq = v / pairs_counter
        expected_freq = freqs[k[0]] * freqs[k[1]]
        scores[k] = round(scale * log2(observed_freq / expected_freq))

    return scores

In [25]:
scores=calculate_scores(pair_counts, freqs)
print(scores)

{('A', 'A'): 5, ('G', 'G'): 5, ('G', 'T'): -1, ('A', 'G'): 1, ('A', 'T'): -4, ('C', 'G'): 0, ('T', 'T'): 6, ('C', 'T'): -4, ('A', 'C'): -1, ('C', 'C'): 3}



## Составление матрицы BLOSUM

### Шаг 4.1: Заполнение матрицы

- Реализуйте функцию `create_blosum_matrix`, для создания BLOSUM матрицы.
- Используйте рассчитанные ранее логарифмические коэффициенты `scores` для заполнения матрицы.
- Учитывайте, что матрица симметрична: `S(x, y) = S(y, x)`.

**Пример:**

```python
blosum_matrix = create_blosum_matrix(scores, nucleotides)
blosum_matrix
{'A': {'A': 5, 'G': 1, 'C': 0, 'T': -3},
 'G': {'A': 1, 'G': 5, 'C': 0, 'T': 0},
 'C': {'A': 0, 'G': 0, 'C': 3, 'T': -3},
 'T': {'A': -3, 'G': 0, 'C': -3, 'T': 6}}
```


In [26]:
def create_blossum_matrix(scores, nucleotides):
    blossum_matrix = {}
    for i in nucleotides:
        blossum_matrix[i] = {n: scores[tuple(sorted([i, n]))] for n in nucleotides}

    return blossum_matrix

In [27]:
nucleotides = list(freqs.keys())
blossum_matrix = create_blossum_matrix(scores, nucleotides)
print(blossum_matrix)

{'C': {'C': 3, 'G': 0, 'T': -4, 'A': -1}, 'G': {'C': 0, 'G': 5, 'T': -1, 'A': 1}, 'T': {'C': -4, 'G': -1, 'T': 6, 'A': -4}, 'A': {'C': -1, 'G': 1, 'T': -4, 'A': 5}}


### Шаг 4.2: Вывод матрицы

- Выведите матрицу BLOSUM в удобочитаемом формате, например, как таблицу с заголовками.

**Пример:**

```python
print_blosum_matrix(blosum_matrix, nucleotides)
    A   G   C   T
A   5   1   0  -3
G   1   5   0   0
C   0   0   3  -3
T  -3   0  -3   6
```

In [28]:
def shift(elem, gap):
    assert len(str(elem)) < gap

    return " " * (gap - len(str(elem))) + str(elem)

def print_blosum_matrix(blosum_matrix):
    gap = 3

    print(" ", end="")
    for key in blosum_matrix.keys():
        print(shift(key, gap), end="")
    print()

    for key, scores in blosum_matrix.items():
        print(key, end="")
        for nucleotide, score in scores.items():
            print(shift(score, gap), end="")
        print()

In [29]:
print_blosum_matrix(blossum_matrix)

   C  G  T  A
C  3  0 -4 -1
G  0  5 -1  1
T -4 -1  6 -4
A -1  1 -4  5


## Визуализация результатов

Запустите код для визуализации результатов. Потребуется установить пакеты через `pip install numpy`

In [30]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

def visualize_blosum_matrix(matrix, nucleotides):
    data = np.array([[matrix[x][y] for y in nucleotides] for x in nucleotides])
    plt.figure(figsize=(10, 8))
    sns.heatmap(data, xticklabels=nucleotides, yticklabels=nucleotides, annot=True, cmap="coolwarm")
    plt.title("Матрица BLOSUM")
    plt.show()

# Пример использования
visualize_blosum_matrix(blosum_matrix, nucleotides)

ModuleNotFoundError: No module named 'seaborn'

# Реализация алгоритма Нидлмана-Вунша

### Шаг 5: Инициализация матрицы динамического программирования

Теперь перейдём к реализации алгоритма [Нидлмана-Вунша](https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm).

Реализуйте функцию `init`, которая по $m, n$ и ошибке $\sigma$ строит матрицу c $m + 1$ строкой и $n + 1$ столбцом:

$$A_{m,n} = \begin{pmatrix} 0 & -\sigma & \cdots & -n \sigma \\ -\sigma & 0 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ -m\sigma & 0 & \cdots & 0 \end{pmatrix} $$

**Пример:**

```python
print(init(3, 3, 4))
[[0, -4, -8, -12], [-4, 0, 0, 0], [-8, 0, 0, 0], [-12, 0, 0, 0]]
```

In [31]:
def init(m, n, sigma):
    matrix= [[0 for _ in range(n + 1)] for _ in range(m + 1)]
    
    for j in range(1, n + 1):
        matrix[0][j] = -j * sigma
    
    for i in range(1, m + 1):
        matrix[i][0] = -i * sigma
    
    return matrix

In [32]:
from pprint import pprint

pprint(init(3, 3, 4))

[[0, -4, -8, -12], [-4, 0, 0, 0], [-8, 0, 0, 0], [-12, 0, 0, 0]]


### Шаг 6: Заполнение матрицы динамического программирования

Пусть `a` и `b` - две последовательности, которые хотим выравнять. Теперь имея пустую матрицу, нужно научиться её заполнять. Для этого вспомним, как вычисляется очередной элемент матрицы:

$$A_{i \ j} = max \begin{cases} A_{i-1 \ j-1} + s(a_{i},b_{j}) & \ \text{Match / Mismatch}\\ A_{i \ j-1} - \sigma & \ \text{Insertion} \\ A_{i-1\ j} - \sigma & \ \text{Deletion} \end{cases}$$

где $s(a_{i},b_{j})$ - значение матрицы BLOSUM для нуклеотидов $a_{i}$ и $b_{j}$, $\sigma$ - штраф за пропуск символа в выравнивании (параметр)

### Шаг 7: Вычисление значения матрицы

Реализуйте функцию `get_new_score`, которая принимает на вход 5 параметров - `up` ($A_{i-1\ j}$), `left` ($A_{i \ j-1}$), `middle` ($A_{i-1 \ j-1}$), `s_score` ($s(a_{i},b_{j})$), `gap_penalty` ($\sigma$), и вычисляет значение для матрицы $A_{i\ j}$

**Пример:**

```python
print(get_new_score(0, 10, 2, 0, 2))
8
print(get_new_score(-16, -7, -14, 0, 2))
-9
```

In [33]:
def get_new_score(up, left, middle, s_score, gap_penalty):
    return max(up - gap_penalty, left - gap_penalty, middle + s_score)

In [34]:
print(get_new_score(0, 10, 2, 0, 2))
print(get_new_score(-16, -7, -14, 0, 2))

8
-9


### Шаг 8 Заполнение матрицы

Реализуйте функцию `align`,  которая на вход принимает две последовательности ДНК, штраф за пропуск ($\sigma$), матрицу BLOSUM и возвращает заполненную матрицу `A`.

**Пример:**

```python
top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2

print(align(top_seq, bottom_seq, gap_penalty, blosum_matrix))
[[0, -2, -4, -6, -8, -10, -12, -14, -16],
 [-2, -1, -2, 2, 0, -2, -4, -6, -8],
 [-4, 2, 0, 0, 6, 4, 2, 0, -2],
 [-6, 0, 2, 6, 4, 4, 4, 2, 0],
 [-8, -2, 4, 4, 7, 5, 8, 6, 4],
 [-10, -4, 2, 2, 5, 9, 7, 10, 8]]
```

In [35]:
top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2

In [36]:
def align(top_seq, bottom_seq, gap_penalty, blossum_matrix):
    
    n = len(top_seq)
    m = len(bottom_seq)
    matrix=init(m, n, gap_penalty)
    
    # Fill the rest of the matrix
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            matrix[i][j] = get_new_score(matrix[i-1][j], matrix[i][j-1], matrix[i-1][j-1], blossum_matrix[bottom_seq[i-1]][top_seq[j-1]], gap_penalty)
    
    return matrix

Примечание:

Если руками посчитать для первой комбинации(AT) по даннным формулам и матрице из условия, то получается: get_new_score(-2, -2, 0, -3, 2) -> -3

-1, как в примере невозможно получить :(

In [37]:
blossum_test={'A': {'A': 5, 'G': 1, 'C': 0, 'T': -3},
 'G': {'A': 1, 'G': 5, 'C': 0, 'T': 0},
 'C': {'A': 0, 'G': 0, 'C': 3, 'T': -3},
 'T': {'A': -3, 'G': 0, 'C': -3, 'T': 6}}

sm=align(top_seq, bottom_seq, gap_penalty, blossum_matrix)
pprint(align(top_seq, bottom_seq, gap_penalty, blossum_test))

[[0, -2, -4, -6, -8, -10, -12, -14, -16],
 [-2, -3, -2, 2, 0, -2, -4, -6, -8],
 [-4, 3, 1, 0, 7, 5, 3, 1, -1],
 [-6, 1, 3, 7, 5, 4, 5, 3, 1],
 [-8, -1, 6, 5, 8, 6, 9, 7, 5],
 [-10, -3, 4, 3, 6, 11, 9, 12, 10]]


### Шаг 9: Построение выравнивания

Теперь имея матрицу выравнивания построим самое выравнивание.

Реализуйте функцию get_alignment, которая по двум последовательностям, матрице выравнивания, штрафа за пропуски, бонусам за совпадение/несовпадение нуклеотидов строит выравнивание.

**Пример:**

```python

top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2
sm = align(top_seq, bottom_seq, gap_penalty, blosum_matrix)
aligns = get_alignment(top_seq, bottom_seq, sm, gap_penalty, blosum_matrix)
print(aligns[0])
print(aligns[1])
--TATGC-
AGTACGCA

top_seq = "AGTCTCCCCC"
bottom_seq = "ACTTCTACCCCAGC"
sm = align(top_seq, bottom_seq, gap_penalty, blosum_matrix)
aligns = get_alignment(top_seq, bottom_seq, sm, gap_penalty, blosum_matrix)
print(aligns[0])
print(aligns[1])
ACTTCTACCCCAGC
AGT-CT-CCCC--C
```

In [61]:
def get_alignment(top_seq, bottom_seq, sm, gap_penalty, blosum_matrix):
    
    aligned_top_seq = ""
    aligned_bottom_seq = ""

    # Начало с нижнего правого угла матрицы выравнивания
    j = len(top_seq)
    i = len(bottom_seq)

    
    while i > 0 or j > 0:
        # Если текущий элемент матрицы выравнивания соответствует пропуску
        if i > 0 and j > 0 and sm[i][j] == sm[i-1][j-1] + blosum_matrix[top_seq[j-1]][bottom_seq[i-1]]:
            aligned_top_seq = top_seq[j-1] + aligned_top_seq
            aligned_bottom_seq = bottom_seq[i-1] + aligned_bottom_seq
            i -= 1
            j -= 1
        # Если текущий элемент матрицы выравнивания соответствует пропуску в верхней последовательности
        elif i > 0 and sm[i][j] == sm[i-1][j] - gap_penalty:
            aligned_top_seq = top_seq[j-1] + aligned_top_seq
            aligned_bottom_seq = "-" + aligned_bottom_seq
            i -= 1
        # Если текущий элемент матрицы выравнивания соответствует пропуску в нижней последовательности
        elif j > 0 and sm[i][j] == sm[i][j-1] - gap_penalty:
            aligned_top_seq = "-" + aligned_top_seq
            aligned_bottom_seq = bottom_seq[i-1] + aligned_bottom_seq
            j -= 1

    return [aligned_top_seq, aligned_bottom_seq]

Ожидаемый результат:

```python
--TATGC-
AGTACGCA
```

In [74]:
top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2
sm = align(top_seq, bottom_seq, gap_penalty, blossum_matrix)
aligns = get_alignment(top_seq, bottom_seq, sm, gap_penalty, blossum_matrix)
print(aligns[0])
print(aligns[1])

--TACGC-
CCTATGCC


Ожидаемый результат:

```python
ACTTCTACCCCAGC
AGT-CT-CCCC--C
```

In [73]:
top_seq = "AGTCTCCCCC"
bottom_seq = "ACTTCTACCCCAGC"
sm = align(top_seq, bottom_seq, gap_penalty, blossum_matrix)
aligns = get_alignment(top_seq, bottom_seq, sm, gap_penalty, blossum_matrix)
print(aligns[0])
print(aligns[1])

AGGTCTTCCCCCCC
AC-TCT-CCCC--C


## Поздравляю! Мы научились выравнивать ДНК!