# Парное выравнивание

# Порядок сдачи домашнего

Вам требуется создать гит репозиторий куда вы будете складывать все ваши домашние. Под каждое домашнее вы создаете отдельную ветку куда вносите все изменения в рамках домашнего. Как только домашнее готово - создаете пулл реквест (обратите внимание что в пулл реквесте должны быть отражены все изменения в рамках домашнего). Ревьювером назначаете http://github.com/michael15346/ .
Перед сдачей проверьте код, напишите тесты. Не забудьте про PEP8, например, с помощью flake8. Задание нужно делать в jupyter notebook.

**Дедлайн - 21 октября 10:00**

# Введение

**Выравнивание последовательностей** — фундаментальный инструмент в биоинформатике, позволяющий сравнивать биологические последовательности (ДНК, РНК, белки) для выявления сходства, которое может указывать на функциональные, структурные или эволюционные связи между ними.

**Парное выравнивание** подразумевает сравнение двух последовательностей для определения наилучшего соответствия между их элементами (нуклеотидами или аминокислотами). Существует два основных типа парного выравнивания:

- **Глобальное выравнивание**: направлено на выравнивание всей длины двух последовательностей, максимально учитывая все элементы.
- **Локальное выравнивание**: нацелено на поиск наилучшего соответствующего участка внутри двух последовательностей.

В данном домашнем задании мы с вами сконцентрируемся на **глобальном выравнивании**.

### Пример парного выравнивания

Рассмотрим две нуклеотидные последовательности:

```
Последовательность 1 (Seq1): A G C T A C G A
Последовательность 2 (Seq2): G C T A G A
```

**Глобальное выравнивание** (учитывает всю длину последовательностей):

```
Seq1: A G C T A C G A
Seq2: - G C T A - G A
```

### Значение выравнивания последовательностей

- **Эволюционные связи**: Сходство между последовательностями может указывать на общих предков.
- **Функциональные домены**: Выравнивание помогает идентифицировать консервативные участки, важные для функции белка или нуклеиновой кислоты.
- **Геномные исследования**: Используется для аннотации генов, предсказания структур и понимания генетических вариаций.

## Алгоритм выравнивания

- Для автоматизации процесса выравнивания используется **Алгоритм Нидлмана-Вунша**. Он предназначен для глобального выравнивания и использует динамическое программирование для нахождения оптимального выравнивания по всей длине последовательностей. 
- Для оценки сходства при выравнивании белковых последовательностей используется матрица **BLOSUM** (Blocks Substitution Matrix). Матрицы BLOSUM создаются на основе статистического анализа реальных белковых множественных выравниваний последовательностей.

### Пример множественного выравнивания (для построения матрциы BLOSUM)

Рассмотрим нуклеотидные последовательности:

```
Последовательность 1 (Seq1): A G C T A C G T G T C G C T G A A T C T A T G A C T
Последовательность 2 (Seq2): G C T A G A G C A A G G C A A C T G C A T C T
Последовательность 3 (Seq3): A C T G C A C C C A T G A A C C T C G C G C T
Последовательность 4 (Seq4): A C T G C A C C C A T G A A C C T C T C G C T
Последовательность 5 (Seq5): A C T G C A C C C A T G A A C C T C T C G C T
Последовательность 6 (Seq6): A C T G C A C C C A T G A A C C T C T C A C T
Последовательность 7 (Seq7): A C T G C A C C C A T G A A C C T C T C A C T
```

**Множественное выравнивание**:

```
Seq1: A G C T A C G T G T C G C T G A A T C T A T G A C T
Seq2: - G C T A - G A G C A - A G G C A A C T G C A T C T
Seq3: A - C T G - C A C C C - A T G A A C C T C G C G C T
Seq4: A - C T G - C A C C C - A T G A A C C T C T C G C T
Seq5: A - C T G - C A C C C - A T G A A C C T C T C G C T
Seq6: A - C T G - C A C C C - A T G A A C C T C T C A C T
Seq7: A - C T G - C A C C C - A T G A A C C T C T C A C T
```

Перед тем как приступать к реализации парного выравнивания давайте научимся считать матрицу BLOSUM.

# Матрица BLOSUM

## Подсчет частот пар нуклеотидов

### Шаг 1.1: Генерация пар нуклеотидов

Напишите функцию `generate_pairs(alignments)`, которая проходит по всем позициям выравнивания (одного столбца) и генерирует все возможные пары нуклеотидов в этой позиции.

**Пример**:

Рассмотрим на примере множественного выравнивания выше:

```
generate_pairs(["A", "A", "G"])
[('A', 'A'), ('A', 'G'), ('A', 'G')]

generate_pairs(["T", "T", "T"])
[('T', 'T'), ('T', 'T'), ('T', 'T')]

generate_pairs(["G", "G", "-"])
[('G', 'G'), ('G', '-'), ('G', '-')]

len(generate_pairs(['A', 'T', 'G', 'G', 'G', 'A', 'A']))
21
```

In [26]:
alignments = ["AGCTACGTGTCGCTGAATCTATGACT", 
              "-GCTA-GAGCA-AGGCAACTGCATCT", 
              "A-CTG-CACCC-ATGAACCTCGCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCACT",
              "A-CTG-CACCC-ATGAACCTCTCACT"
             ]


In [113]:
# i - номер столбца для подсчёта
def generate_pairs(alignments, i):
    massiv=[]
    for j in range(len(alignments)-1):
        for k in range(j+1,len(alignments)):
            massiv.append([alignments[j][i],alignments[k][i]])
    return massiv
print((generate_pairs(alignments, 0)))

[['A', '-'], ['A', 'A'], ['A', 'A'], ['A', 'A'], ['A', 'A'], ['A', 'A'], ['-', 'A'], ['-', 'A'], ['-', 'A'], ['-', 'A'], ['-', 'A'], ['A', 'A'], ['A', 'A'], ['A', 'A'], ['A', 'A'], ['A', 'A'], ['A', 'A'], ['A', 'A'], ['A', 'A'], ['A', 'A'], ['A', 'A']]


### Шаг 1.2: Подсчет частот пар

Используйте полученные пары для подсчета частоты каждой пары нуклеотидов. Создайте словарь `pair_counts`, где ключом является кортеж из двух нуклеотидов, а значением — количество их совместных появлений. Пропуски в выравнивании нужно пропускать (если один из символ в выравнивании `'-'`)

**Подсказка**: Учитывайте, что матрица симметрична, поэтому пары `('A','G')` и `('G','A')` должны считаться одинаковыми.

**Пример**:

```
pair_counts = count_pairs(alignments)
pair_counts
{('A', 'A'): 85, ('G', 'G'): 37, ('C', 'C'): 143, ('T', 'T'): 88, ('A', 'G'): 21, 
 ('C', 'G'): 31, ('A', 'T'): 10, ('C', 'T'): 16, ('A', 'C'): 33, ('G', 'T'): 14}
```

In [183]:
def count_pairs(alignments):
    pair_counts={}
    for i in range(len(alignments[0])):
        arr=generate_pairs(alignments, i)
        for j in range(len(arr)):
            if (arr[j][0]!= '-') and (arr[j][1] != '-'):
                if (pair_counts.get(tuple(arr[j][:])) or (pair_counts.get(tuple(arr[j][::-1])))) == None:
                    pair_counts.setdefault(tuple(arr[j][:]),1)
                elif  pair_counts.get(tuple(arr[j][:]))!= None :
                    pair_counts[tuple(arr[j][::])]+=1
                else:
                    pair_counts[tuple(arr[j][::-1])]+=1
    return pair_counts
pair_counts=count_pairs(alignments)
pair_counts

{('A', 'A'): 85,
 ('G', 'G'): 37,
 ('C', 'C'): 143,
 ('T', 'T'): 88,
 ('A', 'G'): 21,
 ('G', 'C'): 31,
 ('T', 'A'): 10,
 ('T', 'C'): 16,
 ('C', 'A'): 33,
 ('T', 'G'): 14}

## Вычисление ожидаемых частот

Реализуйте функцию `calculate_frequencies`, которая будет вычислять частоту нуклеотида по множественному выравниванию

**Пример**:

```
freqs = calculate_frequencies(alignments)
print("Частоты:")
for x, freq in freqs.items():
    print(f"{x}: {freq:.4f}")
    
Частоты:
A: 0.2439
G: 0.1585
C: 0.3780
T: 0.2195
```

In [148]:
def calculate_frequencies(alignments):
    dict2=count_pairs(alignments)
    dict1={}
    nuleotid,count=[],[]
    count=0
    for  arr1,arr2 in dict2.items():
        if dict1.get(tuple([arr1[0]]))== None:
            dict1.setdefault(tuple([arr1[0]]),0)
        if dict1.get(tuple([arr1[1]]))== None:
            dict1.setdefault(tuple([arr1[1]]),0)
        dict1[tuple(arr1[0])]+=arr2
        dict1[tuple(arr1[1])]+=arr2
        count+=arr2*2
    for arr1,arr2 in dict1.items():
        dict1[arr1]=arr2/count
    return dict1
freqs=calculate_frequencies(alignments)
freqs

{('A',): 0.24476987447698745,
 ('G',): 0.14644351464435146,
 ('C',): 0.38284518828451886,
 ('T',): 0.22594142259414227}

##  Расчет логарифмических коэффициентов

- Для каждой пары нуклеотидов `(x, y)` вычислите логарифмический коэффициент замены по формуле:


$$S(x, y) = scale * \log_2 \left( \frac{observed\_freq[x, y]}{expected\_freq[x, y]} \right)$$

- Здесь `observed_freq` — наблюдаемая частота пары из `pair_counts` деленное на общее количество пар, а `expected_freq` — ожидаемая частота, которую можно вычислить как `expected_freq[x, y] = freqs[x] * freqs[y]`

- Для удобства представления округлите значения `S(x, y)` до целых чисел, умножив на масштабный фактор (например, 3).

**Пример:**

```python
scores = calculate_scores(pair_counts, freqs)
scores
{('A', 'A'): 5, ('G', 'G'): 5, ('C', 'C'): 3, ('T', 'T'): 6, ('A', 'G'): 1,
 ('C', 'G'): 0, ('A', 'T'): -4, ('C', 'T'): -4, ('A', 'C'): -1, ('G', 'T'): -1}
```


In [204]:
from math import log,ceil,floor
def calculate_scores(pair_counts, freqs, scale=3):
    count1=sum(pair_counts.values())
    for arr1,arr2 in pair_counts.items():
        pair_counts1[arr1]=round(scale*log((arr2/count1)/(freqs.setdefault(tuple(arr1[0]))*freqs.setdefault(tuple(arr1[1]))),2))
    return pair_counts1
scores=calculate_scores(pair_counts, freqs, scale=3)
scores

{('A', 'A'): 5,
 ('G', 'G'): 6,
 ('C', 'C'): 3,
 ('T', 'T'): 6,
 ('A', 'G'): 1,
 ('G', 'C'): 1,
 ('T', 'A'): -4,
 ('T', 'C'): -4,
 ('C', 'A'): -1,
 ('T', 'G'): -1}


## Составление матрицы BLOSUM

### Шаг 4.1: Заполнение матрицы

- Реализуйте функцию `create_blosum_matrix`, для создания BLOSUM матрицы.
- Используйте рассчитанные ранее логарифмические коэффициенты `scores` для заполнения матрицы.
- Учитывайте, что матрица симметрична: `S(x, y) = S(y, x)`.

**Пример:**

```python
blosum_matrix = create_blosum_matrix(scores, nucleotides)
blosum_matrix
{'A': {'A': 5, 'G': 1, 'C': -1, 'T': -4},
 'G': {'A': 1, 'G': 5, 'C': 0, 'T': -1},
 'C': {'A': -1, 'G': 0, 'C': 3, 'T': -4},
 'T': {'A': -4, 'G': -1, 'C': -4, 'T': 6}}
```


In [244]:
def create_blosum_matrix(scores):
    slovar={'A':{},'G':{},'C':{},'T':{}}
    for arr1,arr2 in scores.items():
        slovar[str(arr1[0])][str(arr1[1])]=arr2
        slovar[str(arr1[1])][str(arr1[0])]=arr2
    return slovar
blosum_matrix=create_blosum_matrix(scores)
print(blosum_matrix)

{'A': {'A': 5, 'G': 1, 'T': -4, 'C': -1}, 'G': {'G': 6, 'A': 1, 'C': 1, 'T': -1}, 'C': {'C': 3, 'G': 1, 'T': -4, 'A': -1}, 'T': {'T': 6, 'A': -4, 'C': -4, 'G': -1}}


### Шаг 4.2: Вывод матрицы

- Выведите матрицу BLOSUM в удобочитаемом формате, например, как таблицу с заголовками.

**Пример:**

```python
print_blosum_matrix(blosum_matrix, nucleotides)
    A   G   C   T
A   5   1  -1  -4
G   1   5   0  -1
C  -1   0   3  -4
T  -4  -1  -4   6
```

In [224]:
def print_blosum_matrix(matrix):
    row=['A','G','C','T']
    column=['A','G','C','T']
    print('  A G  C  T')
    for i in row:
        print(i, matrix[i][row[0]],matrix[i][row[1]],matrix[i][row[2]],matrix[i][row[3]])
print_blosum_matrix(matrix)

  A G  C  T
A 5 1 -1 -4
G 1 6 1 -1
C -1 1 3 -4
T -4 -1 -4 6


## Визуализация результатов

Запустите код для визуализации результатов. Здесь вам понадобится установить библиотеки. Для этого в консоли выполните:
```
pip install numpy
pip install seaborn
pip install matplotlib
```

In [225]:
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

def visualize_blosum_matrix(matrix, nucleotides):
    data = np.array([[matrix[x][y] for y in nucleotides] for x in nucleotides])
    plt.figure(figsize=(10, 8))
    sns.heatmap(data, xticklabels=nucleotides, yticklabels=nucleotides, annot=True, cmap="coolwarm")
    plt.title("Матрица BLOSUM")
    plt.show()

# Пример использования
visualize_blosum_matrix(blosum_matrix, nucleotides)

<class 'ModuleNotFoundError'>: No module named 'seaborn'

# Реализация алгоритма Нидлмана-Вунша

### Шаг 5: Инициализация матрицы динамического программирования

Теперь перейдём к реализации алгоритма [Нидлмана-Вунша](https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm).

Реализуйте функцию `init`, которая по $m, n$ и ошибке $\sigma$ строит матрицу c $m + 1$ строкой и $n + 1$ столбцом:

$$A_{m,n} = \begin{pmatrix} 0 & -\sigma & \cdots & -n \sigma \\ -\sigma & 0 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ -m\sigma & 0 & \cdots & 0 \end{pmatrix} $$

**Пример:**

```python
print(init(3, 3, 4))
[[0, -4, -8, -12], [-4, 0, 0, 0], [-8, 0, 0, 0], [-12, 0, 0, 0]]
```

In [249]:
def init(m, n, gap_penalty=10):
    A = [[0 for i in range(n + 1)] for j in range(m + 1)]
    for i in range(1, n + 1):
        A[0][i] = -gap_penalty * i    
    for i in range(1, m + 1):
        A[i][0] = -gap_penalty * i   
    return A
print(init(3, 3, 4))

[[0, -4, -8, -12], [-4, 0, 0, 0], [-8, 0, 0, 0], [-12, 0, 0, 0]]


### Шаг 6: Заполнение матрицы динамического программирования

Пусть `a` и `b` - две последовательности, которые хотим выравнять. Теперь имея пустую матрицу, нужно научиться её заполнять. Для этого вспомним, как вычисляется очередной элемент матрицы:

$$A_{i \ j} = max \begin{cases} A_{i-1 \ j-1} + s(a_{i},b_{j}) & \ \text{Match / Mismatch}\\ A_{i \ j-1} - \sigma & \ \text{Insertion} \\ A_{i-1\ j} - \sigma & \ \text{Deletion} \end{cases}$$

где $s(a_{i},b_{j})$ - значение матрицы BLOSUM для нуклеотидов $a_{i}$ и $b_{j}$, $\sigma$ - штраф за пропуск символа в выравнивании (параметр)

### Шаг 7: Вычисление значения матрицы

Реализуйте функцию `get_new_score`, которая принимает на вход 5 параметров - `up` ($A_{i-1\ j}$), `left` ($A_{i \ j-1}$), `middle` ($A_{i-1 \ j-1}$), `s_score` ($s(a_{i},b_{j})$), `gap_penalty` ($\sigma$), и вычисляет значение для матрицы $A_{i\ j}$

**Пример:**

```python
print(get_new_score(0, 10, 2, 0, 2))
8
print(get_new_score(-16, -7, -14, 0, 2))
-9
```

In [241]:
def get_new_score(up, left, middle, s_score, gap_penalty):
    score_up = up - gap_penalty
    score_left = left - gap_penalty
    score_middle = middle + s_score
    return max(score_up, score_left, score_middle)
    
print(get_new_score(0, 10, 2, 0, 2))

8


### Шаг 8 Заполнение матрицы

Реализуйте функцию `align`,  которая на вход принимает две последовательности ДНК, штраф за пропуск ($\sigma$), матрицу BLOSUM и возвращает заполненную матрицу `A`.

**Пример:**

```python
top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2

print(align(top_seq, bottom_seq, gap_penalty, blosum_matrix))
[[0, -2, -4, -6, -8, -10, -12, -14, -16],
 [-2, -4, -3, 2, 0, -2, -4, -6, -8],
 [-4, 3, 1, 0, 7, 5, 3, 1, -1],
 [-6, 1, 2, 7, 5, 3, 4, 2, 0],
 [-8, -1, 6, 5, 8, 6, 8, 6, 4],
 [-10, -3, 4, 3, 6, 11, 9, 11, 9]]
```

In [242]:
top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2

In [256]:
def align(top_seq, bottom_seq, gap_penalty, blosum_matrix):
    m = len(top_seq)
    n = len(bottom_seq)
    A = init(m, n, gap_penalty)

    for i in range(1, m + 1):
        for j in range(1, n + 1):
            a_i = top_seq[i - 1]
            b_j = bottom_seq[j - 1]
            s_score = blosum_matrix[a_i][b_j]
            A[i][j] = get_new_score(A[i - 1][j], A[i][j - 1], A[i - 1][j - 1], s_score, gap_penalty)
    return A
result = align(top_seq, bottom_seq, gap_penalty, blosum_matrix)
for row in result:
    print(row)

[0, -2, -4, -6, -8, -10]
[-2, -4, 3, 1, -1, -3]
[-4, -3, 1, 2, 7, 5]
[-6, 2, 0, 7, 5, 3]
[-8, 0, 7, 5, 8, 6]
[-10, -2, 5, 3, 6, 11]
[-12, -4, 3, 4, 9, 9]
[-14, -6, 1, 2, 7, 12]
[-16, -8, -1, 0, 5, 10]


### Шаг 9: Построение выравнивания

Теперь имея матрицу выравнивания построим самое выравнивание.

Реализуйте функцию get_alignment, которая по двум последовательностям, матрице выравнивания, штрафа за пропуски, бонусам за совпадение/несовпадение нуклеотидов строит выравнивание.

**Пример:**

```python

top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2
sm = align(top_seq, bottom_seq, gap_penalty, blosum_matrix)
aligns = get_alignment(top_seq, bottom_seq, sm, gap_penalty, blosum_matrix)
print(aligns[0])
print(aligns[1])
TA-T--GC-
-AGTACGCA

top_seq = "AGTCTCCCCC"
bottom_seq = "ACTTCTACCCCAGC"
sm = align(top_seq, bottom_seq, gap_penalty, blosum_matrix)
aligns = get_alignment(top_seq, bottom_seq, sm, gap_penalty, blosum_matrix)
print(aligns[0])
print(aligns[1])
ACTTCTACCCCAGC
AGT-CT-CCCC--C
```

In [None]:
def get_alignment(top_seq, bottom_seq, sm, gap_penalty, blosum_matrix):
    aligned_top = []
    aligned_bottom = []
    i = len(top_seq)
    j = len(bottom_seq)
    while i > 0 and j > 0:
        score = sm[i][j]
        score_diag = sm[i - 1][j - 1]
        score_up = sm[i - 1][j]
        score_left = sm[i][j - 1]
        if score == score_diag + blosum_matrix[top_seq[i - 1]][bottom_seq[j - 1]]:   # если текущ знач = диаг знач + оценка совпадения из матрицы BLOSUM, то мы выровняли оба символа
            aligned_top.append(top_seq[i - 1])
            aligned_bottom.append(bottom_seq[j - 1])
            i -= 1
            j -= 1
        elif score == score_up - gap_penalty:                                        # иначе штраф
            aligned_top.append(top_seq[i - 1])
            aligned_bottom.append('-')
            i -= 1
        elif score == score_left - gap_penalty:                                      # если текущее значение равно значению слева - штраф
            aligned_top.append('-')
            aligned_bottom.append(bottom_seq[j - 1])
            j -= 1

    while i > 0:                                                                     # обработка оставш символов в одной из послед
        aligned_top.append(top_seq[i - 1])
        aligned_bottom.append('-')
        i -= 1
    while j > 0:
        aligned_top.append('-')
        aligned_bottom.append(bottom_seq[j - 1])
        j -= 1
    return [''.join(reversed(aligned_top)), ''.join(reversed(aligned_bottom))]       # выравненные строки в правильном порядке

top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2
sm = align(top_seq, bottom_seq, gap_penalty, blosum_matrix)
aligns = get_alignment(top_seq, bottom_seq, sm, gap_penalty, blosum_matrix)

print(aligns[0])
print(aligns[1])

## Поздравляю! Мы научились выравнивать ДНК!