# Парное выравнивание

# Порядок сдачи домашнего

Вам требуется создать гит репозиторий куда вы будете складывать все ваши домашние. Под каждое домашнее вы создаете отдельную ветку куда вносите все изменения в рамках домашнего. Как только домашнее готово - создаете пулл реквест (обратите внимание что в пулл реквесте должны быть отражены все изменения в рамках домашнего). Ревьювером назначаете http://github.com/michael15346/ .
Перед сдачей проверьте код, напишите тесты. Не забудьте про PEP8, например, с помощью flake8. Задание нужно делать в jupyter notebook.

**Дедлайн - 21 октября 10:00**

# Введение

**Выравнивание последовательностей** — фундаментальный инструмент в биоинформатике, позволяющий сравнивать биологические последовательности (ДНК, РНК, белки) для выявления сходства, которое может указывать на функциональные, структурные или эволюционные связи между ними.

**Парное выравнивание** подразумевает сравнение двух последовательностей для определения наилучшего соответствия между их элементами (нуклеотидами или аминокислотами). Существует два основных типа парного выравнивания:

- **Глобальное выравнивание**: направлено на выравнивание всей длины двух последовательностей, максимально учитывая все элементы.
- **Локальное выравнивание**: нацелено на поиск наилучшего соответствующего участка внутри двух последовательностей.

В данном домашнем задании мы с вами сконцентрируемся на **глобальном выравнивании**.

### Пример парного выравнивания

Рассмотрим две нуклеотидные последовательности:

```
Последовательность 1 (Seq1): A G C T A C G A
Последовательность 2 (Seq2): G C T A G A
```

**Глобальное выравнивание** (учитывает всю длину последовательностей):

```
Seq1: A G C T A C G A
Seq2: - G C T A - G A
```

### Значение выравнивания последовательностей

- **Эволюционные связи**: Сходство между последовательностями может указывать на общих предков.
- **Функциональные домены**: Выравнивание помогает идентифицировать консервативные участки, важные для функции белка или нуклеиновой кислоты.
- **Геномные исследования**: Используется для аннотации генов, предсказания структур и понимания генетических вариаций.

## Алгоритм выравнивания

- Для автоматизации процесса выравнивания используется **Алгоритм Нидлмана-Вунша**. Он предназначен для глобального выравнивания и использует динамическое программирование для нахождения оптимального выравнивания по всей длине последовательностей. 
- Для оценки сходства при выравнивании белковых последовательностей используется матрица **BLOSUM** (Blocks Substitution Matrix). Матрицы BLOSUM создаются на основе статистического анализа реальных белковых множественных выравниваний последовательностей.

### Пример множественного выравнивания (для построения матрциы BLOSUM)

Рассмотрим нуклеотидные последовательности:

```
Последовательность 1 (Seq1): A G C T A C G T G T C G C T G A A T C T A T G A C T
Последовательность 2 (Seq2): G C T A G A G C A A G G C A A C T G C A T C T
Последовательность 3 (Seq3): A C T G C A C C C A T G A A C C T C G C G C T
Последовательность 4 (Seq4): A C T G C A C C C A T G A A C C T C T C G C T
Последовательность 5 (Seq5): A C T G C A C C C A T G A A C C T C T C G C T
Последовательность 6 (Seq6): A C T G C A C C C A T G A A C C T C T C A C T
Последовательность 7 (Seq7): A C T G C A C C C A T G A A C C T C T C A C T
```

**Множественное выравнивание**:

```
Seq1: A G C T A C G T G T C G C T G A A T C T A T G A C T
Seq2: - G C T A - G A G C A - A G G C A A C T G C A T C T
Seq3: A - C T G - C A C C C - A T G A A C C T C G C G C T
Seq4: A - C T G - C A C C C - A T G A A C C T C T C G C T
Seq5: A - C T G - C A C C C - A T G A A C C T C T C G C T
Seq6: A - C T G - C A C C C - A T G A A C C T C T C A C T
Seq7: A - C T G - C A C C C - A T G A A C C T C T C A C T
```

Перед тем как приступать к реализации парного выравнивания давайте научимся считать матрицу BLOSUM.

# Матрица BLOSUM

## Подсчет частот пар нуклеотидов

### Шаг 1.1: Генерация пар нуклеотидов

Напишите функцию `generate_pairs(alignments)`, которая проходит по всем позициям выравнивания (одного столбца) и генерирует все возможные пары нуклеотидов в этой позиции.

**Пример**:

Рассмотрим на примере множественного выравнивания выше:

```
generate_pairs(["A", "A", "G"])
[('A', 'A'), ('A', 'G'), ('A', 'G')]

generate_pairs(["T", "T", "T"])
[('T', 'T'), ('T', 'T'), ('T', 'T')]

generate_pairs(["G", "G", "-"])
[('G', 'G'), ('G', '-'), ('G', '-')]

len(generate_pairs(['A', 'T', 'G', 'G', 'G', 'A', 'A']))
21
```

In [12]:
alignments = ["AGCTACGTGTCGCTGAATCTATGACT", 
              "-GCTA-GAGCA-AGGCAACTGCATCT", 
              "A-CTG-CACCC-ATGAACCTCGCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCACT",
              "A-CTG-CACCC-ATGAACCTCTCACT"
             ]

In [13]:
def generate_pairs(alignments):
    array=[]
    for k in range (len(alignments)-1):
        for i in range (k+1,len(alignments)):
            array.append((alignments[k],alignments[i]))
    return array
print(generate_pairs(["AGCTACGTGTCGCTGAATCTATGACT", 
              "-GCTA-GAGCA-AGGCAACTGCATCT", 
              "A-CTG-CACCC-ATGAACCTCGCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCACT",
              "A-CTG-CACCC-ATGAACCTCTCACT"
             ]))
        

[('AGCTACGTGTCGCTGAATCTATGACT', '-GCTA-GAGCA-AGGCAACTGCATCT'), ('AGCTACGTGTCGCTGAATCTATGACT', 'A-CTG-CACCC-ATGAACCTCGCGCT'), ('AGCTACGTGTCGCTGAATCTATGACT', 'A-CTG-CACCC-ATGAACCTCTCGCT'), ('AGCTACGTGTCGCTGAATCTATGACT', 'A-CTG-CACCC-ATGAACCTCTCGCT'), ('AGCTACGTGTCGCTGAATCTATGACT', 'A-CTG-CACCC-ATGAACCTCTCACT'), ('AGCTACGTGTCGCTGAATCTATGACT', 'A-CTG-CACCC-ATGAACCTCTCACT'), ('-GCTA-GAGCA-AGGCAACTGCATCT', 'A-CTG-CACCC-ATGAACCTCGCGCT'), ('-GCTA-GAGCA-AGGCAACTGCATCT', 'A-CTG-CACCC-ATGAACCTCTCGCT'), ('-GCTA-GAGCA-AGGCAACTGCATCT', 'A-CTG-CACCC-ATGAACCTCTCGCT'), ('-GCTA-GAGCA-AGGCAACTGCATCT', 'A-CTG-CACCC-ATGAACCTCTCACT'), ('-GCTA-GAGCA-AGGCAACTGCATCT', 'A-CTG-CACCC-ATGAACCTCTCACT'), ('A-CTG-CACCC-ATGAACCTCGCGCT', 'A-CTG-CACCC-ATGAACCTCTCGCT'), ('A-CTG-CACCC-ATGAACCTCGCGCT', 'A-CTG-CACCC-ATGAACCTCTCGCT'), ('A-CTG-CACCC-ATGAACCTCGCGCT', 'A-CTG-CACCC-ATGAACCTCTCACT'), ('A-CTG-CACCC-ATGAACCTCGCGCT', 'A-CTG-CACCC-ATGAACCTCTCACT'), ('A-CTG-CACCC-ATGAACCTCTCGCT', 'A-CTG-CACCC-ATGAACCTCTCGCT'), ('A-CTG

### Шаг 1.2: Подсчет частот пар

Используйте полученные пары для подсчета частоты каждой пары нуклеотидов. Создайте словарь `pair_counts`, где ключом является кортеж из двух нуклеотидов, а значением — количество их совместных появлений. Пропуски в выравнивании нужно пропускать (если один из символ в выравнивании `'-'`)

**Подсказка**: Учитывайте, что матрица симметрична, поэтому пары `('A','G')` и `('G','A')` должны считаться одинаковыми.

**Пример**:

```
pair_counts = count_pairs(alignments)
pair_counts
{('A', 'A'): 85, ('G', 'G'): 37, ('C', 'C'): 143, ('T', 'T'): 88, ('A', 'G'): 21, 
 ('C', 'G'): 31, ('A', 'T'): 10, ('C', 'T'): 16, ('A', 'C'): 33, ('G', 'T'): 14}
```

In [35]:
def count_pairs(alignments):
    dict={}
    for pair in generate_pairs(alignments):
        for i in range (len(pair[0])):
            key=tuple(sorted((pair[0][i],pair[1][i])))
            if ('-') not in key:
                if key in dict:
                    dict[key]+=1
                else:
                    dict[key]=1
    return dict
print(count_pairs(["AGCTACGTGTCGCTGAATCTATGACT", 
              "-GCTA-GAGCA-AGGCAACTGCATCT", 
              "A-CTG-CACCC-ATGAACCTCGCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCACT",
              "A-CTG-CACCC-ATGAACCTCTCACT"
             ]))
            
    

{('G', 'G'): 37, ('C', 'C'): 143, ('T', 'T'): 88, ('A', 'A'): 85, ('A', 'T'): 10, ('C', 'T'): 16, ('A', 'C'): 33, ('G', 'T'): 14, ('A', 'G'): 21, ('C', 'G'): 31}


## Вычисление ожидаемых частот

Реализуйте функцию `calculate_frequencies`, которая будет вычислять частоту нуклеотида по множественному выравниванию

**Пример**:

```
freqs = calculate_frequencies(alignments)
print("Частоты:")
for x, freq in freqs.items():
    print(f"{x}: {freq:.4f}")
    
Частоты:
A: 0.2439
G: 0.1585
C: 0.3780
T: 0.2195
```

In [37]:
def calculate_frequencies(alignments):
    dict={}
    total=0
    for pair in generate_pairs(alignments):
        for cep in pair:
            for nucleotid in cep:
                if nucleotid!='-':
                    total+=1
                    if nucleotid in dict:
                        dict[nucleotid]+=1
                    else:
                        dict[nucleotid]=1
    for key in dict:
        dict[key]/=total
    return dict
freqs = calculate_frequencies(["AGCTACGTGTCGCTGAATCTATGACT", 
              "-GCTA-GAGCA-AGGCAACTGCATCT", 
              "A-CTG-CACCC-ATGAACCTCGCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCACT",
              "A-CTG-CACCC-ATGAACCTCTCACT"
             ])
print("Частоты:")
for x, freq in freqs.items():
    print(f"{x}: {freq:.4f}")

Частоты:
A: 0.2439
G: 0.1585
C: 0.3780
T: 0.2195


##  Расчет логарифмических коэффициентов

- Для каждой пары нуклеотидов `(x, y)` вычислите логарифмический коэффициент замены по формуле:


$$S(x, y) = scale * \log_2 \left( \frac{observed\_freq[x, y]}{expected\_freq[x, y]} \right)$$

- Здесь `observed_freq` — наблюдаемая частота пары из `pair_counts` деленное на общее количество пар, а `expected_freq` — ожидаемая частота, которую можно вычислить как `expected_freq[x, y] = freqs[x] * freqs[y]`

- Для удобства представления округлите значения `S(x, y)` до целых чисел, умножив на масштабный фактор (например, 3).

**Пример:**

```python
scores = calculate_scores(pair_counts, freqs)
scores
{('A', 'A'): 5, ('G', 'G'): 5, ('C', 'C'): 3, ('T', 'T'): 6, ('A', 'G'): 1,
 ('C', 'G'): 0, ('A', 'T'): -4, ('C', 'T'): -4, ('A', 'C'): -1, ('G', 'T'): -1}
```


In [55]:
alignments=["AGCTACGTGTCGCTGAATCTATGACT", 
              "-GCTA-GAGCA-AGGCAACTGCATCT", 
              "A-CTG-CACCC-ATGAACCTCGCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCGCT",
              "A-CTG-CACCC-ATGAACCTCTCACT",
              "A-CTG-CACCC-ATGAACCTCTCACT"
             ]
import math
def calculate_scores(pair_counts, freqs, scale=3):
    dict={}
    total=sum(pair_counts[key] for key in pair_counts)
    for pair in pair_counts:
        expected_freq=1
        observed_freq=pair_counts[pair]/total
        for key in pair:
            expected_freq*=freqs[key]
        dict[pair]=round(scale*math.log(observed_freq/expected_freq, 2))
    return dict
print(calculate_scores(count_pairs(alignments),calculate_frequencies(alignments)))

{('G', 'G'): 5, ('C', 'C'): 3, ('T', 'T'): 6, ('A', 'A'): 5, ('A', 'T'): -4, ('C', 'T'): -4, ('A', 'C'): -1, ('G', 'T'): -1, ('A', 'G'): 1, ('C', 'G'): 0}



## Составление матрицы BLOSUM

### Шаг 4.1: Заполнение матрицы

- Реализуйте функцию `create_blosum_matrix`, для создания BLOSUM матрицы.
- Используйте рассчитанные ранее логарифмические коэффициенты `scores` для заполнения матрицы.
- Учитывайте, что матрица симметрична: `S(x, y) = S(y, x)`.

**Пример:**

```python
blosum_matrix = create_blosum_matrix(scores, nucleotides)
blosum_matrix
{'A': {'A': 5, 'G': 1, 'C': -1, 'T': -4},
 'G': {'A': 1, 'G': 5, 'C': 0, 'T': -1},
 'C': {'A': -1, 'G': 0, 'C': 3, 'T': -4},
 'T': {'A': -4, 'G': -1, 'C': -4, 'T': 6}}
```


In [61]:
def create_blosum_matrix(scores):
    dict={}
    for pair in sorted(scores):
        if pair[0] not in dict:
            dict[pair[0]]={}
        dict[pair[0]][pair[1]]=scores[pair]
        if pair[1] not in dict:
            dict[pair[1]]={}
        dict[pair[1]][pair[0]]=scores[pair]
    return dict
print(create_blosum_matrix(calculate_scores(count_pairs(alignments),calculate_frequencies(alignments))))
                
        
        

{'A': {'A': 5, 'C': -1, 'G': 1, 'T': -4}, 'C': {'A': -1, 'C': 3, 'G': 0, 'T': -4}, 'G': {'A': 1, 'C': 0, 'G': 5, 'T': -1}, 'T': {'A': -4, 'C': -4, 'G': -1, 'T': 6}}


### Шаг 4.2: Вывод матрицы

- Выведите матрицу BLOSUM в удобочитаемом формате, например, как таблицу с заголовками.

**Пример:**

```python
print_blosum_matrix(blosum_matrix, nucleotides)
    A   G   C   T
A   5   1  -1  -4
G   1   5   0  -1
C  -1   0   3  -4
T  -4  -1  -4   6
```

In [45]:
def print_blosum_matrix(matrix, nucleotides):
    pass

## Визуализация результатов

Запустите код для визуализации результатов. Здесь вам понадобится установить библиотеки. Для этого в консоли выполните:
```
pip install numpy
pip install seaborn
pip install matplotlib
```

In [None]:
pip install numpy
pip install seaborn
pip install matplotlib
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
kl = ['A','G','T','C']
blosum_matrix=create_blosum_matrix(calculate_scores(count_pairs(alignments),calculate_frequencies(alignments)))

def visualize_blosum_matrix(matrix, nucleotides):
    data = np.array([[matrix[x][y] for y in nucleotides] for x in nucleotides])
    plt.figure(figsize=(10, 8))
    sns.heatmap(data, xticklabels=nucleotides, yticklabels=nucleotides, annot=True, cmap="coolwarm")
    plt.title("Матрица BLOSUM")
    plt.show()

visualize_blosum_matrix(blosum_matrix, kl)

# Реализация алгоритма Нидлмана-Вунша

### Шаг 5: Инициализация матрицы динамического программирования

Теперь перейдём к реализации алгоритма [Нидлмана-Вунша](https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm).

Реализуйте функцию `init`, которая по $m, n$ и ошибке $\sigma$ строит матрицу c $m + 1$ строкой и $n + 1$ столбцом:

$$A_{m,n} = \begin{pmatrix} 0 & -\sigma & \cdots & -n \sigma \\ -\sigma & 0 & \cdots & 0 \\ \vdots & \vdots & \ddots & \vdots \\ -m\sigma & 0 & \cdots & 0 \end{pmatrix} $$

**Пример:**

```python
print(init(3, 3, 4))
[[0, -4, -8, -12], [-4, 0, 0, 0], [-8, 0, 0, 0], [-12, 0, 0, 0]]
```

In [65]:
def init(rows, cols, gap_penalty=10):
    matrix=[[0 for i in range(cols+ 1)] for j in range(rows + 1)]
    for i in range(1,rows + 1):
        matrix[i][0]=-i*gap_penalty
    for j in range(1,cols + 1):
        matrix[0][j]=-j*gap_penalty
    return matrix
print(init(3, 3, gap_penalty=10))


[[0, -10, -20, -30], [-10, 0, 0, 0], [-20, 0, 0, 0], [-30, 0, 0, 0]]


### Шаг 6: Заполнение матрицы динамического программирования

Пусть `a` и `b` - две последовательности, которые хотим выравнять. Теперь имея пустую матрицу, нужно научиться её заполнять. Для этого вспомним, как вычисляется очередной элемент матрицы:

$$A_{i \ j} = max \begin{cases} A_{i-1 \ j-1} + s(a_{i},b_{j}) & \ \text{Match / Mismatch}\\ A_{i \ j-1} - \sigma & \ \text{Insertion} \\ A_{i-1\ j} - \sigma & \ \text{Deletion} \end{cases}$$

где $s(a_{i},b_{j})$ - значение матрицы BLOSUM для нуклеотидов $a_{i}$ и $b_{j}$, $\sigma$ - штраф за пропуск символа в выравнивании (параметр)

### Шаг 7: Вычисление значения матрицы

Реализуйте функцию `get_new_score`, которая принимает на вход 5 параметров - `up` ($A_{i-1\ j}$), `left` ($A_{i \ j-1}$), `middle` ($A_{i-1 \ j-1}$), `s_score` ($s(a_{i},b_{j})$), `gap_penalty` ($\sigma$), и вычисляет значение для матрицы $A_{i\ j}$

**Пример:**

```python
print(get_new_score(0, 10, 2, 0, 2))
8
print(get_new_score(-16, -7, -14, 0, 2))
-9
```

In [67]:
def get_new_score(up, left, middle, s_score, gap_penalty):
    if s_score==None:
        s_score=0
    return max(middle+s_score, left-gap_penalty, up-gap_penalty)
print(get_new_score(0, 10, 2, 0, 2))

8


### Шаг 8 Заполнение матрицы

Реализуйте функцию `align`,  которая на вход принимает две последовательности ДНК, штраф за пропуск ($\sigma$), матрицу BLOSUM и возвращает заполненную матрицу `A`.

**Пример:**

```python
top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2

print(align(top_seq, bottom_seq, gap_penalty, blosum_matrix))
[[0, -2, -4, -6, -8, -10, -12, -14, -16],
 [-2, -4, -3, 2, 0, -2, -4, -6, -8],
 [-4, 3, 1, 0, 7, 5, 3, 1, -1],
 [-6, 1, 2, 7, 5, 3, 4, 2, 0],
 [-8, -1, 6, 5, 8, 6, 8, 6, 4],
 [-10, -3, 4, 3, 6, 11, 9, 11, 9]]
```

In [69]:
top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2

In [None]:
top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2
biosam=create_blosum_matrix(calculate_scores(count_pairs(alignments),calculate_frequencies(alignments)))

def align(top_seq, bottom_seq, gap_penalty, blosum_matrix):
    A=init(len(top_seq), len(bottom_seq), gap_penalty)
    for i in range(1,len(top_seq)+1):
         for j in range(1,len(bottom_seq)+1):
             A[i][j]=get_new_score(A[i-1][j], A[i][j-1], A[i-1][j-1],blosum_matrix[top_seq[i-1]][bottom_seq[j-1]], gap_penalty)
    return A
print(align(bottom_seq,top_seq, gap_penalty, biosam))
    

### Шаг 9: Построение выравнивания

Теперь имея матрицу выравнивания построим самое выравнивание.

Реализуйте функцию get_alignment, которая по двум последовательностям, матрице выравнивания, штрафа за пропуски, бонусам за совпадение/несовпадение нуклеотидов строит выравнивание.

**Пример:**

```python

top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2
sm = align(top_seq, bottom_seq, gap_penalty, blosum_matrix)
aligns = get_alignment(top_seq, bottom_seq, sm, gap_penalty, blosum_matrix)
print(aligns[0])
print(aligns[1])
TA-T--GC-
-AGTACGCA

top_seq = "AGTCTCCCCC"
bottom_seq = "ACTTCTACCCCAGC"
sm = align(top_seq, bottom_seq, gap_penalty, blosum_matrix)
aligns = get_alignment(top_seq, bottom_seq, sm, gap_penalty, blosum_matrix)
print(aligns[0])
print(aligns[1])
ACTTCTACCCCAGC
AGT-CT-CCCC--C
```

In [None]:
top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2
biosam=create_blosum_matrix(calculate_scores(count_pairs(alignments),calculate_frequencies(alignments)))
sm = align(top_seq, bottom_seq, gap_penalty, biosam)

print(get_alignment(top_seq, bottom_seq, sm, gap_penalty, biosam))

In [None]:
top_seq = "AGTACGCA"
bottom_seq = "TATGC"
gap_penalty = 2
biosam=create_blosum_matrix(calculate_scores(count_pairs(alignments),calculate_frequencies(alignments)))
sm = align(top_seq, bottom_seq, gap_penalty, biosam)
def get_alignment(top_seq, bottom_seq, sm, gap_penalty, blosum_matrix):
    alignment_A = ""
    alignment_B = ""
    i = len(top_seq)
    j = len(bottom_seq)
    
    while i>0 and j>0:
        score=sm[j][i]
        score_diag=sm[j-1][i-1]
        score_left=sm[j][i-1]
        score_up=sm[j-1][i] 
        if score==score_left - gap_penalty:
            alignment_A=top_seq[i-1] + alignment_A
            alignment_B="-" + alignment_B
            i=i-1
        elif score==score_diag + blosum_matrix[top_seq[i-1]][bottom_seq[j-1]]:
            alignment_A=top_seq[i-1]+alignment_A
            alignment_B=bottom_seq[j-1]+alignment_B
            i=i-1
            j=j-1
        else:
            alignment_A="-"+alignment_A
            alignment_B=bottom_seq[j-1]+alignment_B
            j=j-1
    while i>0:
        alignment_A=top_seq[i-1]+alignment_A
        alignment_B="-"+alignment_B
        i=i-1
    while j>0:
        alignment_A="-"+alignment_A
        alignment_B=bottom_seq[j-1]+alignment_B
        j=j-1
    return [alignment_B, alignment_A]
print(get_alignment(top_seq, bottom_seq, sm, gap_penalty, biosam))

## Поздравляю! Мы научились выравнивать ДНК!

In [None]:
time(get_alignment(top_seq, bottom_seq, sm, gap_penalty, biosam))