<a href="https://colab.research.google.com/github/blankieblank/Algorithms-in-bioinformatics/blob/main/Needleman_wunsch_algorithm.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**ФИО:**


**Группа:**

# **Глобальное выравнивание - Алгоритм Нидлмана-Вунша**

Необходимо реализовать алгоритм Нидлмана-Вунша, позволяющий выполнять глобальное выравнивание двух нуклеотидных последовательностей.

Для удобства можно весь алгоритм записать в виде функции, принимающий набор аргментов:

* Первая последовательность нуклеотидов
* Вторая последовательность нуклеотидов
* Параметр значения за соответствие (match)
* Штраф за несоответствие (mismatch)
* Штраф за гэп (gap)

Функция должна возвращать непосредственно само выравнивание и score данного выравнивания:

```
# Заданные параметры:
match_score = 1
mismatch = -1
gap = -1

# Результат выравнивания:
ATGCGGGT
 |||*|||
-TGCCGGT

score = 4 (может варьироваться в зависимости от заданных параметров)
```

P.S. Представить выравнивание лучше в формате трех строк (см. на результат выравнивания), то есть строка между двумя последовательностями, которые выравнивались, будет состоять из трех символов: | (match), * (mismatch) и пустой символ (gap)

In [None]:
"""
seq1 (str) - первая последовательность
eq2 (str) - вторая последовательность
match (int) - очки за совпадение
mismatch (int) - штраф за несовпадение
gap (int) - штраф за гэп

Возвращает кортеж с тремя строками выравнивания и итоговым счётом.
"""
match_score = 1
mismatch = -1
gap = -1

seq_1 = 'ATGCGGGT'
seq_2 = 'TGCCGGT'

def algo(seq1, seq2, match=1, mismatch=-1, gap=-1):
    if not seq1 or not seq2:
      print("Какая-то из последовательностей пустая.")
      raise Exception

    len1, len2 = len(seq1), len(seq2)
    score_matrix = [[0] * (len2 + 1) for _ in range(len1 + 1)]
    path_matrix = [[(0, 0)] * (len2 + 1) for _ in range(len1 + 1)]

    for i in range(1, len1 + 1):
        score_matrix[i][0] = i * gap
        path_matrix[i][0] = (i - 1, 0)
    for j in range(1, len2 + 1):
        score_matrix[0][j] = j * gap
        path_matrix[0][j] = (0, j - 1)

    for i in range(1, len1 + 1):
        for j in range(1, len2 + 1):
            diag_score = score_matrix[i-1][j-1] + (match if seq1[i-1] == seq2[j-1] else mismatch)
            up_score = score_matrix[i-1][j] + gap # Очки за гэп в seq2
            left_score = score_matrix[i][j-1] + gap # Очки за гэп в seq1

            scores = [diag_score, up_score, left_score]
            max_score = max(scores)
            score_matrix[i][j] = max_score

            if max_score == diag_score:
                path_matrix[i][j] = (i - 1, j - 1)
            elif max_score == up_score:
                path_matrix[i][j] = (i - 1, j)
            else:
                path_matrix[i][j] = (i, j - 1)

    aligned_seq1 = []
    aligned_seq2 = []
    i, j = len1, len2

    while i > 0 or j > 0:
        prev_i, prev_j = path_matrix[i][j]
        if prev_i == i - 1 and prev_j == j - 1:  # по диагонали
            aligned_seq1.append(seq1[i-1])
            aligned_seq2.append(seq2[j-1])
        elif prev_i == i - 1:  # вверх (гэп в seq2)
            aligned_seq1.append(seq1[i-1])
            aligned_seq2.append('-')
        else:  # влево (гэп в seq1)
            aligned_seq1.append('-')
            aligned_seq2.append(seq2[j-1])
        i, j = prev_i, prev_j

    # строили с конца - перевернули
    final_seq1 = "".join(reversed(aligned_seq1))
    final_seq2 = "".join(reversed(aligned_seq2))

    comparison_line = []
    for char1, char2 in zip(final_seq1, final_seq2):
        if char1 == char2:
            comparison_line.append('|')
        elif char1 == '-' or char2 == '-':
            comparison_line.append(' ')
        else:
            comparison_line.append('*')

    final_comparison = "".join(comparison_line)
    final_score = score_matrix[len1][len2]

    return final_seq1, final_comparison, final_seq2, final_score

# выравнивание
res_seq1, res_comp, res_seq2, res_score = algo(
    seq_1, seq_2,
    match=match_score,
    mismatch=mismatch,
    gap=gap
)

print(res_seq1)
print(res_comp)
print(res_seq2)
print(f"Score: {res_score}")

ATGCGGGT
 |||*|||
-TGCCGGT
Score: 4
