# Домашнее задание №1

## Задача 1

В алгоритме Нидлмана-Вунша мы находим путь из начала в конец через матрицу весов, имеющий наибольший вес. Любой другой путь из начала в конец этой матрицы это тоже выравнивание.

Тогда задачу 1 можно свести к такой: каким количеством способов по решетке $\{0, \dots, n\} \times \{0, \dots, m\}$ можно прийти из позиции $(0, 0)$ в $(n, m)$ двигаясь на одну клетку вправо, вниз или вправо-вниз по диагонали. 

$$
\begin{pmatrix}
1 & 1 & 1  & 1 & \dots \\
1 & 3 & 5  & 7 &\dots \\
1 & 5 & 13 & 25 & \dots  \\
1 & 9 & 41 & \ldots  & \ddots  \\ 
\vdots & \vdots & \vdots & \vdots  & \ddots 
\end{pmatrix}
$$

Пусть есть две строки длины $n$ и $m$ и пусть $n \geq m$.
Проход по решетке можно записать как последовательность направлений $\rightarrow, \downarrow, \searrow$

Фиксируем $k$. Нам нужно совершить $n+m-k$ шагов, где $k$ это количество диагональных переходов (отнимаем $k$ потому что за одно $\searrow$ мы делаем $\rightarrow$ и $\downarrow$).
И на этих $n+m-k$ позициях нужно разместить $n-k$ $\downarrow$, $m-k$ $\rightarrow$ и $k$ $\searrow$.
Это мультиномиальный коэфициент:
$$ {n+m-k \choose n-k, m-k, k} $$

Просуммируем по $k$ (до $m$, потому что если мы сделаем m+1 $\searrow$, то мы не сможем прийти в $(n,m)$):

$$ \sum\limits_{k=0}^{m} {n+m-k \choose n-k, m-k, k} $$


## Задача 2

In [1]:
import numpy as np

In [2]:
def align(v, w, match=1, mismatch=-1, gap=-1):
    """Алгоритм Нидлмана-Вунша

        v (str): Первая строка
        w (str): Вторая строка
        match (float): Очки за совпадение
        mismatch (float): Очки за несовпадение
        gap (float): Очки за gap
    """
    n = len(v)
    m = len(w)
    s = np.zeros((n+1, m+1))
    parents = np.zeros((n+1, m+1), dtype=int)

    for i in range(1, n+1):
        s[i][0] = s[i-1][0] + gap
        parents[i][0] = 1
    
    for j in range(1, m+1):
        s[0][j] = s[0][j-1] + gap
        parents[0][j] = 0
    
    for i in range(1, n+1):
        for j in range(1, m+1):
            candidates = []
            candidates.append(s[i][j-1] + gap) # left = 0
            candidates.append(s[i-1][j] + gap) # up = 1
            if (v[i-1] == w[j-1]): # diagonal = 2
                candidates.append(s[i-1][j-1] + match)
            else:
                candidates.append(s[i-1][j-1] + mismatch)
            
            parents[i][j] = np.argmax(candidates)
            s[i][j] = candidates[parents[i][j]]

    # Backpropagation
    v_aligned, w_aligned = "", ""
    i, j = n, m

    while not (i == 0 and j == 0):
        if parents[i][j] == 0: # left            
            v_aligned = "-" + v_aligned
            w_aligned = w[j-1] + w_aligned
            j -= 1
        elif parents[i][j] == 1: # up
            v_aligned = v[i-1] + v_aligned
            w_aligned = "-" + w_aligned
            i -= 1
        else: # diagonal
            v_aligned = v[i-1] + v_aligned
            w_aligned = w[j-1] + w_aligned
            i -= 1
            j -= 1
    
    print("%s\n%s" % (v_aligned, w_aligned))

Тест 1

In [3]:
align("GTCA", "AATT")

G-TCA
AATT-


Тест 2

In [4]:
align("GTCA", "AATT", gap=-0.499)

GTCA---
---AATT


## Задача 3

In [5]:
def align_matrix(v, w, weights):
    """Алгоритм Нидлмана-Вунша с матрицей весов

        v (str): Первая строка
        w (str): Вторая строка
        weights (float, float): Матрица весов 
    """
    n = len(v)
    m = len(w)
    s = np.zeros((n+1, m+1))
    parents = np.zeros((n+1, m+1), dtype=int)

    if np.shape(s) != np.shape(weights):
        raise ValueError("Size error. Weights matrix must be of size: %s" % str(np.shape(s)))

    for i in range(1, n+1):
        s[i][0] = s[i-1][0] + weights[i][0]
        parents[i][0] = 1
    
    for j in range(1, m+1):
        s[0][j] = s[0][j-1] + weights[0][j]
        parents[0][j] = 0

    for i in range(1, n+1):
        for j in range(1, m+1):
            candidates = []
            candidates.append(s[i][j-1] + weights[0][j])   # left = 0
            candidates.append(s[i-1][j] + weights[i][0])   # up = 1
            candidates.append(s[i-1][j-1] + weights[i][j]) # diagonal = 2
            
            parents[i][j] = np.argmax(candidates)
            s[i][j] = candidates[parents[i][j]]

    # Backpropagation
    v_aligned, w_aligned = "", ""
    i, j = n, m

    while not (i == 0 and j == 0):
        if parents[i][j] == 0: # left            
            v_aligned = "-" + v_aligned
            w_aligned = w[j-1] + w_aligned
            j -= 1
        elif parents[i][j] == 1: # up
            v_aligned = v[i-1] + v_aligned
            w_aligned = "-" + w_aligned
            i -= 1
        else: # diagonal
            v_aligned = v[i-1] + v_aligned
            w_aligned = w[j-1] + w_aligned
            i -= 1
            j -= 1
    
    print("%s\n%s" % (v_aligned, w_aligned))

Тест

In [6]:
s = np.array([[-1, -1, -2, -3], 
              [-1, -1, -2, -3],
              [-1, -1, -2, -3],
              [-1, -1, -2, -10]])

In [7]:
align_matrix("abc", "bbd", s)

abc-
bb-d


In [8]:
s[3][3] = 10
align_matrix("abc", "bbd", s)

abc
bbd


## Задача 4

In [9]:
def align_local(v, w, match=1, mismatch=-1, gap=-1):
    """Алгоритм Смита-Ватермана

        v (str): Первая строка
        w (str): Вторая строка
        match (float): Очки за совпадение
        mismatch (float): Очки за несовпадение
        gap (float): Очки за gap
    """
    n = len(v)
    m = len(w)
    s = np.zeros((n+1, m+1))
    parents = np.zeros((n+1, m+1), dtype=int)

    for i in range(1, n+1):
        s[i][0] = s[i-1][0] + gap
        parents[i][0] = 1
    
    for j in range(1, m+1):
        s[0][j] = s[0][j-1] + gap
        parents[0][j] = 0

    for i in range(1, n+1):
        for j in range(1, m+1):
            candidates = []
            candidates.append(s[i][j-1] + gap)   # left = 0
            candidates.append(s[i-1][j] + gap)   # up = 1
            if (v[i-1] == w[j-1]): # diagonal = 2
                candidates.append(s[i-1][j-1] + match)
            else:
                candidates.append(s[i-1][j-1] + mismatch)
            candidates.append(0) # origin = 3
            
            parents[i][j] = np.argmax(candidates)
            s[i][j] = candidates[parents[i][j]]


    # Backpropagation
    i, j = np.unravel_index(np.argmax(s), s.shape)
    v_aligned = v[i:].lower()
    w_aligned = w[j:].lower()
    
    while not (i == 0 and j == 0):
        if parents[i][j] == 0: # left            
            v_aligned = "-" + v_aligned
            w_aligned = w[j-1] + w_aligned
            j -= 1
        elif parents[i][j] == 1: # up
            v_aligned = v[i-1] + v_aligned
            w_aligned = "-" + w_aligned
            i -= 1
        elif parents[i][j] == 2: # diagonal
            v_aligned = v[i-1] + v_aligned
            w_aligned = w[j-1] + w_aligned
            i -= 1
            j -= 1
        else: # origin
            v_aligned = v[0:i - 1].lower() + v[i-1] + v_aligned
            w_aligned = w[0:j - 1].lower() + w[i-1] + w_aligned

            if i >= j:
                w_aligned = " "*(i-j) + w_aligned
            else:
                v_aligned = " "*(j-i) + v_aligned

            i = 0
            j = 0
    
    print("%s\n%s" % (v_aligned, w_aligned))

Тест

In [10]:
align_local("TCCCAGTTATGTCAGGGGAACGAGCATGCAGAGAC","AATTGCCGCCGTCGTTTTCAGCAGTTATGTCAGATC")

                  tcCCAGTTATGTCAGgggaacgagcatgcagagac
aattgccgccgtcgttttcaTCAGTTATGTCAGatc


In [11]:
align("TCCCAGTTATGTCAGGGGAACGAGCATGCAGAGAC","AATTGCCGCCGTCGTTTTCAGCAGTTATGTCAGATC")

--T--CC-CAGT--TATGTCAGGGGAACGAGC-ATG-CAGAGAC
AATTGCCGCCGTCGTTT-TCAG-----C-AGTTATGTCAGAT-C
