## [Algoritmul Needleman–Wunsch](https://en.wikipedia.org/wiki/Needleman%E2%80%93Wunsch_algorithm)

Problema dată este următoarea: Se dau două secvenţe, $x$ şi $y$, nu neapărat de aceeaşi dimensiune, peste alfabetul $\Sigma$ şi o funcţie de scor  $s : \Sigma × \Sigma → Z$ .

Se doreşte determinarea celei mai bune alinieri globale, folosind modelul liniar de penalizare a golurilor (gaps).
Modelul liniar presupune o penalizare constantă pentru fiecare gol.

\begin{equation*}
D[i,j] = max \begin{cases}
    D[i-1, j-1] + s(x_i, y_i) & \\
    D[i-1, j] + g & \\
    D[i, j-1] + g &
\end{cases}
\end{equation*}

\begin{equation*}
s(x, y) = \begin{cases}
    +1 & x = y \\
    -1 & x \neq y
\end{cases}
\end{equation*}

Ramurile formulei de calcul a scorului de aliniere $D[i,j]$ au următoarea semnificație:
1. Corespunde cazului în care s-a realizat corespondenţa dintre caracterul $x_i$ şi caracterul $y_j$.

    Este nevoie să se cunoască scorul alinierii lui $x_i$ cu $y_j$, adică $s(x_i, y_j)$ şi scorul celei mai bune alinieri dintre primele $i-1$ caractere din secvenţa $x$ şi primele $j-1$ caractere din secvenţa $y$, adică $D(i-1, j-1)$

2. Corespunde cazului în care s-a realizat corespondenţa dintre caracterul $x_i$ şi un `gap`.

    Este nevoie să se cunoască scorul celei mai bune alinieri dintre primele $i-1$ caractere din secvenţa $x$ şi primele $j$ caractere din
secvenţa $y$, adică $D(i-1, j)$, la care se adaugă penalizarea de `gap`, $g$.

3. Corespunde cazului în care s-a realizat corespondenţa dintre caracterul $y_i$ şi un `gap`.

    Este nevoie să se cunoască scorul celei mai bune alinieri dintre primele $i$ caractere din secvenţa $x$ şi primele $j-1$ caractere din
secvenţa $y$, adică $D(i, j-1)$, la care se adaugă penalizarea de `gap`, $g$.

### Studiu de caz

Alinierea secvențelor:
```
    GCATGCU
    GATTACA
```

Matricea inițială asociată algoritmului de programare dinamică este:

<table style="max-width: 40%; float: left;  font-size: 0.8em">

<thead>
<tr>
    <th align="right"></th>
    <th align="right" style="border-right: 1px solid #BDBDBD;"></th>
    <th align="right">-</th>
    <th align="right">G</th>
    <th align="right">C</th>
    <th align="right">A</th>
    <th align="right">T</th>
    <th align="right">G</th>
    <th align="right">C</th>
    <th align="right">U</th>
</tr>
    
<tr>
    <td align="right"><b></b></td>
    <td align="right" style="border-right: 1px solid #BDBDBD;"><b></b></td>
    <td align="right"><b>0</b></td>
    <td align="right"><b>1</b></td>
    <td align="right"><b>2</b></td>
    <td align="right"><b>3</b></td>
    <td align="right"><b>4</b></td>
    <td align="right"><b>5</b></td>
    <td align="right"><b>6</b></td>
    <td align="right"><b>7</b></td>
</tr>
    </thead>
    <tbody>
<tr>
    <td align="right"><b>-</b></td>
        <td align="right" style="border-right: 1px solid #BDBDBD;"><b>0</b></td>
    <td align="right">0</td>
    <td align="right">-1</td>
    <td align="right">-2</td>
    <td align="right">-3</td>
    <td align="right">-4</td>
    <td align="right">-5</td>
    <td align="right">-6</td>
    <td align="right">-7</td>
</tr>
<tr>
    <td align="right"><b>G</b></td>
        <td align="right" style="border-right: 1px solid #BDBDBD;"><b>1</b></td>
    <td align="right">-1</td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
</tr>
<tr>
    <td align="right"><b>A</b></td>
        <td align="right" style="border-right: 1px solid #BDBDBD;"><b>2</b></td>
    <td align="right">-2</td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
</tr>
<tr>
    <td align="right"><b>T</b></td>
        <td align="right" style="border-right: 1px solid #BDBDBD;"><b>3</b></td>
    <td align="right">-3</td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
</tr>
<tr>
    <td align="right"><b>T</b></td>
        <td align="right" style="border-right: 1px solid #BDBDBD;"><b>4</b></td>
    <td align="right">-4</td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
</tr>
<tr>
    <td align="right"><b>A</b></td>
        <td align="right" style="border-right: 1px solid #BDBDBD;"><b>5</b></td>
    <td align="right">-5</td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
</tr>
<tr>
    <td align="right"><b>C</b></td>
        <td align="right" style="border-right: 1px solid #BDBDBD;"><b>6</b></td>
    <td align="right">-6</td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
</tr>
<tr>
    <td align="right"><b>A</b></td>
        <td align="right" style="border-right: 1px solid #BDBDBD;"><b>7</b></td>
    <td align="right">-7</td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
    <td align="right"></td>
</tr> 
</tbody>
</table>

<div style="float:right; width: 40%">
    Observații:
    <ul>
        <li>$D[0, 0] = 0$ </li>
        <li>$D[i, 0] = i*g$, unde $g=-1$ în acest exemplu</li>
        <li>$D[0, j] = j*g$, unde $g=-1$ în acest exemplu</li>
    </ul>
</div>

# Aplicații

1. Completați scheletul de cod de mai jos și testați implementarea algoritmului Needleman-Wunsch.

In [1]:
# rezolvare cerinta 1)

import numpy as np
import pandas as pd
from IPython.display import display_html

def simple(x, y):
    if x == y:
        return 1
    else:
        return -1

def NeedlemanWunsch(seq1, seq2, scoreMatrix=simple, g = -1):
    N = len(seq1)
    M = len(seq2)
    
    seq1 = '#' + seq1
    seq2 = '#' + seq2
    
    D = np.zeros((N+1, M+1), np.int32)
    
    #TODO - implementare algoritm
  
    # end TODO
    
    #determinarea sirurilor celor doua secvente aliniate:
    align1 = ''
    align2 = ''
    i = N
    j = M

    
    while i > 0 and j > 0:
        score = D[i, j]
        
        if score == D[i-1, j-1] + scoreMatrix(seq1[i], seq2[j]):
            align1 = seq1[i] + align1
            align2 = seq2[j] + align2
            i-=1
            j-=1

        elif score == D[i-1, j] + g:
            align1 = seq1[i] + align1
            align2 =     '-' + align2
            i-=1
            
        else: # score == D[i, j-1] + d
            align1 =     '-' + align1
            align2 = seq2[j] + align2
            j-=1
    
    align1 = '-'*j + seq1[1:i+1] + align1
    align2 = '-'*i + seq2[1:j+1] + align2
    
    return (align1, align2, D[N, M], D)


def displayAlignment(align1, align2):
    print(align1)
    
    p = ''.join(map(lambda x, y: str(int(x==y)), align1, align2))
    p = p.replace('1', '|')
    p = p.replace('0', ' ')
    print(p)
    
    print(align2)

def displayMatrix(D, seq1, seq2):
    D_for_print = pd.DataFrame(D, columns=list("-" + seq1), index=list("-" + seq2))
#     D_for_print = D_for_print.set_index(keys=list("-" + seq1))
    display_html(D_for_print)

x = 'GCATGCU'
y = 'GATTACA'
[a1, a2, sc, D] = NeedlemanWunsch(x, y)

displayAlignment(a1,a2)
print(sc)
displayMatrix(D, x, y)

GCATGCU-------
              
-------GATTACA
0


Unnamed: 0,-,G,C,A,T,G.1,C.1,U
-,0,0,0,0,0,0,0,0
G,0,0,0,0,0,0,0,0
A,0,0,0,0,0,0,0,0
T,0,0,0,0,0,0,0,0
T,0,0,0,0,0,0,0,0
A,0,0,0,0,0,0,0,0
C,0,0,0,0,0,0,0,0
A,0,0,0,0,0,0,0,0


2. În implementarea prezentată s-a utilizat o funcţie de scor simplă, simple(c1, c2), care întoarce valoarea 1 în caz de potrivire a două caractere şi -1 în caz de nepotrivire.

    Să se scrie o funcţie de scor, `BLOSUM(c1, c2)`, care să întoarcă valoarea corespunzatoare caracterelor `c1` şi `c2` din matricea BLOSUM.
    
    Să se testeze implementarea algoritmului, utilizând această funcţie de scor.

In [None]:
# rezolvare cerinta 2)