# Clase 6

Objetivos

* Anuncios
* Concepto de alineamiento global
* Representación matricial de alineamientos
* Algortimo de alineamiento de Needleman-Wunsh

# Anuncios

Para facilitar la visualización de la hoja de jupyter es recomendable utilizar [RISE](https://rise.readthedocs.io/en/stable/installation.html).

Para instalar esta herramienta, ejecutar en el terminal de anaconda:

```python
conda install -c conda-forge rise
```

La fechas de las evaluaciones están en [Reko](https://reko.utem.cl/beta/u/1/aula/asignatura/955/seccion/5377/recursos-educativos/12889/invitado/contenido/50521/contenido-libre)

# Alineamiento global


En la clase anterior aprendimos a evaluar la bondad de un alineamiento entre dos secuencias a través de la medición de su score. Si tenemos dos alineamientos, elegimos el que tenga el mayor **score**. 

Esto implica, que el dentro de todos los alineamientos posibles entre dos secuencias, el mejor es aquel con el máximo score. Esto se llama alineamiento global.

El algoritmo de **Needleman-Wuns** utiliza una matriz de substitución (por ejemplo BLOSUM50) para encontrar el alineamiento con el maximo score posible.

Antes de ver el algoritmo de **Needleman-Wunsh**, veamos maneras convenientes de representar los alineamientos.

# Representación matricial del alineamiento de dos secuencias


Las secuencias: 
```
x=AETGGW  
y=AEEH
```
Pueden ser alineadas como
```
AETGGW
A-E-EH
```
o
```
AETGGW
AEE--H
```  
o de varias otras formas.  

Para expresar todos los posibles alineamientos de manera compacta podemos hacer uso de una representación matricial. Por ejemplo:
    
```
AETGGW    AETGGW
A-E-EH    AEE--H
```
Puden ser representados de la siguiente manera:

<table><tr>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_matrixAlingment1.png" alt="Drawing" style="width: 250px;"/> </td>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_matrixAlingment1.png" alt="Drawing" style="width: 250px;"/> </td>
</tr></table>

¿Cómo podemos representar alineamientos que comienzan con un gap? Por ejemplo:

```
AETGGW    -AETGGW
-AEE-H    AE-E--H
```

Para ésto podemos agregar la siguiente modificación a nuesta matriz de alineamientos:


<table><tr>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_alignmentMatrix2.png" alt="Drawing" style="width: 250px;"/> </td>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_alignmentMatrix2.png" alt="Drawing" style="width: 250px;"/> </td>
</tr></table>

**Ejercicio 1** Representa en forma matricial los siguientes alienamientos:

1.
```
GTAAETGGW
-WTAE-E-H
```
2.
```
-ETGGTAGW
E-E--WTAH
```


**Ejercicio 2** Para verificar que entendimos como ésto funciona, ahora hagamos el proceso en sentido inverso. Dadas las siguientes matrices, representa el alineamiento como una secuencia letra a letra:

<table><tr>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_example1.png" alt="Drawing" style="width: 350px;"/> </td>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_example2.png" alt="Drawing" style="width: 350px;"/> </td>
</tr></table>

# Algortimo de alineamiento de Needleman-Wunsh

## ¿De qué sirve ésto? En la misma matríz podemos anotar los scores de los alineamientos parciales


Supongamos que utilizando la matriz BLOSUM50 (scores para match/mismatch) y $d=-8$ (score para gaps), queremos encontrar el mejor alineamineto entre las secuencias
```
  x=HEAGAWGHEE   y=PAWHEAE 
```


 En este caso podemos escribir todas la alineaciones posibles y los scores de los mejores alineamientos parciales como la matriz:

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_exampleAlignment.jpg" alt="Drawing" style="width: 400px;" />

En donde la coordenada $(i,j)$ corresponde al mejor score entre las secuencias $x_{1...i}$ y $y_{1...j}$. 

Calculamos el valor de cada coordenadas en base a sus valores adyacentes:

<table><tr>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_exampleAlignment.jpg" alt="Drawing" style="width: 350px;"/> </td>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_trace.jpg" alt="Drawing" style="width: 250px;"/> </td>
</tr></table>

De estas tres opciones, se selecciona el score que hasta ese momento sea el más alto:

<table><tr>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_trace.jpg" alt="Drawing" style="width: 350px;"/> </td>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_selection.jpg" alt="Drawing" style="width: 450px;"/> </td>
</tr></table>


Ejercicio 4
----------

Dada las secuencias $x=HEAGAWGHEE$, $y=PAWHEAE$, escribe código para:

1. Construir la matriz con los scores de cada secuencia (Matriz BLOSUM50).
2. Computar la matriz de los los mejores alineamientos parciales (Matriz F).
3. Trazar la suceción de alineamientos parciales con el mayor score total.
4. Escribe una función ```align(seq1,seq2)``` que tome como argumentos las secuencias ```seq1``` y ```seq2```, y entrgue como resultado su mejor alineamiento. 

In [51]:
# 1
import numpy as np
import pandas as pd
from Bio.SubsMat import MatrixInfo

seq1="HEAGAWGHEE"
seq2="PAWHEAE"

scoreMatrix=np.zeros((len(seq2),len(seq1) ) )  

i = 0
for value_i in seq2:
    j = 0
    for value_j in seq1:
        pair = (value_i,value_j)
        if not pair in MatrixInfo.blosum50:
            pair = tuple(reversed(pair))
        scoreMatrix[i,j]=MatrixInfo.blosum50[pair]
        j += 1
    i += 1
scoreMatrix=pd.DataFrame(scoreMatrix,index=[i for i in seq2],
                         columns=[j for j in seq1]) 

In [50]:
scoreMatrix

Unnamed: 0,H,E,A,G,A.1,W,G.1,H.1,E.1,E.2
P,-2.0,-1.0,-1.0,-2.0,-1.0,-4.0,-2.0,-2.0,-1.0,-1.0
A,-2.0,-1.0,5.0,0.0,5.0,-3.0,0.0,-2.0,-1.0,-1.0
W,-3.0,-3.0,-3.0,-3.0,-3.0,15.0,-3.0,-3.0,-3.0,-3.0
H,10.0,0.0,-2.0,-2.0,-2.0,-3.0,-2.0,10.0,0.0,0.0
E,0.0,6.0,-1.0,-3.0,-1.0,-3.0,-3.0,0.0,6.0,6.0
A,-2.0,-1.0,5.0,0.0,5.0,-3.0,0.0,-2.0,-1.0,-1.0
E,0.0,6.0,-1.0,-3.0,-1.0,-3.0,-3.0,0.0,6.0,6.0


In [71]:
traceMatrix=np.zeros((len(seq2),len(seq1)) ) 
Fmatrix=np.zeros((len(seq2),len(seq1)) )  
# Set first column
Fmatrix[:,0] = -d*np.array(range( len(seq2) ))
# Set first row
Fmatrix[0,:] = -d*np.array(range( len(seq1) ))

i = 1
for value_i in seq2[1::]:
    j = 1
    for value_j in seq1[1::]:
        pair = (value_i,value_j)
        if not pair in MatrixInfo.blosum50:
            pair = tuple(reversed(pair))
        score=MatrixInfo.blosum50[pair]
        Fmatrix[i,j] = np.max([  Fmatrix[i,j-1]-d,Fmatrix[i-1,j-1]+score,Fmatrix[i-1,j]-d  ])
        indexMax=      np.argmax([Fmatrix[i,j-1]-d,Fmatrix[i-1,j-1]+score,Fmatrix[i-1,j]-d])
        traceMatrix[i,j] = indexMax
        j += 1
    i += 1
traceMatrix = pd.DataFrame(traceMatrix,index=[i for i in seq2],columns=[j for j in seq1]) 
Fmatrix = pd.DataFrame(Fmatrix,index=[i for i in seq2],columns=[j for j in seq1]) 

In [69]:
Fmatrix

Unnamed: 0,-,H,E,A,G,A.1,W,G.1,H.1,E.1,E.2
-,0.0,-8.0,-16.0,-24.0,-32.0,-40.0,-48.0,-56.0,-64.0,-72.0,-80.0
P,-8.0,-2.0,-9.0,-17.0,-25.0,-33.0,-41.0,-49.0,-57.0,-65.0,-73.0
A,-16.0,-10.0,-3.0,-4.0,-12.0,-20.0,-28.0,-36.0,-44.0,-52.0,-60.0
W,-24.0,-18.0,-11.0,-6.0,-7.0,-15.0,-5.0,-13.0,-21.0,-29.0,-37.0
H,-32.0,-14.0,-18.0,-13.0,-8.0,-9.0,-13.0,-7.0,-3.0,-11.0,-19.0
E,-40.0,-22.0,-8.0,-16.0,-16.0,-9.0,-12.0,-15.0,-7.0,3.0,-5.0
A,-48.0,-30.0,-16.0,-3.0,-11.0,-11.0,-12.0,-12.0,-15.0,-5.0,2.0
E,-56.0,-38.0,-24.0,-11.0,-6.0,-12.0,-14.0,-15.0,-12.0,-9.0,1.0


In [70]:
traceMatrix

Unnamed: 0,-,H,E,A,G,A.1,W,G.1,H.1,E.1,E.2
-,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
P,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
A,0.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
W,0.0,2.0,2.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0
H,0.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0,1.0,0.0,0.0
E,0.0,2.0,1.0,0.0,1.0,1.0,1.0,2.0,1.0,1.0,0.0
A,0.0,2.0,2.0,1.0,0.0,1.0,1.0,1.0,2.0,2.0,1.0
E,0.0,2.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


# Revisión de la Tarea 1

In [85]:
def score(seq1,seq2):
    scoreTotal = 0
    for i in range(len(seq1)):
        if seq1[i]=="-" or seq2[i] == "-":
            score_i = -8
        else:
            pair = (seq1[i],seq2[i])
            if not pair in MatrixInfo.blosum50:
                pair = tuple(reversed(pair))
            score_i = MatrixInfo.blosum50[pair]        
        scoreTotal += score_i
    return(scoreTotal)

In [87]:
seq1="HEAGAWGHEE"
seq2="PA-W-HEA-E"
score1 = score(seq1,seq2)

seq1="HEAGAWGHEE"
seq2="PA---WHEAE"
score2 = score(seq1,seq2)

print(score1,score2)

-32 -9
