# Clase 8


Objetivos

* Alineamiento global vs alineamiento local
* Algortimo de alineamiento local de Smith-Waterman



## Anuncios
----------

1. La clase del próximo jueves 3 de junio haremos un repaso de todo el material para la primera evaluación.
2. La primera evaluación se hará la próxima semana:
    * Prueba (60%): 04/06 entre las 19:00 y las 23:59 hr. 
    * Trabajo (40%): Entrega 05/06. Recepción 08/06 hasta a las 23:59 hrs

# Alineamiento global


En la clase anterior aprendimos a evaluar la bondad de un alineamiento entre dos secuencias a través de la medición de su score. Si tenemos dos alineamientos, elegimos el que tenga el mayor **score**. 

Esto implica, que el dentro de todos los alineamientos posibles entre dos secuencias, el mejor es aquel con el máximo score. Esto se llama alineamiento global.

El algoritmo de **Needleman-Wuns** utiliza una matriz de substitución (por ejemplo BLOSUM50) para encontrar el alineamiento con el maximo score posible.

Antes de ver el algoritmo de **Needleman-Wunsh**, veamos maneras convenientes de representar los alineamientos.

# Representación matricial del alineamiento de dos secuencias

Las secuencias: 
```
x=AETGGW  
y=AEEH
```
Pueden ser alineadas como
```
AETGGW
A-E-EH
```
o
```
AETGGW
AEE--H
```  
o de varias otras formas.  

Para expresar todos los posibles alineamientos de manera compacta podemos hacer uso de una representación matricial. Por ejemplo:
    
```
AETGGW    AETGGW
A-E-EH    AEE--H
```
Puden ser representados de la siguiente manera:

<table><tr>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_matrixAlingment1.png" alt="Drawing" style="width: 250px;"/> </td>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_matrixAlingment1.png" alt="Drawing" style="width: 250px;"/> </td>
</tr></table>

¿Cómo podemos representar alineamientos que comienzan con un gap? Por ejemplo:

```
AETGGW    -AETGGW
-AEE-H    AE-E--H
```

Para ésto podemos agregar la siguiente modificación a nuesta matriz de alineamientos:


<table><tr>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_alignmentMatrix2.png" alt="Drawing" style="width: 250px;"/> </td>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_alignmentMatrix2.png" alt="Drawing" style="width: 250px;"/> </td>
</tr></table>

**Ejercicio 1** Representa en forma matricial los siguientes alienamientos:

1.
```
GTAAETGGW
-WTAE-E-H
```
2.
```
-ETGGTAGW
E-E--WTAH
```


**Ejercicio 2** Para verificar que entendimos como ésto funciona, ahora hagamos el proceso en sentido inverso. Dadas las siguientes matrices, representa el alineamiento como una secuencia letra a letra:

<table><tr>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_example1.png" alt="Drawing" style="width: 350px;"/> </td>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase9_example2.png" alt="Drawing" style="width: 350px;"/> </td>
</tr></table>

# Algortimo de alineamiento de Needleman-Wunsh

## ¿De qué sirve ésto? En la misma matríz podemos anotar los scores de los alineamientos parciales


Supongamos que utilizando la matriz BLOSUM50 (scores para match/mismatch) y $d=-8$ (score para gaps), queremos encontrar el mejor alineamineto entre las secuencias
```
  x=HEAGAWGHEE   y=PAWHEAE 
```


 En este caso podemos escribir todas la alineaciones posibles y los scores de los mejores alineamientos parciales como la matriz:

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_exampleAlignment.jpg" alt="Drawing" style="width: 400px;" />

En donde la coordenada $(i,j)$ corresponde al mejor score entre las secuencias $x_{1...i}$ y $y_{1...j}$. 

Calculamos el valor de cada coordenadas en base a sus valores adyacentes:

<table><tr>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_exampleAlignment.jpg" alt="Drawing" style="width: 350px;"/> </td>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_trace.jpg" alt="Drawing" style="width: 250px;"/> </td>
</tr></table>

De estas tres opciones, se selecciona el score que hasta ese momento sea el más alto:

<table><tr>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_trace.jpg" alt="Drawing" style="width: 350px;"/> </td>
<td> <img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_selection.jpg" alt="Drawing" style="width: 450px;"/> </td>
</tr></table>


Ejercicio 4
----------

Dada las secuencias $x=HEAGAWGHEE$, $y=PAWHEAE$, escribe código para:

1. Construir la matriz con los scores de cada secuencia (Matriz BLOSUM50).
2. Computar la matriz de los los mejores alineamientos parciales (Matriz F).
3. Trazar la suceción de alineamientos parciales con el mayor score total.
4. Escribe una función ```align(seq1,seq2)``` que tome como argumentos las secuencias ```seq1``` y ```seq2```, y entrgue como resultado su mejor alineamiento. 

In [1]:
# 1
import numpy as np
from Bio.SubsMat import MatrixInfo

seq1="HEAGAWGHEE"
seq2="PAWHEAE"

scoreMatrix=np.zeros((len(seq2),len(seq1) ) )  

i = 0
for value_i in seq2:
    j = 0
    for value_j in seq1:
        pair = (value_i,value_j)
        if not pair in MatrixInfo.blosum50:
            pair = tuple(reversed(pair))
        scoreMatrix[i,j]=MatrixInfo.blosum50[pair]
        j += 1
    i += 1
scoreMatrix



array([[-2., -1., -1., -2., -1., -4., -2., -2., -1., -1.],
       [-2., -1.,  5.,  0.,  5., -3.,  0., -2., -1., -1.],
       [-3., -3., -3., -3., -3., 15., -3., -3., -3., -3.],
       [10.,  0., -2., -2., -2., -3., -2., 10.,  0.,  0.],
       [ 0.,  6., -1., -3., -1., -3., -3.,  0.,  6.,  6.],
       [-2., -1.,  5.,  0.,  5., -3.,  0., -2., -1., -1.],
       [ 0.,  6., -1., -3., -1., -3., -3.,  0.,  6.,  6.]])

In [2]:
# 2 y 3

seq1="-HEAGAWGHEE"
seq2="-PAWHEAE"

def getTraceMatrix(seq1,seq2):
    d=8
    traceMatrix=np.zeros((len(seq2),len(seq1)) ) 
    Fmatrix=np.zeros((len(seq2),len(seq1)) )  
    # Set first column
    Fmatrix[:,0] = -d*np.array(range( len(seq2) ))
    # Set first row
    Fmatrix[0,:] = -d*np.array(range( len(seq1) ))


    i = 1
    for value_i in seq2[1::]:
        j = 1
        for value_j in seq1[1::]:
            pair = (value_i,value_j)
            if not pair in MatrixInfo.blosum50:
                pair = tuple(reversed(pair))
            score=MatrixInfo.blosum50[pair]
            Fmatrix[i,j] = np.max([  Fmatrix[i,j-1]-d,Fmatrix[i-1,j-1]+score,Fmatrix[i-1,j]-d  ])
            indexMax=      np.argmax([Fmatrix[i,j-1]-d,Fmatrix[i-1,j-1]+score,Fmatrix[i-1,j]-d])
            traceMatrix[i,j] = indexMax
            j += 1
        i += 1

    return([traceMatrix,Fmatrix])

[traceMatrix,Fmatrix]=getTraceMatrix(seq1,seq2)

In [3]:
traceMatrix

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 1., 1., 0., 0., 0., 0., 0., 0., 0.],
       [0., 2., 2., 1., 1., 0., 1., 0., 0., 0., 0.],
       [0., 1., 1., 1., 1., 1., 2., 1., 1., 0., 0.],
       [0., 2., 1., 0., 1., 1., 1., 2., 1., 1., 0.],
       [0., 2., 2., 1., 0., 1., 1., 1., 2., 2., 1.],
       [0., 2., 1., 2., 1., 1., 1., 1., 1., 1., 1.]])

In [4]:
Fmatrix

array([[  0.,  -8., -16., -24., -32., -40., -48., -56., -64., -72., -80.],
       [ -8.,  -2.,  -9., -17., -25., -33., -41., -49., -57., -65., -73.],
       [-16., -10.,  -3.,  -4., -12., -20., -28., -36., -44., -52., -60.],
       [-24., -18., -11.,  -6.,  -7., -15.,  -5., -13., -21., -29., -37.],
       [-32., -14., -18., -13.,  -8.,  -9., -13.,  -7.,  -3., -11., -19.],
       [-40., -22.,  -8., -16., -16.,  -9., -12., -15.,  -7.,   3.,  -5.],
       [-48., -30., -16.,  -3., -11., -11., -12., -12., -15.,  -5.,   2.],
       [-56., -38., -24., -11.,  -6., -12., -14., -15., -12.,  -9.,   1.]])

In [5]:
# 4
seq1="-HEAGAWGHEE"
seq2="-PAWHEAE"

def align(seq1,seq2):
    traceMatrix = getTraceMatrix(seq1,seq2)[0]
    I,J=traceMatrix.shape
    traceMatrix = np.array(traceMatrix)
    i = I-1
    j = J-1
    seq1Aligned = ""
    seq2Aligned = ""
    while i>0 or j>0:
        if traceMatrix[i,j] == 1:  #diagonal
            seq1Aligned += seq1[j]
            seq2Aligned += seq2[i]
            i -= 1
            j -= 1
        if traceMatrix[i,j] == 2: #vertical
            seq1Aligned += "-"
            seq2Aligned += seq2[i]
            i -= 1   
        if traceMatrix[i,j] == 0: #horizontal
            seq1Aligned += seq1[j]
            seq2Aligned += "-"
            j -= 1   
    print(seq1Aligned[::-1])
    print(seq2Aligned[::-1])
align(seq1,seq2)

HEAGAWGHE-E
-PA--W-HEAE


## Tarea 2

Encuentra el alineamiento global alternativo (el que aparece en el libro). Para esto debes modificar el códido de la función $align$.

Fecha de entrega hasta el **3 de Junio a las 23:59 horas**.

Local alignment: Algoritmo de Smith-Waterman
================

Hasta ahora hemos asumido que conocemos las dos secuencias que queremos alinear, $x$ e $y$, y que estamos buscando por el mejor alineamiento cada una de sus secuencias de principio a fin. 

Pero una situación mucho más común es cuando estamos buscando el mejor alineamiento entre una **subsecuencia** de $x$ e $y$. 

Esto ocurre, por ejemplo, cuando sospechamos que los dominios de dos proteinas comparten un dominio común, o también ocurre cuando comparamos dos secciones de ADN. 


<img src="https://www.researchgate.net/profile/Mohamed-Issa-8/publication/322704711/figure/fig1/AS:591396109045760@1518011228557/Global-alignment-vs-Local-alignment.png" alt="Drawing" style="width: 600px;"/>


Es también la mejor manera para detectar similaridades entre secuencias que a través de la evolución se han vuelto muy divergentes. 

Esto puede ocurrir, por ejemplo,  en aquellos casos en los cuales distintas regiones del genome tienen distintas sensivilidaddes a mutaciones, tal como es el caso para intrones y exones. 

En este útlimo caso mutaciones en los exones tienden a ser menos comunes que mutaciones en los intrones, para lo cual solo estariamos interesados en hacer alineamientos entre exones.

Para todos estos casos, la mejor estrategia es alinear subsecuencias de $x$ e $y$. Este estrategia se llama alineamiento local. El algoritmo para encontrar el mejor alineamiento local es muy similar al de alineamiento global. Sólo hay dos diferencias.

**Primero**, en cada celda de la matrix F, un posibilidad extra es agregada para permitir que $F(i,j)$ pueda tomar el valor $0$ si todas las otras opciones son menores que $0$:

$
F(i,j)=max
\begin{cases}
  0,\\
  F(i-1,j-1)+s(x_i,y_i) \\
  F(i-1,j)-d \\
  F(i,j-1)-d
\end{cases}
$

Tomar la opción $0$ corresponde a comenzar un nuevo alineamiento. Si el mejor alineamiento hasta algún punto tiene un score negativo, es mejor comenzar un nuevo alineamiento en lugar de extender el actual. 

Nota que como consecuencia de esta opción adicional la primera fila y columna de la matriz $F$ ahora estarán llenas de ceros, no por $-d*i$ o $-d*j$ como era el caso para el alineamiento global. 

Por ejemplo, veamos como se ve la matriz $F$ y alineamiento de las secuencias $x=HEAGAWGHEE$ e $y=PAWHEAE$.

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase10_ejemplo.jpg" alt="Drawing" style="width: 400px;"/>

**El segundo cambio** es que ahora el mejor alineamiento puede estar en cualquier parte de la matriz $F$. 

Así, en lugar de tomar el valor en el rincón derecho inferior de la matriz $F$, ahora se debe considerar como punto de partida el valor más alto de $F(i,j)$ a lo largo de toda la matriz. 

El trazado termina cuando encontramos un valor $0$, lo cual corresponde al comienzo del alineamiento.

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase10_ejemplo.jpg" alt="Drawing" style="width: 400px;"/>

Ejercicio
---------

1. Escribe una función $localF(x,y)$ para calcular la matriz $F$ de  las secuencias $x=HEAGAWGHEE$ e $y=PAWHEAE$. Considera $d=-8$ y la matriz BLOSUM50. 

Tarea opcional
-----------

Utiliza el resultado anterior para crear la función $localAlignment(x,y)$ para entregar el alineamiento de las secuencias $x=HEAGAWGHEE$ e $y=PAWHEAE$.

Fecha de entrega hasta el **3 de Junio a las 23:59 horas**.