Clase 7 y 8
======

Objetivos
* Introducción al alineamiento de secuencias genéticas
* Modelos de medición de la similaridad de secuencias
* Algortimo de alineamiento de Needleman-Wunsh

Antes de comenzar revisemos la tarea optativa. [Aquí](https://raw.githubusercontent.com/mrivas/Bioinformatica/master/Clase5y6_TareaOptativa.ipynb) el código con las soluciones, y [aquí](https://docs.google.com/spreadsheets/d/1PFW5Qx96eNHescdB_k-PIstHngwyf0x2CHacC_UpsZ0/edit?usp=sharing) las lista con las evaluaciones.


Introducción al alineamiento de secuencias genéticas
---------------------------

Las secuencias genéticas evoluciónan a través de mutaciones, inserciones, y eliminaciones de nucleotridos. Consideremos como ejemplo la secuencia S = ACCGT, la cual ha pasado de padre a hijo a nieto, y así sucesivamente. Si la replicación fuese perfecta, nadia habría cambiado. Veamos algunos ejemplos: 

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_mutations.png" alt="Drawing" style="width: 400px;"/>

Alineamineto de nucleotidos
---------

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_nucleotides.png" alt="Drawing" style="width: 700px;"/>

Alineamiento de aminoacidos
--------

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_aaPolaridad.png" alt="Drawing" style="width: 200px;" align="left"/>

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_aminoacids.png" alt="Drawing" style="width: 620px;"/>

Modelos de medición de la similaridad de secuencias
---------------------------


\begin{eqnarray}
P(x,y|R) = \prod_i q_{x_i} \prod_j q_{y_j}
\end{eqnarray}


\begin{eqnarray}
P(x,y|M) = \prod_i p_{x_i y_i}
\end{eqnarray}

\begin{eqnarray} 
\frac{P(x,y|M)}{ P(x,y|R) } = \frac{\prod_i p_{x_i y_i} } {\prod_i q_{x_i} \prod_j q_{y_j}} = \prod_i \frac{p_{x_iy_i}}{q_{x_i}q_{y_i}}
\end{eqnarray}

\begin{eqnarray} 
&S=\sum_is(x_i,y_i) \\
\text{en donde:}& \\
&s(a,b)=log \left( \frac{p_{ab}}{q_aq_b} \right)
\end{eqnarray}

Espacios (gaps)
--------------------

\begin{eqnarray}
\gamma(g) &= -gd
\end{eqnarray}

Ejercicio 1
-------------

1. Descargar las matrices de alineamiento desde las librerías de ```biopython```, las cuales se instalan de la siguiente manera:


```pythohn
pip install biopython
```

2. Cargar laS matrices BBLOSUM62 Y BLOSUM50.

In [1]:
# Ejercicio 1
from Bio.SubsMat import MatrixInfo
import pandas as pd
import numpy as np


def createList(seq):
    x=[]
    for i in seq:
        x.append(i)
    return(x)
aa="CSTPAGNDEQHRKMILVFYW"
aa=createList(aa)


aa=["C","S","T","P","A","G","N","D","E","Q","H","R","K","M","I","L","V","F","Y","W"]

scoreMatrix=pd.DataFrame(index=aa,columns=aa)  

for i in aa:
    for j in aa:
        pair = (i,j)
        if not pair in MatrixInfo.blosum62:
            pair = tuple(reversed(pair))
        scoreMatrix.loc[i,j]=MatrixInfo.blosum62[pair]
scoreMatrix

Unnamed: 0,C,S,T,P,A,G,N,D,E,Q,H,R,K,M,I,L,V,F,Y,W
C,9,-1,-1,-3,0,-3,-3,-3,-4,-3,-3,-3,-3,-1,-1,-1,-1,-2,-2,-2
S,-1,4,1,-1,1,0,1,0,0,0,-1,-1,0,-1,-2,-2,-2,-2,-2,-3
T,-1,1,5,-1,0,-2,0,-1,-1,-1,-2,-1,-1,-1,-1,-1,0,-2,-2,-2
P,-3,-1,-1,7,-1,-2,-2,-1,-1,-1,-2,-2,-1,-2,-3,-3,-2,-4,-3,-4
A,0,1,0,-1,4,0,-2,-2,-1,-1,-2,-1,-1,-1,-1,-1,0,-2,-2,-3
G,-3,0,-2,-2,0,6,0,-1,-2,-2,-2,-2,-2,-3,-4,-4,-3,-3,-3,-2
N,-3,1,0,-2,-2,0,6,1,0,0,1,0,0,-2,-3,-3,-3,-3,-2,-4
D,-3,0,-1,-1,-2,-1,1,6,2,0,-1,-2,-1,-3,-3,-4,-3,-3,-3,-4
E,-4,0,-1,-1,-1,-2,0,2,5,2,0,0,1,-2,-3,-3,-2,-3,-2,-3
Q,-3,0,-1,-1,-1,-2,0,0,2,5,0,1,1,0,-3,-2,-2,-3,-1,-2


Ejercicio 2
---------

Computa el score de cada uno de los siguientes alineamientos

1.

ACGTCCATAGGCATCGATACTGAACTGGTCCATACGATACT\
ACGTCC**C**TAGGCATCGATACTGAACTG**T**TCCATACGATACT


2.

ACGTCCATAGGCATCG**-**TACTGAACTGGTCCATACGATACT\
ACGTCC**C**TAGGCATCGATACTGAACTG**T**TCCATA**-**GATACT

3.

VFRKAGND\
V**K**RKA**A**ND

4.

VFR**-**AGND\
V**K**RKA**A**ND

Ejercicio 3
---------

1. Dada las secuencas ```seq1``` y ```seq2```, escribe una función ```score(seq1,seq2)``` para calcular su score.
2. Aplica ```score(seq1,seq2)``` a los 4 alineamientos del ejercicio anterior

Algortimo de alineamiento
===========

Alineamiento global: Algoritmo de Needleman-Wunsh
------

Veamos un ejemplo. Supongamos que queremos encontrar el mejor alineamineto entre $x="HEAGAWGHEE"$ e $y="PAWHEAE"$. Utilizando la matriz BLOSUM50 para los socores entre match,y $d=-8$ par los gaps. En este caso podemos escribir todas la alineaciones posibles como un matriz:

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_exampleAlignment.jpg" alt="Drawing" style="width: 500px;" />


En donde la coordenada $(i,j)$ corresponde al mejor score entre las secuencias $x_{1...i}$ y $y_{1...j}$. Estas coordenadas son llenadas en base a los valores anteriores:

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_trace.jpg" alt="Drawing" style="width: 400px"/>

De estas tres opciones, se selecciona el score que hasta ese momento sea el más alto:

<img src="https://raw.githubusercontent.com/mrivas/Bioinformatica/master/clase7_selection.jpg" alt="Drawing" style="width: 400px;"/>

Veamos el ejemplo paso a paso a través de los siguientes ejercicios.


Ejercicio 4
----------

Dada las secuencias $x="HEAGAWGHEE"$ e $y="PAWHEAE"$, escribe código para:

1. Construir la matriz con los scores de cada secuencia.
2. Computar la matriz de los los mejores alineamientos parciales.
3. Trazar la suceción de alineamientos parciales con el mayor score total.

In [2]:
# 1

seq1="HEAGAWGHEE"
seq2="PAWHEAE"


seq1=createList(seq1)
seq2=createList(seq2)

scoreMatrix=np.zeros((len(seq2),len(seq1) ) )  

for i in range(len(seq2)):
    for j in range(len(seq1)):
        pair = (seq2[i],seq1[j])
        if not pair in MatrixInfo.blosum50:
            pair = tuple(reversed(pair))
        scoreMatrix[i,j]=MatrixInfo.blosum50[pair]

scoreMatrix=pd.DataFrame(scoreMatrix,index=seq2,columns=seq1) 
scoreMatrix

Unnamed: 0,H,E,A,G,A.1,W,G.1,H.1,E.1,E.2
P,-2.0,-1.0,-1.0,-2.0,-1.0,-4.0,-2.0,-2.0,-1.0,-1.0
A,-2.0,-1.0,5.0,0.0,5.0,-3.0,0.0,-2.0,-1.0,-1.0
W,-3.0,-3.0,-3.0,-3.0,-3.0,15.0,-3.0,-3.0,-3.0,-3.0
H,10.0,0.0,-2.0,-2.0,-2.0,-3.0,-2.0,10.0,0.0,0.0
E,0.0,6.0,-1.0,-3.0,-1.0,-3.0,-3.0,0.0,6.0,6.0
A,-2.0,-1.0,5.0,0.0,5.0,-3.0,0.0,-2.0,-1.0,-1.0
E,0.0,6.0,-1.0,-3.0,-1.0,-3.0,-3.0,0.0,6.0,6.0


In [3]:
# 2 y 3
seq1="-HEAGAWGHEE"
seq2="-PAWHEAE"

seq1=createList(seq1)
seq2=createList(seq2)

d=8
traceMatrix=np.zeros((len(seq2),len(seq1)) ) 
alignMatrix=np.zeros((len(seq2),len(seq1)) )  

# Set first column
alignMatrix[:,0] = -d*np.array(range( len(seq2) ))
# Set first row

alignMatrix[0,:] = -d*np.array(range( len(seq1) ))

for i in range(1,len(seq2)):
    for j in range(1,len(seq1)):
        value_i=seq2[i]
        value_j=seq1[j]
        pair = (value_i,value_j)
        if not pair in MatrixInfo.blosum50:
            pair = tuple(reversed(pair))
        score=MatrixInfo.blosum50[pair]
        alignMatrix[i,j] = np.max([alignMatrix[i,j-1]-d,alignMatrix[i-1,j-1]+score,alignMatrix[i-1,j]-d,])
        indexMax=       np.argmax([alignMatrix[i,j-1]-d,alignMatrix[i-1,j-1]+score,alignMatrix[i-1,j]-d])
        traceMatrix[i,j] = indexMax
traceMatrix = pd.DataFrame(traceMatrix,index=seq2,columns=seq1) 
alignMatrix = pd.DataFrame(alignMatrix,index=seq2,columns=seq1) 


In [4]:
alignMatrix

Unnamed: 0,-,H,E,A,G,A.1,W,G.1,H.1,E.1,E.2
-,0.0,-8.0,-16.0,-24.0,-32.0,-40.0,-48.0,-56.0,-64.0,-72.0,-80.0
P,-8.0,-2.0,-9.0,-17.0,-25.0,-33.0,-41.0,-49.0,-57.0,-65.0,-73.0
A,-16.0,-10.0,-3.0,-4.0,-12.0,-20.0,-28.0,-36.0,-44.0,-52.0,-60.0
W,-24.0,-18.0,-11.0,-6.0,-7.0,-15.0,-5.0,-13.0,-21.0,-29.0,-37.0
H,-32.0,-14.0,-18.0,-13.0,-8.0,-9.0,-13.0,-7.0,-3.0,-11.0,-19.0
E,-40.0,-22.0,-8.0,-16.0,-16.0,-9.0,-12.0,-15.0,-7.0,3.0,-5.0
A,-48.0,-30.0,-16.0,-3.0,-11.0,-11.0,-12.0,-12.0,-15.0,-5.0,2.0
E,-56.0,-38.0,-24.0,-11.0,-6.0,-12.0,-14.0,-15.0,-12.0,-9.0,1.0


In [5]:
traceMatrix

Unnamed: 0,-,H,E,A,G,A.1,W,G.1,H.1,E.1,E.2
-,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
P,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
A,0.0,1.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
W,0.0,2.0,2.0,1.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0
H,0.0,1.0,1.0,1.0,1.0,1.0,2.0,1.0,1.0,0.0,0.0
E,0.0,2.0,1.0,0.0,1.0,1.0,1.0,2.0,1.0,1.0,0.0
A,0.0,2.0,2.0,1.0,0.0,1.0,1.0,1.0,2.0,2.0,1.0
E,0.0,2.0,1.0,2.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
