### _Nothing in Biology Makes Sense Except in the Light of Evolution_ 
###### Theodosius  Dobzhansky

# TP-1: alineamiento global con Needleman Wunsch

Escriba una implementación en Python del algoritmo de alineamiento global de Needleman-Wunsch, 
dentro de las 4 celdas indicadas más abajo.

El alineamiento entre las 2 secuencias de `ab.fasta` debe tener un score de 158 y
el alineamiento entre las 2 secuencias de `ae.fasta` debe tener un score de 312.

--------

In [1]:
import numpy as np
from Bio import pairwise2, SeqIO
from enum import Enum

## Needleman-Wunsch con BioPython

In [2]:
aln = pairwise2.align.globalxx("TATA", "TCT")
aln[0].score

2.0

In [3]:
print(aln[0].seqA)
print(aln[0].seqB)

TA-TA
T-CT-


In [4]:
f_aln = SeqIO.parse("ab.fasta", 'fasta')
fas_A = next(f_aln)
fas_B = next(f_aln)

seq_A = str(fas_A.seq)
seq_B = str(fas_B.seq)

aln = pairwise2.align.globalxx(seq_A, seq_B)
aln[0].score

158.0

In [5]:
print(aln[0].seqA[300:])
print(aln[0].seqB[300:])

CGTCA-AAGATCTC-CAA-CCCGGGGACAGAGT-ACTGGCCGCGGATT-ACGACGGAA--ACCCGGTTTATACCGACTTCATCATGTTCAA-
C-TC-CAA-AT-T-ACAATCCC---GAC--A-TTA-T-----C---TTTA--A-GG-ATGA---GG-----A--GA----A-CA----C--G


In [6]:
f_aln = SeqIO.parse("ae.fasta", 'fasta')
fas_A = next(f_aln)
fas_E = next(f_aln)

seq_A = str(fas_A.seq)
seq_E = str(fas_E.seq)

aln = pairwise2.align.globalxx(seq_A, seq_E)
aln[0].score

312.0

In [7]:
print(aln[0].seqA[300:])
print(aln[0].seqB[300:])

GGCCCG-TCAAAGATC-TCCAACCCGGG-GACAGAG-TAC-TGGCC-GCG-GATT-ACGA-CGGAAACCCGG-TTTAT-ACCGACTTCATCATGTTCAA
GG--CGGTCAAAGA-CCTCCAACCC-GGCGACAG-GGT-CCTGG-CAGC-AGA-TGA-GAACGGAAACCC-GATTTA-CACCGAC-TC--C---TT---


------

## Needleman-Wunsch propio

#### Cosas q pueden ser útiles

### 1
`op` es un type que representa las 3 operaciones posibles en un alineamiento.

In [8]:
class op(Enum):
    GAP_A = 1
    GAP_B = 2
    MA_MM = 3

### 2
`score_mtx` contiene los scores de match y mismatch entre las distintas bases.
Para reproducir el comportamiento de la función`pairwise2.align.globalxx()` de biopython
asignaremos, por ahora, un score de `1` a cualquier match y `0` a cualquier otro match.

El gap score irá por fuera de `score_mtx` y será, circunstancialmente, de `0`.

`score_mtx` puede ser una lista de listas, `numpy.darray`, diccionario, o lo que crea conveniente.

In [9]:
score_mtx

### 3
`traceback()` toma la tabla donde `nw()` memoizó los subproblemas (`tabla_sol`),
las 2 secuencias originales (`seqA` y `seqB`) y entrega las 2 secuencias modificadas (`aln_a` y `aln_b`),
que puestas una arriba de la otra, mostrarían un alineamiento correcto.

In [10]:
def traceback(tabla_sol, seqA, seqB):
    
    return aln_a, aln_b

### 4
`nw()` implementa el algoritmo de needleman-wunsch. Toma las 2 secuencias en formato de `str` (`seqA_str` y `seqB_str`),
para igualar el comportamiento de `pairwise2.align.globalxx()`, la `score_mtx` y un `gap_score`.
Debe llamar a `traceback()` para luego devolver las 2 secuencias alineadas y el score del alineamiento (último elemento de `tabla_score`)

In [11]:
def nw(seqA_str, seqB_str, score_mtx, gap_score = 0):
    
    return aln_a, aln_b, tabla_score[n, m]

-------

## Pruebe su implementación

In [12]:
# Toma de input
f_aln = SeqIO.parse("ab.fasta", 'fasta')
fas_A = next(f_aln)
fas_B = next(f_aln)

seq_A = str(fas_A.seq)
seq_B = str(fas_B.seq)

In [13]:
# Confirme el score
aln_a, aln_b, score = nw(seq_A, seq_B, score_mtx_1)
score

158.0

In [14]:
# Visualice el alineamiento. Recuerde que no es necesario que sea idéntico al de Biopython
str_aln_a = str().join(aln_a)
str_aln_b = str().join(aln_b)

print(str_aln_a[300:])
print(str_aln_b[300:])

GCCCGTCAAAGATCTCCAACCCGGGGACAGAGT-ACTGGCCGCGGATT-ACGACGGA--AACCCGGTTTATACCGA-CTTCATCATGTTCAA
-----TC------C-C------G---ACA---TTA-T--C------TTTA--A-GGATGA----GG---A----GAAC---A-C--G-----


In [15]:
# Toma de input
f_aln = SeqIO.parse("ae.fasta", 'fasta')
fas_A = next(f_aln)
fas_E = next(f_aln)

seq_A = str(fas_A.seq)
seq_E = str(fas_E.seq)

In [16]:
# Confirme el score
aln_a, aln_e, score = nw(seq_A, seq_E, score_mtx_1)
score

312.0

In [17]:
# Visualice el alineamiento. Recuerde que no es necesario que sea idéntico al de Biopython
str_aln_a = str().join(aln_a)
str_aln_e = str().join(aln_e)

print(str_aln_a[300:])
print(str_aln_e[300:])

GGCCCG-TCAAAGATC-TCCAACCCGG-GGACAGAG-TAC-TGGC-CGC-GGAT-TACGA-CGGAAACCCG-GTTTA-TACCGACTTCATCATGTTCAA
GGC--GGTCAAAGA-CCTCCAACCCGGCG-ACAG-GGT-CCTGGCA-GCAG-ATG-A-GAACGGAAACCCGA-TTTAC-ACCGACT-C--C-T-T----
