### _Nothing in Biology Makes Sense Except in the Light of Evolution_ 
###### Theodosius  Dobzhansky

# TP-1: alineamiento global con Needleman Wunsch

Escriba una implementación en Python del algoritmo de alineamiento global de Needleman-Wunsch, 
dentro de las 4 celdas indicadas más abajo.

El alineamiento entre las 2 secuencias de `ab.fasta` debe tener un score de 158 y
el alineamiento entre las 2 secuencias de `ae.fasta` debe tener un score de 312.

--------

In [1]:
import numpy as np
from Bio import pairwise2, SeqIO
from enum import Enum

## Needleman-Wunsch con BioPython

In [2]:
aln = pairwise2.align.globalxx("TATA", "TCT")
aln[0].score

2.0

In [46]:
print(aln[0].seqA)
print(aln[0].seqB)

TA-TA
T-CT-


In [15]:
f_aln = SeqIO.parse("ab.fasta", 'fasta')
fas_A = next(f_aln)
fas_B = next(f_aln)

seq_A = str(fas_A.seq)
seq_B = str(fas_B.seq)

aln = pairwise2.align.globalxx(seq_A, seq_B)
aln[0].score

158.0

In [16]:
print(aln[0].seqA[300:])
print(aln[0].seqB[300:])

CGTCA-AAGATCTC-CAA-CCCGGGGACAGAGT-ACTGGCCGCGGATT-ACGACGGAA--ACCCGGTTTATACCGACTTCATCATGTTCAA-
C-TC-CAA-AT-T-ACAATCCC---GAC--A-TTA-T-----C---TTTA--A-GG-ATGA---GG-----A--GA----A-CA----C--G


In [17]:
f_aln = SeqIO.parse("ae.fasta", 'fasta')
fas_A = next(f_aln)
fas_E = next(f_aln)

seq_A = str(fas_A.seq)
seq_E = str(fas_E.seq)

aln = pairwise2.align.globalxx(seq_A, seq_E)
aln[0].score

312.0

In [18]:
print(aln[0].seqA[300:])
print(aln[0].seqB[300:])

GGCCCG-TCAAAGATC-TCCAACCCGGG-GACAGAG-TAC-TGGCC-GCG-GATT-ACGA-CGGAAACCCGG-TTTAT-ACCGACTTCATCATGTTCAA
GG--CGGTCAAAGA-CCTCCAACCC-GGCGACAG-GGT-CCTGG-CAGC-AGA-TGA-GAACGGAAACCC-GATTTA-CACCGAC-TC--C---TT---


------

## Needleman-Wunsch propio

#### Cosas q pueden ser útiles

### 1
`op` es un type que representa las 3 operaciones posibles en un alineamiento.

In [4]:
class op(Enum):
    GAP_A = 1
    GAP_B = 2
    MA_MM = 3

### 2
`score_mtx` contiene los scores de match y mismatch entre las distintas bases.
Para reproducir el comportamiento de la función`pairwise2.align.globalxx()` de biopython
asignaremos, por ahora, un score de `1` a cualquier match y `0` a cualquier otro match.

El gap score irá por fuera de `score_mtx` y será, circunstancialmente, de `0`.

`score_mtx` puede ser una lista de listas, `numpy.darray`, diccionario, o lo que crea conveniente.

In [5]:
score_mtx = np.repeat(-1, (4) * (4)).reshape(4, 4)
for i in range(0,4):
    score_mtx[i][i]=1
score_mtx

array([[ 1, -1, -1, -1],
       [-1,  1, -1, -1],
       [-1, -1,  1, -1],
       [-1, -1, -1,  1]])

### 3
`traceback()` toma la tabla donde `nw()` memoizó los subproblemas (`tabla_sol`),
las 2 secuencias originales (`seqA` y `seqB`) y entrega las 2 secuencias modificadas (`aln_a` y `aln_b`),
que puestas una arriba de la otra, mostrarían un alineamiento correcto.

In [90]:
def traceback(ops_matrix, seqA, seqB):
    seqA_alineada = []
    seqB_alineada = []
    j = len(seqA) -1
    i = len(seqB) -1
    # Cosas
    print(ops_matrix)
    while i > 0 or j > 0:
        if ops_matrix[i, j] == op.GAP_A.value:
            print("GAP A")
            seqA_alineada.append("-")
            seqB_alineada.append(seqB[i])
            # Cosas
            j -= 1
        elif ops_matrix[i, j] == op.GAP_B.value:
            print("GAP B")
            seqB_alineada.append("-")
            seqA_alineada.append(seqA[j])
            # Cosas
            i -= 1
        else: # es decir, match / mismatch
            #
            print("MATCH")
 
            i -= 1
            j -= 1
            seqA_alineada.append(seqA[j])
            seqB_alineada.append(seqB[i])
            
            # Cosas
    # Cosas, incluída la inversión del alineamiento, porque lo hicimos de atrás para adelante
    seqA_alineada = seqA_alineada[::-1]
    seqB_alineada = seqB_alineada[::-1]
    return seqA_alineada, seqB_alineada # O puede ser un mismo objeto `alineamiento`, como te guste.

In [91]:
print(aln[0].seqA)
print(aln[0].seqB)

TA-TA
T-CT-


In [92]:
nw("TATA","TCT",score_mtx,0)

[[0 0 0 0]
 [0 3 1 3]
 [0 2 1 1]
 [0 3 1 3]
 [0 2 1 2]]
GAP A
GAP A
GAP B
T
A
MATCH
T
T


([], [], 2)

In [42]:
def parseNucleotide(nucleotide):
    switcher = {
        'A': 0,
        'T': 1,
        'G': 2,
        'C': 3
    }
    return switcher.get(nucleotide,"Invalid nucleotide")

In [43]:
def get_score(score_mtx,characterA,characterB):
        indexA = parseNucleotide(characterA)
        indexB = parseNucleotide(characterB)
        return score_mtx[indexA,indexB]

### 4
`nw()` implementa el algoritmo de needleman-wunsch. Toma las 2 secuencias en formato de `str` (`seqA_str` y `seqB_str`),
para igualar el comportamiento de `pairwise2.align.globalxx()`, la `score_mtx` y un `gap_score`.
Debe llamar a `traceback()` para luego devolver las 2 secuencias alineadas y el score del alineamiento (último elemento de `tabla_score`)

In [83]:
def nw(seqA_str, seqB_str, score_mtx, gap_score = 0):
    sizeA = len(seqA_str)
    sizeB = len(seqB_str)
    sol_matrix = np.repeat(0, (sizeA+1) * (sizeB+1)).reshape(sizeA+1, sizeB+1)
    ops_matrix = np.repeat(0, (sizeA+1) * (sizeB+1)).reshape(sizeA+1, sizeB+1)
    
    for i in range(1,sizeA+1):
        for j in range(1,sizeB+1):
            
            diagonal_score = get_score(score_mtx,seqA_str[i-1],seqB_str[j-1])
            diagonal_result = sol_matrix[i-1][j-1] + diagonal_score
            left_result = sol_matrix[i][j-1] + gap_score
            above_result = sol_matrix[i-1][j] + gap_score
            results = [diagonal_result,left_result,above_result]
            result_index = np.argmax(results)
            if result_index == 0:
                sol_matrix[i][j] = diagonal_result
                ops_matrix[i][j] = op.MA_MM.value
            elif result_index == 1:
                sol_matrix[i][j] = left_result
                ops_matrix[i][j] = op.GAP_A.value
            else:
                sol_matrix[i][j] = above_result
                ops_matrix[i][j] = op.GAP_B.value
            #if diagonal_score == 1:
                #sol_matrix[i][j] = diagonal_result
                #ops_matrix[i][j] = op.MA_MM
            #else:
                #left_result = sol_matrix[i][j-1] + gap_score
                #above_result = sol_matrix[i-1][j] + gap_score
                #sol_matrix[i][j] = max(left_result,above_result, diagonal_result)  
    #print(sol_matrix)
    aln_a, aln_b = traceback(ops_matrix,seqA_str,seqB_str)

    return aln_a, aln_b, sol_matrix[sizeA, sizeB]

nw("TATA","TCA",score_mtx,0)

In [45]:
nw("TATA","TCT",score_mtx,0)

[[0 0 0 0]
 [0 1 1 1]
 [0 1 1 1]
 [0 1 1 2]
 [0 1 1 2]]
[[0 0 0 0]
 [0 3 1 3]
 [0 2 1 1]
 [0 3 1 3]
 [0 2 1 2]]
GAP A
T
GAP A
T
GAP B
A
T
GAP MA MM
A
A
C
C


(['A', 'T', '-', '-'], ['C', '-', 'T', 'T'], 2)

## Pruebe su implementación

In [None]:
# Toma de input
f_aln = SeqIO.parse("ab.fasta", 'fasta')
fas_A = next(f_aln)
fas_B = next(f_aln)

seq_A = str(fas_A.seq)
seq_B = str(fas_B.seq)

In [None]:
# Confirme el score
aln_a, aln_b, score = nw(seq_A, seq_B, score_mtx_1)
score

In [None]:
# Visualice el alineamiento. Recuerde que no es necesario que sea idéntico al de Biopython
str_aln_a = str().join(aln_a)
str_aln_b = str().join(aln_b)

print(str_aln_a[300:])
print(str_aln_b[300:])

In [None]:
# Toma de input
f_aln = SeqIO.parse("ae.fasta", 'fasta')
fas_A = next(f_aln)
fas_E = next(f_aln)

seq_A = str(fas_A.seq)
seq_E = str(fas_E.seq)

In [None]:
# Confirme el score
aln_a, aln_e, score = nw(seq_A, seq_E, score_mtx_1)
score

In [None]:
# Visualice el alineamiento. Recuerde que no es necesario que sea idéntico al de Biopython
str_aln_a = str().join(aln_a)
str_aln_e = str().join(aln_e)

print(str_aln_a[300:])
print(str_aln_e[300:])