# **Algoritmos para Bioinformática de Secuencias**
## **Tarea 3: Alineamiento de secuencias**

Realiza la siguiente actividad de programación y responde las preguntas indicadas.
1. Descarga de la base de datos NCBI las secuencias P21189 y WP_010886013.1 en
formato FASTA.
2. Escribe un programa en Python que utilice BioPython para alinear estas dos secuencias global y localmente (ver https://biopython.org/docs/dev/Tutorial/chapter_pairwise.html):
    - a. Haz un alineamiento global usando BLOSUM62 como la matriz de sustitución, y los valores de penalización σ = 15 y ε = 3. ¿Identificas alguna región que probablemente producirá un alineamiento local con un puntaje alto?
    - b. Haz un alineamiento local de las mismas secuencias y usando los mismos valores de penalización. ¿El resultado del alineamiento local coincidió con tu predicción anterior basada del alineamiento global?


![title](BLOSUM62.jpg)


In [10]:
# Se cargan las secuencias que fueron descargadas manualmente

from Bio import SeqIO

seq1 = SeqIO.read("P21189.faa", "fasta").seq
seq2 = SeqIO.read("WP_010886013.1.faa", "fasta").seq

print(len(seq1))


783


In [11]:
# Alineamiento global usando el algoritmo de Needleman-Wunsch usando la matriz BLOSUM62

# Para generar alineamientos por pares importamos PairwiseAligner
from Bio.Align import PairwiseAligner

# Se usar substitution_matrices para especificar la matriz BLOSUM62
from Bio.Align import substitution_matrices

# Crear alineador
aligner = PairwiseAligner()

# Cargar BLOSUM62
aligner.substitution_matrix = substitution_matrices.load("BLOSUM62")

# Penalizaciones por gaps (se tienen que poner valores negativos)
aligner.open_gap_score = -15
aligner.extend_gap_score = -3

# Alineamiento global
aligner.mode = "global"

alignments_global = aligner.align(seq1, seq2)

# Tomamos el mejor alineamiento
best_global = alignments_global[0]

print(best_global)
print("Score global:", best_global.score)



target            0 MAQAGFILTRH------------------------------WRDTPQGTEVSFWLATDNG
                  0 |.......|..------------------------------.||.....|.....|...|
query             0 MILDADYITEDGKPIIRIFKKENGEFKVEYDRNFRPYIYALLRDDSAIDEIKKITAQRHG

target           30 ------------------PLQVTLAPQESVAFIPADQVPRAQH-----------------
                 60 ------------------|..|.....|.....||.......|-----------------
query            60 KVVRIVETEKIQRKFLGRPIEVWKLYLEHPQDVPAIRDKIREHPAVVDIFEYDIPFAKRY

target           55 -----ILQGEQGFRLTPLAL---------KDFHRQPV----------------------Y
                120 -----....|....||.||.---------..|...||----------------------|
query           120 LIDKGLTPMEGNEKLTFLAVDIETLYHEGEEFGKGPVIMISYADEEGAKVITWKKIDLPY

target           79 GLYCRAHRQLM--------------------------------------------NYEKR
                180 .......|...--------------------------------------------|.|..
query           180 VEVVSSEREMIKRLIRVIKEKDPDVIITYNGDNFDFPYLLKRAEKLGIKLLLGRDNSEPK

target           95 LREG

Las regios en donde más coincidencias se observan es a partir de la 502 aproximadamente del target y hasta el final de dicha secuencia.

In [12]:
# Alineamiento local
aligner.mode = "local"

alignments_local = aligner.align(seq1, seq2)

best_local = alignments_local[0]

print(best_local)
print("Score local:", best_local.score)


target          496 NAFYGVLGTTACRFFDPRLASSITMRGHQIMRQTKALIEAQGYDVIYGDTDSTFVWLKGA
                  0 |..||..|....|......|.|.|..|.|.........||.|..|.|.|||.......|.
query           951 NSYYGYYGYAKARWYCKECAESVTAWGRQYIDLVRRELEARGFKVLYIDTDGLYATIPGV

target          556 HSEEEAAKIGRALVQHVNAWWAETLQKQRLTSALELEYETHFCRFLMPTIRGADTGSKKR
                 60 ...||........|...|.---------.|...||||||....|....|--------||.
query          1011 KDWEEVKRRALEFVDYINS---------KLPGVLELEYEGFYARGFFVT--------KKK

target          616 YAGLIQEGDKQRMVFKGLETVRTDWTPLAQQFQQELYLRIFRNEPYQE---YVRETIDKL
                120 ||....||---..|..|||.||.||...|...|......|.......|---.|.....||
query          1054 YALIDEEG---KIVTRGLEIVRRDWSEIAKETQARVLEAILKHGNVEEAVKIVKDVTEKL

target          673 MAGEL-DARLVYRKRLRRPLSEYQRNVPPHVRAAR--LADEENQKRGRPLQY-QNRGTIK
                180 ...|.-...||......||..||-....|||..|.--.|.....|.|....|-..||...
query          1111 TNYEVPPEKLVIYEQITRPINEY-KAIGPHVAVAKRLMARGIKVKPGMVIGYIVLRGDGP

target          729 YVWT

El alineamiento local empezó a partir de la cadena 496 del target, un valor muy cercano al que se supuso en el alineamiento local, y como se había mencionado anteriormente, hasta el final de la cadena. Por lo tanto, sí coincidió