# Alineamiento de secuencias
## Global
En el largo de toda la secuencia, mide el grado de similitud entre ambas
## Local
Busca zonas de similitud

In [3]:
# Alineamiento global
from Bio import pairwise2
alineamientos = pairwise2.align.globalxx("ACCGGT","ACGT")

for alineamiento in alineamientos:
    print(pairwise2.format_alignment(*alineamiento))

# No se penaliza por la presencia de gaps ni por el numero de mismatch
# Da la combinacion que tiene mayor Score, como no hay penalty todas estas tienen 
#el mismo puntaje

ACCGGT
| | ||
A-C-GT
  Score=4

ACCGGT
||  ||
AC--GT
  Score=4

ACCGGT
| || |
A-CG-T
  Score=4

ACCGGT
|| | |
AC-G-T
  Score=4



In [4]:
from Bio import pairwise2
alineamientos = pairwise2.align.globalmx("ACCGGT","ACGT",match =2,mismatch = -1)

for alineamiento in alineamientos:
    print(pairwise2.format_alignment(*alineamiento))

ACCGGT
| | ||
A-C-GT
  Score=8

ACCGGT
||  ||
AC--GT
  Score=8

ACCGGT
| || |
A-CG-T
  Score=8

ACCGGT
|| | |
AC-G-T
  Score=8



In [7]:
from Bio import pairwise2
alineamientos = pairwise2.align.globalxs("ACCGGT","ACGT",open =-2, extend = -1)

for alineamiento in alineamientos:
    print(pairwise2.format_alignment(*alineamiento))

ACCGGT
||  ||
AC--GT
  Score=1



# Alineamiento de proteínas

In [8]:
# globaldx - matching/mismatching scores read from blosum62 matrix, no gap penalty
from Bio.Align import substitution_matrices
matrix = substitution_matrices.load("BLOSUM62") #metodo de scorig de similitud
alignments = pairwise2.align.globaldx("KEVLA", "EVL", match_dict=matrix)
for alignment in alignments:
    print(pairwise2.format_alignment(*alignment))

KEVLA
 ||| 
-EVL-
  Score=13



BLOSUM62 es una matriz de puntuación utilizada en bioinformática para evaluar la similitud de aminoácidos en secuencias proteicas. La matriz se utiliza comúnmente en algoritmos de alineamiento de secuencias proteicas para determinar la probabilidad de que dos aminoácidos diferentes evolucionaron a partir de un ancestro común.

BLOSUM62 fue desarrollada por Henikoff y Henikoff en 1992 y se basa en la observación de cómo los aminoácidos cambian en secuencias proteicas homólogas a lo largo del tiempo. La matriz asigna puntuaciones a parejas de aminoácidos en función de la frecuencia con la que aparecen juntos en secuencias homólogas en la base de datos de proteínas. Las puntuaciones más altas se asignan a parejas de aminoácidos que son más propensos a evolucionar juntos y las puntuaciones más bajas se asignan a parejas de aminoácidos que son menos propensos a evolucionar juntos.

# Definiendo funciones para el puntaje de los gaps

In [11]:
# globalmc - matches score 5, mismatches -4, gap penalty defined through function gap_function
from math import log
def gap_function(x, y):  # x is gap position in seq, y is gap length
     if y == 0:  # No gap
        return 0
     elif y == 1:  # Gap open penalty
        return -2
     return - (2 + y/4.0 + log(y)/2.0)

alignments = pairwise2.align.globalmc("ACCCCCGT", "ACG", match=5, mismatch=-4,
                                     gap_A_fn=gap_function, gap_B_fn=gap_function)
for alignment in alignments:
    print(pairwise2.format_alignment(*alignment))

ACCCCCGT
|    || 
A----CG-
  Score=9.30685

ACCCCCGT
||    | 
AC----G-
  Score=9.30685

