# Programación en Bioinformática y Biología de Sistemas
# M.U. en Análisis de Datos Ómicos y Biología de Sistemas
# Curso 2023/2024
## Tarea 2: Algoritmos de alineamiento en programación dinámica
### 2 puntos
### Profesor: Ignacio Pérez Hurtado de Mendoza
### perezh@us.es
### http://www.cs.us.es/~ignacio

# Introducción: El algoritmo de Smith-Waterman

El algoritmo de **Smith-Waterman** resuelve el alineamiento local de dos secuencias aplicando programación dinámica. Es una variante del algoritmo de **Needleman-Wunsch**.

## Entrada del algoritmo

Como entrada del algoritmo tenemos:

* Secuencia **s** a alinear.
* Secuencia **t** a alinear.
* Una matriz de substitución **m**.
* Penalización por hueco **gap_penalty**.


## Estructuras de datos y relaciones recursivas


A continuación se describen las estructuras de datos y relaciones recursivas utilizadas en el algoritmo:

### Estructuras de datos

* Matriz de puntuación dinámica **punt** 
* Matriz de decisión **dec**

Estas matrices tienen tantas filas como (len(**s**)+1) y tantas columnas como (len(**t**)+1).

### Inicialización

* La primera fila y primera columna de **punt** se inicializan al valor *0*.
* La primera fila y primera columna de **dec** se inicializan al valor *4*.
* **dec[0][0]** se inicializa a *0*

### Relaciones recursivas

* Para todo 1 <= i < len(s), 1<= j < len(t):
  - punt[i][j] recibe el máximo de entre las siguientes posibilidades:
    + punt[i-1][j-1] + m[(s[i-1],t[j-1])]
    + punt[i-1][j] + gap_penalty
    + punt[i][j-1] + gap_penalty
    + 0
  - dec[i][j] recibe el argumento máximo (np.argmax) de entre las anteriores posibilidades.

## Valor del alineamiento local óptimo

Se localiza el máximo en la matriz **punt**, ese será el valor del alineamiento local óptimo. 

## Traza inversa

Para reconstruir el alineamiento, se realiza una traza inversa sobre la matriz **dec** a partir de la posición del máximo en la matriz **punt**. La traza inversa se realiza siguiendo el procedimiento visto en clase de teoría. Las secuencias alineadas se llaman **sp** y **tp**, que corresponden respectivamente a la secuencia **s** y a la secuencia **t** tras haber introducido los correspondientes huecos (símbolo guión **-**) de acuerdo a la traza inversa.


## Salida de algoritmo

El algoritmo debe devolver en una tupla:

* La secuencia alineada **sp**.
* La secuencia alineada **tp**.
* El valor del alineamiento obtenido.




In [42]:
from Bio.Align import substitution_matrices

In [43]:
# Cargo la matriz de substitución BLOSUM62 en una nueva variable a partir del subpaquete substitution_matrices de Bio.Align
blosum62 = substitution_matrices.load("BLOSUM62")

## Ejercicio 1

Vamos a implementar el algoritmo de **Needleman-Wunsch** para poder luego hacer comparaciones entre alineamiento global y local. 

Implementar la función **globalAlignment** que recibe:

* Secuencia **s** a alinear.
* Secuencia **t** a alinear.
* Una matriz de substitución **m**.
* Penalización por hueco **gap_penalty**.

La función debe realizar **un alineamiento global mediante la implementación del algoritmo Needleman-Wunsch** y devolver en una tupla:

* La secuencia alineada **sp**.
* La secuencia alineada **tp**.
* El valor del alineamiento obtenido.

Se permite usar código de las prácticas de la asignatura y se permite (y recomienda) implementar las funciones auxiliares que se estimen oportunas. 

Nota: No sería válido usar *pairwise2.global*.

```
In:
globalAlignment('VIVALAVIDA','VIVALADAVIS',blosum62,-4)

Out:
('VIVALA-VIDA', 'VIVALADAVIS', 21.0)
```


In [44]:
import numpy as np

In [59]:
def getGlobalTables(s, t, m, gap_penalty):
    
    punt = [] # Matriz de puntuación para almacenar la puntuación acumulada para cada posición
    dec = [] # Matriz de decisión para almacenar las direcciones tomadas durante el alineamiento
    globalvalue = 0
    
    for i in range(0, len(s) + 1): # Inicializo las tablas punt y dec con ceros
        punt.append([0] * (len(t) + 1))
        dec.append([0] * (len(t) + 1))
        
    g = 0
    
    for i in range(0, len(s) + 1): # Inicializo las primeras columnas con penalizaciones por huecos
        punt[i][0] = g
        g += gap_penalty
        dec[i][0] = 2
        
    g = 0
    
    for j in range(0, len(t) + 1): # Inicializo las primeras filas con penalizaciones por huecos
        punt[0][j] = g
        g += gap_penalty
        dec[0][j] = 3
        
    dec[0][0] = 0
    
    for i in range(0, len(s)): # Con estos bucles anidados relleno las tablas de puntuación y dinámica con los valores correspondientes
        for j in range(0, len(t)): 
            value1 = punt[i][j] + m[(s[i], t[j])]
            value2 = punt[i][j+1] + gap_penalty
            value3 = punt[i+1][j] + gap_penalty
            values = [value1, value2, value3]
            globalvalue = punt[i+1][j+1] = max(values) # Para almacenar el valor total del alineamiento global
            dec[i+1][j+1] = np.argmax(values) + 1
            
    return (punt, dec, globalvalue)

getGlobalTables('VIVALAVIDA','VIVALADAVIS',blosum62,-4)

([[0, -4, -8, -12, -16, -20, -24, -28, -32, -36, -40, -44],
  [-4, 4.0, 0.0, -4.0, -8.0, -12.0, -16.0, -20.0, -24.0, -28.0, -32.0, -36.0],
  [-8, 0.0, 8.0, 4.0, 0.0, -4.0, -8.0, -12.0, -16.0, -20.0, -24.0, -28.0],
  [-12, -4.0, 4.0, 12.0, 8.0, 4.0, 0.0, -4.0, -8.0, -12.0, -16.0, -20.0],
  [-16, -8.0, 0.0, 8.0, 16.0, 12.0, 8.0, 4.0, 0.0, -4.0, -8.0, -12.0],
  [-20, -12.0, -4.0, 4.0, 12.0, 20.0, 16.0, 12.0, 8.0, 4.0, 0.0, -4.0],
  [-24, -16.0, -8.0, 0.0, 8.0, 16.0, 24.0, 20.0, 16.0, 12.0, 8.0, 4.0],
  [-28, -20.0, -12.0, -4.0, 4.0, 12.0, 20.0, 21.0, 20.0, 20.0, 16.0, 12.0],
  [-32, -24.0, -16.0, -8.0, 0.0, 8.0, 16.0, 17.0, 20.0, 23.0, 24.0, 20.0],
  [-36, -28.0, -20.0, -12.0, -4.0, 4.0, 12.0, 22.0, 18.0, 19.0, 20.0, 24.0],
  [-40, -32.0, -24.0, -16.0, -8.0, 0.0, 8.0, 18.0, 26.0, 22.0, 18.0, 21.0]],
 [[0, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3],
  [2, 1, 3, 1, 3, 3, 3, 3, 3, 1, 3, 3],
  [2, 2, 1, 3, 3, 3, 3, 3, 3, 3, 1, 3],
  [2, 1, 2, 1, 3, 3, 3, 3, 3, 1, 3, 3],
  [2, 2, 2, 2, 1, 3, 1, 3, 1, 3,

In [60]:
def getGlobalTrace(dec):
    
    i = len(dec) - 1
    j = len(dec[0]) - 1
    trace = []
    
    while dec[i][j] != 0: # Recorro la trayectoria de forma inversa desde la última posición hasta la posición de inicio
        trace.append(dec[i][j])
        
        if dec[i][j] == 1: # Para movimientos en diagonal
            i -= 1
            j -= 1
        elif dec[i][j] == 2: # Para movimientos en vertical
            i -= 1
        else: # Esto sería dec[i][j] == 3, que significa movimiento horizontal
            j -= 1
            
    trace.reverse() # Invierte la traza final para usarla en el orden correcto
        
    return trace

In [61]:
def globalAlignment(s, t, m, gap_penalty):
    
    punt, dec, globalvalue = getGlobalTables(s, t, m, gap_penalty)
    trace = getGlobalTrace(dec)
    
    i = 0
    j = 0
    sp = ""
    tp = ""
    
    for k in range(0, len(trace)): # Reconstruyo las secuencias alineadas en base a su trayectoria
        if trace[k] == 1:
            sp += s[i]
            tp += t[j]
            i += 1
            j += 1
        elif trace[k] == 2:
            sp += s[i]
            tp += '-'
            i += 1
        else:
            sp += '-'
            tp += t[j]
            j += 1
            
    return (sp, tp, globalvalue)
    
globalAlignment('VIVALAVIDA', 'VIVALADAVIS', blosum62, -4)

('VIVALA-VIDA', 'VIVALADAVIS', 21.0)

## Ejercicio 2

Implementar la función **localAlignment** que recibe:

* Secuencia **s** a alinear.
* Secuencia **t** a alinear.
* Una matriz de substitución **m**.
* Penalización por hueco **gap_penalty**.


La función debe realizar **un alineamiento local mediante la implementación del algoritmo Smith-Waterman** y devolver en una tupla:

* La secuencia alineada **sp**.
* La secuencia alineada **tp**.
* El valor del alineamiento obtenido.

Se permite usar código de las prácticas de la asignatura y se permite (y recomienda) implementar las funciones auxiliares que se estimen oportunas. 

Nota: No sería válido usar *pairwise2.local*.

```
In:
localAlignment('VIVALAVIDA','VIVALADAVIS',blosum62,-4)

Out:
('VIVALAVIDA', 'VIVALA--DA', 26.0)
```


In [62]:
def getLocalTables(s, t, m, gap_penalty):
    
    punt = []
    dec = []
    
    for i in range(0, len(s) + 1):
        punt.append([0] * (len(t) + 1))
        dec.append([0] * (len(t) + 1))
    
    for i in range(0, len(s) + 1): # La diferencia con el código de getGlobalTables es que aquí no aplico las penalizaciones por huecos
        punt[i][0] = 0
        dec[i][0] = 4
    
    for j in range(0, len(t) + 1): # Aquí tampoco aplico las penalizaciones
        punt[0][j] = 0
        dec[0][j] = 4
        
    dec[0][0] = 0
    
    for i in range(0, len(s)): 
        for j in range(0, len(t)): 
            
            value1 = punt[i][j] + m[(s[i], t[j])]
            value2 = punt[i][j+1] + gap_penalty
            value3 = punt[i+1][j] + gap_penalty
            value4 = 0
            values = [value1, value2, value3, value4]
            punt[i+1][j+1] = max(values)
            dec[i+1][j+1] = np.argmax(values) + 1
            
    return (punt, dec)

In [63]:
def getLocalValue(punt):
    
    localvalue = 0
    i_max = 0
    j_max = 0
    
    for i in range(0, len(punt)):
        for j in range(0, len(punt[0])):
            if punt[i][j] > localvalue:
                localvalue = punt[i][j] # Almaceno el valor máximo del a tabla de puntuación en la variable localvalue
                i_max = i # Coordenadas de la posición correspondiente al valor máximo
                j_max = j
                
    return (localvalue, i_max, j_max)

In [64]:
def getLocalTrace(dec):
    
    _, i, j = getLocalValue(punt) # En esta función utilizo las coordenadas del valor máximo obtenido antes para hacer la traza
    trace = []
    
    while dec[i][j] != 0:
        trace.append(dec[i][j])
        
        if dec[i][j] == 1:
            i -= 1
            j -= 1
        elif dec[i][j] == 2:
            i -= 1
        else:
            j -= 1
            
    trace.reverse()
    
    return trace

In [65]:
def localAlignment(s, t, m, gap_penalty):
    
    punt, dec = getLocalTables(s, t, m, gap_penalty)
    trace = getLocalTrace(dec)
    localvalue, _, _ = getLocalValue(punt)
    
    i = 0
    j = 0
    sp = ""
    tp = ""
    
    for k in range(0, len(trace)):
        if trace[k] == 1:
            sp += s[i]
            tp += t[j]
            i += 1
            j += 1
        elif trace[k] == 2:
            sp += s[i]
            tp += "-"
            i += 1
        elif trace[k] == 3:
            tp += "-"
            sp += t[j]
            j += 1
        else:
            sp += "-"
            tp += "-"
            
    return (sp, tp, localvalue)
    
localAlignment('VIVALAVIDA', 'VIVALADAVIS', blosum62, -4)

('VIVALAVIDA', 'VIVALA--DA', 26.0)

## Ejercicio 3

Escribe una funcion **formatAlignment** que recibe una tupla representando un alineamiento tal como lo producen las funciones de los ejercicios anteriores e imprime por pantalla el alineamiento de forma estética.

```
In:
alignment = globalAlignment('VIVALAVIDA','VIVALADAVIS',blosum62,-4)
formatAlignment(alignment)

Out:
VIVALA-VIDA
|||||| ....
VIVALADAVIS
Score: 21.0

In:
alignment = localAlignment('VIVALAVIDA','VIVALADAVIS',blosum62,-4)
formatAlignment(alignment)

Out:
VIVALAVIDA
||||||  ||
VIVALA--DA
Score: 26.0
```

In [66]:
def formatAlignment(alignment):
    
    sp, tp, score = alignment
    
    for letter in sp: 
        print(letter, end = '') # Muestro la primera secuencia alineada
    
    print()
    
    for i in range(len(sp)): # Muestro por pantalla los carácteres de alineación según coincidan las letras, no coincidan o haya un "-"
        if sp[i] == tp[i]:
            print('|', end = '')
        elif sp[i] == '-' or tp[i] == '-' :
            print(' ', end = '')
        else:
            print('.', end = '')
    
    print()
    
    for letter in tp:
        print(letter, end = '') # Muestro la segunda secuencia alineada
        
    print()
    
    print("Score:", score)
    
    print()

# Ejemplo de uso con alineamiento global
alignment = globalAlignment('VIVALAVIDA','VIVALADAVIS',blosum62,-4)
formatAlignment(alignment)

# Ejemplo de uso con alineamiento local
alignment_local = localAlignment('VIVALAVIDA', 'VIVALADAVIS', blosum62, -4)
formatAlignment(alignment_local)

VIVALA-VIDA
|||||| ....
VIVALADAVIS
Score: 21.0

VIVALAVIDA
||||||  ||
VIVALA--DA
Score: 26.0



## Ejercicio 4

Pasos previos (no es necesario hacerlos con Python):

1. Descarga de la NCBI la secuencia de la Glycoprotein S (Spike Protein) del virus del Covid-2 en un fichero FASTA.

2. Repite la operación para secuencias de proteina S de otros coronavirus.

3. Genera un fichero multifasta con todas las secuencias de la proteina S. La descripción de cada secuencia debe indicar el virus utilizado y el accesion number. Entregar este fichero junto con el resto de la tarea.


Se pide (en Python):

* Leer el fichero multifasta generado
* Probar las funciones implementadas **globalAlignment** y **localAlignment** comparando la secuencia del Covid2 con la de los otros virus. Usar diferentes parámetros para la matriz de substitución y penalización por huecos.
* Probar las correspondientes funciones del paquete **pairwise2** para realizar los mismos alineamientos.
* Comentar los resultados.

In [67]:
from Bio import Entrez, Seq, SeqIO

In [68]:
# Cargo el fichero multifasta y lo leo
multi_fasta = list(SeqIO.parse("multifasta.fasta", "fasta")) 

for e in multi_fasta:
    print (e.description)
    print (e.seq)
    print ()

YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2]
MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFRSSVLHSTQDLFLPFFSNVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIRGWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVYSSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPINLVRDLPQGFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFLLKYNENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITNLCPFGEVFNATRFASVYAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCFTNVYADSFVIRGDEVRQIAPGQTGKIADYNYKLPDDFTGCVIAWNSNNLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYFPLQSYGFQPTNGVGYQPYRVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFLPFQQFGRDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAIHADQLTPTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPRRARSVASQSIIAYTMSLGAENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTMYICGDSTECSNLLLQYGSFCTQLNRALTGIAVEQDKNTQEVFAQVKQIYKTPPIKDFGGFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDCLGDIAARDLICAQKFNGLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIGVTQN

In [69]:
# Cargo la matriz de substitución PAM250 en una nueva variable a partir del subpaquete substitution_matrices de Bio.Align
pam250 = substitution_matrices.load("PAM250")

In [1]:
# Importación del paquete
# https://biopython.org/docs/latest/api/Bio.pairwise2.html
from Bio import pairwise2

# Importo el método format_alignment para mostrar alineamientos por pantalla
from Bio.pairwise2 import format_alignment

In [None]:
# Como se puede ver a continuación para cada una de las distintas condiciones y comparaciones las funciones del paquete
# pairwise2 dan las mismas puntuaciones de alineamiento que al usar las funciones globalAlignment y localAlignment
# implementadas por mí, lo que me lleva a la conclusión de que he realizado corectamente estas funciones.

In [71]:
for e in range(1, len(multi_fasta)):
    print ("Comparación global de las secuencias:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", globalAlignment(multi_fasta[0].seq, multi_fasta[e].seq, pam250, -4)[2])
    print ()
    
for e in range(1, len(multi_fasta)):
    print ("Comparación global de las secuencias usando pairwise2:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", pairwise2.align.globalds(multi_fasta[0].seq, multi_fasta[e].seq, match_dict = pam250, open=-4, extend=-4, score_only=True))
    print ()

# Como se puede observar en los resultados la comparación que presenta mayor puntuación es la correspondiente al coronavirus
# del murciélago, lo que significa que esta tiene una mayor similitud con la secuencia de la proteína S del Covid-2.

Comparación global de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 2021.0

Comparación global de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glycoprotein [Tylonycteris bat coronavirus HKU4]
Score: 2188.0

Comparación global de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_005352838.1 spike glycoprotein [White-eye coronavirus HKU16]
Score: 1443.0

Comparación global de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 2021.0

Comparación global de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glyc

In [72]:
for e in range(1, len(multi_fasta)):
    print ("Comparación global de las secuencias:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", globalAlignment(multi_fasta[0].seq, multi_fasta[e].seq, blosum62, -4)[2])
    print ()
    
for e in range(1, len(multi_fasta)):
    print ("Comparación global de las secuencias usando pairwise2:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", pairwise2.align.globalds(multi_fasta[0].seq, multi_fasta[e].seq, match_dict = blosum62, open=-4, extend=-4, score_only=True))
    print ()
    
# En este caso la proteína S que tiene mayor similitud vuelve a ser del mismo coronavirus, el del murciélago, al igual que 
# ocurre en el resto de condiciones tanto para el alineamiento local como el global, las matrices de substitución pam250 y 
# blosum62, y los distintos valores para las sustituciones por huecos.

# Esos resultados tienen sentido porque como hemos visto estas dos proteínas son las más similares siendo más probable que
# obtengan mayores puntuaciones tanto para los alineamientos globales como los locales.

# Por otro lado se puede apreciar el cambio en las puntuaciones al utilizar distintas matrices de substitución, consiguiendo 
# la pam250 las mayores puntuaciones. Esto es debido a que la matriz blosum62 se utiliza para secuencias con menor tiempo de
# divergencia evolutiva que las pam250, y se caracteriza por ser una matriz más restrictiva y específica, penalizando más 
# las sustituciones entre aminoácidos que son menos comunes en secuencias conservadas.

Comparación global de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 1544.0

Comparación global de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glycoprotein [Tylonycteris bat coronavirus HKU4]
Score: 1783.0

Comparación global de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_005352838.1 spike glycoprotein [White-eye coronavirus HKU16]
Score: 1111.0

Comparación global de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 1544.0

Comparación global de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glyc

In [73]:
for e in range(1, len(multi_fasta)):
    print ("Comparación global de las secuencias:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", globalAlignment(multi_fasta[0].seq, multi_fasta[e].seq, blosum62, -2)[2])
    print ()
    
for e in range(1, len(multi_fasta)):
    print ("Comparación global de las secuencias usando pairwise2:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", pairwise2.align.globalds(multi_fasta[0].seq, multi_fasta[e].seq, match_dict = blosum62, open=-2, extend=-2, score_only=True))
    print ()
    
# Si nos fijamos, la diferencia con las funciones anteriores es que ahora disminuimos el valor de las penalizaciones, lo que
# provoca un aumento en las puntuaciones.

Comparación global de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 2117.0

Comparación global de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glycoprotein [Tylonycteris bat coronavirus HKU4]
Score: 2301.0

Comparación global de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_005352838.1 spike glycoprotein [White-eye coronavirus HKU16]
Score: 1789.0

Comparación global de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 2117.0

Comparación global de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glyc

In [74]:
for e in range(1, len(multi_fasta)):
    print ("Comparación local de las secuencias:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", localAlignment(multi_fasta[0].seq, multi_fasta[e].seq, pam250, -4)[2])
    print ()
    
for e in range(1, len(multi_fasta)):
    print ("Comparación local de las secuencias usando pairwise2:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", pairwise2.align.localds(multi_fasta[0].seq, multi_fasta[e].seq, match_dict = pam250, open=-4, extend=-4, score_only=True))
    print ()

Comparación local de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 2032.0

Comparación local de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glycoprotein [Tylonycteris bat coronavirus HKU4]
Score: 2226.0

Comparación local de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_005352838.1 spike glycoprotein [White-eye coronavirus HKU16]
Score: 1492.0

Comparación local de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 2032.0

Comparación local de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glycoprot

In [76]:
for e in range(1, len(multi_fasta)):
    print ("Comparación local de las secuencias:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", localAlignment(multi_fasta[0].seq, multi_fasta[e].seq, blosum62, -4)[2])
    print ()
    
for e in range(1, len(multi_fasta)):
    print ("Comparación local de las secuencias usando pairwise2:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", pairwise2.align.localds(multi_fasta[0].seq, multi_fasta[e].seq, match_dict = blosum62, open=-4, extend=-4, score_only=True))
    print ()

Comparación local de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 1550.0

Comparación local de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glycoprotein [Tylonycteris bat coronavirus HKU4]
Score: 1832.0

Comparación local de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_005352838.1 spike glycoprotein [White-eye coronavirus HKU16]
Score: 1139.0

Comparación local de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 1550.0

Comparación local de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glycoprot

In [77]:
for e in range(1, len(multi_fasta)):
    print ("Comparación local de las secuencias:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", localAlignment(multi_fasta[0].seq, multi_fasta[e].seq, blosum62, -2)[2])
    print ()
    
for e in range(1, len(multi_fasta)):
    print ("Comparación local de las secuencias usando pairwise2:", multi_fasta[0].description, "vs", multi_fasta[e].description)
    print ("Score:", pairwise2.align.localds(multi_fasta[0].seq, multi_fasta[e].seq, match_dict = blosum62, open=-2, extend=-2, score_only=True))
    print ()
    
# Como se puede apreciar en cuanto a la comparación entre mismas condiciones en alineamientos locales y globales, por lo 
# general en casi todas las condiciones probadas las puntuaciones de los alineamientos locales son mayores que las de los
# globales. Se puede deber a que los locales tienden a dar puntuaciones más altas cuando se comparan secuencias con regiones 
# altamente conservadas, indicando que la proteína S tiene regiones muy conservadas entre los distintos tipos de coronavirus
# comparados.

Comparación local de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 2122.0

Comparación local de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glycoprotein [Tylonycteris bat coronavirus HKU4]
Score: 2316.0

Comparación local de las secuencias: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_005352838.1 spike glycoprotein [White-eye coronavirus HKU16]
Score: 1795.0

Comparación local de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_173238.1 spike glycoprotein [Human coronavirus HKU1]
Score: 2122.0

Comparación local de las secuencias usando pairwise2: YP_009724390.1 surface glycoprotein [Severe acute respiratory syndrome coronavirus 2] vs YP_001039953.1 spike glycoprot