# Práctica de Biopython

### Equipo: Escobedo Muñoz, Gonzalez Juarez, Arrieta Donato, Ordaz Arias, Rodriguez Vazquez

El coronavirus SARS-CoV-2 tiene una proteína llamada spike (S), que es una glicoproteína tipo I que se encuentra en la superficie del virus y puede hacer contacto con la célula hospedera. Nos interesa conocer qué tan parecida es esta secuencia con el virus SARS-CoV. Ambos coronavirus, SARS-CoV-2 y SARS-CoV están relacionados y pertenecen al subgénero sarbecvirus de los Coronaviridae, entonces se espera que dichos virus sean muy parecidos.

Por otro lado, el gen ACE2 (Angiotensin-converting enzyme 2) es un gen del humano que ha llamado la atención recientemente porque promueve la entrada de SARS-CoV-2 en las células. Realizando una simulación estructural es posible identificar el contacto de ACE2 con la proteína S. De acuerdo con la literatura (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7102515/) los aminoácidos que hacen contacto con SARS-CoV son: Y442, L472, N479, D480, T487, Y491. Y los que hacen contacto con SARS-CoV-2 son: L455, F486, Q493, S494, N501 and Y505.

## Obtener la secuencia de la proteína S del coronavirus SARS-CoV-2

In [0]:
# Crea un diccionario donde se guarda la informacion del archivo fasta.
fasta_info = {}

# Abre el archivo fasta que contiene las secuencias proteicas de ambos coronavirus.
with open('./sequence.fasta', 'r') as file_handler:
	for fasta_sequence in file_handler:

		# Obtiene el nombre de la secuencia.
		if fasta_sequence.startswith(">"):
			name = fasta_sequence
			sequence = ""
			continue
            
		# Concatena las lineas de la misma secuencia.
		fasta_sequence = fasta_sequence.replace("\n", "")
		sequence = sequence + fasta_sequence.upper()
		fasta_info[name] = sequence

# Almacena solo las secuencias en una lista.
sequences = []
for keys, value in fasta_info.items():
	sequences.append(value)

## Imprime solo la secuencia de la proteina S de SARS-CoV-2
print(sequences[0])

MFVFLVLLPLVSSQCVNLTTRTQLPPAYTNSFTRGVYYPDKVFRSSVLHSTQDLFLPFFSNVTWFHAIHVSGTNGTKRFDNPVLPFNDGVYFASTEKSNIIRGWIFGTTLDSKTQSLLIVNNATNVVIKVCEFQFCNDPFLGVYYHKNNKSWMESEFRVYSSANNCTFEYVSQPFLMDLEGKQGNFKNLREFVFKNIDGYFKIYSKHTPINLVRDLPQGFSALEPLVDLPIGINITRFQTLLALHRSYLTPGDSSSGWTAGAAAYYVGYLQPRTFLLKYNENGTITDAVDCALDPLSETKCTLKSFTVEKGIYQTSNFRVQPTESIVRFPNITNLCPFGEVFNATRFASVYAWNRKRISNCVADYSVLYNSASFSTFKCYGVSPTKLNDLCFTNVYADSFVIRGDEVRQIAPGQTGKIADYNYKLPDDFTGCVIAWNSNNLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGFNCYFPLQSYGFQPTNGVGYQPYRVVVLSFELLHAPATVCGPKKSTNLVKNKCVNFNFNGLTGTGVLTESNKKFLPFQQFGRDIADTTDAVRDPQTLEILDITPCSFGGVSVITPGTNTSNQVAVLYQDVNCTEVPVAIHADQLTPTWRVYSTGSNVFQTRAGCLIGAEHVNNSYECDIPIGAGICASYQTQTNSPRRARSVASQSIIAYTMSLGAENSVAYSNNSIAIPTNFTISVTTEILPVSMTKTSVDCTMYICGDSTECSNLLLQYGSFCTQLNRALTGIAVEQDKNTQEVFAQVKQIYKTPPIKDFGGFNFSQILPDPSKPSKRSFIEDLLFNKVTLADAGFIKQYGDCLGDIAARDLICAQKFNGLTVLPPLLTDEMIAQYTSALLAGTITSGWTFGAGAALQIPFAMQMAYRFNGIGVTQNVLYENQKLIANQFNSAIGKIQDSLSSTASALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDILSRLDKVEAEVQIDRLITGR

## Obtener la proteína S del coronavirus SARS-CoV (NP_828851.1)

In [0]:
## Imprime solo la secuencia de la proteina S de SARS-CoV-2
print(sequences[1])

MFIFLLFLTLTSGSDLDRCTTFDDVQAPNYTQHTSSMRGVYYPDEIFRSDTLYLTQDLFLPFYSNVTGFHTINHTFGNPVIPFKDGIYFAATEKSNVVRGWVFGSTMNNKSQSVIIINNSTNVVIRACNFELCDNPFFAVSKPMGTQTHTMIFDNAFNCTFEYISDAFSLDVSEKSGNFKHLREFVFKNKDGFLYVYKGYQPIDVVRDLPSGFNTLKPIFKLPLGINITNFRAILTAFSPAQDIWGTSAAAYFVGYLKPTTFMLKYDENGTITDAVDCSQNPLAELKCSVKSFEIDKGIYQTSNFRVVPSGDVVRFPNITNLCPFGEVFNATKFPSVYAWERKKISNCVADYSVLYNSTFFSTFKCYGVSATKLNDLCFSNVYADSFVVKGDDVRQIAPGQTGVIADYNYKLPDDFMGCVLAWNTRNIDATSTGNYNYKYRYLRHGKLRPFERDISNVPFSPDGKPCTPPALNCYWPLNDYGFYTTTGIGYQPYRVVVLSFELLNAPATVCGPKLSTDLIKNQCVNFNFNGLTGTGVLTPSSKRFQPFQQFGRDVSDFTDSVRDPKTSEILDISPCAFGGVSVITPGTNASSEVAVLYQDVNCTDVSTAIHADQLTPAWRIYSTGNNVFQTQAGCLIGAEHVDTSYECDIPIGAGICASYHTVSLLRSTSQKSIVAYTMSLGADSSIAYSNNTIAIPTNFSISITTEVMPVSMAKTSVDCNMYICGDSTECANLLLQYGSFCTQLNRALSGIAAEQDRNTREVFAQVKQMYKTPTLKYFGGFNFSQILPDPLKPTKRSFIEDLLFNKVTLADAGFMKQYGECLGDINARDLICAQKFNGLTVLPPLLTDDMIAAYTAALVSGTATAGWTFGAGAALQIPFAMQMAYRFNGIGVTQNVLYENQKQIANQFNKAISQIQESLTTTSTALGKLQDVVNQNAQALNTLVKQLSSNFGAISSVLNDILSRLDKVEAEVQIDRLITGRLQSLQTYVTQQLIRAAEI

## Realizar el alineamiento de ambas proteínas

In [0]:
# Importa la libreria para hacer el alineamiento usando Clustal.
from Bio.Align.Applications import ClustalOmegaCommandline

# Genera el comando para generar el alineamiento.
in_file = './sequence.fasta'
out_file = './output_file.fasta'
clustalomega_cline = ClustalOmegaCommandline(infile=in_file, outfile=out_file, verbose=True, auto=True)
print(clustalomega_cline)

clustalo -i ./sequence.fasta -o ./output_file.fasta --auto -v


In [0]:
# Escribe en el archivo output_file.fasta los resultados del alineamiento.
!clustalo -i ./sequence.fasta -o ./output_file.fasta --auto -v

Using 2 threads
Read 2 sequences (type: Protein) from ./sequence.fasta
not more sequences (2) than cluster-size (100), turn off mBed
Setting options automatically based on input sequence characteristics (might overwrite some of your options).
Auto settings: Enabling mBed.
Auto settings: Setting iteration to 1.
Progressive alignment progress done. CPU time: 0.56u 0.08s 00:00:00.64 Elapsed: 00:00:01
Iteration step 1 out of 1
Computing new guide tree (iteration step 1)
Computing HMM from alignment
Progressive alignment progress done. CPU time: 1.72u 0.19s 00:00:01.91 Elapsed: 00:00:02
Alignment written to ./output_file.fasta


## Seleccionar únicamente la región del alineamiento que muestra estos residuos

In [0]:
# Importa las librerias para visualizar el alineamiento.
from Bio.Alphabet import generic_protein
from Bio.Align import MultipleSeqAlignment
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

# Crea un diccionario donde se guarda la informacion del archivo fasta.
aligned_fasta_info = {}

# Abre el archivo fasta que contiene las secuencias proteicas de ambos coronavirus alineadas.
with open("./output_file.fasta", 'r') as file_handler:
	for fasta_sequence in file_handler:

		# Obtiene el nombre de la secuencia.
		if fasta_sequence.startswith(">"):
			name = fasta_sequence
			sequence = ""
			continue
            
        # Concatena las lineas de la misma secuencia.
		fasta_sequence = fasta_sequence.replace("\n", "")
		sequence = sequence + fasta_sequence.upper()
		aligned_fasta_info[name] = sequence

# Almacena solo las secuencias en una lista.
aligned_sequences = []
for keys, value in aligned_fasta_info.items():
	aligned_sequences.append(value)

# Crea las variables tipo SeqRecord de cada una de las secuencias.
seq_rec_1 = SeqRecord(Seq(aligned_sequences[0], generic_protein), id='YP_009724390.1')
seq_rec_2 = SeqRecord(Seq(aligned_sequences[1], generic_protein), id='NP_828851.1')

# Obtenemos el sub alineamiento indicado.
align = MultipleSeqAlignment([seq_rec_1, seq_rec_2])
print(align[:2, 440:510].format("clustal"))

CLUSTAL X (1.81) multiple sequence alignment


YP_009724390.1                      NSNNLDSKVGGNYNYLYRLFRKSNLKPFERDISTEIYQAGSTPCNGVEGF
NP_828851.1                         NTRNIDATSTGNYNYKYRYLRHGKLRPFERDISNVPFSPDGKPCTP-PAL

YP_009724390.1                      NCYFPLQSYGFQPTNGVGYQ
NP_828851.1                         NCYWPLNDYGFYTTTGIGYQ





## ¿Qué más se les ocurre que puedan responder usando Biopython?

Esta libreria nos seria de utilidad para 
poder ver puntualmente las mutaciones que han tenido los genomas de SARS-CoV-2 en cada país,es decir, formar la epidemiologia genómica del SARS-CoV-2, para despues poder conocer los aminoácidos que cambian en cada virus para posteriores investigaciones en las estructuras proteicas resultantes en busqueda de variaciones en la interacción virus- célula hospedera.

De manera similar, se puede tener seguimiento de los haplotipos del virus, producto de las constantes mutaciones de su RNA como material genetico, con grafos pesados, cosa que se puede realizar con modulos de BioPython a la vez que con el ya conocido NetworkX
(https://pubmed.ncbi.nlm.nih.gov/32130405/)

Ya que Biopython cuenta con modulos que permiten realizar analisis en BLAST es posible una recontruccion parcial, a traves de tecnicas de busqueda de genes ortologos, de la filogenia del virus. Surge como una alternativa mas atractiva que su par en version web, dado el mayor poder de computo y  la facilidad de uso con multiples busquedas consecutivas.





Siendo mas especificos, en la literatura citada para el ejercicio (https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7102515/), se hace hincapie sobre la estructura de la proteina spike y su interaccion con el receptor ACE-2 en ambos coronavirus (SARS-CoV-2: https://www.rcsb.org/structure/6LZG ; SARS-CoV: https://www.rcsb.org/structure/2AJF), y dentro de este ambito se puede detallar, gracias al modulo PDB, caracteristicas bioquimicas de la seccion de union a ACE-2, o la semejanza estructural de ambas a nivel de productos de cristalografia 

En el siguiente codigo se refleja a groso modo el manejo de algunas secciones del modulo PDB: 

In [2]:
!pip install biopython

Collecting biopython
[?25l  Downloading https://files.pythonhosted.org/packages/a8/66/134dbd5f885fc71493c61b6cf04c9ea08082da28da5ed07709b02857cbd0/biopython-1.77-cp36-cp36m-manylinux1_x86_64.whl (2.3MB)
[K     |████████████████████████████████| 2.3MB 2.8MB/s 
Installing collected packages: biopython
Successfully installed biopython-1.77


In [49]:
# Importar librerias para el manejo de estructuras cristalograficas 
from Bio.PDB import *
from Bio.PDB.PDBParser import PDBParser
import numpy

# Descarga y parseo de archivos para ambos coronavirus (SARS-CoV y SARS-CoV-2)
cov1 = PDBList()
cov1.retrieve_pdb_file('2ajf', pdir = '.', file_format = 'pdb')
parseo1 = PDBParser(PERMISSIVE=1, QUIET=True) 
cov2 = PDBList() 
cov2.retrieve_pdb_file('6lzg', pdir = '.', file_format = 'pdb') 
parseo2 = PDBParser(PERMISSIVE=1,QUIET=True)  

# Obtencion de estructura y analisis de sus clases hijas 
cov1_structure = parseo1.get_structure("2ajf", "pdb2ajf.ent") 
print (cov1_structure.header['idcode'],'>',cov1_structure.header['name'])
model1 = cov1_structure.get_models()
models1 = list(model1)
chains1 = list(models1[0].get_chains())
residue1A = list(chains1[0].get_residues())
print (models1)
print (chains1)
print (residue1A)
print ('\n')
cov2_structure = parseo2.get_structure("6lzg", "pdb6lzg.ent") 
print (cov2_structure.header['idcode'],'>',cov2_structure.header['name'])
model2 = cov2_structure.get_models()
models2 = list(model2) 
chains2 = list(models2[0].get_chains()) 
residue2A = list(chains2[0].get_residues())
print (models2)
print (chains2)
print (residue2A)
print ('\n')

# Seleccion de cadena A para ambas estructuras con sus respectivos atomos, modificando el largo de la lista para hcer sobreposicion de estructura
uniqueModel1= cov1_structure[0]
chainA1 = uniqueModel1['A']
uniqueModel2= cov2_structure[0]
chainA2 = uniqueModel2['A']
fixe = list(chainA1.get_atoms())
foxo = list(chainA2.get_atoms())
fixe = fixe[0:4901]
foxo = foxo[0:4901]
sup = Superimposer()
sup.set_atoms(fixe, foxo)
print ('Rotran:', sup.rotran)
print ('RMS: ', sup.rms)


Structure exists: './pdb2ajf.ent' 
Structure exists: './pdb6lzg.ent' 
2AJF > structure of sars coronavirus spike receptor-binding domain complexed with its receptor
[<Model id=0>]
[<Chain id=A>, <Chain id=B>, <Chain id=E>, <Chain id=F>]
[<Residue SER het=  resseq=19 icode= >, <Residue THR het=  resseq=20 icode= >, <Residue ILE het=  resseq=21 icode= >, <Residue GLU het=  resseq=22 icode= >, <Residue GLU het=  resseq=23 icode= >, <Residue GLN het=  resseq=24 icode= >, <Residue ALA het=  resseq=25 icode= >, <Residue LYS het=  resseq=26 icode= >, <Residue THR het=  resseq=27 icode= >, <Residue PHE het=  resseq=28 icode= >, <Residue LEU het=  resseq=29 icode= >, <Residue ASP het=  resseq=30 icode= >, <Residue LYS het=  resseq=31 icode= >, <Residue PHE het=  resseq=32 icode= >, <Residue ASN het=  resseq=33 icode= >, <Residue HIS het=  resseq=34 icode= >, <Residue GLU het=  resseq=35 icode= >, <Residue ALA het=  resseq=36 icode= >, <Residue GLU het=  resseq=37 icode= >, <Residue ASP het=  re