Universidad EAFIT
- Elaborado por Mateo Córdoba Agudelo.

###### Introducción 
La pandemia ocasionada por el virus SARS CoV-2 ha resultado en más de 5.8 millones de  contagios con más de 362000 muertes a nivel mundial (recuperado el 28/05 de https://coronavirus.app/map). SARS CoV-2 presenta un genoma de RNA de cadena positiva de aproximadamente 28900 pares de bases y pocas proteínas (Lu et al., 2020). Entre el pool de proteínas, se encuentra la glicoproteína Spike (S), que recubre la capsula y promueve la entrada del virus dentro de las celulas del hospedero (Walls et al., 2020). Dada la condición actual y el ínteres en la investigación del virus, hay una rápida y abundante disponibilidad de datos de secuención; esto motiva a plantear este ejercicio académico que prone recuperar secuencias de la proteína S de SARS CoV-2 de diferentes paises, con el objetivo de realizar una filogenia y discutir si la variación en las secuencias puede estar siendo explicada por el país de origen de la secuencia. Adicional a esto, con estimados de polimorfismo de nucleótidos simple (SNPs) se quiere ahondar en la diversidad genética de las muestras.


In [1]:
#Paquetes de Biopython requeridos para realizar busquedas en Genbank y recuperar registros

from Bio import Entrez
from Bio import SeqIO

In [3]:
#parámetros para iniciar busqueda
Entrez.email = "mcordobaa@eafit.edu.co" 
handle = Entrez.einfo()
result = Entrez.read(handle)
handle.close()

In [3]:
##Se propuso recuperar secuencias de China, España, Alemania, Brasil y Colombia.
# La busqueda para China se realizó de esta manera, filtrando por el nombre del virus y el pais de origen del registro
handle = Entrez.esearch(db="nucleotide", term="Severe acute respiratory syndrome coronavirus 2 AND China[COUNTRY]", idtype="acc")
record = Entrez.read(handle)
record["Count"]

'157'

In [44]:
#revisar el primer registro
handle = Entrez.efetch(db="nucleotide", id = id_list[0], rettype="gb", retmode="text")
req = SeqIO.read(handle, "genbank")



In [46]:
#nombre del registro [0]
req.description

'Severe acute respiratory syndrome coronavirus 2 isolate SARS-CoV-2/human/CHN/Beijing_IME-BJ05/2020, complete genome'

In [47]:
#Obtener features para China
#El feature[33] corresponde a la proteína "S", se verificó que esta posición corresponde a la proteína de interes en otros registros
req.features 

[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(29834), strand=1), type='source'),
 SeqFeature(FeatureLocation(ExactPosition(240), ExactPosition(21530), strand=1), type='gene'),
 SeqFeature(CompoundLocation([FeatureLocation(ExactPosition(240), ExactPosition(13443), strand=1), FeatureLocation(ExactPosition(13442), ExactPosition(21530), strand=1)], 'join'), type='CDS', location_operator='join'),
 SeqFeature(FeatureLocation(ExactPosition(240), ExactPosition(780), strand=1), type='mat_peptide'),
 SeqFeature(FeatureLocation(ExactPosition(780), ExactPosition(2694), strand=1), type='mat_peptide'),
 SeqFeature(FeatureLocation(ExactPosition(2694), ExactPosition(8529), strand=1), type='mat_peptide'),
 SeqFeature(FeatureLocation(ExactPosition(8529), ExactPosition(10029), strand=1), type='mat_peptide'),
 SeqFeature(FeatureLocation(ExactPosition(10029), ExactPosition(10947), strand=1), type='mat_peptide'),
 SeqFeature(FeatureLocation(ExactPosition(10947), ExactPosition(11817), strand=1)

In [38]:
#Obtener secuencias de ínteres y  guardar en formato fasta: Se seleccionaron 20 registros (Proteína "S" corresponde al feature 33)
Target_list = [ ]
for i in range(0, 20):
    handle = Entrez.efetch(db="nucleotide", id = id_list[i], rettype="gb", retmode="text")
    record=SeqIO.read(handle, "genbank")
    Target_list.append(record.features[33].extract(record)) 
    SeqIO.write(Target_list, "secuencias.fasta", "fasta")


In [4]:
#Busqueda para Colombia 
handle = Entrez.esearch(db="nucleotide", term="Severe acute respiratory syndrome coronavirus 2 AND Colombia[COUNTRY]", idtype="acc")
record = Entrez.read(handle)
record["Count"]

'3'

In [7]:
#Revisar el primer registro Colombia
handle = Entrez.efetch(db="nucleotide", id = id_listcol[0], rettype="gb", retmode="text")
reqcol = SeqIO.read(handle, "genbank")

In [8]:
##nombre posición [0]
reqcol.description

'Severe acute respiratory syndrome coronavirus 2 isolate SARS-CoV-2/human/COL/Cali-01/2020, complete genome'

In [23]:
#Obtener secuencias de ínteres y  guardar en formato fasta para Colombia 
Target_listcol = [ ]
for i in range(0,2):
    handle = Entrez.efetch(db="nucleotide", id = id_listcol[i], rettype="gb", retmode="text")
    recordcol=SeqIO.read(handle, "genbank")
    Target_listcol.append(recordcol.features[33].extract(recordcol)) 
    SeqIO.write(Target_listcol, "secuenciasCOL.fasta", "fasta")

In [24]:
###Busqueda para Brasil
handle = Entrez.esearch(db="nucleotide", term="Severe acute respiratory syndrome coronavirus 2 AND BRAZIL[COUNTRY]", idtype="acc")
record = Entrez.read(handle)
record["Count"]

'2'

In [26]:
#Revisar el primer registro Brasil
handle = Entrez.efetch(db="nucleotide", id = id_listbr[0], rettype="gb", retmode="text")
reqbr = SeqIO.read(handle, "genbank")

In [133]:
#nombre registro[0]
reqbr.description

'Severe acute respiratory syndrome coronavirus 2 isolate SARS-CoV-2/human/BRA/SP02cc/2020, complete genome'

In [59]:
#Obtener multifasta para Brasil de secuencias de interes y  guardar
Target_listbr = [ ]
for i in  range(0,1) :
    handle = Entrez.efetch(db="nucleotide", id=id_listbr[i], rettype="gb", retmode="text")
    recordbr=SeqIO.read(handle, "genbank")
    Target_listbr.append(recordbr.features[33].extract(recordbr)) 
    SeqIO.write(Target_listbr, "secuenciasbr.fasta", "fasta")

In [60]:
#Busqueda para USA
handle = Entrez.esearch(db="nucleotide", term="Severe acute respiratory syndrome coronavirus 2 AND USA[COUNTRY]", idtype="acc")
record = Entrez.read(handle)
record["Count"]

'2412'

In [62]:
#Revisar el primer registro USA
handle = Entrez.efetch(db="nucleotide", id = id_listusa[0], rettype="gb", retmode="text")
requsa = SeqIO.read(handle, "genbank")

In [134]:
#nombre registro[0]
requsa.description

'Severe acute respiratory syndrome coronavirus 2 isolate SARS-CoV-2/human/USA/FL_5091/2020, complete genome'

In [73]:
##obtener multifasta para USA de secuencias de interes y  guardar. Se seleccionan 10 registros, el primer registro no está completo
#Proteína "S" corresponde al feature 33
Target_listusa = []
for i in range(1,11):
    handle = Entrez.efetch(db="nucleotide", id=id_listusa[i], rettype="gb", retmode="text")
    recordusa=SeqIO.read(handle, "genbank")
    Target_listusa.append(recordusa.features[33].extract(recordusa)) 
    SeqIO.write(Target_listusa, "secuenciasusa.fasta", "fasta")

In [110]:
#Busqueda para alemania
handle = Entrez.esearch(db="nucleotide", term="Severe acute respiratory syndrome coronavirus 2 AND Germany[COUNTRY]", idtype="acc")
record = Entrez.read(handle)
record["Count"]

'22'

In [113]:
#Revisar el primer registro alemania 
handle = Entrez.efetch(db="nucleotide", id = id_listger[0], rettype="gb", retmode="text")
reqger = SeqIO.read(handle, "genbank")
reqger.description

'Severe acute respiratory syndrome coronavirus 2 isolate SARS-CoV-2/human/DEU/BavPat15-ChVir1484-ChVir1536/2020, complete genome'

In [127]:
#Obtener multifasta para alemania de secuencias de interes y  guardar, 5 registros seleccionados
Target_listger = []
for i in range(0,5):
    handle = Entrez.efetch(db="nucleotide", id=id_listger[i], rettype="gb", retmode="text")
    recordger=SeqIO.read(handle, "genbank")
    Target_listger.append(recordger.features[33].extract(recordger)) 
    SeqIO.write(Target_listger, "secuenciasger.fasta", "fasta")

In [117]:
###Busqueda para España
handle = Entrez.esearch(db="nucleotide", term="Severe acute respiratory syndrome coronavirus 2 AND Spain[COUNTRY]", idtype="acc")
record = Entrez.read(handle)
record["Count"]

'26'

In [119]:
#revisar el primer registro españa
handle = Entrez.efetch(db="nucleotide", id = id_listspn[0], rettype="gb", retmode="text")
reqspn = SeqIO.read(handle, "genbank")
reqspn.description

'Severe acute respiratory syndrome coronavirus 2 isolate SARS-CoV-2/human/ESP/VH198152683/2020, complete genome'

In [123]:
##obtener multifasta para españa de secuencias de interes y  guardar
#Proteína "S" corresponde al feature 33, los primero registros de la lista no corresponde al feature de interes, por eso se cambia al (6,11)
Target_listspn = []
for i in range(6,11):
    handle = Entrez.efetch(db="nucleotide", id=id_listspn[i], rettype="gb", retmode="text")
    recordspn=SeqIO.read(handle, "genbank")
    Target_listspn.append(recordspn.features[33].extract(recordspn)) 
    SeqIO.write(Target_listspn, "secuenciasspn.fasta", "fasta")

In [128]:
%%bash
#Concatenar multifastas de cada país 
cat secuencias.fasta secuenciasCOL.fasta secuenciasbr.fasta secuenciasger.fasta secuenciasspn.fasta secuenciasusa.fasta > full.fasta


In [131]:
%%bash
# Realizar alineamiento, en modo automático
mafft --auto full.fasta > full_aln.fasta

nthread = 0
nthreadpair = 0
nthreadtb = 0
ppenalty_ex = 0
stacksize: 8192 kb
generating a scoring matrix for nucleotide (dist=200) ... done
Gap Penalty = -1.53, +0.00, +0.00



Making a distance matrix ..

There are 289 ambiguous characters.
    1 / 43
done.

Constructing a UPGMA tree (efffree=0) ... 
    0 / 43   10 / 43   20 / 43   30 / 43   40 / 43
done.

Progressive alignment 1/2... 
STEP     1 / 42  fSTEP     2 / 42  fSTEP     3 / 42  fSTEP     4 / 42  fSTEP     5 / 42  fSTEP     6 / 42  fSTEP     7 / 42  fSTEP     8 / 42  fSTEP     9 / 42  fSTEP    10 / 42  fSTEP    11 / 42  fSTEP    12 / 42  fSTEP    13 / 42  fSTEP    14 / 42  fSTEP    15 / 42  fSTEP    16 / 42  fSTEP    17 / 42  fSTEP    18 / 42  fSTEP    19 / 42  fSTEP    20 / 42  fSTEP    21 / 42  fSTEP    22 / 42  fSTEP    23 / 42  fSTEP    24 / 42  fSTEP    25 / 42  fSTEP    26 / 42  fSTEP    27 / 42  fSTEP    28 / 42  fSTEP    29 / 4

In [132]:
%%bash
#Para visualizar el alineamiento con ALV
alv full_aln.fasta 

MT291835.2 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079854.1 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079853.1 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079852.1 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079851.1 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079850.1 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079849.1 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079848.1 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079847.1 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079846.1 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079845.1 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079844.1 atgtttgtttttcttgttttattgccactagtctctagtcagtgtgttaatcttacaaccagaactcaa
MT079843.1 atgtttgtttttcttgt

In [8]:
%%bash
#Buscar mejor modelo de evolución de DNA,(esquemas=3)
modeltest-ng -i full_aln.fasta -s 3


                             _      _ _            _      _   _  _____ 
                            | |    | | |          | |    | \ | |/ ____|
         _ __ ___   ___   __| | ___| | |_ ___  ___| |_   |  \| | |  __ 
        | '_ ` _ \ / _ \ / _` |/ _ \ | __/ _ \/ __| __|  | . ` | | |_ |
        | | | | | | (_) | (_| |  __/ | ||  __/\__ \ |_   | |\  | |__| |
        |_| |_| |_|\___/ \__,_|\___|_|\__\___||___/\__|  |_| \_|\_____|
--------------------------------------------------------------------------------
modeltest x.y.z
Copyright (C) 2017 Diego Darriba, David Posada, Alexandros Stamatakis
License GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>.
This is free software: you are free to change and redistribute it.
There is NO WARRANTY, to the extent permitted by law.

Written by Diego Darriba.
--------------------------------------------------------------------------------

Physical cores: 2
Logical cores:  4
Memory:         8GB
Extensions:     AVX

Creating new ch

In [None]:
%%bash
#Se dice utilizar RAXML con su modelo GTR, dado que el comando anterior arrojó según AIC este modelo
#Encontrar la mejor hipótesis filogenética se ejecutó 3 veces con 1000 bootstrap cada uno, para un total de 3000 pseudoréplicas
raxmlHPC -f a -p 12345 -s full_aln.fasta -x 12345 -# 1000 -m GTRCAT -n boots1
raxmlHPC -f a -p 12345 -s full_aln.fasta -x 12345 -# 1000 -m GTRCAT -n boots2
raxmlHPC -f a -p 12345 -s full_aln.fasta -x 12345 -# 1000 -m GTRCAT -n boots3

##output=RAxML_bestTree.boots1,2,3



In [3]:
%%bash 
#Con los outputs del comando anterior se  utiliza sumtrees para obtener la mejor topología
sumtrees.py --decimals=0 --percentages --output-tree-filepath=sum.tree --target=RAxML_bestTree.boots1 RAxML_bestTree.boots2 RAxML_bestTree.boots3


|                                 SumTrees                                 |
|                     Phylogenetic Tree Summarization                      |
|                              Version 4.4.0                               |
|                   By Jeet Sukumaran and Mark T. Holder                   |
|                         Using: DendroPy 4.4.0 ()                         |
+--------------------------------------------------------------------------+
|                                 Citation                                 |
|                                 ~~~~~~~~                                 |
| If any stage of your work or analyses relies on code or programs from    |
| this library, either directly or indirectly (e.g., through usage of your |
| own or third-party programs, pipelines, or toolkits which use, rely on,  |
| incorporate, or are otherwise primarily derivative of code/programs in   |
| this library), please cite:                                              |

#### Visualización  del filograma con Figtree

![tree_color](https://user-images.githubusercontent.com/60365265/83288116-7227a580-a1a8-11ea-86e5-6073d6955f6e.png)

Figura 1. Filograma obtenido. En Negro: Alemania, amarillo: Brasil, rojo: China, azul: Colombia, Cian: España y verde: USA. Número 100 corresponde al valor Bootstrap


#### En el software DNA sequence polymorphism, utilizando como input el alineamiento se obtuvo los siguientes gráficos 

Frecuencias del número de mutaciones por pares en las secuencias bajo un modelo teórico y experimental, denotado como frecuencia esperada y observada respectivamente.
![fss](https://user-images.githubusercontent.com/60365265/83288279-b2872380-a1a8-11ea-82ac-42509642385c.png)

Figura 2.diferencias por pares de secuencia. En verde, distribución de valores esperados. En rojo, distribución observada.

Diversidad nucleotídica (pi): Proporción de diferentes nucleótidos por sitio en la secuencias alineadas, es un estimado del grado de polimorfismo de la población. Este estimado permite observar la diversidad dentro de poblaciones (Yu et al., 2003)

![pi](https://user-images.githubusercontent.com/60365265/83288586-393c0080-a1a9-11ea-8f1e-88f9b3a60eb1.jpg)


Figura 3. Se observa que la mayor diversidad nucleotídica se encuentra cercana a la mitad de la proteína.

Estimado Watterson (Theta): Descriptor de la diversidad genética de una población (Producto del tamaño efectivo del tamaño de la población y la tasa de la mutación por base). Permite cuantificar la tasa de mutación de la población (Ferretti & Ramos, 2015)

![teta](https://user-images.githubusercontent.com/60365265/83288691-67b9db80-a1a9-11ea-835d-ee09f66efffd.jpeg)


Figura 4. La mayor tasa de mutación ocurre alrededor de la mitad de la proteína






######  Resultados y discusión
La filogenia obtenida fue construida con 43 secuencias recuperadas del Genbank de aproximadamente 3820 nucleótidos correspondientes a la proteina Spike (S) del virus SARS CoV-2, donde 20 secuencias pertenecen a China, 10 de Estados Unidos, 5 de Alemania, 5 de España, 2 de Colombia y 1 de Brasil. De manera general en el alineamiento (In [132]) se observa que hay poca variación entre secuencias. El mejor modelo de evolución de DNA basado en AIC fue GTR (In [8]). Para realizar el filograma se realizaron en total 3000 pseudoreplicas Bootstrap.

El filograma presenta un valor de 100 de soporte de bootstrap para cada nodo (Figura 1), donde se observa que no hay una formación de grupos monofiléticos o agrupamiento claro por país. Sin embargo, se puede resaltar que hay un nivel de agrupamiento entre muestras del mismo país. Para las muestras provenientes de China la mayoría tienen una longitud de rama corta, lo que indica que son las muestras que menos cambios han acumulado según la reconstrucción; es decir, podemos interpretar las muestras chinas como "basales". Las secuencias provenientes de España no muestran ningun agrupamiento; cada muestra se encuentra en un nodo distinto. Las secuencias provenientes de Alemania se encuentran embebidas dentro de un mismo clado no monofilético; este clado también incluye 5 secuencias de USA, una de España de y una de Colombia, esto esbosa o sugiere una posible agrupación que corresponde al linaje A.5 del virus (Rambaut et al., 2020). La segunda secuencia correspondiente a Colombia se encuentra en un clado basal junto con secuecias de China, esto puede indicar poca variación de las secuencias virales para Colombia respecto al sitio de origen, pero teniendo en cuenta la posición para la otra secuencia, no es claro con estos datos los cambios que ha tenido el virus en el país. Incluir más secuencias y más fragmentos podría brindar mejor resolución para así establecer e identificar linages del virus. 

Las gráficas de análisis de polimorfismo de nucleótido único (SNPs) muestran que hay mas mutaciones respecto a un modelo teórico (Figura 2), donde el mayor polimorfismo segun el estimado Pi se presenta próximo a los 2000 nucleótidos de la secuencia, poco despues de la mitad del gen (Figura 3). La gráfica del estimado de Watterson (Figura 4) indica que la mayor tasa de mutación también es cercana a la mitad de la proteína, con un comportamiento similar al estimado Pi. El hotspot de mutación ocurre aproximadamente a las 24000 bases del genoma, esto corresponde de manera amplia a la mitad de la proteína Spike (Pachetti et al., 2020), y se ajusta con el sitio encontrado de mayor diversidad nucleotídica con los análisis de SNPs.
También es importante resaltar la naturelza de estas mutaciones; Se ha reportando que aproximadamente la mitad de mutaciones encontradas para la proteína Spike son sileciosas (Phan 2020), es decir no repercuten en un cambio de aminoacido en la proteína, así que la diversidad genotípica no está necesariamente indicando una diversidad fenotípica.

Los resultados obtenidos muestran que la proteína S es conservada y prensenta baja tasa de mutación, esto se ajusta con lo reportado por Jia et al., (2020) donde se expone que no solo la proteína Spike es conservada sino que también, todo el genoma de SARS CoV 2 presenta baja tasa de mutación respecto a otros Coronavirus. Estos resultados son contrastantes con los demás virus no relacionados, dado que generalmente tienen altas tasas de mutación, incluso un millón de veces mayor que el hospedador (Pachetti et al., 2020).



 

##### Bibliografía

·Ferretti, L., & Ramos-Onsins, S. E. (2015). A generalized Watterson estimator for next-generation sequencing: From trios to autopolyploids. Theoretical population biology, 100, 79-87.

·Jia, Y., Shen, G., Zhang, Y., Huang, K. S., Ho, H. Y., Hor, W. S., ... & Wang, W. L. (2020). Analysis of the mutation dynamics of SARS-CoV-2 reveals the spread history and emergence of RBD mutant with lower ACE2 binding affinity. BioRxiv.

·Lu, R., Zhao, X., Li, J., Niu, P., Yang, B., Wu, H., ... & Bi, Y. (2020). Genomic characterisation and epidemiology of 2019 novel coronavirus: implications for virus origins and receptor binding. The Lancet, 395(10224), 565-574.

·Pachetti, M., Marini, B., Benedetti, F., Giudici, F., Mauro, E., Storici, P., ... & Zella, D. (2020). Emerging SARS-CoV-2 mutation hot spots include a novel RNA-dependent-RNA polymerase variant. Journal of Translational Medicine, 18, 1-9.

·Phan, T. (2020). Genetic diversity and evolution of SARS-CoV-2. Infection, Genetics and Evolution, 104260.

·Rambaut, A., Holmes, E. C., Hill, V., OToole, A., McCrone, J., Ruis, C., ... & Pybus, O. (2020). A dynamic nomenclature proposal for SARS-CoV-2 to assist genomic epidemiology. bioRxiv.

·Walls, A. C., Park, Y.-J., Tortorici, M. A., Wall, A., McGuire, A. T., & Veesler, D. (2020). Structure, Function, and Antigenicity of the SARS-CoV-2 Spike Glycoprotein. 

·Yu, N., Jensen-Seaman, M. I., Chemnick, L., Ryder, O., & Li, W. H. (2004). Nucleotide diversity in gorillas. Genetics, 166(3), 1375-1383.



