# Análisis del genoma de SARS-CoV-2

## 1. Módulos necesarios

In [29]:
!pip install fastaparser Bio

In [3]:
import Bio, fastaparser
from Bio import SeqIO

## 2. Parseado de los archivos .fasta

Hay que descargar los archivos en formato FASTA desde la web del NCBI. Es importante hacerlo usando la opción "Send to" del NCBI y colocarlo en el directorio donde se encuentra la notebook, de lo contrario SeqIO puede arrojar un error. Ver [hilo de BioStars](https://www.biostars.org/p/287652/) donde se responde una duda al respecto.

#### 2.1 IDs de muestras

In [28]:
# ID de la muestra de Wuhan
[record.id for record in SeqIO.parse("sequence.fasta", "fasta")]

['NC_045512.2']

In [24]:
# ID de la muestra de Washington
[record.id for record in SeqIO.parse("sequence (1).fasta", "fasta")]

['MT293201.1']

#### 2.2 Parseo

In [38]:
# Parseo de la muestra de Wuhan:
with open("sequence.fasta") as fasta_file:
        parser = fastaparser.Reader(fasta_file)
        for seq in parser:
            # seq is a FastaSequence object
            print("ID: " + seq.id + "\n\nDescripción: " + seq.description + "\n\nSecuencia:\n" + seq.sequence_as_string())

wuhan = seq.sequence_as_string()

ID: NC_045512.2

Descripción: Severe acute respiratory syndrome coronavirus 2 isolate Wuhan-Hu-1, complete genome

Secuencia:
ATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAACTAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCGTCCGTGTTGCAGCCGATCATCAGCACATCTAGGTTTCGTCCGGGTGTGACCGAAAGGTAAGATGGAGAGCCTTGTCCCTGGTTTCAACGAGAAAACACACGTCCAACTCAGTTTGCCTGTTTTACAGGTTCGCGACGTGCTCGTACGTGGCTTTGGAGACTCCGTGGAGGAGGTCTTATCAGAGGCACGTCAACATCTTAAAGATGGCACTTGTGGCTTAGTAGAAGTTGAAAAAGGCGTTTTGCCTCAACTTGAACAGCCCTATGTGTTCATCAAACGTTCGGATGCTCGAACTGCACCTCATGGTCATGTTATGGTTGAGCTGGTAGCAGAACTCGAAGGCATTCAGTACGGTCGTAGTGGTGAGACACTTGGTGTCCTTGTCCCTCATGTGGGCGAAATACCAGTGGCTTACCGCAAGGTTCTTCTTCGTAAGAACGGTAATAAAGGAGCTGGTGGCCATAGTTACGGCGCCGATCTAAAGTCATTTGACTTAGGCGACGAGCTTGGCACTGATCCTTATGAAGATTTTCAAGAAAACTGGAACACTAAACATAGCAGTGGTGTTACCCGTGAACTCATGCGTGAGCTTAACGGAGGGGCATACACTCGCTATGTCGATAACAACTTCTGTGGCCCTGATGGCTACCCTCTTGAGTGCATTAAAGAC

In [37]:
# Parseo de la muestra de Washington:
with open("sequence (1).fasta") as fasta_file:
        parser = fastaparser.Reader(fasta_file)
        for seq in parser:
            # seq is a FastaSequence object
            print("ID: " + seq.id + "\n\nDescripción: " + seq.description + "\n\nSecuencia:\n" + seq.sequence_as_string())

washington = seq.sequence_as_string()

ID: MT293201.1

Descripción: Severe acute respiratory syndrome coronavirus 2 isolate SARS-CoV-2/human/USA/WA-UW-1611/2020, complete genome

Secuencia:
AACCTTTAAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAACTAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCGTCCGTGTTGCAGCCGATCATCAGCACATCTAGGTTTTGTCCGGGTGTGACCGAAAGGTAAGATGGAGAGCCTTGTCCCTGGTTTCAACGAGAAAACACACGTCCAACTCAGTTTGCCTGTTTTACAGGTTCGCGACGTGCTCGTACGTGGCTTTGGAGACTCCGTGGAGGAGGTCTTATCAGAGGCACGTCAACATCTTAAAGATGGCACTTGTGGCTTAGTAGAAGTTGAAAAAGGCGTTTTGCCTCAACTTGAACAGCCCTATGTGTTCATCAAACGTTCGGATGCTCGAACTGCACCTCATGGTCATGTTATGGTTGAGCTGGTAGCAGAACTCGAAGGCATTCAGTACGGTCGTAGTGGTGAGACACTTGGTGTCCTTGTCCCTCATGTGGGCGAAATACCAGTGGCTTACCGCAAGGTTCTTCTTCGTAAGAACGGTAATAAAGGAGCTGGTGGCCATAGTTACGGCGCCGATCTAAAGTCATTTGACTTAGGCGACGAGCTTGGCACTGATCCTTATGAAGATTTTCAAGAAAACTGGAACACTAAACATAGCAGTGGTGTTACCCGTGAACTCATGCGTGAGCTTAACGGAGGGGCATACACTCGCTATGTCGATAACAACTTCTGTGGCCCTGATGGCTACCCTCTTGAGTGCATTAAAGACCTTC

## 3. Análisis

#### 3.1 Longitud en pares de bases

In [39]:
# Caso de Wuhan
len(wuhan)

29903

In [40]:
# Caso de Washington
len(washington)

29846

#### 3.2 Primeros 25 nucleótidos

In [41]:
wuhan[:25]

'ATTAAAGGTTTATACCTTCCCAGGT'

In [42]:
washington[:25]

'AACCTTTAAACTTTCGATCTCTTGT'

#### 3.3 Buscar proteínas
Puedes buscar cualquier proteína del link: https://www.nytimes.com/interactive/2020/04/03/science/coronavirus-genome-bad-news-wrapped-in-protein.html

In [43]:
nsp1 = 'auggagagccuugucccugguuucaacgagaaaacacacguccaacucaguuugccuguuuuacagguucgcgacgugcucguacguggcuuuggagacuccguggaggaggucuuaucagaggcacgucaacaucuuaaagauggcacuuguggcuuaguagaaguugaaaaaggcguuuugccucaacuugaacagcccuauguguucaucaaacguucggaugcucgaacugcaccucauggucauguuaugguugagcugguagcagaacucgaaggcauucaguacggucguaguggugagacacuugguguccuugucccucaugugggcgaaauaccaguggcuuaccgcaagguucuucuucguaagaacgguaauaaaggagcugguggccauaguuacggcgccgaucuaaagucauuugacuuaggcgacgagcuuggcacugauccuuaugaagauuuucaagaaaacuggaacacuaaacauagcagugguguuacccgugaacucaugcgugagcuuaacggaggg'

In [45]:
# Reemplazo de uracilo por timina y conversión a uppercase
nsp = nsp1.replace('u', 't').upper()

In [50]:
# Caso Wuhan
if nsp in wuhan:
    print(f"La proteína se encuentra en la posición {wuhan.find(nsp)}") # Devuelve la posición
else:
    print("Proteína no encontrada")

La proteína se encuentra en la posición 265


In [51]:
if nsp in washington:
    print(f"La proteína se encuentra en la posición {washington.find(nsp)}")
else:
    print("Proteína no encontrada")

La proteína se encuentra en la posición 236


#### 3.4 Frecuencia de nucleótidos

In [52]:
# Se procede a realizar un diccionario por comprensión
freq = {b: wuhan.count(b)/len(wuhan) for b in "ATCG"}
freq

{'A': 0.29943483931378123,
 'T': 0.32083737417650404,
 'C': 0.18366050229074005,
 'G': 0.19606728421897468}