In [3]:
# Importamos los modulos
from Bio import Entrez
from Bio import SeqIO

# Configuramos el correo electronico
Entrez.email = "sofiaaylenyoung13@gmail.com"

# 1. Buscar el genoma completo de SARS-CoV-2 en NCBI
busqueda = "SARS-CoV-2[ORGN] AND complete genome"
handle = Entrez.esearch(db="nucleotide", term=busqueda, retmax=1)  
record = Entrez.read(handle)
handle.close()

# Obtenemos el ID del genoma
genoma_id = record["IdList"][0]
print(f"ID del genoma encontrado: {genoma_id}")

# 2. Descargamos la información del genoma usando el ID obtenido
handle = Entrez.efetch(db="nucleotide", id=genoma_id, rettype="gb", retmode="text")
genoma = SeqIO.read(handle, "genbank")
handle.close()

# 3. Mostramos información básica del genoma
print("\n--- Información del Genoma SARS-CoV-2 ---\n")
print(f"Nombre del genoma: {genoma.name}")
print(f"Descripción: {genoma.description}")
print(f"Tamaño de la secuencia: {len(genoma.seq)} bases")

# 4. Guardamos la secuencia en un archivo FASTA
nombre_archivo_fasta = "SARS-CoV-2_genoma.fasta"
with open(nombre_archivo_fasta, "w") as output_handle:
    SeqIO.write(genoma, output_handle, "fasta")

print(f"\nLa secuencia se guardó en el archivo: {nombre_archivo_fasta}")

# 5. Guardamos las anotaciones en un archivo de texto
nombre_archivo_anotaciones = "SARS-CoV-2_anotaciones.txt"
with open(nombre_archivo_anotaciones, "w") as anotaciones_handle:
    anotaciones_handle.write("=== Anotaciones globales del genoma ===\n\n")
    for key, value in genoma.annotations.items():
        anotaciones_handle.write(f"{key}: {value}\n")

print(f"\nLas anotaciones se guardaron en el archivo: {nombre_archivo_anotaciones}")

# 6. Confirmamos el contenido de los archivos 
print("\n--- Contenido del archivo FASTA ---\n")
with open(nombre_archivo_fasta, "r") as file:
    print(file.read())

print("\n--- Contenido del archivo de anotaciones ---\n")
with open(nombre_archivo_anotaciones, "r") as file:
    print(file.read())


ID del genoma encontrado: 2869624115

--- Información del Genoma SARS-CoV-2 ---

Nombre del genoma: PQ763671
Descripción: Severe acute respiratory syndrome coronavirus 2 isolate SARS-CoV-2/human/USA/MT-MTPHL-4163638/2024 ORF1ab polyprotein (ORF1ab), ORF1a polyprotein (ORF1ab), surface glycoprotein (S), ORF3a protein (ORF3a), envelope protein (E), membrane glycoprotein (M), ORF6 protein (ORF6), ORF7a protein (ORF7a), ORF7b (ORF7b), ORF8 protein (ORF8), nucleocapsid phosphoprotein (N), and ORF10 protein (ORF10) genes, complete cds
Tamaño de la secuencia: 29646 bases

La secuencia se guardó en el archivo: SARS-CoV-2_genoma.fasta

Las anotaciones se guardaron en el archivo: SARS-CoV-2_anotaciones.txt

--- Contenido del archivo FASTA ---

>PQ763671.1 Severe acute respiratory syndrome coronavirus 2 isolate SARS-CoV-2/human/USA/MT-MTPHL-4163638/2024 ORF1ab polyprotein (ORF1ab), ORF1a polyprotein (ORF1ab), surface glycoprotein (S), ORF3a protein (ORF3a), envelope protein (E), membrane glycopro