# Ejercicio con secuencias en python

Vamos a utilizar los bucles y condicionales para buscar el codón de inicio de transcripción para el genoma de covid19

In [None]:
# Define el codón de inicio
start_codon = 'AUG'

# Escanea la secuencia hasta encontrar el patrón
for i in range(len(covid19_seq)):
    if covid19_seq[i:i+3] == start_codon:
        print('The start codon starts at index', i)
        break
else:
    print('Codon not found in sequence.')

Si no lo encotró probablmente es porque faltó un paso intermedio: transcribir el codón de DNA a RNA. Esto lo podemos hacer utilizando la función de biopython ``transcribe()``

In [None]:
covid_mRNA = covid19_seq.transcribe()

<div class="alert alert-block alert-info">
<b>Ejercicio</b> Vuelva a correr el script anterior para el RNA mensajero y verifique si la posición indicada si contiene el códon de inicio </div>

## Escribir secuencias en un archivo  
Con frecuencia estamos interesados en un subconjunto de los genes o proteínas para realizar un análisis a profundidad de ellos. En este caso vamos a seleccionar las glicoproteínas que son aquellas que codifican la espícula. Esta espícula ("spike") es la encargada de mediar la entrada del virus hacia el hospedero y tiene una tasa de mutación mas alta que los otros genes, lo que presumiblemente dió origen a cepas mas virulentas (https://en.wikipedia.org/wiki/Coronavirus_spike_protein). Para esto vamos a llamar al archivo de proteínas dentro de una variable. Recordemos que el archivo se puede llamar sin añadir la ruta completa si abrimos python dentro de la carpeta donde se encuentra el archivo. De lo contrario debemos darle la ruta

In [None]:
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

prot_file = "/Users/laura/docencia/eia/bioinfo/clase_python/Sars_cov.prot.fa"

for record in SeqIO.parse(prot_file, "fasta"):
    if (record.description.split()[9] == "glycoprotein"):
        print(record)

La descripción tiene mucha información importante pero esta no es muy clara, entonces vamos a extraer el fragmento que contiene la función. Para esto dividimos la descripción en items, utilizando la función ``split.()``. Esta función separa una lista en items. Por ejemplo, yo puedo descomponer mi nombre en las letras que lo componen:

In [None]:
for l in "laura":
    print(l.split())

Asímismo, se puede separar la descripción en las palabras que la componen. 

In [None]:
for record in SeqIO.parse(prot_file, "fasta"):
    print(record.description.split())

y luego le damos el número  del item de interés ``[]`` (es el item 9 pero python comienza a contar desde 0, entonces es el 8) 

In [None]:
from Bio.Seq import Seq
from Bio.SeqRecord import SeqRecord

for record in SeqIO.parse(prot_file, "fasta"):
    if (record.description.split()[9] == "glycoprotein"):
        print(record)

Hasta aquí hemos seleccionado las secuencias que contienen el término "glycoprotein". Para escribirlas en un archivo en un formato adecuado de secuencias vamos a utilizar la función de biopython  ``Bio.SeqIO.write()`` y a cambiar un poco el estilo. 

In [None]:
glycoproteins = (record for record in SeqIO.parse(prot_file, "fasta") if (record.description.split()[9] == "glycoprotein"))
SeqIO.write(glycoproteins, "sars_covid19_glycoproteins.fa", "fasta")

Donde eperas que esté el archivo? Chequéalo mirando el directorio actual ("get current working directory"). Verifica que si se haya generado con el nombre y formatos correctos, y la información que deseamos que contenga. 

In [None]:
import os

os.getcwd()
os.listdir()

Por último, vamos a escribir los comando que utilizamos en un script de python (con extensión ".py") para dejar registro de lo que hicimos y pueda ser repetible

In [None]:
#!/usr/local/bin/

# Script por Laura Salazar Jaramillo
# Genera un subconjunto de glicoproteinas de SARS-covid 19

# Importamos las librerías necesarias
import os
import sys

import Bio
from Bio import SeqIO
from Bio.Seq import Seq

# Archivos de entrada (inputs)
dna_file = "/home/lsalazarj/bicomp2024/Sars_cov.dna.fa"
prot_file = "Sars_cov.prot.fa"


# Listamos el tamano del genoma
for record in SeqIO.parse(dna_file, "fasta"):
    print("La longitud en nc del genoma es:",len(record.seq))

# Listamos los id y longitudes de las proteínas
for record in SeqIO.parse(prot_file, "fasta"):
    print(record.id,len(record.seq),record.description.split()[9])

# Seleccionamos las glicoproteínas y las guardamos en un archivo aparte
glycoproteins = (record for record in SeqIO.parse(prot_file, "fasta") if (record.description.split()[9] == "glycoprotein"))
SeqIO.write(glycoproteins, "sars_covid19_glycoproteins.fa", "fasta")

Este script se puede ejecutar en la terminal escribiendo los comandos

In [None]:
python glycoproteins.py > glycoproteins.out

Ahora vamos a trabajar con secuencias de Citocromo B desde: https://raw.githubusercontent.com/lauraalazar/BiologiaComputacional/main/CytBDNA.txt

1. Cree una carpeta que se llame citB_seqs
2. Entre a la carpeta
3. Copie o descargue desde allí las secuencias de Citocromo
4. Active los entornos de conda
5. Comience Python
6. Llame las librerías
7. Defina los archivos input
8. Realice un loop sobre las secuencias de DNA para imprimir los nombres de los ID y los tamaños del gen: qué tanto difieren?
9. Ahora viene el reto de la clase: Utilice las secuencias de DNA para hallar la secuencia de amino ácidos. 
11. Compare las secuencias obtenidas con las de proteínas: https://github.com/lauraalazar/BiologiaComputacional/blob/main/CytBProt.txt
12. Utilice la sección 3.8 del tutorial de [Biopython](https://biopython.org/DIST/docs/tutorial/Tutorial.html) y repita el punto 9