# Manejo de Secuencias con python

Una vez instalados python y biopython, vamos a utilizarlos para manejar las secuencias (también puede consultar el wiki de [biopython](https://biopython.org/wiki/Seq)). En python, un texto es una secuencia de cadena literal (*string*) y se puede manipular fácilmente, entonces para comenzar, vamos utilizar algunos de los ejemplos de la introducción a linux para entender cómo hacerlos con python. Los primeros ejemplos simples no requieren de librerías adicionales, funcionan con los comando básicos de python. Para esto entonces habra python (en su propio computador o en Apolo)

In [None]:
# En la terminal
python

In [None]:
# Dentro de python
# El comando print imprime el texto entre comillas
print("Hello world!")

In [None]:
# El mismo resultado se obtiene sumando las palabras y concatenando el texto
helloworld = 'Hello, ' + 'world!'
print(helloworld)

Como este texto es una lista ordenada de items, también puedo hallar la letra en una posición específica

In [None]:
# Imprime la primera posición de la lista (que en python compienza en 0)
print(helloworld[0])

# Imprime la segunda posición de la lista 
print(helloworld[1])

# Imprime la tercera posición de la lista 
print(helloworld[2])

El contrario de concatenar un texto es dividirlo entre sus componentes. Para esto se utiliza la función ``split()``. Esta función separa una lista en items.

In [None]:
# Divida el texto en sus items
print(helloworld.split())

La función ``len()`` puede dar la longitud de un texto, como la de una lista. Compare, por ejemplo, el resultado de los siguientes comandos para entender qué los hace diferentes.

In [None]:
len(helloworld)
len(helloworld.split())

Asímismo, los condicionales y bucles funcionan similar que en la terminal. Por ejemplo

In [None]:
## Condicionales lógicos
5 == 5
5 == 4
4 < 5

# El mismo ejemplo de la terminal de imprimir los número de 1-10 con for loop
for i in range(1,10):
    print(i)

# El mismo ejemplo de la terminal de imprimir los número de 1-10 con while loop
i = 1 
while i<10:
    print(i)
    i += 1

Ya que un genoma es una secuencia de texto, se puede manejar de forma similar. Para facilitar el código utilizamos la librería de Biopython que ya tiene implementadas funciones específicas para secuencias. 

Una vez dentro de python (y cada vez que ingresamos) debemos volver a llamar las librería y definir las variables. 
Cada vez que entramos a la terminal debemos activa el entorno de conda que creamos.

Para esta sección, entre a Apolo vía ssh o putty (previa conexión a Global Protect) y active el entorno virtual que contiene las librerías de Biopython

In [None]:
ssh lsalazarj@apolo.eafit.edu.co

In [None]:
#OJO: Su entorno virtual puede llamarse diferente
source activate python3.9
python

Vamos a utilizar los mismos comandos para manejar texto pero ahora utilizando secuencias

In [None]:
import Bio
from Bio.SeqRecord import SeqRecord
from Bio import SeqIO

# define una variable para abrir el archivo fasta como input
# recuerde que si abre python en otro directorio, debe dar la ruta completa donde está el archivo
dna_file = SeqIO.read('Sars_cov.dna.fa', "fasta")

# define una variable para la secuencia completa del covid
covid19_seq = dna_file.seq

# cuenta la longitud del genoma de covid
print(f'El genoma del virus que causa Covid-19 (SARS-CoV-2) consiste de {len(covid19_seq)} bases.')

El comando ``print`` imprime en la pantalla el texto literal (entre comillas '') y la función ``len()`` con el parámetro ``covid19_seq`` que definimos anteriormente. 
La ``f`` dentro de print es un prefijo que formatea la cadena literal (para más [información](https://docs.python.org/es/3/tutorial/inputoutput.html])).

En este caso nos da la longitud del genoma de covid que es de 29903 (el genoma humano está en la escala de miles de millones ó GB).

La variable ``covid19_seq`` es una lista ordenada de bases (string), es decir que la letra de cada posición se puede saber por su **índice**

In [None]:
# La primera posición empieza con el índice 0
covid19_seq[0]
# Segunda posición
covid19_seq[1]
# Las primeras 50 posiciones
covid19_seq[0:50]
# ó
covid19_seq[:50]
# Y de atrás para delante
covid19_seq[-50]

Ahora vamos a utilizar los bucles y condicionales para buscar el codón de inicio de transcripción para el genoma de covid19

In [None]:
# Define el codón de inicio
start_codon = 'AUG'

# Escanea la secuencia hasta encontrar el patrón
for i in range(len(covid19_seq)):
    if covid19_seq[i:i+3] == start_codon:
        print('The start codon starts at index', i)
        break
else:
    print('Codon not found in sequence.')

<div class="alert alert-block alert-info">
<b>Ejercicio</b> Escriba los comandos anteriores dentro de un script que busca el codón de inicio y ejecútelo vía otro script de *slurm*. Encontró el codón de inicio? </div>

Si no lo encotró probablmente es porque faltó un paso intermedio: transcribir el codón de DNA a RNA. Esto lo podemos hacer utilizando la función de biopython ``transcribe()``

In [None]:
covid_mRNA = covid19_seq.transcribe()

<div class="alert alert-block alert-info">
<b>Ejercicio</b> Vuelva a correr el script anterior para el RNA mensajero y verifique si la posición indicada si contiene el códon de inicio </div>