# Introducción a Biopython

El proyecto de [Biopython](http://www.biopython.org) es una asociación internacional de desarrolladores del lenguaje [Python](https://www.python.org) con aplicación a biología molecular computacional. Es de libre acceso y está muy bien documentado, para mayor profundidad consulte el [Recetario de Biopython](http://biopython.org/DIST/docs/tutorial/Tutorial.html). Para la instalación y requisitos consultar https://github.com/biopython/biopython/blob/master/README.rst

# Instalación de Biopython en Apolo
Una introducción del servidor de EAFIT Apolo se encuentra [aquí](https://apolo-docs.readthedocs.io/en/latest/). 
Entre a Apolo por vía de putty o una terminal de linux (ya sea wsl o cygwin), previo inicio del Global Protect

In [None]:
ssh lsalazarj@apolo.eafit.edu.co


Ahora vamos usar [conda](https://conda.io/projects/conda/en/latest/user-guide/getting-started.html#managing-python), un paquete que ayuda a gestionar las instalaciones con múltiples ambientes y versiones. Vamos a crear un ambiente ([environment](https://conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html#activating-an-environment)) llamado *biopython*, y allí vamos a instalar las librerías que necesitamos.

In [None]:

module load python/3.10_miniconda-23.5.2
conda create -n biopython
conda activate biopython
conda install -c conda-forge biopython

Estos comandos instalan una versión por defecto que a veces no funciona. Para especificar la versión que uno quiere (por ejemplo biopython compatible con python3.9 en vez 3.11)

In [None]:
conda create -n biopython_py3.9 python=3.9
conda activate biopython_py3.9
conda install -c conda-forge biopython

Debemos salir y volver a entrar a apolo para chequear la instalación. Una vez realizamos el login, activamos el ambiente de biopython y comenzamos python

La siguiente vez que entran, ya instalado el ambiente hay que cargar el ambiente y activarlo

In [None]:

source activate biopython

In [None]:

python

In [None]:
import Bio
print(Bio.__version__)

Si sale un error después de llamar la instalación fue defectuosa. De lo contrario, está bien por el momento y empezamos a trabajar con secuencias. 

## Secuencias
Aunque una secuencia es un conjunto de letras, biopython tiene un formato especial para definir una secuencia

In [None]:
from Bio.Seq import Seq
my_seq = Seq("AGTACACTGGT")
my_seq
my_seq.complement()
my_seq.reverse_complement()

Un recordatorio de la síntesis de proteínas

<img src="protein_synth.png" />

## Formato Fasta de Secuencias
Existen diferente tipos de formatos para almacenar datos biólogicos, según su naturaleza. Estos formatos son formas estandarizadas que permiten codificar la información de manera simplificada. Muchos de estos formatos son en texto plano, y por lo tanto se pueden visualizar en editores como Notepad++ (Windows) o Sublime Text (Mac). Para el almacenamiento de secuencias se utilizan principalmente dos tipos de formato: FASTA y FASTQ

<figure>
<img src="fasta.png" />

# Descargar y copiar archivos entre pc al servidor

Vamos a descargar la secuencias de DNA y la de proteínas de uno de los ensamblajes del virus del COVID-19 en formatos fasta

In [None]:
wget http://ftp.ensemblgenomes.org/pub/viruses/fasta/sars_cov_2/dna/Sars_cov_2.ASM985889v3.dna_rm.toplevel.fa.gz 
wget http://ftp.ensemblgenomes.org/pub/viruses/fasta/sars_cov_2/pep/Sars_cov_2.ASM985889v3.pep.all.fa.gz

Descomprima los archivos para evaluar su contenido

In [None]:
gunzip *.gz

el "*" indica que lo haga para todos los archivos que estan comprimidos (.gz)

Para guardar una copia de estos archivos en su PC, puede utilizar WinSCP o abrir una terminal en el PC donde quiera guardar el archivo y darle el comando:

In [None]:
scp lsalazarj@apolo.eafit.edu.co:/home/laura/clase_biopy/Sars_cov_2.ASM985889v3.pep.all.fa.gz .

esto significa "save copy (scp) desde usuario@servidor:/folder/archivo aquí (.)" Ahora usted tiene copia de estos archivos en su PC. Ahora volvamos a Apolo

In [None]:
from Bio import SeqIO

dna_file = "Sars_cov_2.ASM985889v3.dna_rm.toplevel.fa"

for record in SeqIO.parse(dna_file, "fasta"):
    print(record)


La función SeqIO.parse abre el archivo **input_file** y lo intepreta como un archivo fasta. Como solo hay una secuencia, el for loop solo itera una vez y muestra ("print") los atributos de la secuencia. Compárelo con el archivo fasta para entender que significa cada línea.

Ahora vamos a extraer la secuencia y calcular su tamaño

In [None]:
for record in SeqIO.parse(dna_file, "fasta"):
    print(record.seq)
    print(len(record.seq))


<div class="alert alert-block alert-warning">
<b>Nota:</b> La indentación (la sangría jerárquica luego de una declaración) es muy importante en Python. Si no se respeta, el programa arroja un error  </div>

De manera similar se hace con un archivo de múltiples secuencias, por ejemplo el archivo de proteínas.
Repita la copia de archivo como se hizo anteriormente, con el de las proteínas.
Ahora vamos a iterar sobre las secuencias del archivo "Sars_cov.pep.fa" y a desplegar los identificadores

In [None]:
prot_file = "Sars_cov_2.ASM985889v3.pep.all.fa"

for record in SeqIO.parse(prot_file, "fasta"):
    print(record.id)

En este archivo hay 12 proteínas de diferentes tamaños y con funciones distintas. Vamos a imprimir su id, su tamaño y su descripción. Estos comando se pueden guardar dentro de un script de python utilizando uno de los editores (vi, nano, etc)

In [None]:
vi covid19_seqs.py

y se copian los comandos 

In [None]:
# Script por Laura Salazar Jaramillo
# Muestra información de las secuencias de SARS-covid 19

# Importamos las librerías necesarias

import Bio
from Bio import SeqIO
from Bio.Seq import Seq

# Archivos de entrada (inputs)
dna_file = "/home/lsalazarj/bicomp2024-2/Sars_cov_2.ASM985889v3.dna_rm.toplevel.fa"
prot_file = "/home/lsalazarj/bicomp2024-2/Sars_cov_2.ASM985889v3.pep.all.fa"


# Listamos el tamano del genoma
for record in SeqIO.parse(dna_file, "fasta"):
    print("La longitud en nc del genoma es:",len(record.seq))

# Listamos los id y longitudes de las proteínas
for record in SeqIO.parse(prot_file, "fasta"):
    print(record.id,len(record.seq),record.description.split()[9])

## Escribir un script de python y ejecutar en Apolo  
Como se explicó durante la introducción de Apolo, el servidor está diseñado para correr los trabajos por vía de script. Es decir que todo lo que hicimos dentro de python lo debemos guardar en un script  y correrlo con el comando ``python script.py``. Este último comando no se escribe directamente en la terminal, sino que se guarda dentro de un script *slurm* (con extensión .sh)

In [None]:
#!/bin/bash

#SBATCH --partition=learning                   # Partition (estudiantes)
#SBATCH --nodes=1
#SBATCH --ntasks=1                              # Number of tasks (processes)
#SBATCH --time=3:00                           # Walltime
#SBATCH --job-name=clase_python                 # Job name
#SBATCH --output=%x_%j.out                      # Stdout (%x-jobName, %j-jobId)
#SBATCH --error=%x_%j.err                       # Stderr (%x-jobName, %j-jobId)
#SBATCH --mail-type=ALL                         # Mail notification
#SBATCH --mail-user=lsalazarj@eafit.edu.co       # User Email


##### ENVIRONMENT CREATION #####
source activate biopython

##### JOB COMMANDS #### 
python /home/lsalazarj/bicomp2024-2/covid19_seqs.py

Guardamos este archivo y lo ejecutamos con el comando

In [None]:
sbatch slurm_covid19seq.sh 

Para ver si la lista de prioridades le damos

In [None]:
squeue

Una vez el script termina de correr debe producir dos archivos: *.err* y *.out* que nos dan el output o los errores para generarlo

Para copiar los archivos desde Apolo al computador personal entre a la terminal del computador y copie el archivo con la ruta completa desde Apolo al directorio donde está (indicaod por ".") o a otro directorio indicándole la ruta completa

In [None]:
scp lsalazarj@apolo.eafit.edu.co:/home/laura/biopython/covid19_seqs.py .

<div class="alert alert-block alert-info">
<b>Ejercicio</b> 
Ejecute en Apolo el script de python via Slurm 
</div>