# Introducción a Python y Biopython

El proyecto de [Biopython](http://www.biopython.org) es una asociación internacional de desarrolladores del lenguaje [Python](https://www.python.org) con aplicación a biología molecular computacional. Es de libre acceso y está muy bien documentado, para mayor profundidad consulte el [Recetario de Biopython](http://biopython.org/DIST/docs/tutorial/Tutorial.html). Para la instalación y requisitos consultar https://github.com/biopython/biopython/blob/master/README.rst

# Instalación de Python con Conda
Conda es un gestor de programas que permite descargar de forma ordenada las librerías para un programa y tener múltiples versiones de este. Vamos a usar [conda](https://conda.io/projects/conda/en/latest/user-guide/getting-started.html#managing-python), un paquete que ayuda a gestionar las instalaciones con múltiples ambientes y versiones. Vamos a crear un ambiente ([environment](https://conda.io/projects/conda/en/latest/user-guide/tasks/manage-environments.html#activating-an-environment)) llamado *biopython*, y allí vamos a instalar las librerías que necesitamos.

In [None]:
conda create --name biopython python=3.9 #este último parámetro depende de la versión que funcione

Ahora activamos el entorno que creamos para instalar los programas

In [None]:
conda list #listar los paquetes instalados
conda activate biopython
conda install -c conda-forge biopython
conda info --envs #chequear los ambientes y sus nombres

Ahora podemos "entrar" a python

In [None]:
python

python funciona muy bien para trabajar con texto **strings*

In [None]:
print("Hello world!")

Y también funciona como una calculadora básica

In [None]:
3 + 5 * 4

### Funciones y tipo de datos
Normalmente trabajaremos con funciones que están compuestas por caracteres ("strings"), números enteros ("integer numbers") y números con decimales  (floating point numbers)

In [None]:
peso_kg = 3 + 5 * 4
print(peso_kg) #imprime la función
print("peso_kg") #imprime los caracteres en "string"
print(type(peso_kg))
print(type("peso_kg"))
#por cierto esto es un comentario y por lo tanto no se ejecuta

paciente_id = '001' # este es un número en formato de texto
print('el paciente', paciente_id, 'tiene un peso en kilogramos de:', peso_kg)

# y podemos combinar aritmética con variables dentro de la función pirnt():
print('el paciente', paciente_id, 'tiene un peso en libras de:', 2.2*peso_kg)

### For loop
El foor loop funciona similar al que habíamos visto en la terminal de linux. Para comenzar definimos una lista (``[]``), que es un conjunto ordenado de ítems **empezando desde 0**

In [None]:
impares = [1, 3, 5, 7]
print(impares[0])
print(impares[1])
print(impares[2])
print(impares[3])

Después iteramos sobre esa lista  con una tarea:

In [None]:
# Variante1
for num in impares:
    print(num)

# Variante2
for i in range(0,len(impares)):
    print(impares[i])


In [None]:
Podemos incluir un condicional ``if`` (acompañado de ``==``) para incluir solo un item y excluir el resto

In [None]:
tres=3
for num in impares:
    if num == tres:
        print(num)



<div class="alert alert-block alert-warning">
<b>Nota:</b> La indentación (la sangría jerárquica luego de una declaración) es muy importante en Python. Si no se respeta, el programa arroja un error  </div>


<div class="alert alert-block alert-info">
<b>Ejercicio</b> Incluya un condicional en la variante 2 del foor loop para imprimir solo el número 3   </div>

## Biopython

Es una colección de modulos con funciones predeterminadas que nos sirven para analizar secuencias y datos de biología molecular

In [None]:
import Bio
print(Bio.__version__)

Si sale un error después de llamar Biopython, la instalación fue defectuosa. De lo contrario, está bien por el momento y empezamos a trabajar con secuencias. 

### Secuencias
Aunque una secuencia es un conjunto de letras, biopython tiene un formato especial para definir una secuencia

In [None]:
from Bio.Seq import Seq

my_seq = Seq("AGTACACTGGT")
my_seq
my_seq.complement()
my_seq.reverse_complement()

para salir de python escribimos

In [None]:
quit()

Un recordatorio de la síntesis de proteínas

<img src="protein_synth.png" width=400 height=400 />

## Formato Fasta de Secuencias
Existen diferente tipos de formatos para almacenar datos biólogicos, según su naturaleza. Estos formatos son formas estandarizadas que permiten codificar la información de manera simplificada. Muchos de estos formatos son en texto plano, y por lo tanto se pueden visualizar en editores como Notepad++ (Windows) o Sublime Text (Mac). Para el almacenamiento de secuencias se utilizan principalmente dos tipos de formato: FASTA y FASTQ

<figure>
<img src="fasta.png" />

Vamos a crear un folder para esta clase y a copiar las secuencias descargardas anteriormente de DNA y de proteínas en formatos fasta

In [None]:
mkdir biocomp_python
cp /home/path-to-sequence/sars_covid19/Sars_cov.dna.fa . 
cp /home/path-to-sequence/Sars_cov.prot.fa . 

## El virus COVID-19

El genoma del virus [SARS-CoV-2](https://es.wikipedia.org/wiki/SARS-CoV-2) está formado por una sola cadena de ARN. Esta cadena condifica para unas pocas proteínas, que son responsables de infectar al hospedero y utilizar su maquinaria enzimática para síntetizar las proteínas del virus y así cumplir su ciclo de vida. Las proteínas virales son generalmente componentes estructurales: envoltura, espícula y membranas. La proteína de la [espícula](https://www.nature.com/articles/s41401-020-0485-4) (S) juega un papel fundamnetal en el reconocimiento del receptor y fue crucial para el diseño de las [vacunas](https://www.frontiersin.org/journals/immunology/articles/10.3389/fimmu.2021.701501/full).

<figure>
<img src="covid_spike.png"/>

In [None]:
from Bio import SeqIO

dna_file = "Sars_cov.dna.fa"

for record in SeqIO.parse(dna_file, "fasta"):
    print(record)


La función SeqIO.parse abre el archivo **input_file** y lo intepreta como un archivo fasta. Como solo hay una secuencia, el for loop solo itera una vez y muestra ("print") los atributos de la secuencia. Compárelo con el archivo fasta para entender que significa cada línea.

Ahora vamos a extraer la secuencia y calcular su tamaño

In [None]:
for record in SeqIO.parse(dna_file, "fasta"):
    print(record.seq)
    print(len(record.seq))

De manera similar se hace con un archivo de múltiples secuencias, por ejemplo el archivo de proteínas.
Repita la copia de archivo como se hizo anteriormente, con el de las proteínas.
Ahora vamos a iterar sobre las secuencias del archivo "Sars_cov.pep.fa" y a desplegar los identificadores

In [None]:
prot_file = "Sars_cov.prot.fa"

for record in SeqIO.parse(prot_file, "fasta"):
    print(record.id)

Cuantas secuencias contiene el archivo? Vamos a imprimir su id, su tamaño y su descripción:

In [None]:
for record in SeqIO.parse(prot_file, "fasta"):
    print(record.id,len(record.seq),record.description)