# Introducción rápida a *Python* para Biotecnólogos

#### Laboratorio de Bioinformática
Grado en Biotecnología - *Universidad de Zaragoza*

## Estructuras de control

Un programa se ejecutará siguiendo estrictamente el orden en que se escriben las instrucciones. Sin embargo, es bastante común desviarse para conseguir comportamientos más complejos.

- Con *condicionales* puedes decidir si una parte del programa se ejecuta o no.
- Con *ciclos* puedes repetir una parte del programa un número determinado de veces.
- Con *funciones* puedes crear sub-programas que puedan ser llamados desde otros puntos del programa.

## Condicional: **if**

Una instrucción condicional determina si un determinado bloque de código se va a ejecutar o no según una condición que le demos.

Se inician con el comando especial `if`, seguido de la expresión a evaluar y dos puntos `:`. El bloque de código que se ve afectado se escribe indentado. (Con 2 o 4 espacios iniciales).

In [None]:
if 7 > 4:
  print("Pues es verdad")

Si además queremos realizar una acción si no se cumple la condicion dada, podemos añadir un `else` después del `if`.

In [None]:
estructura = "globular"

if estructura == "globular":
  print("Es globular")
else:
  print("Será fibrilar")

Podemos encadenar varias condicionales para hacer diferentes cosas en funcion de qué sea verdadero. Para ello juntamos el `else`+`if` para generar un `elif`.

In [None]:
base_n = "T"

if base_n == "C" or base_n == "T":
  print("Pirimidina")
elif base_n == "A" or base_n == "G":
  print("Purina")
else:
  print("No es una base nitrogenada")

In [None]:
## Ejercicio: Escribe un programa que coja una secuencia de DNA y te diga si puede codificar un numero exacto de codones

seq = "ATGCTGATC"

## Bucles: **for** / **while**

Cuando una operación tiene que ser ejecutada multiples veces, en vez de escribir código repetido a mano (o copar y pegarlo), podemos utilizar un *bucle*. Así, el fragmento de código que esté afectado (indentado) se repetirá según le indiquemos.

Existen dos tipos de bucles principalmente, `for` y `while`, aunque el último es menos común en Python y no lo veremos en este curso.

Si un bucle empieza por `for`, se ejecuta una vez por cada elemento de un rango que le pasemos. El valor que tenga en cada iteración será asignado a una variable que le pasaremos delante de `in`.

In [None]:
for i in range(0, 10):
  print(i)

Además de iterar sobre un rango de números, podemos hacer un ciclo sobre una lista en la que en cada iteración le asignemos a nuestra variable un elemento.

In [None]:
seq = 'ATGGTGTTGCC'

for base in seq:
  print(base)

Si por agún motivo queremos cambiar el comportamiento del bucle a mitad de ejecución, podemos utilizar `break` para salir inmediatamente sin ejecutar el código que esté debajo. Para ello también podemos incluir condicionales dentro de un bucle.

In [None]:
for i in range(0, 10):
    print(i)
    if i == 5:
        break

In [None]:
## Ejercicio: cuenta el numero de citosinas que hay desde el principio hasta la primera guanina

seq = 'CTCCTCTTGCTC'

## Funciones

Hasta ahora hemos visto y utilizado funciones disponibles en *python*, pero tambien podemos crear nuestrar propias funciones. Definimos el nombre de la nueva función con la palabra reservada `def` y delimitamos una lista de argumentos separados por comas que le podremos pasar. El código que esté indentado debajo se ejecutará cada vez que llamemos a la nueva funcion con sus argumentos entre parentesis.

In [None]:
def print_cuadrado(n):
  print(n ** 2)

print_cuadrado(5)

Si queremos que, ademas de hacer algo, la funcion devuelva un valor al final de la ejecución, podemos utilizar la palabra reservada `return` para indicarlo. Esto es muy util para asignar nuevos valores a variables o evaluar expresiones condicionales.

In [None]:
def cuadrado(n):
    return n ** 2

var = cuadrado(5)
print(var)

In [None]:
## Ejercicio: escribe una funcion que acepte tres argumentos y devuelva True si es un codon de stop (TAA, TAG, TGA)

def codon_stop(base1, base2, base3):

Las funciones son especialmente útiles cuando tenemos un trozo de código que se va a repetir muchas veces, como por ejemplo en un bucle.

In [None]:
def codon_start(base1, base2, base3):
  codon = base1 + base2 + base3
  return codon == "ATG"


seq = "ACCATTTCTAAGGCCATTGTAATGCGCCGCTGAAATGGGTGCCCGATAGAATTCGATCCTG"

# ¿donde se encuentra el codon de inicio?
for i in range(len(seq)):
  if codon_start(seq[i], seq[i + 1], seq[i + 2]):
    print(i+1)
    break

### Ejercicio recopilatorio: **Ribosoma**

Utilizando la funcion `traductor` que hay a continuacion, escribe otra funcion llamada `ribosoma` que reciba una cadena de ADN y devuelva la cadena de aminoácidos correspondiente.

Ten en cuenta que la secuencia de ADN propuesta como ejemplo ya empieza con un codón codificante pero no se sabe donde está el codón terminal.

In [None]:
def traductor(base1, base2, base3):
  g_code = {"TTT":"F", "TTC":"F", "TTA":"L", "TTG":"L",
            "TCT":"S", "TCC":"S", "TCA":"S", "TCG":"S",
            "TAT":"Y", "TAC":"Y", "GGA":"G", "GGG":"G",
            "TGT":"C", "TGC":"C", "TGG":"W", "GGC":"G",
            "CTT":"L", "CTC":"L", "CTA":"L", "CTG":"L",
            "CCT":"P", "CCC":"P", "CCA":"P", "CCG":"P",
            "CAT":"H", "CAC":"H", "CAA":"Q", "CAG":"Q",
            "CGT":"R", "CGC":"R", "CGA":"R", "CGG":"R",
            "ATT":"I", "ATC":"I", "ATA":"I", "ATG":"M",
            "ACT":"T", "ACC":"T", "ACA":"T", "ACG":"T",
            "AAT":"N", "AAC":"N", "AAA":"K", "AAG":"K",
            "AGT":"S", "AGC":"S", "AGA":"R", "AGG":"R",
            "GTT":"V", "GTC":"V", "GTA":"V", "GTG":"V",
            "GCT":"A", "GCC":"A", "GCA":"A", "GCG":"A",
            "GAT":"D", "GAC":"D", "GAA":"E", "GAG":"E",
            "GGT":"G"}
  codon = base1 + base2 + base3
  return g_code[codon]

In [None]:
seq = "ATGGCCATTGTAATGCGCCGCTGAAAGGGTGCCCGATAGAATTCGATCCTG"

In [None]:
#@markdown Resultado de la funcion `ribosoma`

def ribosoma(sequence):
  proteina = ""
  for i in range(0, len(seq), 3):
    if codon_stop(sequence[i], sequence[i+1], sequence[i+2]):
      break
    else:
      nuevo_residuo = traductor(sequence[i], sequence[i+1], sequence[i+2])
      proteina = proteina + nuevo_residuo
  print(proteina)

ribosoma(seq)


## Módulos

Uno de los motivos por los que *Python* es tan popular y poderoso es gracias a la posibilidad de utilizar módulos de forma sencilla. (relevant [xkcd](xkcd.com/353))

Dentro de un programa podemos *importar* y usar sus funciones y métodos directamente. Esto nos da la posibilidad de reutilizar cualquier código y que no importe cuanto de complejo sea lo que hay detrás, casi siempre podremos utilizarlo facilmente.

Aparte de usar un módulos que nosotros hayamos escrito, existe el repositorio oficial [PyPi](https://pypi.org/) donde gente de la comunidad puede publicar sus propios módulos que podremos instalar libremente. Entre los mas populares están:
- [numpy](https://numpy.org/) - Matemáticas y cálculo númerico. Nos permite trabajar con matrices, vectores y mucho más.
- [scipy](https://www.scipy.org/) - Cálculo de ecuaciones diferenciales y matematica compleja.
- [pandas](https://pandas.pydata.org/) - Dataframes, analisis y estadística.
- [matplotlib](https://matplotlib.org/) - Gráficos.
- [biopython](https://biopython.org/) - Bioinformática.

Para descargar e instalar un módulo desde un Jupyter notebook, utilizamos el comando `!pip install <nombre_del_modulo>`.

In [None]:
!pip install biopython

Para importar un módulo, utilizamos la palabra `import` seguida del nombre del módulo. Si no queremos importar todas las funciones del módulo, podemos solo lo que queremos usar com `from`.

In [None]:
import numpy
from Bio.Seq import Seq

seq = "ATGGCCATTGTAATGCGCCGCTGAAAGGGTGCCCGATAGAATTCGATCCTG"

dna_seq = Seq(seq)
aa_seq = dna_seq.translate(to_stop=True)
print(aa_seq)
