# Introducción rápida a *Python* para Biotecnólogos

#### Laboratorio de Bioinformática
Grado en Biotecnología - *Universidad de Zaragoza*

## Estructuras de control

Un programa se ejecutará en el orden en que se escriban las instrucciones. Sin embargo, es bastante común desviarse de este comportamiento para llegar a soluciones más complejas.

- Con *condicionales* puedes decidir si una parte del programa se ejecuta o no.
- Con *ciclos* puedes repetir una parte del programa un número determinado de veces.
- Con *funciones* puedes crear sub-programas que puedan ser llamados desde otros puntos del programa y ser reutilizados.

## Condicional: **if**

Una instrucción condicional determina si un determinado bloque de código se va a ejecutar o no según una condición que le demos.

Se inician con el comando especial `if`, seguido de la expresión a evaluar y dos puntos `:`. El bloque de código que se ve afectado se escribe indentado. (Con 2 o 4 espacios iniciales).

In [None]:
if 7 > 4:
    print("Pues es verdad")

Podemos encadenar varias condicionales para hacer diferentes cosas en funcion de qué sea verdadero. Para ello utilizaremos `elif` de igual manera que usabamos `if`.

Tambien podemos usar simplemente `else` si no se comple ninguna de las condiciones anteriores.

In [None]:
base_n = "T"

if base_n == "C" or base_n == "T":
    print("Pirimidina")
elif base_n == "A" or base_n == "G":
    print("Purina")
else:
    print("No es una base nitrogenada")

## Bucles: **for** / **while**

Cuando una operación tiene que ser ejecutada multiples veces, en vez de escribir código repetitivo a mano (o copar y pegarlo) lo mismo muchas veces, podemos utilizar un *bucle*. Así, el trozo de código que esté afectado (indentado) se repetirá según le indiquemos:

Si un bucle empieza por `for`, se ejecuta una vez por cada elemento de una lista que le pasemos. El valor que tenga en cada iteración será asignado a una variable. 

In [None]:
dnaSequence = 'ATGGTGTTGCC'

for base in dnaSequence:
    print(base)

Si por el contrario el bucle empieza por `while`, se ejecuta mientras la condición que le pasemos sea verdadera.

In [None]:
res = 1
while res < 50:
    res = res * 2

print(res)

Si por agún motivo queremos cambiar el comportamiento del bucle a mitad de ejecución, podemos utilizar `break` para salir inmediatamente o `continue` para saltar a la siguiente iteración, sin ejecutar el código que esté debajo.

In [None]:
# cuenta el numero de citosinas pero no de timinas, acaba cuando encuentra otra cosa

seq = 'CTCCTCTTGCTC'

n = 0
for base in seq:
    if base == 'C':
        n = n + 1
    elif base == 'T':
        continue
    else:
        break

print(n)

Cuando trabajamos con bucles, una de las funciones mas útiles vuelve a ser `range()`, para iterar sobre un rango de números concreto.

In [None]:
for i in range(0, 10):
    print(i)

## Funciones

Hasta ahora hemos visto y utilizado funciones disponibles en *python*, pero tambien podemos crear nuestrar propias funciones. Definimos el nombre de la nueva función con la palabra reservada `def` y delimitamos una lista de argumentos separados por comas que le podremos pasar. El código que esté indentado debajo se ejecutará cada vez que llamemos a la nueva funcion con sus argumentos entre parentesis.

Si queremos el la funcion devuelva un valor al final de la ejecución, podemos utilizar la palabra reservada `return` para indicarlo.


In [None]:
def codon_stop(base1, base2, base3):
    if base1 == 'T' and base2 == 'A' and base3 == 'A' or \
       base1 == 'T' and base2 == 'A' and base3 == 'G' or \
       base1 == 'T' and base2 == 'G' and base3 == 'A':
        return True
    else:
        return False


seq = "ATGGCCATTGTAATGCGCCGCTGAAAGGGTGCCCGATAGAATTCGATCCTG"

# donde se encuentra el codon stop?
for i in range(len(seq)):
    if codon_stop(seq[i], seq[i + 1], seq[i + 2]):
        print(n)
        break


### Ejercicio recopilatorio: **Ribosoma**

Utilizando la funcion `traductor` que hay a continuacion, escribe otra funcion llamada `ribosoma` que reciba una cadena de ADN y devuelva la cadena de aminoácidos correspondiente.

Ten en cuenta que la secuencia de ADN propuesta como ejemplo ya empieza con un codón codificante pero no se sabe donde está el codón terminal.

In [None]:
def traductor(base1, base2, base3):
    g_code = {"TTT":"F", "TTC":"F", "TTA":"L", "TTG":"L",
              "TCT":"S", "TCC":"S", "TCA":"S", "TCG":"S",
              "TAT":"Y", "TAC":"Y", "GGA":"G", "GGG":"G",
              "TGT":"C", "TGC":"C", "TGG":"W", "GGC":"G",
              "CTT":"L", "CTC":"L", "CTA":"L", "CTG":"L",
              "CCT":"P", "CCC":"P", "CCA":"P", "CCG":"P",
              "CAT":"H", "CAC":"H", "CAA":"Q", "CAG":"Q",
              "CGT":"R", "CGC":"R", "CGA":"R", "CGG":"R",
              "ATT":"I", "ATC":"I", "ATA":"I", "ATG":"M",
              "ACT":"T", "ACC":"T", "ACA":"T", "ACG":"T",
              "AAT":"N", "AAC":"N", "AAA":"K", "AAG":"K",
              "AGT":"S", "AGC":"S", "AGA":"R", "AGG":"R",
              "GTT":"V", "GTC":"V", "GTA":"V", "GTG":"V",
              "GCT":"A", "GCC":"A", "GCA":"A", "GCG":"A",
              "GAT":"D", "GAC":"D", "GAA":"E", "GAG":"E",
              "GGT":"G"}
    return g_code[base1+base2+base3]


seq = "ATGGCCATTGTAATGCGCCGCTGAAAGGGTGCCCGATAGAATTCGATCCTG"


In [None]:
#@markdown Resultado de la funcion `ribosoma`

def ribosoma(sequence):
    proteina = ""
    for i in range(0, len(seq), 3):
        if codon_stop(sequence[i], sequence[i+1], sequence[i+2]):
            break
        else:
                proteina = proteina + traductor(sequence[i], sequence[i+1], sequence[i+2])
    return proteina

print(ribosoma(seq))


## Módulos

Uno de los motivos por los que *Python* es tan popular y poderoso es gracias a la posibilidad de utilizar módulos de forma sencilla. ([xkcd](xkcd.com/353) relevante)

Dentro de un programa podemos *importar* y usar sus funciones y métodos directamente. Esto nos da la posibilidad de reutilizar cualquier código y que no importe cuato de complejo sea lo que hay detrás, casi siempre podremos utilizarlo facilmente.

Aparte de usar un módulos que nosotros hayamos escrito, existe el repositorio oficial [PyPi](https://pypi.org/) donde gente de la comunidad puede publicar sus propios módulos que podremos instalar libremente. Entre los mas populares están:
- [numpy](https://numpy.org/) - Matemáticas y cálculo númerico. Nos permite trabajar con matrices, vectores y mucho más.
- [scipy](https://www.scipy.org/) - Cálculo de ecuaciones diferenciales y matematica compleja.
- [pandas](https://pandas.pydata.org/) - Dataframes, analisis y estadística.
- [matplotlib](https://matplotlib.org/) - Gráficos.
- [biopython](https://biopython.org/) - Bioinformática.

Para descargar e instalar un módulo desde un Jupyter notebook, utilizamos el comando `!pip install <nombre_del_modulo>`.

In [None]:
!pip install biopython

Para importar un módulo, utilizamos la palabra `import` seguida del nombre del módulo. Si no queremos importar todas las funciones del módulo, podemos solo lo que queremos usar com `from`.

In [None]:
import numpy
from Bio.Seq import Seq

dna_seq = Seq(seq)
aa_seq = dna_seq.translate(to_stop=True)
print(aa_seq)