# Introducción al lenguaje de programación Python
El curso “Data Science for drug discovery” es una plataforma de aprendizaje autónomo dirigido a estudiantes e investigadores interesados en el desarrollo de herramientas biocomputaciones, desde Python, siendo este, el lenguaje de programación más empleado. Con el avance en las ciencias ómicas y las nuevas tecnologías se ha visto necesario adquirir habilidades informáticas aplicadas en las ciencias y el manejo de bases de datos biológicas.

Bienvenido a la introducción del curso “Data Science for drug discovery”, en la primera parte encontrara los fundamentos para comprender el lenguaje de programación de Python, está enfocado en la manipulación, extracción y análisis de datos provenientes de bases de datos biológicos (ómicos), partiendo desde lo conceptos básicos de programación y sus aplicaciones, con ejemplos basados en manipulación de secuencias de DNA.
## Contenidos
En este primer Jupyter notebook de *Python_basic* aprenderá:
1. Introducción a Python.
2. Variables.
3. Tipos de datos
4. Tipos de arreglos
5. Cargar archivos
6. Manipulación de strings
7. Estructuras de control de flujo
8. Funciones

# Resultados del aprendizaje
Se espera que al finalizar este curso el estudiante pueda:
1.	Entender los conceptos básicos del lenguaje de programación de Python
2.	Comprender los formatos de variables:
    -	Qué son
    -	Las asignaciones
    -	Las operaciones básicas.
3.	Comprender los usos y los tipos de datos:
    -	Numéricos
    -	Booleano
    -	Texto
    -	Arreglos
4.	Identificar los tipos de arreglos y su uso:
    -	Listas
    -	Tuplas
    -	Conjuntos
    -	Diccionarios
5.	Cargar y modificar archivos en diferentes formatos y tamaños, visualizarlos, analizarlos, leerlos y escribir sobre ellos.
6.	Manejar las estructuras de control de flujo básicas:
    -	Condicionales
    -	Iteraciones.
7.	Comprender las herramientas de Python que se pueden emplear en la biología.

# Teoría: conceptos básicos

## Variables

Una variable es una referencia a un valor en la memoria del computador, en donde se pueden almacenar diferentes **tipos de datos**. Por lo general se asignan valores a nombres de variables, un ejemplo de esto es: `texto = "hola mundo"`, `texto` es el nombre de la variable y hace referencia a `hola mundo` el cual seria el valor de la variable, y en el ejemplo anterior se utilizo el operador `=`, luego la operación que se realizó fue de asignación. A esto se le conoce como una expresión de asignación.

Por lo general es el programador del software quien le asigna un nombre de variable que sea fácil de recordar y utilizar en el programa. Es importante saber que el nombre de las variables no puede comenzar por un número y distinguen entre mayusculas y minúsculas, además no se puede incluir espacios.

La siguiente tabla muestra algunos de los datos que se pueden trabajar en Python:

### Tipos de datos nativos de Python

| Nombre en Inglés          | Nombre del tipo  | Categoria  | Descripción                                   | Ejemplo                                   |
| :-------------------- | :--------- | :------------- | :-------------------------------------------- |:------------------------------------------|
| integer               | `int`      | Númerico  | Enteros positivos/negativos               |                                           |
| floating point number | `float`    | Númerico   | Números reales en forma décimal                  |                                           |
| boolean               | `bool`     | Lógico | Verdadero ó Falso                                 |                                           |
| string                | `str`      | Cadena  | Texto                                          |                                           |
| list                  | `list`     | Secuencia  | Una colección de objetos ordenada y mutable   |                                           |
| tuple                 | `tuple`    | Secuencia  | Una colección de objetos ordenada y inmutable |                                           |
| dictionary            | `dict`     | Mapa   | Mapa de pares de objetos                    |                                           |
| none                  | `NoneType` | Nulo    | Representa ningun valor                           | `None`                                    |

## Tipos de datos

### Datos tipo: numéricos

Hay tres tipos de datos numéricos, aquí trabajaremos generalmente con dos de ellos: `enteros` y `punto flotante` (`float`). La función `type()` nos ayuda a determinar el tipo de un objeto en Python

* **Enteros (int)**: son números enteros positivos o negativos
* **Punto flotante (float)**: son números reales en su forma decimal
si un número entero se define con punto decimal, por ejemplo: 1.0, este será alamacenado tipo flotante

In [124]:
#[caramirez] mejorar ejemplo
# Ejemplo Entero
entero_1 = 1236
flotante_1 = 123.215
flotante_2 = 1236.0

print("El tipo de la variable entero_1 es: " + str(type(entero_1)))
print("El tipo de la variable flotante_1 es: " +  str(type(flotante_1)))
print("El tipo de la variable flotante_2 es: " + str(type(flotante_2)))

El tipo de la variable entero_1 es: <class 'int'>
El tipo de la variable flotante_1 es: <class 'float'>
El tipo de la variable flotante_2 es: <class 'float'>


#### Operaciones aritmeticas
| Símbolo |   Descripción   |
|:-------:|:---------------:|
|   `+`   |     adición     |
|   `-`   |  substracción   |
|   `*`   | multiplicación  |
|   `/`   |    división     |
|  `**`   |    potencia     |
|  `//`   | división entera |
|   `%`   |     módulo      |

*Observación*: En adelante trabajaremos con los `f-strings` que permiten hacer líneas cortas de texto con variables integradas. Más información en: [f-strings](https://platzi.com/blog/f-strings-en-python/?utm_source=google&utm_medium=cpc&utm_campaign=12915366154&utm_adgroup=&utm_content=&gclid=Cj0KCQjw3IqSBhCoARIsAMBkTb2p5ZOBtPtlGG2B7P0qrtnp8Wwvbgd2OY_F3_P-6OOU1YE_QHHCMaYaAnTaEALw_wcB&gclsrc=aw.ds), [f-strings](https://peps.python.org/pep-0498/)


In [112]:
# Ejemplo operaciones con números enteros
x = 10
y = 5

print(f'La suma de dos números enteros es un entero, por ejemplo: {x + y}')

# Ejemplo operaciones con números reales en su forma décimal
x = 10.0
y = 5.0

print(f'La suma de dos números de tipo flotantes da como resultado un número flotante, por ejemplo: {x + y}')

# Ejemplo operaciones con números reales y enteros
x = 10
y = 5.0

# Notesé como el interprete de Python le da relevanciá a los tipos float sobre los tipos int.
print(f'La suma un entero y un flotante es un flotante, por ejemplo: {x + y}')


La suma de dos números enteros es un entero, por ejemplo: 15
La suma de dos números de tipo flotantes da como resultado un número flotante, por ejemplo: 15.0
La suma un entero y un flotante es un flotante, por ejemplo: 15.0


En los cuadernos `Jupyther` (versión interactiva de Python), la última línea de la celda será mostrada automáticamente. Esto quiere decir que no siempre será necesario utilizar la función `print()`

In [114]:
#Ejemplo
x = 10.
y = 5

x + y

15.0

### Datos tipo: Booleano (bool)
El tipo de dato (`bool`) tiene únicamente dos valores, verdadero: `True` o falso: `False`

### Datos tipo: texto (String)
Los strings ó cadenas de texto, se denotan como <code>str</code> y son una secuencia de símbolos que pueden incluir letras mayúsculas y minúsculas, números, signos de puntuación y espacios.

Existen tres formas de representar este tipo de datos, cualquiera de ellas es valida y no afecta el código:
* **Entre comillas sencillas:** 'Donepezil'
* **Entre comillas dobles:** "Donepezil"
* **Entre tres comillas sencillas o tres comillas cobles:** '''Donepezil''' o """Donepezil""" *(Sé usa principalmente para definir cadenas de textos en múltiples lineas)*

In [12]:
# Ejemplo
texto = 'Hola mundo'
print(f'texto= {texto}')

texto= Hola mundo


#### Métodos de String
Hay varios operadores en el lenguaje de Python que permite manipulas los datos de los String mediante operaciones en las que se devuelven los valores sin cambiar la cadena. 

Entre las que se encuentran:
* <code>.replace()</code>: sustituye en el string un valor especifico por otro.
* <code>.split()</code>: divide el string en subcadenas según el parámetro establecido
* <code>.find()</code>:  Busca en el string un valor específico y evidencia la posición en la que se encuentra

In [37]:
# Ejemplo de definiciones de variables tipo string, con comillas, sencillas, dobles y triples.
texto = "Hola mundo, comillas doble"
print(f'Texto(Comillas Dobles)= {texto}')

texto = 'Hola Mundo, comillas sencillas'
print(f'Texto(Comillas Sencillas)= {texto}')

texto = """Hola mundo, triple comilla doble"""
print(f'Texto(Triple Comilla Doble)= {texto}')

texto = '''Hola mundo, triple comilla sencilla'''
print(f'Texto(Triple Comilla Sencillas)= {texto}')

# En caso de incluir carácteres especiales como ', Python arrojaria un error, estos se pueden escapar con el carácter especial \
texto = 'Error de string \' por la comilla'

# En caso de ser necesario los strings se pueden definir en multiples lines como el siguiente
texto_multilinea = """Este texto es multilinea
por que posee diferentes lines
para ello se imprime
"""
print(f'Texto multiline= {texto_multilinea}')

#Existen diferentes formas de manipular un string, una de ellas es por indexación
texto = "Texto para manipular"
print(f'Extarer la palabra para del texto: {texto[6:10]}') #Del principio al final
print(f'Extarer la palabra para del texto: {texto[-14:-9]}') #Del final al principio

#Tambien se puede revisar si una cadena de carácteres esta presente en un string
print(f'Será que ara esta en texto? {"ara" in texto}')

# Los string poseen diferentes métodos para su manipulación como lo son replace, split, find entre otros.
print(f'Reemplazar Hola por Hi: {texto.replace("Hola", "Hi")}')
print(f'Retornar una lista a partir de la cadena de texto: {texto.split(" ")}')
print(f'Encontrar la palabra la en texto: {texto.find("la")}')


Texto(Comillas Dobles)= Hola mundo, comillas doble
Texto(Comillas Sencillas)= Hola Mundo, comillas sencillas
Texto(Triple Comilla Doble)= Hola mundo, triple comilla doble
Texto(Triple Comilla Sencillas)= Hola mundo, triple comilla sencilla
Texto multiline= Este texto es multilinea
por que posee diferentes lines
para ello se imprime

Extarer la palabra para del texto: para
Extarer la palabra para del texto: para 
Será que ara esta en texto? True
Reemplazar Hola por Hi: Texto para manipular
Retornar una lista a partir de la cadena de texto: ['Texto', 'para', 'manipular']
Encontrar la palabra la en texto: 17


### Datos tipo: Arreglos
Las listas, tuplas, diccionarios y conjuntos se emplean para almacenar varios elementos en una misma variable. Dichos tipos de datos tienen las siguientes propiedades: 

* **Listas (List):** los elemetos tienen orden modificable, se pueden hacer modificaciones y pueden haber duplicados, además están indexados
* **Tuplas (Tuple):** los elementos tienen un orden y no se pueden cambiar, agregar o eliminar una vez creada la tupla, además pueden hacer duplicados
* **Conjuntos (Set):** los elementos no tienen un orden, no se pueden cambiar, agregar o eliminar una vez creado el conjunto, además no están indexadas ni pueden haber duplicados
* **Diccionarios (Dict):** se emplean para almacenar valores de datos en pares clave:valor, los elementos tienen un orden no modificable, se pueden hacer modificaciones y no se permiten duplicados

#### Listas
Las listas se emplean para almacenar varios elementos en una sola variable. Los elementos o datos que se almacenan pueden ser de cualquier tipo. A continuación se encuentran als características de este tipo de datos:
* Los elementos de las listas **están ordenados**, es decir, tienen un orden definido que no cambiará pues al agregar nuevos elementos a la lista se colocaran al final de la misma.
* Los elementos de las listas **son modificables**, es decir, que se pueden cambiar, agregar y eliminar elementos después de que se haya creado la lista.
* Las listas **permiten duplicados**, es decir, que pueden haber elementos con el mismo valor.

In [110]:
#Sea num una lista ordenada de elementos del 1-10
num = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
print(f'La lista de enteros del 1-10 es: {num}')

#Sea num una lista ordenada de elementos del 1-10 del tipo string
num = ["1", "2", "3", "4", "5", "6", "7", "8", "9", "10"]
print(f'La lista de strings es: {num}')

#La lista puede contener multiples tipos
num = [1, "2", 3, "4", 5, "6", 7, 8, "9", 10]
print(f'La lista de strings y enteros es: {num}')


#las listas se pueden crear a partir de otras listas y otras variables
x = 1
y = "5"
num = [x, 2, 3, 4, y]
print(f'La lista desde otras variables y listas es: {num}')


#Es posible averiguar la posición de un elemento, incluso el valor en un lugar de la lista
print(f'¿En que posición se encuentra el "5"? {num.index("5")}')

#Utilizando la misma técnica para manipular algunos strings
print(f'En la posición 1 de la lista esta el elemento: {num[1]}') 

#Las listas poseen algunos métodos para su manipulación
print(f'Dame el ultimo elemento de la lista {num.pop()}')


#Agregar un elemento a la lista
num.append("6")
print(f'La lista ahora con 6 en ella: {num}')

#Eliminar un elemento conocido de la lista, ejemplo el 2
num.remove(2)
print(f'La lista ahora sin el 2 en ella: {num}')

#Se puede cambiar el ordén de la lista
num.reverse()
print(f'La lista en orden contrario: {num}')

#La cantidad de elementos en la lista es:
print(f'El tamaño de la lista es: {len(num)}')

#A las listas se les puede manipular usando las técnicas de indexación:
print(f'Los dos primeros elementos de la lista son: {num[0:2]}')

#Crear una lista a partir del final:
print(f'Los dos primeros elementos de la lista son: {num[-2:]}')

#Se puede saber si un elemento esta en la lista:
print(f'"6" esta en la lista: {"6" in num}')

#Python tiene métodos para crear listas, como el método range(x)
num = range(6)
print(f'range(6): {num}, el segundo elemento es: {num[1]}')

La lista de enteros del 1-10 es: [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
La lista de strings es: ['1', '2', '3', '4', '5', '6', '7', '8', '9', '10']
La lista de strings y enteros es: [1, '2', 3, '4', 5, '6', 7, 8, '9', 10]
La lista desde otras variables y listas es: [1, 2, 3, 4, '5']
¿En que posición se encuentra el "5"? 4
En la posición 1 de la lista esta el elemento: 2
Dame el ultimo elemento de la lista 5
La lista ahora con 6 en ella: [1, 2, 3, 4, '6']
La lista ahora sin el 2 en ella: [1, 3, 4, '6']
La lista en orden contrario: ['6', 4, 3, 1]
El tamaño de la lista es: 4
Los dos primeros elementos de la lista son: ['6', 4]
Los dos primeros elementos de la lista son: [3, 1]
"6" esta en la lista: True
range(6): range(0, 6), el segundo elemento es: 1


En el anterior ejemplo se ve la forma en la que esta escrita una lista:
* Se encuentra delimitada por corchetes cuadrados `[ ]`
* Cada elemento está separado por comas `,`

Como los elementos de la listas están ordenados se puede saber el índice de un elemento con la función <code>index()</code> la cual devuelve el índice del elemento en la primera aparición que encuentra a partir del índice 0 independientemente de cuántas veces este el elemento dentro de la lista.

#### Tuplas
Las tuplas se emplean para almacenar varios elementos en una sola variable. Los elementos o datos que se almacenan pueden ser de cualquier tipo. A continuación se encuentran als características de este tipo de datos:
* Los elementos de las tuplas **están ordenados**, es decir, tienen un orden definido que no cambiará pues al agregar nuevos elementos a la lista se colocaran al final de la misma.
* Los elementos de las tuplas **son inmutables**, es decir, que no se pueden cambiar, agregar y eliminar elementos después de que se haya creado la tupla.
* Las tuplas **permiten duplicados**, es decir, que pueden haber elementos con el mismo valor.

In [81]:
# Sea num una tupla ordenada de elementos del 1-10
num = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
print(f'La tupla de elementos del 1-10: {num}')

# La tupla es inmutabler, no se pueden asignar nuevos valores a sus elementos
# num[3] = 12

# Se puede hacer una copia de la tupla por medio de la indexación ejemplo:
print(f'Dame una nueva tupla con los 3 ultimos elementos: {num[-3:]}')


# A los elementos de la tupla se pueden acceder de la misma forma que una lista
print(f'El elemento 1 se encuentra en la posición {num.index(1)} de la tupla')
print(f'El elemento en la posición 1 de la tupla es: {num[1]}')

La tupla de elementos del 1-10: (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
Dame una nueva tupla con los 3 ultimos elementos: (8, 9, 10)
El elemento 1 se encuentra en la posición 0 de la tupla
El elemento en la posición 1 de la tupla es: 2


#### Conjuntos
Los conjuntos se emplean para almacenar varios elementos en una sola variable. Los elementos o datos que se almacenan pueden ser de cualquier tipo. A continuación se encuentran als características de este tipo de datos:
* Los elementos de los conjuntos **no están ordenados**, es decir, no tienen un orden definido ya que los elementos pueden aparecer en un orden diferente cada vez que los usa y no se puede hacer referencia a ellos por índice o clave.
* Los elementos de los conjuntos **son inmutables**, es decir, que no se pueden cambiar elementos después de que se haya creado el conjunto.
* Los conjuntos **no permiten duplicados**, es decir, no pueden haber elementos con el mismo valor.

In [70]:
# Sea num un Set ordenado de elementos del 1-10
num = {0, 1, 2, 3, 3, 4, 4, 5, 6, 6, 7, 7, 8, 9, 10}
print(f'El set solo puede tener elementos únicos: {num}')

# Se pueden unir dos Sets
plus = {11, 12, 13, 14, 15}
print(f'La union de dos sets= {num | plus}')

El set solo puede tener elementos únicos: {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
La union de dos sets= {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15}


# Práctica: Expresion del material genetico (parte 1)

## Conceptos a trabajar

Los ácidos nucleicos es la unidad básica que componen el material genético, está presente en las células procariotas, eucariotas y virus, se compone de pentosas, un grupo fosfato y las bases nitrogenadas, divididas en dos grupos: las purinas que son adenina (A) y guanina (G), y las primidinas que son citosina (C), la timina (T) y el uracilo (U). La unión de los ácidos nucleicos forma las macromoléculas esenciales para vida:

![estructura](img/img_1.png)
*Figura 1*. Estructura del DNA y RNA evidenciando sus características y los ácidos nucleicos que la componen. Tomado de:
[Khan Academy](https://www.khanacademy.org/science/high-school-biology/hs-molecular-genetics/hs-rna-and-protein-synthesis/a/hs-rna-and-protein-synthesis-review).


**DNA (ácido desoxirribonucleico)**: es una macromolécula encargada de almacenar y expresar la información genética esencial para las funciones de cualquier organismo, tiene una organización ordenada de cuatro bases nitrogenadas A, G, T y C, las cuales, forman una cadena de doble hélice antiparalela y complementaria, donde la A siempre se une a T, y G a C, si se modificara alguna base o su orden cambiaria la información, lo cual puede desencadenar mutaciones.

**RNA (ácido ribonucleico)**: Es la macromolecular resultante de la transcripción del DNA, donde la T pasa a ser una U, es decir, es la copia determinada por la secuencia de una de las hebras de DNA.

Una de las funciones de la doble cadena de DNA es la expresión del material genético, es el proceso encargado de la síntesis de las proteínas que necesita la célula (fig. 2). Consta de dos fases principales, **transcripción** y **traducción** donde una secuencia de DNA codifica para una proteína en particular implicada en diferentes procesos como metabólicos o de identidad celular.

![Dogma central](./img/img_2.jpg)

*Figura 2. Dogma central de la biología molecular, donde se evidencia la expresión del material genético, la transcripción de DNA a RNAm, traducción a aminoácidos y a la formación de la proteína. Tomado de:
[Dogma](https://www.brainvta.tech/plus/list.php?tid=110).*

La **transcripción** es el primer paso para la generación de proteínas, en la que a partir de una cadena de DNA, denominada como DNA molde, se sintetiza una de RNA por medio de la enzima RNA polimerasa, donde se establece una copia casi idéntica de la secuencia de DNA, con la variación de sustituir en toda la secuencia la T por el U, sin embargo, al igual que la T, el U se empareja con la A (fig. 3). En las células eucariotas, este primer transcrito, sufre un segundo proceso llamado “splicing” en el cual se eliminan fracciones específicas de la secuencia que no codifican para proteínas y se denomina RNAm, después de esta modificación, la RNAm es transportado para que se realice el segundo paso de la expresión génica.
![Dogma central](./img/img_3.png)

*Figura 3. Sintesis de RNAm, evidenciando la transcripción de DNA a RNA con la construcción de la cadena de RNAm a partir de la cadena molde de DNA, en ausencia de las enzimas implicadas. Figura modificada de: [Molecular biology of the gene, (2008), 13, 429-464]( https://books.google.com.co/books?id=7tadzgEACAAJ&dq=Molecular+biology+of+the+gene&hl=es-419&sa=X&redir_esc=y)*

### Planteamiento del problema
Supongamos que queremos obtener información básica de la enzima del citocromo P450, la cual codifica una proteína involucrada en el metabolismo de fármacos y la síntesis lípidos como de colesterol y esteroides. Para analizar la secuencia podemos emplear herramientas biocomputaciones.

Primero, debemos descargar el documento con el que se va a trabajar:
Podemos hacer una búsqueda del gen en la base de datos de Genbank [caramirezs: link], buscamos la secuencia de DNA del citocromo P450, específicamente la subfamilia C9 de homo sapiens, ID: [LR898357.1](https://www.ncbi.nlm.nih.gov/nuccore/LR898357.1?report=fasta&to=1149).

Para descargar la secuencia, se selecciona el apartado **"Fasta"**, luego, en la sección **"Send to"** y luego **"Complete Record"**, se elige el archivo **(File)** y el formato para obtener la secuencia **(Fasta)**, posteriormente, se da clic en **"Create File"** y se descargar el documento. Para reconocer el archivo cambia el nombre del documento, en este caso "sec_CYP2C9.fasta". [caramirezs: este archivo lo puede encontrar en la carpeta data]
A continuación, se carga el archivo para poder realizar el proceso de transcripción, para esto, se emplea el comando `with`, donde, la variable `GEN` está guardando un objeto (en este caso, un archivo). A estos objetos se les pueden llamar diferentes maneras. La línea `sec_CYP2C9 = (GEN.read())` guarda en la variable `sec_CYP2C9` un string con el contenido de la variable GEN.

In [1]:
#Secuencia de nucleótidos del gen CYP2C9
with open("data/dna_CYP2C9.fasta", "r") as GEN:
    sec_CYP2C9 = GEN.read()
print(GEN)

<_io.TextIOWrapper name='data/dna_CYP2C9.fasta' mode='r' encoding='cp1252'>


In [2]:
"El archivo descargado del GenBank del gen citocromo P450 es " + sec_CYP2C9

'El archivo descargado del GenBank del gen citocromo P450 es >LR898357.1 Homo sapiens CYP2C9 gene for CYP2C9\nATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCT\nCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTAT\nTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGC\nCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGT\nTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGG\nAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGC\nATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCT\nGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTT\nTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGC\nCCCTGGGTCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTAC\nTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACAT\nGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCT\nGAATTTACTATTGAAAGCTTGGAAAA

## Manipulación de strings
Al descargar una secuencia desde Genbak en formato fasta, la primer línea contiene las referencias de la secuencia, para eliminarla se hace el siguiente procedimineto:
 - Emplear el móetodo `.split()` que separa la cadena en una lista de elementos. A nosotros nos sirve separarla en los saltos de línea, que se representan con **'\n'**.
 - Luego se debe eliminar el primer elemto (índice cero).
 - Finalmente volver a unir toda la cadena en un solo string, para esto, se emplea el método `.join()`

In [4]:
# Separar la cadena por renglones
sec_separada = sec_CYP2C9.split('\n')
print ("Lista separada:\n", str (sec_separada))

Lista separada:
 ['>LR898357.1 Homo sapiens CYP2C9 gene for CYP2C9', 'ATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCT', 'CTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTAT', 'TAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGC', 'CTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGT', 'TTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGG', 'AAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGC', 'ATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCT', 'GTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTT', 'TGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGC', 'CCCTGGGTCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTAC', 'TTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACAT', 'GAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCT', 'GAATTTACTATTGAAAGCTTGGAAAACACTGCAGTTGACTTG

In [5]:
# Guardar la lista de elementos desde el segundo (índice 1) hasta el final, eliminando las referencias de la secuencia (índice 0).
sec_separada = sec_separada[1:]
# Ver la lista sin el primer elemento
print ("Lista separada, sin el primer renglón:\n" + str (sec_separada))

Lista separada, sin el primer renglón:
['ATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCT', 'CTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTAT', 'TAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGC', 'CTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGT', 'TTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGG', 'AAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGC', 'ATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCT', 'GTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTT', 'TGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGC', 'CCCTGGGTCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTAC', 'TTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACAT', 'GAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCT', 'GAATTTACTATTGAAAGCTTGGAAAACACTGCAGTTGACTTGTTTGGAGCTGGGACAGAGACGACAAGCA'

In [6]:
# Unir la cadena para recopilar la secuencuencia.
DNA_CYP2C9 =(''.join(sec_separada))
print ("Secuencia:\n", str (DNA_CYP2C9))

Secuencia:
 ATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCTCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTATTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGCCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGTTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGGAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGCATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCTGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTTTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGCCCCTGGGTCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTACTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACATGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCTGAATTTACTATTGAAAGCTTGGAAAACACTGCAGTTGACTTGTTTGGAGCTGGGACAGAGACGACAAGCACAACCCTGAGATATGCTCTCCTTCTCCTGCTGAAGCACCCAGAGGTCACAGCTAAAGTCCAGGAAGAGATTGAACGTG

El procedimiento anterior se puede combinar en una sola celda:

In [7]:
#Secuencia de nucleótidos del gen CYP2C9
with open("data/dna_CYP2C9.fasta", "r") as GEN:
    sec_CYP2C9 = GEN.read()
DNA_CYP2C9 =(''.join(sec_CYP2C9.split('\n')[1:]))
print ("Secuencia:\n", str (DNA_CYP2C9))

Secuencia:
 ATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCTCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTATTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGCCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGTTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGGAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGCATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCTGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTTTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGCCCCTGGGTCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTACTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACATGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCTGAATTTACTATTGAAAGCTTGGAAAACACTGCAGTTGACTTGTTTGGAGCTGGGACAGAGACGACAAGCACAACCCTGAGATATGCTCTCCTTCTCCTGCTGAAGCACCCAGAGGTCACAGCTAAAGTCCAGGAAGAGATTGAACGTG

### Indexación y secuencia de listas

Para manipular los datos del tipo String de gran tamaño y que no se quieran dividir, se puede lograr por medio de la referencia por la posición, a esto se le conoce como indexación, y se logra empleando corchetes <code>"[inicio:final]"</code> para acceder a determinados elementos de una cadena (como se empleó anteriormente).

Veamos algunos ejemplos:

In [8]:
# Se puede imprimir hasta el decimo nucleotido, el conteo al imprimir comienza desde cero. Donde el primer nucleotido comienza con el valor [0]
print("El primer nucleótido de la secuencia es: " +  DNA_CYP2C9[0])

print("Los primeros diez nucleótidos de la secuencia son: " + DNA_CYP2C9[:10])

El primer nucleótido de la secuencia es: A
Los primeros diez nucleótidos de la secuencia son: ATGGATTCTC


In [9]:
print("La secuencia que abarca 2 a 10 nucleótidos es: " + DNA_CYP2C9[2:10])

La secuencia que abarca 2 a 10 nucleótidos es: GGATTCTC


In [10]:
print("La secuencia de nucleótidos desde la posición 1100 es: " + DNA_CYP2C9[1100:])

La secuencia de nucleótidos desde la posición 1100 es: CCATGCAGTGACCTGTGACATTAAATTCAGAAACTATCTCATTCCCAAG


In [11]:
# Al emplear índices negativos se comienza a contar desde el final del String, útil en documentos extensos
"Los últimos 25 nucleótidos de la secuencia son: " + DNA_CYP2C9[-25:]

'Los últimos 25 nucleótidos de la secuencia son: ATTCAGAAACTATCTCATTCCCAAG'

## Manipulación de strings de gran tamaño
Las herramientas que vimos anteriormente se pueden aplicar en archivos pesados y con secuenicas largas, como es el caso del genoma completo de la Marmota monax, ID: [JAIQCD010000022.1](https://www.ncbi.nlm.nih.gov/nuccore/JAIQCD010000022.1?report=fasta), gen que se ira trabajando.

Para descargar la secuencia, emplee la metodología del ejemplo 1 [caramirezs: no se menciono el ejemplo 1 arriba....], cambiando el nombre del documento a: *"dna_marmota.fasta"*.

In [16]:
# En adelante se va a trabajar con el método
with open("data/dna_marmota.fasta", "r") as GEN:
    DNA_marmota =  ''.join((GEN.read()).split('\n')[1:])
print(f'La secuencia del genoma de marmota tiene {len(DNA_marmota)} nucleótidos') # Con el comando len() se cuenta el número de caracteres que tiene un string
print(f'Los primeros 100 nucleótidos del genoma de marmota son: {DNA_marmota[:100]}')

# [caramirezs] en adelante siempre trabajar con f-strigns, DEBEN CAMBIAR TODOS LOS TEXTOS

La secuencia del genoma de marmota tiene 34815635 nucleótidos
Los primeros 100 nucleótidos del genoma de marmota son: CCAATATTCTGTACAATTAATTAGTAGCAGGGCATGGGTTGCATGTCTGCCATGGCAGTGACTCCTGGAGCCTGAGATAGGAGGATCTCAAGTTTGAGGT


[caramirezs] Explicar que se va a hacer aquí

In [37]:
# Transcripción de la secuencia de marmota de DNA a RNA, empleando la función ".replace()"
RNA_marmota = DNA_marmota.replace("T","U")
print("Los primeros nucleótidos de la secucenia de RNA son: "+ (RNA_marmota[:1000]))

Los primeros nucleótidos de la secucenia de RNA son: CCAAUAUUCUGUACAAUUAAUUAGUAGCAGGGCAUGGGUUGCAUGUCUGCCAUGGCAGUGACUCCUGGAGCCUGAGAUAGGAGGAUCUCAAGUUUGAGGUCACUUUGUAGGACCUUGUCUCAAAAAAAAAAAAAAAAACCCGGCUGGAAUGAAGUACAACUAGUGUGACAGCAGGUGGGUUUAUCCCAUUCCCAUUUGAAAAAUAAUGGAAAAUCUAGCCACUGGAGGGAUUGAAGGCCCAAUGAGGAGGGAGUAGGGUUAAUACUGCCAUUUUUCUUCUUUGGUGUAUUUUACAAAAAUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUUUCUCCCACCUUUGUUCUAUUGCUUUGACGUGUUUUUUUUUUUUCUUUUAUUUUUGGUAUUGGCUUGUUUUCACUUUCUUGUCAAUUUCUUUUGUAUCAAUUCUGUAGCUCUUUUUUUUUUACAGAAAAGAAAAUUACAGUCAAAAUAUUUUAUUUUCCUCUUAAUACUAACUUAAUUUCAAUCUCAUAAAGAUACUGUACCUUUAGAAUUCUAUCUCCCACUGUAUGUACUCAUUUUUCUUCCUUUAUUUUGGUGUUGUGCUGGGAUAGAACUCAGGAUGCUGCAGCACUGAGCUACAUCUCUAGCUUUUCUUUCUAUUUUUGCUUUGAGUGUGACCCAGUGUAAAGUGUUAGCCUAGCAUGCCUGAGGCCUUGGCUUCAAUUCUAACUAUCAUGAAACAAAUAUACUCUGUGUACCUGAUCUGACACUACAUGCUGUGUCCAUUAUUUUAAGGCUGCUAUCCUAUUGAAGAAGGUUUCAGAAAGGAUCAUGUAAGUCAUGUAAACAUGCUCCCCAAACAUCAAGUAUCCUUUACUUAAUUGUUAUGUUGAAGGCUAAGCUUAUUUUGAAUGUCAUCAUAUGAGCAAAAAAUCAAAGUGGACAU

[caramirezs] Dar un final a esta práctica, decir que se hizo, para qué, cómo lo vamos a utilizar más adelante, etc

# Teoría: Estructuras de control de flujo
Python tiene expresiones que permite controlar la ejecución de un programa, a esto se le conoce como estructuras de control. 

Dos de las mas empleadas son:

1. Estructuras de control condicionales (If, Else)
2. Estructuras de control iterativas (Loop, While)

### 1. Condicionales
Los condicionales permiten ejecutar una instrucción o tomar una decisión si se cumple una determinada condición, dando como resultado un valor booleano de verdadero o falso. Las funciones más empleadas:
* <code>if</code>: donde si se cumple la expresión se ejecuta el bloque de sentencias seguidas.
* <code>elif</code>: donde si no se cumplen las condiciones anteriores, se intenta con otra sentencia.
* <code>else</code>:  donde la expresión booleana es falsa o no se cumple una condición tomar esta otra opción.

Los operadores y las expresiones permiten validar la condición que se va a seguir, los mas conocidos son las condiciones lógicas:

In [51]:
#Se comprueba el valor de la variable x en una sola linea, ejemplo de expresión que retorna un valor booleano.
x = 0
print(f'¿És x igual a 1? = {x == 1}')

x = 1
print(f'¿Ës x igual a 1? {x == 1}')

#En ciertos escenarios se pueden tomar decisiones, como puede ser aumentar el valor de x ó en su defecto disminuir su valor
if x == 1:
    x = x + 1
else:
    x = x -1
    
print(f'El nuevo valor de x es= {x}')

#Más de una expresión de comprobación puede ser parte del bloque a traves de elif, ejemplo:
if x == 1:
    x = x + 1
elif x == 2:
    x = x - 1
else:
    x = 0
    
print(f'El nuevo valor de x es= {x}')

#En ocasiones se pueden incluir expresiones if anidades tanto como sea necesario, no es recomendable como práctica de desarrollo de software, ejemplo:
x = 2
y = 2
if x == 1:
    if y == 2:
        x = x + 1
        y = y + 1
elif x == 2:
    if y == 2:
        x = x - 1
        y = y - 1
else:
    x = 0
    y = 0

print(f'Se espera que x,y sean iguales a 1. x={x} y={y}')

#A veces no es necesario anidar tantas expresiones if ó elif si se utilizán expresiones lógicas mas complejas, ejemplo
if x == 1 & y == 1:
    x = 0
    y = 0
    
print(f'Ahora x,y son iguales a 0, x={x} y={0}')

¿És x igual a 1? = False
¿Ës x igual a 1? True
El nuevo valor de x es= 2
El nuevo valor de x es= 1
Se espera que x,y sean iguales a 1. x=1 y=1
Ahora x,y son iguales a 0, x=0 y=0


### 2. Iterativas
Las iteraciones o loops permiten repetir una porción del código las veces que sea necesario, mientras la condición booleana sea verdadera o falsa, es decir mientras sé cumpla una condición, en python se incluyen únicamente dos funciones:

* <code>while</code>: permite realizar múltiples iteraciones ejecutando un código mientras la condición sea verdadera.
* <code>for</code>: permite iterar en orden sobre cada uno de los elementos de una secuencia, ya sea lista, tupla, diccionario, conjunto o cadena

Para más información revise el siguiente [link]( https://entrenamiento-python-basico.readthedocs.io/es/latest/leccion4/bucle_while.html)

In [66]:
#Aumentemos el valor de x hasta 10
x = 1
while x < 10:
    print(f'El nuevo valor de x es {x}')
    x = x + 1
    
print(f'Al finalizar el bucle iterativo x={x}')



#Ahora tomemos como ejemplo una lista de objetos, por ejemplo los nombres de las proteinas más comunes y su tipo: 
proteinas = [
    ['Gluten', 'Vegetal'],
    ['Caseina', 'Animal'],
    ['Albúmina','Vegetal'],
    ['Colágeno', 'Vegetal'],
    ['Gelatina', 'Animal'],
    ['Rícina', 'Vegetal'], 
    ['Queratina', 'Vegetal'],
    ['Pectina', 'Vegetal']]

#Si se requiere saber el tipo de proteina de la Caseina se sabria de la siguiente forma:
print(f'El tipo de la proteina Caseina es: {proteinas[2][1]}')

#Pero si se tuviera que acceder a todos los tipos de la lista, esto seria poco eficiente. La mejor opción es usar for, ejemplo:
for proteina in proteinas:
    print(f'La proteina {proteina[0]} es del tipo {proteina[1]}')

#A veces estos loops se pueden escribir en una linea, llamadas como listas de comprensión, ejemplo:
print(f'La lista de tipos de las proteinas es: {[p[1] for p in proteinas]}')

# el iterativo for sirve para más que eso, usamos una lista como un diccionario para ser recorrida:
proteinas = { "Gluten": "Vegetal", "Caseina": "Animal", "Albúmina": "Vegetal"}
tipos_de_proteinas = []
for p in proteinas:
    tipos_de_proteinas.append(proteinas[p])

print(f'La lista de tipos de proteinas a partir del for es: {tipos_de_proteinas}')

#While y for podrian ser usados en conjunto, ejemplo
lista_de_items = []
for i in range(7):
    items = []
    while len(items) < 3:
        items.append(len(items) + 1)
    lista_de_items.append(items)

print(f'lista_de_items= {lista_de_items}')


El nuevo valor de x es 1
El nuevo valor de x es 2
El nuevo valor de x es 3
El nuevo valor de x es 4
El nuevo valor de x es 5
El nuevo valor de x es 6
El nuevo valor de x es 7
El nuevo valor de x es 8
El nuevo valor de x es 9
Al finalizar el bucle iterativo x=10
El tipo de la proteina Caseina es: Vegetal
La proteina Gluten es del tipo Vegetal
La proteina Caseina es del tipo Animal
La proteina Albúmina es del tipo Vegetal
La proteina Colágeno es del tipo Vegetal
La proteina Gelatina es del tipo Animal
La proteina Rícina es del tipo Vegetal
La proteina Queratina es del tipo Vegetal
La proteina Pectina es del tipo Vegetal
La lista de tipos de las proteinas es: ['Vegetal', 'Animal', 'Vegetal', 'Vegetal', 'Animal', 'Vegetal', 'Vegetal', 'Vegetal']
La lista de tipos de proteinas a partir del for es: ['Vegetal', 'Animal', 'Vegetal']
lista_de_items= [[1, 2, 3], [1, 2, 3], [1, 2, 3], [1, 2, 3], [1, 2, 3], [1, 2, 3], [1, 2, 3]]


# Práctica: Expresión del material genético (parte 2)

A continuación, realizamos la segunda fase implicada en la expresión génica.
La **traducción**, es la síntesis de una proteína a partir de la cadena de ARNm, esto ocurre dentro de unas proteínas llamadas ribosomas, durante este proceso, la secuencia de ARNm se lee en grupos de tres nucleótidos, llamados **codones**, los cuales, son interpretados por un **código genético** dando como resultado una codificación de aminoácido (fig. 4), los cuales se plegarán y formarán las proteínas (fig. 3).

![código](./img/img_4.png)
*Figura 4. Código genético esencial en la expresión de proteínas donde se evidencia la formación de un codón a partir de un nucleótido (uracilo, adenina, guanina, o citocina), desde la secuencia de inicio (verde) y las de parada (rojo). Figura tomada de: [Molecular biology of the gene, (2008), 15, 509-569]( https://books.google.com.co/books?id=7tadzgEACAAJ&dq=Molecular+biology+of+the+gene&hl=es-419&sa=X&redir_esc=y)*

El ribosoma lee la secuencia en orden, buscando el codón de **inicio** AUG, el cual, a su vez codifica para el aminoácido de metionina y da comienzo a la traducción, al seguir avanzando construye la cadena de aminoácidos, es un proceso que repite muchas veces, en el que se leen las tripletas de nucleótidos y se adhiere el aminoácido correspondiente (fig. 3). La cadena resultante puede ser largas o cortas, se direccionan hasta encontrar uno de los tres codones que codifican para el **stop** (UAA, UGA o UAG) (fig. 4), al sintetizarlo, la cadena se libera del ribosoma y es modificada o combinada para formar una proteína funcional con una estructura especifica involucrada en algún proceso esencial para la célula u organismo.
Fif