# Introducción al lenguaje de programación Python
El curso “Data Science for drug discovery” es una plataforma de aprendizaje autónomo dirigido a estudiantes e investigadores interesados en el desarrollo de herramientas biocomputaciones, desde Python, siendo este, el lenguaje de programación más empleado. Con el avance en las ciencias ómicas y las nuevas tecnologías se ha visto necesario adquirir habilidades informáticas aplicadas en las ciencias y el manejo de bases de datos biológicas.

Bienvenido a la introducción del curso “Data Science for drug discovery”, en la primera parte encontrara los fundamentos para comprender el lenguaje de programación de Python, está enfocado en la manipulación, extracción y análisis de datos provenientes de bases de datos biológicos (ómicos), partiendo desde lo conceptos básicos de programación y sus aplicaciones, con ejemplos basados en manipulación de secuencias de DNA.
## Contenidos
En este primer Jupyter notebook de *Python_basic* aprenderá:
1. Introducción a Python.
2. Variables.
3. Tipos de datos
4. Tipos de arreglos
5. Cargar archivos
6. Manipulación de strings
7. Estructuras de control de flujo
8. Funciones

# Resultados del aprendizaje
Se espera que al finalizar este curso el estudiante pueda:
1.	Entender los conceptos básicos del lenguaje de programación de Python
2.	Comprender los formatos de variables:
    -	Qué son
    -	Las asignaciones
    -	Las operaciones básicas.
3.	Comprender los usos y los tipos de datos:
    -	Numéricos
    -	Booleano
    -	Texto
    -	Arreglos
4.	Identificar los tipos de arreglos y su uso:
    -	Listas
    -	Tuplas
    -	Conjuntos
    -	Diccionarios
5.	Cargar y modificar archivos en diferentes formatos y tamaños, visualizarlos, analizarlos, leerlos y escribir sobre ellos.
6.	Manejar las estructuras de control de flujo básicas:
    -	Condicionales
    -	Iteraciones.
7.	Comprender las herramientas de Python que se pueden emplear en la biología.

# Teoría: conceptos básicos

## Variables

Una variable es un espacio en la memoria del computador en donde se puede almacenar diferentes **tipos de datos**. Python no tiene un comando para declarar una variable, estas son definidas por el programador quien le asigna un nombre o identificador que sea fácil de recordar y utilizar en el programa. Es importante saber que el nombre de las variables no puede comenzar por un número y distinguen entre mayusculas y minúsculas, además no se puede incluir espacios.

La siguiente tabla muestra algunos de los datos que se pueden trabajar en Python:

[caramirez] traducir
### Common built-in Python data types

| English name          | Type name  | Type Category  | Description                                   | Example                                   |
| :-------------------- | :--------- | :------------- | :-------------------------------------------- |:------------------------------------------|
| integer               | `int`      | Numeric Type   | positive/negative whole numbers               |                                           |
| floating point number | `float`    | Numeric Type   | real number in decimal form                   |                                           |
| boolean               | `bool`     | Boolean Values | true or false                                 |                                           |
| string                | `str`      | Sequence Type  | text                                          |                                           |
| list                  | `list`     | Sequence Type  | a collection of objects - mutable & ordered   |                                           |
| tuple                 | `tuple`    | Sequence Type  | a collection of objects - immutable & ordered |                                           |
| dictionary            | `dict`     | Mapping Type   | mapping of key-value pairs                    |                                           |
| none                  | `NoneType` | Null Object    | represents no value                           | `None`                                    |

## Tipos de datos

### Datos tipo: numéricos

Hay tres tipos de datos numéricos, aquí trabajaremos generalmente con dos de ellos: `enteros` y `punto flotante` (`float`). La función `type()` nos ayuda a determinar el tipo de un objeto en Python

* **Enteros (int)**: son números enteros positivos o negativos
* **Punto flotante (float)**: son números con punto decimal
si un número entero se define con punto decimal, por ejemplo: 1.0, este será alamacenado tipo flotante

In [7]:
#[caramirez] mejorar ejemplo
# Ejemplo Entero
entero_1 = 1236
flotante_1 = 123.215
flotante_2 = 1236.0

print(type(entero_1))
print(type(flotante_1))
print(type(flotante_2))

<class 'int'>
<class 'float'>
<class 'float'>


#### Operaciones aritmeticas
| Símbolo |   Descripción   |
|:-------:|:---------------:|
|   `+`   |     adición     |
|   `-`   |  substracción   |
|   `*`   | multiplicación  |
|   `/`   |    división     |
|  `**`   |    potencia     |
|  `//`   | división entera |
|   `%`   |     módulo      |

In [8]:
# Ejemplo operaciones

En los cuadernos `Jupyther` (versión interactiva de Python), la última línea de la celda será mostrada automáticamente. Esto quiere decir que no siempre será necesario utilizar la función `print()`

In [None]:
#Ejemplo

### Datos tipo: Booleano (bool)
Este tipo de dato (`bool`) tiene dos únicamente dos valores: verdadero: `True` o falso: `False`

### Datos tipo: texto (String)
Los string se denotan como <code>str</code> y son una secuencia de símbolos que pueden incluir letras mayúsculas y minúsculas, números, signos de puntuación y espacios.
Existen tres formas de representar este tipo de datos, cualquiera de ellas es valida y no afecta el código:
* **Entre comillas sencillas:** 'Donepezil'
* **Entre comillas dobles:** "Donepezil"
* **Entre tres comillas sencillas o tres comillas cobles:** '''Donepezil''' o """Donepezil"""

In [2]:
# Ejemplo
texto = 'Hola mundo'
print(texto)

Hola mundo


#### Metodos de String
Hay varios operadores en el lenguaje de Python que permite trabajar con los datos de los String mediante operaciones en las que se devuelven los valores sin cambiar la cadena. Entre las que se encuentran:
* <code>.replace()</code>: sustituye en el string un valor especifico por otro.
* <code>.split()</code>: divide el string en subcadenas según el parámetro establecido
* <code>.find()</code>:  Busca en el string un valor específico y evidencia la posición en la que se encuentra

In [None]:
# Ejemplo


### Datos tipo: Arreglos
Las listas, tuplas, diccionarios y conjuntos se emplean para almacenar varios elementos en una misma variable
* **Listas (list):** los elemetos tienen orden modificable, se pueden hacer modificaciones y pueden haber duplicados, además están indexados
* **Tuplas (tuple):** los elementos tienen un orden y no se pueden cambiar, agregar o eliminar una vez creada la tupla, además pueden hacer duplicados
* **Conjuntos (set):** los elementos no tienen un orden, no se pueden cambiar, agregar o eliminar una vez creado el conjunto, además no están indexadas ni pueden haber duplicados
* **Diccionarios (dict):** se emplean para almacenar valores de datos en pares clave:valor, los elementos tienen un orden no modificable, se pueden hacer modificaciones y no se permiten duplicados

#### Listas
Las listas se emplean para almacenar varios elementos en una sola variable. Los elementos o datos que se almacenan pueden ser de cualquier tipo. A continuación se encuentran als características de este tipo de datos:
* Los elementos de las listas **están ordenados**, es decir, tienen un orden definido que no cambiará pues al agregar nuevos elementos a la lista se colocaran al final de la misma.
* Los elementos de las listas **son modificables**, es decir, que se pueden cambiar, agregar y eliminar elementos después de que se haya creado la lista.
* Las listas **permiten duplicados**, es decir, que pueden haber elementos con el mismo valor.

In [12]:
#Ejemplo

En el anterior ejemplo se ve la forma en la que esta escrita una lista:
* Se encuentra delimitada por corchetes cuadrados `[ ]`
* Cada elemento está separado por comas `,`

Como los elementos de la listas están ordenados se puede saber el índice de un elemento con la función <code>index()</code> la cual devuelve el índice del elemento en la primera aparición que encuentra a partir del índice 0 independientemente de cuántas veces este el elemento dentro de la lista.

#### Tuplas
Las tuplas se emplean para almacenar varios elementos en una sola variable. Los elementos o datos que se almacenan pueden ser de cualquier tipo. A continuación se encuentran als características de este tipo de datos:
* Los elementos de las tuplas **están ordenados**, es decir, tienen un orden definido que no cambiará pues al agregar nuevos elementos a la lista se colocaran al final de la misma.
* Los elementos de las tuplas **son inmutables**, es decir, que no se pueden cambiar, agregar y eliminar elementos después de que se haya creado la tupla.
* Las tuplas **permiten duplicados**, es decir, que pueden haber elementos con el mismo valor.

In [13]:
# Ejemplo

#### Conjuntos
Los conjuntos se emplean para almacenar varios elementos en una sola variable. Los elementos o datos que se almacenan pueden ser de cualquier tipo. A continuación se encuentran als características de este tipo de datos:
* Los elementos de los conjuntos **no están ordenados**, es decir, no tienen un orden definido ya que los elementos pueden aparecer en un orden diferente cada vez que los usa y no se puede hacer referencia a ellos por índice o clave.
* Los elementos de los conjuntos **son inmutables**, es decir, que no se pueden cambiar elementos después de que se haya creado el conjunto.
* Los conjuntos **no permiten duplicados**, es decir, no pueden haber elementos con el mismo valor.

In [14]:
# Ejemplo

# Práctica: Expresion del material genetico (parte 1)

## Conceptos a trabajar

Los ácidos nucleicos es la unidad básica que componen el material genético, está presente en las células procariotas, eucariotas y virus, se compone de pentosas, un grupo fosfato y las bases nitrogenadas, divididas en dos grupos: las purinas que son adenina (A) y guanina (G), y las primidinas que son citosina (C), la timina (T) y el uracilo (U). La unión de los ácidos nucleicos forma las macromoléculas esenciales para vida:

![estructura](img/img_1.png)
*Figura 1*. Estructura del DNA y RNA evidenciando sus características y los ácidos nucleicos que la componen. Tomado de:
[Khan Academy](https://www.khanacademy.org/science/high-school-biology/hs-molecular-genetics/hs-rna-and-protein-synthesis/a/hs-rna-and-protein-synthesis-review).


**DNA (ácido desoxirribonucleico)**: es una macromolécula encargada de almacenar y expresar la información genética esencial para las funciones de cualquier organismo, tiene una organización ordenada de cuatro bases nitrogenadas A, G, T y C, las cuales, forman una cadena de doble hélice antiparalela y complementaria, donde la A siempre se une a T, y G a C, si se modificara alguna base o su orden cambiaria la información, lo cual puede desencadenar mutaciones.

**RNA (ácido ribonucleico)**: Es la macromolecular resultante de la transcripción del DNA, donde la T pasa a ser una U, es decir, es la copia determinada por la secuencia de una de las hebras de DNA.

Una de las funciones de la doble cadena de DNA es la expresión del material genético, es el proceso encargado de la síntesis de las proteínas que necesita la célula (fig. 2). Consta de dos fases principales, **transcripción** y **traducción** donde una secuencia de DNA codifica para una proteína en particular implicada en diferentes procesos como metabólicos o de identidad celular.

![Dogma central](./img/img_2.jpg)

*Figura 2. Dogma central de la biología molecular, donde se evidencia la expresión del material genético, la transcripción de DNA a RNAm, traducción a aminoácidos y a la formación de la proteína. Tomado de:
[Dogma](https://www.brainvta.tech/plus/list.php?tid=110).*

La **transcripción** es el primer paso para la generación de proteínas, en la que a partir de una cadena de DNA, denominada como DNA molde, se sintetiza una de RNA por medio de la enzima RNA polimerasa, donde se establece una copia casi idéntica de la secuencia de DNA, con la variación de sustituir en toda la secuencia la T por el U, sin embargo, al igual que la T, el U se empareja con la A (fig. 3). En las células eucariotas, este primer transcrito, sufre un segundo proceso llamado “splicing” en el cual se eliminan fracciones específicas de la secuencia que no codifican para proteínas y se denomina RNAm, después de esta modificación, la RNAm es transportado para que se realice el segundo paso de la expresión génica.
![Dogma central](./img/img_3.png)

*Figura 3. Sintesis de RNAm, evidenciando la transcripción de DNA a RNA con la construcción de la cadena de RNAm a partir de la cadena molde de DNA, en ausencia de las enzimas implicadas. Figura modificada de: [Molecular biology of the gene, (2008), 13, 429-464]( https://books.google.com.co/books?id=7tadzgEACAAJ&dq=Molecular+biology+of+the+gene&hl=es-419&sa=X&redir_esc=y)*

### Planteamiento del problema
Supongamos que queremos obtener información básica de la enzima del citocromo P450, la cual codifica una proteína involucrada en el metabolismo de fármacos y la síntesis lípidos como de colesterol y esteroides. Para analizar la secuencia podemos emplear herramientas biocomputaciones.

Primero, debemos descargar el documento con el que se va a trabajar:
Podemos hacer una búsqueda del gen en la base de datos de Genbank [caramirezs: link], buscamos la secuencia de DNA del citocromo P450, específicamente la subfamilia C9 de homo sapiens, ID: [LR898357.1](https://www.ncbi.nlm.nih.gov/nuccore/LR898357.1?report=fasta&to=1149).

Para descargar la secuencia, se selecciona el apartado **"Fasta"**, luego, en la sección **"Send to"** y luego **"Complete Record"**, se elige el archivo **(File)** y el formato para obtener la secuencia **(Fasta)**, posteriormente, se da clic en **"Create File"** y se descargar el documento. Para reconocer el archivo cambia el nombre del documento, en este caso "sec_CYP2C9.fasta". [caramirezs: este archivo lo puede encontrar en la carpeta data]
A continuación, se carga el archivo para poder realizar el proceso de transcripción, para esto, se emplea el comando `with`, donde, la variable `GEN` está guardando un objeto (en este caso, un archivo). A estos objetos se les pueden llamar diferentes maneras. La línea `sec_CYP2C9 = (GEN.read())` guarda en la variable `sec_CYP2C9` un string con el contenido de la variable GEN.

In [1]:
#Secuencia de nucleótidos del gen CYP2C9
with open("data/dna_CYP2C9.fasta", "r") as GEN:
    sec_CYP2C9 = GEN.read()
print(GEN)

<_io.TextIOWrapper name='data/dna_CYP2C9.fasta' mode='r' encoding='cp1252'>


In [2]:
"El archivo descargado del GenBank del gen citocromo P450 es " + sec_CYP2C9

'El archivo descargado del GenBank del gen citocromo P450 es >LR898357.1 Homo sapiens CYP2C9 gene for CYP2C9\nATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCT\nCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTAT\nTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGC\nCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGT\nTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGG\nAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGC\nATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCT\nGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTT\nTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGC\nCCCTGGGTCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTAC\nTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACAT\nGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCT\nGAATTTACTATTGAAAGCTTGGAAAA

## Manipulación de strings
Al descargar una secuencia desde Genbak en formato fasta, la primer línea contiene las referencias de la secuencia, para eliminarla se hace el siguiente procedimineto:
 - Emplear el móetodo `.split()` que separa la cadena en una lista de elementos. A nosotros nos sirve separarla en los saltos de línea, que se representan con **'\n'**.
 - Luego se debe eliminar el primer elemto (índice cero).
 - Finalmente volver a unir toda la cadena en un solo string, para esto, se emplea el método `.join()`

In [4]:
# Separar la cadena por renglones
sec_separada = sec_CYP2C9.split('\n')
print ("Lista separada:\n", str (sec_separada))

Lista separada:
 ['>LR898357.1 Homo sapiens CYP2C9 gene for CYP2C9', 'ATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCT', 'CTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTAT', 'TAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGC', 'CTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGT', 'TTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGG', 'AAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGC', 'ATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCT', 'GTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTT', 'TGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGC', 'CCCTGGGTCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTAC', 'TTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACAT', 'GAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCT', 'GAATTTACTATTGAAAGCTTGGAAAACACTGCAGTTGACTTG

In [5]:
# Guardar la lista de elementos desde el segundo (índice 1) hasta el final, eliminando las referencias de la secuencia (índice 0).
sec_separada = sec_separada[1:]
# Ver la lista sin el primer elemento
print ("Lista separada, sin el primer renglón:\n" + str (sec_separada))

Lista separada, sin el primer renglón:
['ATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCT', 'CTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTAT', 'TAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGC', 'CTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGT', 'TTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGG', 'AAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGC', 'ATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCT', 'GTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTT', 'TGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGC', 'CCCTGGGTCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTAC', 'TTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACAT', 'GAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCT', 'GAATTTACTATTGAAAGCTTGGAAAACACTGCAGTTGACTTGTTTGGAGCTGGGACAGAGACGACAAGCA'

In [6]:
# Unir la cadena para recopilar la secuencuencia.
DNA_CYP2C9 =(''.join(sec_separada))
print ("Secuencia:\n", str (DNA_CYP2C9))

Secuencia:
 ATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCTCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTATTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGCCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGTTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGGAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGCATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCTGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTTTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGCCCCTGGGTCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTACTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACATGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCTGAATTTACTATTGAAAGCTTGGAAAACACTGCAGTTGACTTGTTTGGAGCTGGGACAGAGACGACAAGCACAACCCTGAGATATGCTCTCCTTCTCCTGCTGAAGCACCCAGAGGTCACAGCTAAAGTCCAGGAAGAGATTGAACGTG

El procedimiento anterior se puede combinar en una sola celda:

In [7]:
#Secuencia de nucleótidos del gen CYP2C9
with open("data/dna_CYP2C9.fasta", "r") as GEN:
    sec_CYP2C9 = GEN.read()
DNA_CYP2C9 =(''.join(sec_CYP2C9.split('\n')[1:]))
print ("Secuencia:\n", str (DNA_CYP2C9))

Secuencia:
 ATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCTCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTATTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGCCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGTTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGGAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGCATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCTGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTTTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGCCCCTGGGTCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTACTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACATGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCTGAATTTACTATTGAAAGCTTGGAAAACACTGCAGTTGACTTGTTTGGAGCTGGGACAGAGACGACAAGCACAACCCTGAGATATGCTCTCCTTCTCCTGCTGAAGCACCCAGAGGTCACAGCTAAAGTCCAGGAAGAGATTGAACGTG

### Indexación y secuencia de listas
Para manejar datos de tipo String realmente largo que no se quiere dividir, se puede referenciar variables por la posición, desde diferentes secciones, empleando corchetes <code>"[inicio:final]"</code> para acceder a determinados elementos de una cadena (como se empleó anteriormente).
Veamos algunos ejemplos:

In [8]:
# Se puede imprimir hasta el decimo nucleotido, el conteo al imprimir comienza desde cero. Donde el primer nucleotido comienza con el valor [0]
print("El primer nucleótido de la secuencia es: " +  DNA_CYP2C9[0])

print("Los primeros diez nucleótidos de la secuencia son: " + DNA_CYP2C9[:10])

El primer nucleótido de la secuencia es: A
Los primeros diez nucleótidos de la secuencia son: ATGGATTCTC


In [9]:
print("La secuencia que abarca 2 a 10 nucleótidos es: " + DNA_CYP2C9[2:10])

La secuencia que abarca 2 a 10 nucleótidos es: GGATTCTC


In [10]:
print("La secuencia de nucleótidos desde la posición 1100 es: " + DNA_CYP2C9[1100:])

La secuencia de nucleótidos desde la posición 1100 es: CCATGCAGTGACCTGTGACATTAAATTCAGAAACTATCTCATTCCCAAG


In [11]:
# Al emplear índices negativos se comienza a contar desde el final del String, útil en documentos extensos
"Los últimos 25 nucleótidos de la secuencia son: " + DNA_CYP2C9[-25:]

'Los últimos 25 nucleótidos de la secuencia son: ATTCAGAAACTATCTCATTCCCAAG'

## Manipulación de strings de gran tamaño
Las herramientas que vimos anteriormente se pueden aplicar en archivos pesados y con secuenicas largas, como es el caso del genoma completo de la Marmota monax, ID: [JAIQCD010000022.1](https://www.ncbi.nlm.nih.gov/nuccore/JAIQCD010000022.1?report=fasta), gen que se ira trabajando.

Para descargar la secuencia, emplee la metodología del ejemplo 1 [caramirezs: no se menciono el ejemplo 1 arriba....], cambiando el nombre del documento a: *"dna_marmota.fasta"*.

*Observación*: En adelante trabajaremos con los `f-strings` que permiten hacer líneas cortas de texto con variables integradas. Más información en: [f-strings](https://platzi.com/blog/f-strings-en-python/?utm_source=google&utm_medium=cpc&utm_campaign=12915366154&utm_adgroup=&utm_content=&gclid=Cj0KCQjw3IqSBhCoARIsAMBkTb2p5ZOBtPtlGG2B7P0qrtnp8Wwvbgd2OY_F3_P-6OOU1YE_QHHCMaYaAnTaEALw_wcB&gclsrc=aw.ds), [f-strings](https://peps.python.org/pep-0498/)

In [16]:
# En adelante se va a trabajar con el método
with open("data/dna_marmota.fasta", "r") as GEN:
    DNA_marmota =  ''.join((GEN.read()).split('\n')[1:])
print(f'La secuencia del genoma de marmota tiene {len(DNA_marmota)} nucleótidos') # Con el comando len() se cuenta el número de caracteres que tiene un string
print(f'Los primeros 100 nucleótidos del genoma de marmota son: {DNA_marmota[:100]}')

# [caramirezs] en adelante siempre trabajar con f-strigns, DEBEN CAMBIAR TODOS LOS TEXTOS

La secuencia del genoma de marmota tiene 34815635 nucleótidos
Los primeros 100 nucleótidos del genoma de marmota son: CCAATATTCTGTACAATTAATTAGTAGCAGGGCATGGGTTGCATGTCTGCCATGGCAGTGACTCCTGGAGCCTGAGATAGGAGGATCTCAAGTTTGAGGT


[caramirezs] Explicar que se va a hacer aquí

In [37]:
# Transcripción de la secuencia de marmota de DNA a RNA, empleando la función ".replace()"
RNA_marmota = DNA_marmota.replace("T","U")
print("Los primeros nucleótidos de la secucenia de RNA son: "+ (RNA_marmota[:1000]))

Los primeros nucleótidos de la secucenia de RNA son: CCAAUAUUCUGUACAAUUAAUUAGUAGCAGGGCAUGGGUUGCAUGUCUGCCAUGGCAGUGACUCCUGGAGCCUGAGAUAGGAGGAUCUCAAGUUUGAGGUCACUUUGUAGGACCUUGUCUCAAAAAAAAAAAAAAAAACCCGGCUGGAAUGAAGUACAACUAGUGUGACAGCAGGUGGGUUUAUCCCAUUCCCAUUUGAAAAAUAAUGGAAAAUCUAGCCACUGGAGGGAUUGAAGGCCCAAUGAGGAGGGAGUAGGGUUAAUACUGCCAUUUUUCUUCUUUGGUGUAUUUUACAAAAAUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUUUCUCCCACCUUUGUUCUAUUGCUUUGACGUGUUUUUUUUUUUUCUUUUAUUUUUGGUAUUGGCUUGUUUUCACUUUCUUGUCAAUUUCUUUUGUAUCAAUUCUGUAGCUCUUUUUUUUUUACAGAAAAGAAAAUUACAGUCAAAAUAUUUUAUUUUCCUCUUAAUACUAACUUAAUUUCAAUCUCAUAAAGAUACUGUACCUUUAGAAUUCUAUCUCCCACUGUAUGUACUCAUUUUUCUUCCUUUAUUUUGGUGUUGUGCUGGGAUAGAACUCAGGAUGCUGCAGCACUGAGCUACAUCUCUAGCUUUUCUUUCUAUUUUUGCUUUGAGUGUGACCCAGUGUAAAGUGUUAGCCUAGCAUGCCUGAGGCCUUGGCUUCAAUUCUAACUAUCAUGAAACAAAUAUACUCUGUGUACCUGAUCUGACACUACAUGCUGUGUCCAUUAUUUUAAGGCUGCUAUCCUAUUGAAGAAGGUUUCAGAAAGGAUCAUGUAAGUCAUGUAAACAUGCUCCCCAAACAUCAAGUAUCCUUUACUUAAUUGUUAUGUUGAAGGCUAAGCUUAUUUUGAAUGUCAUCAUAUGAGCAAAAAAUCAAAGUGGACAU

[caramirezs] Dar un final a esta práctica, decir que se hizo, para qué, cómo lo vamos a utilizar más adelante, etc

# Teoría: Estructuras de control de flujo
Python tiene sentencias de control de flujo que permite agrupar comandos de manera controlada. Dos de las mas empleadas son:
1. Estructuras de control condicionales
2. Estructuras de control iterativas

### 1. Condicionales
Los condicionales permiten ejecutar una instrucción o tomar una decisión si se cumple una determinada condición, dando como resultado un valor booleano de verdadero o falso. Las funciones más empleadas:
* <code>if</code>: donde si se cumple la expresión se ejecuta el bloque de sentencias seguidas.
* <code>elif</code>: donde si no se cumplen las condiciones anteriores, se intenta con otra sentencia.
* <code>else</code>:  donde la expresión booleana es falsa o no se cumple una condición tomar esta otra opción.

Los operadores y las expresiones permiten validar la condición que se va a seguir, los mas conocidos son las condiciones lógicas:

### 2. Iterativas
Las iteraciones o bubles permiten repetir una porción del código las veces que sea necesario, mientras la condición booleana sea verdadera o falsa, en python se incluyen únicamente dos funciones:
* <code>while</code>: permite realizar múltiples iteraciones ejecutando un código mientras la condición sea verdadera.
* <code>for</code>: permite iterar en orden sobre cada uno de los elementos de una secuencia, ya sea lista, tupla, diccionario, conjunto o cadena

Para más información revise el siguiente [link]( https://entrenamiento-python-basico.readthedocs.io/es/latest/leccion4/bucle_while.html)

# Práctica: Expresión del material genético (parte 2)

A continuación, realizamos la segunda fase implicada en la expresión génica.
La **traducción**, es la síntesis de una proteína a partir de la cadena de ARNm, esto ocurre dentro de unas proteínas llamadas ribosomas, durante este proceso, la secuencia de ARNm se lee en grupos de tres nucleótidos, llamados **codones**, los cuales, son interpretados por un **código genético** dando como resultado una codificación de aminoácido (fig. 4), los cuales se plegarán y formarán las proteínas (fig. 3).

![código](./img/img_4.png)
*Figura 4. Código genético esencial en la expresión de proteínas donde se evidencia la formación de un codón a partir de un nucleótido (uracilo, adenina, guanina, o citocina), desde la secuencia de inicio (verde) y las de parada (rojo). Figura tomada de: [Molecular biology of the gene, (2008), 15, 509-569]( https://books.google.com.co/books?id=7tadzgEACAAJ&dq=Molecular+biology+of+the+gene&hl=es-419&sa=X&redir_esc=y)*

El ribosoma lee la secuencia en orden, buscando el codón de **inicio** AUG, el cual, a su vez codifica para el aminoácido de metionina y da comienzo a la traducción, al seguir avanzando construye la cadena de aminoácidos, es un proceso que repite muchas veces, en el que se leen las tripletas de nucleótidos y se adhiere el aminoácido correspondiente (fig. 3). La cadena resultante puede ser largas o cortas, se direccionan hasta encontrar uno de los tres codones que codifican para el **stop** (UAA, UGA o UAG) (fig. 4), al sintetizarlo, la cadena se libera del ribosoma y es modificada o combinada para formar una proteína funcional con una estructura especifica involucrada en algún proceso esencial para la célula u organismo.
Fif