# Introducción al lenguaje de programación Python
El curso “Data Science for drug discovery” es una plataforma de aprendizaje autónomo dirigido a estudiantes e investigadores interesados en el desarrollo de herramientas biocomputaciones, desde Python, siendo este, el lenguaje de programación más empleado. Con el avance en las ciencias ómicas y las nuevas tecnologías se ha visto necesario adquirir habilidades informáticas aplicadas en las ciencias y el manejo de bases de datos biológicas.

Bienvenido a la introducción del curso “Data Science for drug discovery”, en la primera parte encontrara los fundamentos para comprender el lenguaje de programación de Python, está enfocado en la manipulación, extracción y análisis de datos provenientes de bases de datos biológicos (ómicos), partiendo desde lo conceptos básicos de programación y sus aplicaciones, con ejemplos basados en manipulación de secuencias de DNA.
## Contenidos
En este primer Jupyter notebook de *Python_basic* aprenderá:
1. Introducción a Python
2. Variables
3. Tipos de datos
4. Tipos de arreglos
5. Cargar archivos
6. Manipulación de strings
7. Estructuras de control de flujo
8. Funciones

# Resultados del aprendizaje
Se espera que al finalizar este cuaderno el usuario pueda:
1.	Entender los conceptos básicos del lenguaje de programación de Python
2.	Comprender los formatos de variables:
    -	¿Qué son?
    -	Las asignaciones
    -	Las operaciones básicas
3.	Comprender los usos y los tipos de datos:
    -	Numérico
    -	Booleano
    -	Texto
    -	Arreglo
4.	Identificar los tipos de arreglos y su uso:
    -	Listas
    -	Tuplas
    -	Conjuntos
    -	Diccionarios
5.	Cargar y modificar archivos en diferentes formatos y tamaños, visualizarlos, analizarlos, leerlos y escribir sobre ellos.
6.	Manejar las estructuras de control de flujo básicas:
    -	Condicionales
    -	Iteraciones
7.	Comprender las herramientas de Python que se pueden emplear en la biología.

# Teoría: conceptos básicos

## Variables

Una variable es una referencia a un valor en la memoria del computador, en donde se pueden almacenar diferentes **tipos de datos**. Por lo general se asignan valores a nombres de variables, un ejemplo de esto es: `texto = "hola mundo"`, `texto` es el nombre de la variable y hace referencia a `hola mundo` el cual seria el valor de la variable, y en el ejemplo anterior se utilizo el operador `=`, luego la operación que se realizó fue de asignación. A esto se le conoce como una expresión de asignación.

Por lo general es el programador del software quien le asigna un nombre de variable que sea fácil de recordar y utilizar en el programa. Es importante saber que el nombre de las variables no puede comenzar por un número y distinguen entre mayusculas y minúsculas, además no se puede incluir espacios.

La siguiente tabla muestra algunos de los datos que se pueden trabajar en Python:

### Tipos de datos nativos de Python

| Nombre en Inglés          | Nombre del tipo  | Categoria  | Descripción                                   | Ejemplo                                      |
| :-------------------- | :--------- | :------------- | :-------------------------------------------- |:---------------------------------------------|
| integer               | `int`      | Númerico  | Enteros positivos/negativos               | 1, 2, ..., n                                 |
| floating point number | `float`    | Númerico   | Números reales en forma décimal                  | 1.0, 1.1, 1.22, 1.333, ..., n                |
| boolean               | `bool`     | Lógico | Verdadero ó Falso                                 | True, False                                  |
| string                | `str`      | Cadena  | Texto                                          | 'Hola mundo...'                              |
| list                  | `list`     | Secuencia  | Una colección de objetos ordenada y mutable   | [0, 1, 2, 3, ..., n]                         |
| tuple                 | `tuple`    | Secuencia  | Una colección de objetos ordenada y inmutable | (1, 2, 3, ..., n)                            |
| dictionary            | `dict`     | Mapa   | Mapa de pares de objetos                    | { "Nombre": "Doe", 'Apellido: "Laden" } |
| none                  | `NoneType` | Nulo    | Representa ningun valor                           | `None`                                       |

(_Nota: El nombre de las variables no puede ser igual a las palabras reservadas de python_)

## Tipos de datos

### Datos tipo: numéricos

Hay varios tipos de datos numéricos (`enteros`, `punto flotante`, `decimal`, `complejos`, entre otros), aquí trabajaremos generalmente con dos de ellos: `enteros` (`int`) y `punto flotante` (`float`). La función `type()` nos ayuda a determinar el tipo de un objeto en Python

* **Enteros (int)**: este tipo de dato comprende todos los números enteros, ya que este conjunto es infinito, el lenguaje `Python` está limitado por la capacidad de memoria disponible.
* **Punto flotante (float)**: este tipo de datos sirve para representar sin problemas la mayoría de números reales, los valores `float` son almacenados de una forma muy particular, denominada representación en coma flotante, en [el estándar IEEE 754](https://en.wikipedia.org/wiki/IEEE_754) se explica con detalle. Así, si un número entero se define con punto decimal, por ejemplo: 1.0, este será almacenado tipo flotante

In [1]:
# Ejemplo Entero
entero_1 = 12361
flotante_1 = 123.215
flotante_2 = 1236.0

print("El tipo de la variable entero_1 es: " + str(type(entero_1)))
print("El tipo de la variable flotante_1 es: " +  str(type(flotante_1)))
print("El tipo de la variable flotante_2 es: " + str(type(flotante_2)))

El tipo de la variable entero_1 es: <class 'int'>
El tipo de la variable flotante_1 es: <class 'float'>
El tipo de la variable flotante_2 es: <class 'float'>


#### Operaciones aritméticas
| Símbolo |   Descripción   |
|:-------:|:---------------:|
|   `+`   |     adición     |
|   `-`   |  sustracción   |
|   `*`   | multiplicación  |
|   `/`   |    división     |
|  `**`   |    potencia     |
|  `//`   | división entera |
|   `%`   |     módulo      |

*Observación*: En adelante trabajaremos con los `f-strings` que permiten hacer líneas cortas de texto con variables integradas. Más información en: [f-strings](https://platzi.com/blog/f-strings-en-python/?utm_source=google&utm_medium=cpc&utm_campaign=12915366154&utm_adgroup=&utm_content=&gclid=Cj0KCQjw3IqSBhCoARIsAMBkTb2p5ZOBtPtlGG2B7P0qrtnp8Wwvbgd2OY_F3_P-6OOU1YE_QHHCMaYaAnTaEALw_wcB&gclsrc=aw.ds), [f-strings](https://peps.python.org/pep-0498/)


In [2]:
# Ejemplo operaciones con números enteros
x = 10
y = 5

print(f'La suma de dos números enteros es un entero, por ejemplo: {x + y}')

La suma de dos números enteros es un entero, por ejemplo: 15


In [3]:
# Ejemplo operaciones con números reales en forma décimal
x = 10.0
y = 5.0

print(f'La suma de dos números de tipo flotantes da como resultado un número flotante, por ejemplo: {x + y}')

La suma de dos números de tipo flotantes da como resultado un número flotante, por ejemplo: 15.0


In [4]:
# Ejemplo operaciones con números reales y enteros
x = 10
y = 5.0

# Note que el interprete de Python da relevanciá a los tipos float sobre los tipos int.
print(f'La suma un entero y un flotante es un flotante, por ejemplo: {x + y}')

La suma un entero y un flotante es un flotante, por ejemplo: 15.0


En los cuadernos `Jupyter` (versión interactiva de Python), la última línea de la celda será mostrada automáticamente.
Esto quiere decir que no siempre es necesario utilizar la función `print()`

In [5]:
#Ejemplo
x = 15
y = 20

x + y  # La operación de esta celda es mostrada automáticamente

35

### Datos tipo: Booleano (bool)
Este tipo de dato (`bool`) tiene únicamente dos valores: verdadero: `True` o falso: `False`. Puede ser usado para operadores lógicos donde se necesite evaluar si una afirmación es cierta o no.

### Datos tipo: texto (String)
Los strings ó cadenas de texto, se denotan como <code>str</code> y son una secuencia de símbolos que pueden incluir letras mayúsculas y minúsculas, números, signos de puntuación y espacios.

Existen tres formas de representar este tipo de datos, cualquiera de ellas es válida y no afecta el código:
* **Entre comillas sencillas:** 'Donepezil'
* **Entre comillas dobles:** "Donepezil"
* **Entre tres comillas sencillas o tres comillas dobles:** '''Donepezil''' o """Donepezil""" *(Sé usa principalmente para definir cadenas de textos en múltiples lineas)*

In [6]:
# Ejemplo de variable del tipo string
texto = 'Hola mundo'
print(f'texto: {texto}')

texto: Hola mundo


In [7]:
# Ejemplo de definiciones de variables tipo string, con comillas, sencillas, dobles y triples.
texto = "Hola mundo, comillas doble"
print(f'Texto - Comillas Doble: {texto}')

Texto - Comillas Doble: Hola mundo, comillas doble


In [8]:
texto = 'Hola Mundo, comillas sencillas'
print(f'Texto - Comillas Sencillas: {texto}')

Texto - Comillas Sencillas: Hola Mundo, comillas sencillas


In [9]:
# La triple comilla conserva los separadores (espacios, saltos de línea)
texto = """Hola mundo,
triple comilla doble"""
print(f'Texto - Triple Comilla Doble: {texto}')

Texto - Triple Comilla Doble: Hola mundo,
triple comilla doble


In [10]:
texto = '''Hola mundo,
triple comilla sencilla'''
print(f'Texto - Triple Comilla Sencillas: {texto}')

Texto - Triple Comilla Sencillas: Hola mundo,
triple comilla sencilla


Sí el texto es una cadena muy larga, es posible escribirla en modo multilinea, como se ve a continuación:

In [11]:
texto_multilinea = """Este texto es multilinea
porque posee diferentes lineas
para ello se imprime
"""
# \n es un separador de linea
print(f'Texto multilinea \n{texto_multilinea}')

Texto multilinea 
Este texto es multilinea
porque posee diferentes lineas
para ello se imprime



#### Indexación

Una de las formas más sencillas de manipular una cadena de caracteres, es a través del método de indexación:

Un texto es similar a una lista, donde cada elemento tiene un _índice_, en `Python` el primer elemento tiene índice cero. De esta manera se puede hacer uso de la indexación para manipular partes del texto.


In [12]:
texto = "Texto que se quiere manipular"

### EJEMPLO 1
print(f'Extraer una palabra del texto (texto[6:9]): {texto[6:9]}')  # del principio al final

Extraer una palabra del texto (texto[6:9]): que


In [13]:
#### EJEMPLO 2
print(f'Extraer la palabra \'quiere\' del texto recorriendo en string de adelante hacia atrás: {texto[13:19]}')  # del principio al final
print(f'Extraer la palabra \'quiere\' del texto recorriendo en string de atrás hacia adelante: {texto[-16:-10]}')  # del final al principio

Extraer la palabra 'quiere' del texto recorriendo en string de adelante hacia atrás: quiere
Extraer la palabra 'quiere' del texto recorriendo en string de atrás hacia adelante: quiere


Incluso es posible hacer comprobaciones lógicas con las cadenas de carácteres como se ve a continuación:

In [14]:
texto = "Texto que se quiere manipular"

### EJEMPLO 1
print(f'¿Será que \'para\' esta en texto?')
print("para" in texto)

#### EJEMPLO 2

print(f'\n¿Será que \'quiere\' esta en texto?')
print("quiere" in texto)


¿Será que 'para' esta en texto?
False

¿Será que 'quiere' esta en texto?
True


#### Métodos de String
Hay varios operadores en el lenguaje de Python que permiten trabajar con los datos de los String mediante operaciones en las que se devuelven los valores sin cambiar la cadena. Entre las que se encuentran:
* <code>.replace()</code>: sustituye en el string un valor específico por otro.
* <code>.split()</code>: divide el string en subcadenas según el parámetro establecido. Da como resultado una lista de elementos.
* <code>.find()</code>:  Busca en el string un valor específico y evidencia la posición en la que se encuentra. Da como resultado el índice (posición) del elemento buscado.


In [15]:
texto = "Hola mundo. Este es un texto de ejemplo"
print(texto)

# Reemplazar una palabra
texto.replace("Hola", "Hi")


Hola mundo. Este es un texto de ejemplo


'Hi mundo. Este es un texto de ejemplo'

In [16]:
# Separa la frase por espacios
lista_separada = texto.split(" ")
lista_separada

['Hola', 'mundo.', 'Este', 'es', 'un', 'texto', 'de', 'ejemplo']

In [17]:
# Encontrar la posición de la palabra 'mundo' en texto
texto.find("mundo")

5

### Datos tipo: Arreglos
Las listas, tuplas, diccionarios y conjuntos se emplean para almacenar varios elementos en una misma variable.
* **Listas (list):** los elementos tienen un índice y órden, pero pueden ser modificados, además puede tener elementos duplicados
* **Tuplas (tuple):** los elementos tienen un índice y orden, pero no se puede cambiar, agregar o eliminar una vez creada la tupla, además pueden hacer duplicados
* **Conjuntos (set):** los elementos no tienen un orden y no están indexados, tampoco puede haber duplicados. Se pueden usar operaciones entre conjuntos (por ejemplo la _union_ o _intersección_)
* **Diccionarios (dict):** se emplean para almacenar valores de datos en pares `clave:valor` (`keys:values`)), los elementos tienen un orden no modificable, se pueden hacer modificaciones y no se permiten duplicados

#### Listas
Las listas se emplean para almacenar varios elementos en una sola variable. Los elementos o datos que se almacenan pueden ser de cualquier tipo. A continuación se encuentran las características de este tipo de datos:
* Los elementos de las listas **están ordenados**, tienen un orden definido que no cambiará. Al agregar nuevos elementos a la lista por defecto estos se ubicarán al final de la misma.
* tienen un orden definido que no cambiará pues al agregar nuevos elementos a la lista se colocaran al final de la misma
* Los elementos de las listas **son modificables**, es decir, que se pueden cambiar, agregar y eliminar elementos después de que se haya creado la lista
* Las listas **permiten duplicados**, es decir, que pueden haber elementos con el mismo valor

In [18]:
# Guardar en la variable num una lista ordenada de elementos del 0 al 10
num = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
print(f'La lista de enteros del 0 al 10 es:')
num


La lista de enteros del 0 al 10 es:


[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [19]:
# para escribir la misma lista se puede utilizar la función range
num = list(range(11))
num

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

La listas se pueden definir a partir de diferentes tipos de datos:

In [20]:
num = [1, "2", 3, "4", 5, "6", 7, 8, "9", 10]
# Notar como los elementos tipo string están entre comillas
print(f'La lista es:')
num

La lista es:


[1, '2', 3, '4', 5, '6', 7, 8, '9', 10]

En el anterior ejemplo se ve la forma en la que esta escrita una lista:
* Se encuentra delimitada por corchetes cuadrados `[ ]`
* Cada elemento está separado por comas `,`

Como los elementos de la listas están ordenados se puede saber el índice de un elemento con la función <code>index()</code> la cual devuelve el índice del elemento en la primera aparición que encuentra a partir del índice 0 independientemente de cuántas veces este el elemento dentro de la lista.

##### Indexación
Utilizando la misma técnica para manipular las variables tipo string, por el método de indexación se puede manipular de manera similar las listas:

In [21]:
# num: una lista ordenada de elementos del 0-10
num = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
print('la lista es:')
print(num)
print('----------------------')

#### EJEMPLO 1
print(f'En la posición 0 de la lista está el elemento (primer elemento):')
print(num[0])
print('----------------------')

#### EJEMPLO 2
print(f'Los dos primeros elementos de la lista son:')
print(num[0:2])
print('----------------------')

#### EJEMPLO 3
print(f'Los dos últimos elementos  de la lista son:')
print(num[-2:])

la lista es:
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
----------------------
En la posición 0 de la lista está el elemento (primer elemento):
0
----------------------
Los dos primeros elementos de la lista son:
[0, 1]
----------------------
Los dos últimos elementos  de la lista son:
[9, 10]


##### Métodos de listas
A veces es necesario realizar algunas operaciones básicas sobre las listas, algunos de los métodos existentes son:

* <code>.len()</code>
* <code>.index()</code>
* <code>.pop()</code>
* <code>.append()</code>
* <code>.remove()</code>
* <code>.reverse()</code>

###### Método .len()
Con `.len(<lista>)` se puede determinar el número de elementos de la lista:

In [22]:
num = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
print('Número de elementos de la lista:')
len(num)


Número de elementos de la lista:


11

###### Método .index()
Con `.index(<elemento>)` se puede encontrar la posición ó index de un elemento en la lista:

In [23]:
#Es posible averiguar la posición de un elemento, incluso el valor en un lugar de la lista
print(f'¿En que posición se encuentra el 5?')
num.index(5)

¿En que posición se encuentra el 5?


5

###### Método .pop()
Con `.pop(<índice>)`. Se puede eliminar un elemento de la lista y retornarlo.
- En caso de que no se especifique el índice, se elimina el último elemento

Este método **sobreescribe** la lista:

In [24]:
print('Eliminar el último elemento de la lista')
print(num.pop())
print(num)

Eliminar el último elemento de la lista
10
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


###### Método  .append()
Con `.append(<elemento>)` se agrega el elemento al final la lista. Este método __sobreescribe__ la lista.

In [25]:
num.append(6)
print(f'La lista ahora con el elemento 6 al final:')
print(num)

La lista ahora con el elemento 6 al final:
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 6]


###### Método  .remove()
Con `.remove(<elemento>)` se elimina un elemento de una lista, es necesario indicar el elemento a eliminar:
- En caso de tener varios elementos iguales, solo se elimina el primero
- Si el elemento no está en la lista, devuelve un error 'ValueError'

Este método __sobreescribe__ la lista.

In [26]:
num.remove(2)
print(f'La lista ahora sin el 2:')
print(num)

La lista ahora sin el 2:
[0, 1, 3, 4, 5, 6, 7, 8, 9, 6]


###### Método  .reverse()
Con `.reverse()` se reordena la lista, del último elemento al primero. Este método __sobreescribe__ la lista.

In [27]:
# volver a crear num
num = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
num.reverse()  # Cambiar el orden
print('Lista en orden contrario')
print(num)


Lista en orden contrario
[10, 9, 8, 7, 6, 5, 4, 3, 2, 1, 0]


#### Tuplas
Las tuplas se emplean para almacenar varios elementos en una sola variable. Los elementos o datos que se almacenan pueden ser de cualquier tipo. A continuación se encuentran las características de este tipo de datos:
* Los elementos de las tuplas **están ordenados**, es decir, tienen un orden definido que no cambiará pues al agregar nuevos elementos a la lista se colocaran al final de la misma.
* Los elementos de las tuplas **son inmutables**, es decir, que no se pueden cambiar, agregar y eliminar elementos después de que se haya creado la tupla.
* Las tuplas **permiten duplicados**, es decir, que pueden haber elementos con el mismo valor.

In [28]:
# Sea tupla_num una tupla ordenada de elementos del 1 al 10
tupla_num = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

print(f'La tupla de elementos del 1 al 10 es:')
print(tupla_num)

La tupla de elementos del 1 al 10 es:
(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)


Una tupla es inmutable, por lo cual no se pueden asignar nuevos valores a sus elementos

In [29]:
# tupla_num[3] = 12

A los elementos de la tupla se pueden acceder de la misma forma que una lista


In [30]:
tupla_num = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
print('Tupla de elementos')
print(tupla_num)
print('----------------------')

#### EJEMPLO 1
print('Primer elemento (posición cero)')
print(tupla_num[0])
print('----------------------')

#### EJEMPLO 2
print('Últimos cuatro elementos')
print(tupla_num[-4:])
print('----------------------')

#### EJEMPLO 3
print('tupla de elementos de la posición dos a la cinco')
print(tupla_num[2:5])
print('----------------------')

Tupla de elementos
(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
----------------------
Primer elemento (posición cero)
1
----------------------
Últimos cuatro elementos
(7, 8, 9, 10)
----------------------
tupla de elementos de la posición dos a la cinco
(3, 4, 5)
----------------------


#### Conjuntos
Los conjuntos se emplean para almacenar varios elementos en una sola variable. Los elementos o datos que se almacenan pueden ser de cualquier tipo. A continuación se encuentran las características de este tipo de datos:
* Los elementos de los conjuntos **no están ordenados**, es decir, no tienen un orden definido ya que los elementos pueden aparecer en un orden diferente cada vez que los usa y no se puede hacer referencia a ellos por índice o clave.
* Los elementos de los conjuntos **son inmutables**, es decir, que no se pueden cambiar elementos después de que se haya creado el conjunto.
* Los conjuntos **no permiten duplicados**, es decir, no pueden haber elementos con el mismo valor.

In [31]:
# Conjunto de elementos con algunos repetidos
conjunto_num_1 = {1, 2, 1, 2, 3, 5, 8, 1, 3, 9, 10, 2, 3, 4, 5, 6, 7, 8, 1, 0}

print('El conjunto de elementos es:')
conjunto_num_1

El conjunto de elementos es:


{0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10}

#### Diccionarios

Los diccionarios son una estructura de datos especial, que nos aporta un poco más flexibilidad debido a su naturaleza de lista de objetos donde cada par contiene una clave y un valor. Por clave hacemos referencia a un valor que describe el tipo de dato guardado, a este tipo de estructuras se les conoce como una lista de objetos clave-valor.

Veamos un ejemplo, para ello definiremos un diccionario de codones con su traducción a su código genético:

In [32]:
codigo_genetico= {
    "GUU": "V", "GUC": "V", "GUA": "V",
    "GUG": "V", "GCU": "A", "GCC": "A",
    "GCA": "A", "GCG": "A", "GAU": "D",
    "GAC": "D", "GAA": "E", "GAG": "E",
    "GGU": "G", "GGC": "G", "GGA": "G",
    "GGG": "G", "AGA": "R", "AGG": "R",
    "AGU": "S", "AGC": "S", "AAU": "N",
    "AAC": "N", "AAA": "K", "AAG": "K",
    "ACU": "T", "ACC": "T", "ACA": "T",
    "ACG": "T", "AUU": "I", "AUC": "I",
    "AUA": "I", "AUG": "M", "CGU": "R",
    "CGC": "R", "CGA": "R", "CGG": "R",
    "CCU": "P", "CCC": "P", "CCA": "P",
    "CCG": "P", "CAU": "H", "CAC": "H",
    "CAA": "Q", "CAG": "Q", "UUU": "F",
    "UUC": "F", "UUA": "L", "UUG": "L",
    "UCU": "S", "UCC": "S", "UCA": "S",
    "UCG": "S", "UAU": "Y", "UAC": "Y",
    "UAA": "STOP", "UAG": "STOP", "UGU":"C",
    "UGC": "C", "UGA": "STOP", "UGG": "W",
    "CUU": "L", "CUC": "L", "CUA": "L",
    "CUG": "L"}

# Se imprime el diccionario previamente creado
print(codigo_genetico)

{'GUU': 'V', 'GUC': 'V', 'GUA': 'V', 'GUG': 'V', 'GCU': 'A', 'GCC': 'A', 'GCA': 'A', 'GCG': 'A', 'GAU': 'D', 'GAC': 'D', 'GAA': 'E', 'GAG': 'E', 'GGU': 'G', 'GGC': 'G', 'GGA': 'G', 'GGG': 'G', 'AGA': 'R', 'AGG': 'R', 'AGU': 'S', 'AGC': 'S', 'AAU': 'N', 'AAC': 'N', 'AAA': 'K', 'AAG': 'K', 'ACU': 'T', 'ACC': 'T', 'ACA': 'T', 'ACG': 'T', 'AUU': 'I', 'AUC': 'I', 'AUA': 'I', 'AUG': 'M', 'CGU': 'R', 'CGC': 'R', 'CGA': 'R', 'CGG': 'R', 'CCU': 'P', 'CCC': 'P', 'CCA': 'P', 'CCG': 'P', 'CAU': 'H', 'CAC': 'H', 'CAA': 'Q', 'CAG': 'Q', 'UUU': 'F', 'UUC': 'F', 'UUA': 'L', 'UUG': 'L', 'UCU': 'S', 'UCC': 'S', 'UCA': 'S', 'UCG': 'S', 'UAU': 'Y', 'UAC': 'Y', 'UAA': 'STOP', 'UAG': 'STOP', 'UGU': 'C', 'UGC': 'C', 'UGA': 'STOP', 'UGG': 'W', 'CUU': 'L', 'CUC': 'L', 'CUA': 'L', 'CUG': 'L'}


Python tiene su propia forma de definir diccionarios, a través de la palabra clave `dict`. Lo que nos daria una forma más elegante de creación:

Por lo general podemos acceder a los valores del diccionario de la misma manera que lo hacemos con los arreglos y las listas.

In [33]:
### Ejemplo 1: ¿Cuál es el valor del código genético de GGG?
print(f'El aminoácido de GGG es: {codigo_genetico["GGG"]}')
print('----------------------')

### Ejemplo 2: ¿Cuál es el valor del código genético de YYY?
codigo_genetico['YYY']



El aminoácido de GGG es: G
----------------------


KeyError: 'YYY'

En ejemplo 2 de la celda anterior arrojó el error `KeyError` debido a que `YYY` no está definida en el diccionario. En `Python` se pueden usar excepciones para definir de que manera manejar los errores. Esto se hace con la secuencia de comandos `try/except`. Por lo general un bloque del tipo `try/except` tiene la siguiente estructura:

```markdown
try:
    bloque código
except <tipo>:
    bloque código
```

Ahora, el ejemplo se puede escribir de la siguiente manera:

In [34]:
### Ejemplo 2: Uso de try/catch para cuando una clave no existe en el diccionario
try:
    codigo_genetico['YYY']
except KeyError:
    print(f'La propiedad YYY no existe en el diccionario, intenta con otra!')

La propiedad YYY no existe en el diccionario, intenta con otra!


# Práctica 1: Expresión del material genético

## Conceptos a trabajar

Los **ácidos nucleicos** son la unidad básica que compone el material genético. Están presentes en las células procariotas, eucariotas y virus. Se componen de pentosas, un grupo fosfato y bases nitrogenadas. Estas últimas están divididas en dos grupos: las purinas que son adenina (A) y guanina (G), y las pirimidinas que son citosina (C), la timina (T) y el uracilo (U). La unión de los ácidos nucleicos forma las macromoléculas esenciales para vida:

<img src="img/Figura1-es.png" alt="estructura" width="600"/>

*Figura 1*. Estructura del DNA y RNA evidenciando sus características y los ácidos nucleicos que la componen. Elaboración propia

**DNA (ácido desoxirribonucleico)**: es una macromolécula encargada de almacenar y expresar la información genética esencial para las funciones de cualquier organismo, tiene una organización ordenada de cuatro bases nitrogenadas A, G, T y C, las cuales, forman una cadena de doble hélice antiparalela y complementaria, donde la A siempre se une a T, y G a C, si se modificara alguna base o su orden cambiaria la información, lo cual puede desencadenar mutaciones.

**RNA (ácido ribonucleico)**: Es la macromolécula resultante de la transcripción del DNA, donde la T pasa a ser una U, es decir, es la copia determinada por la secuencia de una de las hebras de DNA.

Una de las funciones de la doble cadena de DNA es la expresión del material genético, es el proceso encargado de la síntesis de las proteínas que necesita la célula (fig. 2). Consta de dos fases principales, **transcripción** y **traducción** donde una secuencia de DNA codifica para una proteína en particular implicada en diferentes procesos como metabólicos o de identidad celular.

<img src="img/Figura2-es.jpg" alt="Transcripción-traducción" width="600"/>

*Figura 2. Dogma central de la biología molecular, donde se evidencia la expresión del material genético, la transcripción de DNA a RNAm, traducción a aminoácidos y a la formación de la proteína. Tomado de:
[Dogma](https://www.brainvta.tech/plus/list.php?tid=110).*

La **transcripción** es el primer paso para la generación de proteínas, en la que a partir de una cadena de DNA, denominada como DNA molde, se sintetiza una de RNA por medio de la enzima RNA polimerasa, donde se establece una copia casi idéntica de la secuencia de DNA, con la variación de sustituir en toda la secuencia la T por el U, sin embargo, al igual que la T, el U se empareja con la A (fig. 3). En las células eucariotas, este primer transcrito, sufre un segundo proceso llamado “splicing” en el cual se eliminan fracciones específicas de la secuencia que

<img src="img/Figura3-es.png" alt="Transcripción" width="600"/>

*Figura 3. Sintesis de RNAm, evidenciando la transcripción de DNA a RNA con la construcción de la cadena de RNAm a partir de la cadena molde de DNA, en ausencia de las enzimas implicadas. Figura modificada de: [Molecular biology of the gene, (2008), 13, 429-464]( https://books.google.com.co/books?id=7tadzgEACAAJ&dq=Molecular+biology+of+the+gene&hl=es-419&sa=X&redir_esc=y)*

## Planteamiento del problema
Supongamos que queremos obtener información básica de la enzima del citocromo P450, la cual codifica una proteína involucrada en el metabolismo de fármacos y la síntesis lípidos como de colesterol y esteroides. Para analizar la secuencia podemos emplear herramientas bioinformáticas, comenzaremos con la manipulación de <code>strings</code> de la secuencia, transcribiendo la secuencia de DNA a RNAm.

Primero, debemos descargar el documento con el que se va a trabajar. Podemos hacer una búsqueda del gen en la base de datos de Genbank: buscamos la secuencia de DNA del citocromo P450, específicamente la subfamilia C9 de homo sapiens, ID: [NM_000771.4](https://www.ncbi.nlm.nih.gov/nuccore/NM_000771.4?report=genbank).

Para descargar la secuencia, se selecciona el apartado **"Fasta"**, luego, en la sección **"Send to"** y luego **"Complete Record"**, se elige el archivo **(File)** y el formato para obtener la secuencia **(Fasta)**, posteriormente, se da clic en **"Create File"** y se descargar el documento. Para reconocer el archivo cambia el nombre del documento, en este caso "sec_CYP2C9.fasta".
- *El archivo `sec_CYP2C9.fasta` lo puede encontrar en la carpeta `/data/`*

A continuación, se carga el archivo para poder realizar el proceso de transcripción, para esto, se emplea el comando `with`, donde, la variable `GEN` está guardando un objeto (en este caso, un archivo). A estos objetos se les pueden llamar diferentes maneras. La línea `sec_CYP2C9 = (GEN.read())` guarda en la variable `sec_CYP2C9` un string con el contenido de la variable GEN.

### Secuencia NM_000771

In [35]:
#Secuencia de nucleótidos del gen CYP2C9
with open("data/sec_CYP2C9.fasta", "r") as GEN:
    sec_CYP2C9 = GEN.read()

# la variable GEN es un objeto que Python puede manipular
print(f'Tipo variable GEN: {type(GEN)}')

# La varialble sec_CYP2C9 es un string que podemos manipular
print(f'Tipo variable sec_CYP2C9: {type(sec_CYP2C9)}')

Tipo variable GEN: <class '_io.TextIOWrapper'>
Tipo variable sec_CYP2C9: <class 'str'>


In [36]:
print('El archivo descargado del GenBank del gen citocromo P450 es:')
sec_CYP2C9

El archivo descargado del GenBank del gen citocromo P450 es:


'>NM_000771.4 Homo sapiens cytochrome P450 family 2 subfamily C member 9 (CYP2C9), mRNA\nGTCTTAACAAGAAGAGAAGGCTTCAATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTT\nCTCCTTTCACTCTGGAGACAGAGCTCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGA\nTTGGAAATATCCTACAGATAGGTATTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGG\nCCCTGTGTTCACTCTGTATTTTGGCCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAA\nGCCCTGATTGATCTTGGAGAGGAGTTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAG\nGATTTGGAATTGTTTTCAGCAATGGAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCG\nGAATTTTGGGATGGGGAAGAGGAGCATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAG\nTTGAGAAAAACCAAGGCCTCACCCTGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCT\nGCTCCATTATTTTCCATAAACGTTTTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAA\nTGAAAACATCAAGATTTTGAGCAGCCCCTGGATCCAGATCTGCAATAATTTTTCTCCTATCATTGATTAC\nTTCCCGGGAACTCACAACAAATTACTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAA\nAAGAACACCAAGAATCAATGGACATGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGA\nGAAGGAAAAGCACAACCAACCATCTGAATTTACTATTGAAAGCTTGG

Vemos que la variable `sec_CYP2C9` guardó una línea de texto con el **caracter especial** `\n`. Este caracter siginifica *salto de línea*. Si imprimimos la secuencia se ve mejor:

In [37]:
print(sec_CYP2C9)

>NM_000771.4 Homo sapiens cytochrome P450 family 2 subfamily C member 9 (CYP2C9), mRNA
GTCTTAACAAGAAGAGAAGGCTTCAATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTT
CTCCTTTCACTCTGGAGACAGAGCTCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGA
TTGGAAATATCCTACAGATAGGTATTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGG
CCCTGTGTTCACTCTGTATTTTGGCCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAA
GCCCTGATTGATCTTGGAGAGGAGTTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAG
GATTTGGAATTGTTTTCAGCAATGGAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCG
GAATTTTGGGATGGGGAAGAGGAGCATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAG
TTGAGAAAAACCAAGGCCTCACCCTGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCT
GCTCCATTATTTTCCATAAACGTTTTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAA
TGAAAACATCAAGATTTTGAGCAGCCCCTGGATCCAGATCTGCAATAATTTTTCTCCTATCATTGATTAC
TTCCCGGGAACTCACAACAAATTACTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAA
AAGAACACCAAGAATCAATGGACATGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGA
GAAGGAAAAGCACAACCAACCATCTGAATTTACTATTGAAAGCTTGGAAAACACTGCAGTT

## Manipulación de strings

### Carga y manipulación de archivos de texto
Al descargar una secuencia desde Genbak en formato fasta, la primera línea contiene las referencias de la secuencia y el texto está separado por `\n`, con el siguiente procedimiento se puede limpiar el texto y dejar solamente la secuencia:
 - Emplear el método `.split()` que separa la cadena en una lista de elementos. A nosotros nos sirve separarla en los saltos de línea, que se representan con **'\n'**.
 - Luego se debe eliminar el primer elemento (índice cero).
 - Finalmente volver a unir toda la cadena en un solo string, para esto, se emplea el método `.join()`

In [38]:
# 1. Separar la cadena por renglones
sec_separada = sec_CYP2C9.split('\n')
print ("Lista separada:\n", str (sec_separada))

Lista separada:
 ['>NM_000771.4 Homo sapiens cytochrome P450 family 2 subfamily C member 9 (CYP2C9), mRNA', 'GTCTTAACAAGAAGAGAAGGCTTCAATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTT', 'CTCCTTTCACTCTGGAGACAGAGCTCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGA', 'TTGGAAATATCCTACAGATAGGTATTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGG', 'CCCTGTGTTCACTCTGTATTTTGGCCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAA', 'GCCCTGATTGATCTTGGAGAGGAGTTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAG', 'GATTTGGAATTGTTTTCAGCAATGGAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCG', 'GAATTTTGGGATGGGGAAGAGGAGCATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAG', 'TTGAGAAAAACCAAGGCCTCACCCTGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCT', 'GCTCCATTATTTTCCATAAACGTTTTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAA', 'TGAAAACATCAAGATTTTGAGCAGCCCCTGGATCCAGATCTGCAATAATTTTTCTCCTATCATTGATTAC', 'TTCCCGGGAACTCACAACAAATTACTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAA', 'AAGAACACCAAGAATCAATGGACATGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGA', 'GAA

In [39]:
# 2. Guardar la lista de elementos desde el segundo (índice 1) hasta el final, eliminando las referencias de la secuencia (índice 0).
sec_separada = sec_separada[1:]
# Ver la lista sin el primer elemento
print("Lista separada, sin el primer renglón:\n" + str (sec_separada))

Lista separada, sin el primer renglón:
['GTCTTAACAAGAAGAGAAGGCTTCAATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTT', 'CTCCTTTCACTCTGGAGACAGAGCTCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGA', 'TTGGAAATATCCTACAGATAGGTATTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGG', 'CCCTGTGTTCACTCTGTATTTTGGCCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAA', 'GCCCTGATTGATCTTGGAGAGGAGTTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAG', 'GATTTGGAATTGTTTTCAGCAATGGAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCG', 'GAATTTTGGGATGGGGAAGAGGAGCATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAG', 'TTGAGAAAAACCAAGGCCTCACCCTGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCT', 'GCTCCATTATTTTCCATAAACGTTTTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAA', 'TGAAAACATCAAGATTTTGAGCAGCCCCTGGATCCAGATCTGCAATAATTTTTCTCCTATCATTGATTAC', 'TTCCCGGGAACTCACAACAAATTACTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAA', 'AAGAACACCAAGAATCAATGGACATGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGA', 'GAAGGAAAAGCACAACCAACCATCTGAATTTACTATTGAAAGCTTGGAAAACACTGCAGTTGACTTGTTT'

In [40]:
# Unir la cadena para recopilar la secuencuencia.
DNA_CYP2C9 =(''.join(sec_separada))
print('Secuencia final:')
DNA_CYP2C9

Secuencia final:


'GTCTTAACAAGAAGAGAAGGCTTCAATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCTCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTATTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGCCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGTTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGGAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGCATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCTGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTTTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGCCCCTGGATCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTACTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACATGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCTGAATTTACTATTGAAAGCTTGGAAAACACTGCAGTTGACTTGTTTGGAGCTGGGACAGAGACGACAAGCACAACCCTGAGATATGCTCTCCTTCTCCTGCTGAAGCACCCAGAGGTCACAGCTAAAGTCCAGGA

Todo el proceso, desde cargar el archivo, hasta limpiarlo y guardarlo en una variable se puede combinar en una sola celda:

In [41]:
#Secuencia de nucleótidos del gen CYP2C9
with open("data/sec_CYP2C9.fasta", "r") as GEN:
    sec_CYP2C9 = GEN.read()
DNA_CYP2C9 =(''.join(sec_CYP2C9.split('\n')[1:]))
print('Secuencia final:')
DNA_CYP2C9

Secuencia final:


'GTCTTAACAAGAAGAGAAGGCTTCAATGGATTCTCTTGTGGTCCTTGTGCTCTGTCTCTCATGTTTGCTTCTCCTTTCACTCTGGAGACAGAGCTCTGGGAGAGGAAAACTCCCTCCTGGCCCCACTCCTCTCCCAGTGATTGGAAATATCCTACAGATAGGTATTAAGGACATCAGCAAATCCTTAACCAATCTCTCAAAGGTCTATGGCCCTGTGTTCACTCTGTATTTTGGCCTGAAACCCATAGTGGTGCTGCATGGATATGAAGCAGTGAAGGAAGCCCTGATTGATCTTGGAGAGGAGTTTTCTGGAAGAGGCATTTTCCCACTGGCTGAAAGAGCTAACAGAGGATTTGGAATTGTTTTCAGCAATGGAAAGAAATGGAAGGAGATCCGGCGTTTCTCCCTCATGACGCTGCGGAATTTTGGGATGGGGAAGAGGAGCATTGAGGACCGTGTTCAAGAGGAAGCCCGCTGCCTTGTGGAGGAGTTGAGAAAAACCAAGGCCTCACCCTGTGATCCCACTTTCATCCTGGGCTGTGCTCCCTGCAATGTGATCTGCTCCATTATTTTCCATAAACGTTTTGATTATAAAGATCAGCAATTTCTTAACTTAATGGAAAAGTTGAATGAAAACATCAAGATTTTGAGCAGCCCCTGGATCCAGATCTGCAATAATTTTTCTCCTATCATTGATTACTTCCCGGGAACTCACAACAAATTACTTAAAAACGTTGCTTTTATGAAAAGTTATATTTTGGAAAAAGTAAAAGAACACCAAGAATCAATGGACATGAACAACCCTCAGGACTTTATTGATTGCTTCCTGATGAAAATGGAGAAGGAAAAGCACAACCAACCATCTGAATTTACTATTGAAAGCTTGGAAAACACTGCAGTTGACTTGTTTGGAGCTGGGACAGAGACGACAAGCACAACCCTGAGATATGCTCTCCTTCTCCTGCTGAAGCACCCAGAGGTCACAGCTAAAGTCCAGGA

### Indexación y secuencia de listas
Para manejar datos de tipo `string` muy largos, se puede referenciar variables por la posición, desde diferentes secciones, empleando corchetes <code>"[inicio:final]"</code> para acceder a determinados elementos de una cadena.
Veamos algunos ejemplos:

#### Ejemplo 1
Imprimir partes de la secuencia `DNA_CYP2C9`
(_el conteo comienza desde cero_)
*Observación*: En adelante trabajaremos con los `f-strings` que permiten hacer líneas cortas de texto con variables integradas. Más información en: [f-strings](https://platzi.com/blog/f-strings-en-python/?utm_source=google&utm_medium=cpc&utm_campaign=12915366154&utm_adgroup=&utm_content=&gclid=Cj0KCQjw3IqSBhCoARIsAMBkTb2p5ZOBtPtlGG2B7P0qrtnp8Wwvbgd2OY_F3_P-6OOU1YE_QHHCMaYaAnTaEALw_wcB&gclsrc=aw.ds), [f-strings](https://peps.python.org/pep-0498/)

In [42]:
print(f'El primer nucleótido de la secuencia es: {DNA_CYP2C9[0]}')

print(f'Los primeros diez nucleótidos de la secuencia son: {DNA_CYP2C9[:10]}')

El primer nucleótido de la secuencia es: G
Los primeros diez nucleótidos de la secuencia son: GTCTTAACAA


In [43]:
print(f'La secuencia que abarca 2 a 10 nucleótidos es: {DNA_CYP2C9[2:10]}')

La secuencia que abarca 2 a 10 nucleótidos es: CTTAACAA


In [44]:
print(f'La secuencia de nucleótidos desde la posición 1100 es: {DNA_CYP2C9[1100:]}')

La secuencia de nucleótidos desde la posición 1100 es: TTGACCTTCTCCCCACCAGCCTGCCCCATGCAGTGACCTGTGACATTAAATTCAGAAACTATCTCATTCCCAAGGGCACAACCATATTAATTTCCCTGACTTCTGTGCTACATGACAACAAAGAATTTCCCAACCCAGAGATGTTTGACCCTCATCACTTTCTGGATGAAGGTGGCAATTTTAAGAAAAGTAAATACTTCATGCCTTTCTCAGCAGGAAAACGGATTTGTGTGGGAGAAGCCCTGGCCGGCATGGAGCTGTTTTTATTCCTGACCTCCATTTTACAGAACTTTAACCTGAAATCTCTGGTTGACCCAAAGAACCTTGACACCACTCCAGTTGTCAATGGATTTGCCTCTGTGCCGCCCTTCTACCAGCTGTGCTTCATTCCTGTCTGAAGAAGAGCAGATGGCCTGGCTGCTGCTGTGCAGTCCCTGCAGCTCTCTTTCCTCTGGGGCATTATCCATCTTTCACTATCTGTAATGCCTTTTCTCACCTGTCATCTCACATTTTCCCTTCCCTGAAGATCTAGTGAACATTCGACCTCCATTACGGAGAGTTTCCTATGTTTCACTGTGCAAATATATCTGCTATTCTCCATACTCTGTAACAGTTGCATTGACTGTCACATAATGCTCATACTTATCTAATGTTGAGTTATTAATATGTTATTATTAAATAGAGAAATATGATTTGTGTATTATAATTCAAAGGCATTTCTTTTCTGCATGTTCTAAATAAAAAGCATTATTATTTGCTGAGTCAGTTTATTAGACCTTCCTTCTTTTATGCATAATGTAGGTCAGAAATTAAAGAAAATAGAGTTCCAGGAGGCCATGCTGGTTCTCAAAATGATAAGGACAGAAAGGACAAAGAGGAAGAGGGTAGGGAAGCTATTTTGGGTGAGTGTTAGAGTTACTTGAGGATTGGATTTGAAAGTGAGAA

In [45]:
# Al emplear índices negativos se comienza a contar desde el final del String, útil en documentos extensos
print(f'Los últimos 25 nucleótidos de la secuencia son: {DNA_CYP2C9[-25:]}')

Los últimos 25 nucleótidos de la secuencia son: TATAAATACATGCTTTCATATCGCT


In [46]:
print(f'total de nucleótidos: {len(DNA_CYP2C9)}')

total de nucleótidos: 2561


### Transcripción DNA
Lo segundo que vamos a realizar es el proceso de **transcripción**, siendo la primera fase de la expresión génica. Para ello, sustituiremos en toda la secuencia la timina (T) por el uracilo (U). Empleando el método de String <code>.replace()</code>, obteniendo la secuencia de RNAm, que será sintetizado en una proteína.

In [47]:
# Transcripción de la secuencia de marmota de DNA a RNA, empleando la función ".replace()"
RNA_CYP2C9 = DNA_CYP2C9.replace("T","U")
print ("Secuencia RNAm:\n", str(RNA_CYP2C9))

Secuencia RNAm:
 GUCUUAACAAGAAGAGAAGGCUUCAAUGGAUUCUCUUGUGGUCCUUGUGCUCUGUCUCUCAUGUUUGCUUCUCCUUUCACUCUGGAGACAGAGCUCUGGGAGAGGAAAACUCCCUCCUGGCCCCACUCCUCUCCCAGUGAUUGGAAAUAUCCUACAGAUAGGUAUUAAGGACAUCAGCAAAUCCUUAACCAAUCUCUCAAAGGUCUAUGGCCCUGUGUUCACUCUGUAUUUUGGCCUGAAACCCAUAGUGGUGCUGCAUGGAUAUGAAGCAGUGAAGGAAGCCCUGAUUGAUCUUGGAGAGGAGUUUUCUGGAAGAGGCAUUUUCCCACUGGCUGAAAGAGCUAACAGAGGAUUUGGAAUUGUUUUCAGCAAUGGAAAGAAAUGGAAGGAGAUCCGGCGUUUCUCCCUCAUGACGCUGCGGAAUUUUGGGAUGGGGAAGAGGAGCAUUGAGGACCGUGUUCAAGAGGAAGCCCGCUGCCUUGUGGAGGAGUUGAGAAAAACCAAGGCCUCACCCUGUGAUCCCACUUUCAUCCUGGGCUGUGCUCCCUGCAAUGUGAUCUGCUCCAUUAUUUUCCAUAAACGUUUUGAUUAUAAAGAUCAGCAAUUUCUUAACUUAAUGGAAAAGUUGAAUGAAAACAUCAAGAUUUUGAGCAGCCCCUGGAUCCAGAUCUGCAAUAAUUUUUCUCCUAUCAUUGAUUACUUCCCGGGAACUCACAACAAAUUACUUAAAAACGUUGCUUUUAUGAAAAGUUAUAUUUUGGAAAAAGUAAAAGAACACCAAGAAUCAAUGGACAUGAACAACCCUCAGGACUUUAUUGAUUGCUUCCUGAUGAAAAUGGAGAAGGAAAAGCACAACCAACCAUCUGAAUUUACUAUUGAAAGCUUGGAAAACACUGCAGUUGACUUGUUUGGAGCUGGGACAGAGACGACAAGCACAACCCUGAGAUAUGCUCUCCUUCUCCUGCUGAAGCACCCAGAGGUCA

Podemos contar cuántas veces se realizó el cambio

In [48]:
RNA_CYP2C9.count('U')

755

## Manipulación de strings de gran tamaño

Las herramientas que vimos anteriormente se pueden aplicar en archivos pesados y con secuencias largas, como es el caso del genoma completo de la Marmota monax, ID: [JAIQCD010000022.1](https://www.ncbi.nlm.nih.gov/nuccore/JAIQCD010000022.1?report=fasta), gen que se irá trabajando en lo que queda de este cuaderno.

El archivo está en la ubicación `data/dna_marmota.fasta`, a continuación se muestra como se puede cargar y guardar en la variable `DNA_marmota`

In [49]:
# En adelante se va a trabajar con el método
with open("data/dna_marmota.fasta", "r") as GEN:
    DNA_marmota =  ''.join((GEN.read()).split('\n')[1:])
print(f'La secuencia del genoma de marmota tiene {len(DNA_marmota)} nucleótidos') # Con el comando len() se cuenta el número de caracteres que tiene un string
print(f'Los primeros 100 nucleótidos del genoma de marmota son: {DNA_marmota[:100]}')

La secuencia del genoma de marmota tiene 34815635 nucleótidos
Los primeros 100 nucleótidos del genoma de marmota son: CCAATATTCTGTACAATTAATTAGTAGCAGGGCATGGGTTGCATGTCTGCCATGGCAGTGACTCCTGGAGCCTGAGATAGGAGGATCTCAAGTTTGAGGT


In [50]:
# Transcripción de la secuencia de marmota de DNA a RNA, empleando la función ".replace()"
RNA_marmota = DNA_marmota.replace("T","U")
print("Los primeros nucleótidos de la secuencia de RNA son: "+ (RNA_marmota[:1000]))

Los primeros nucleótidos de la secuencia de RNA son: CCAAUAUUCUGUACAAUUAAUUAGUAGCAGGGCAUGGGUUGCAUGUCUGCCAUGGCAGUGACUCCUGGAGCCUGAGAUAGGAGGAUCUCAAGUUUGAGGUCACUUUGUAGGACCUUGUCUCAAAAAAAAAAAAAAAAACCCGGCUGGAAUGAAGUACAACUAGUGUGACAGCAGGUGGGUUUAUCCCAUUCCCAUUUGAAAAAUAAUGGAAAAUCUAGCCACUGGAGGGAUUGAAGGCCCAAUGAGGAGGGAGUAGGGUUAAUACUGCCAUUUUUCUUCUUUGGUGUAUUUUACAAAAAUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUGUUUCUCCCACCUUUGUUCUAUUGCUUUGACGUGUUUUUUUUUUUUCUUUUAUUUUUGGUAUUGGCUUGUUUUCACUUUCUUGUCAAUUUCUUUUGUAUCAAUUCUGUAGCUCUUUUUUUUUUACAGAAAAGAAAAUUACAGUCAAAAUAUUUUAUUUUCCUCUUAAUACUAACUUAAUUUCAAUCUCAUAAAGAUACUGUACCUUUAGAAUUCUAUCUCCCACUGUAUGUACUCAUUUUUCUUCCUUUAUUUUGGUGUUGUGCUGGGAUAGAACUCAGGAUGCUGCAGCACUGAGCUACAUCUCUAGCUUUUCUUUCUAUUUUUGCUUUGAGUGUGACCCAGUGUAAAGUGUUAGCCUAGCAUGCCUGAGGCCUUGGCUUCAAUUCUAACUAUCAUGAAACAAAUAUACUCUGUGUACCUGAUCUGACACUACAUGCUGUGUCCAUUAUUUUAAGGCUGCUAUCCUAUUGAAGAAGGUUUCAGAAAGGAUCAUGUAAGUCAUGUAAACAUGCUCCCCAAACAUCAAGUAUCCUUUACUUAAUUGUUAUGUUGAAGGCUAAGCUUAUUUUGAAUGUCAUCAUAUGAGCAAAAAAUCAAAGUGGACAU

## Actividad practica 1
Teniendo en cuenta lo aprendido anteriormente, analice la secuencia obtenida de la proteina citocromo P450 y responda:
1.	¿Cuántas veces se realizó la sustitución de una timina (t) por un uracilo (U)?
2.	¿Cuál es el tamaño de la secuencia?
3.	¿Cuántas purinas hay en la enzima?
4.	¿Cuál es la pareja de nucleótidos más repetidas en la proteína?

## Conclusiones
En esta primera práctica, se emplearon comandos y métodos relacionados con la manipulación de `strings` de archivos de diferentes tamaños. Se trabajó con dos cadenas de DNA diferentes, donde vimos las herramientas que se pueden implementar en las prácticas biológicas

Al mismo tiempo, se obtuvo información básica del genoma completo del citocromo P450, partiendo de la cadena de DNA para obtener el RNAm de la secuencia, la cual, será traducida a aminoácidos (práctica 2).

# Teoría: Estructuras de control de flujo
Python tiene sentencias de control de flujo que permite agrupar comandos de manera controlada. Dos de las más empleadas son:
1. Estructuras de control condicionales
2. Estructuras de control iterativas

### 1. Condicionales




Los condicionales permiten ejecutar una instrucción o tomar una decisión si se cumple una determinada condición, dando como resultado un valor booleano de verdadero o falso. Las funciones más empleadas:
* <code>if</code>: donde si se cumple la expresión se ejecuta el bloque de sentencias seguidas.
* <code>elif</code>: donde si no se cumplen las condiciones anteriores, se intenta con otra sentencia.
* <code>else</code>:  donde la expresión booleana es falsa o no se cumple una condición tomar esta otra opción.

```markdown
if <condicion_1>:
    bloque código
elif <condicion_2>:
    bloque código
 ...
else:
    bloque código
```

Evalúa la expresión lógica condicion_1 y ejecuta el primer bloque de código si es `True`; si no, evalúa las siguientes condiciones hasta llegar a la primera que es `True` y ejecuta el bloque de código asociado. Si ninguna condición es `True` ejecuta el bloque de código después de `else`.
*Observaciones*
- Un condicional `if` no necesariamente necesita `elif` o `else`
- Solo puede aparecer un `else`, y debe ir al final
- Los bloques de código deben estar indentados por 4 espacios
- El final del bloque condicional es cuando la línea vuelve al nivel anterior

En ciertos escenarios se pueden tomar decisiones, como puede ser aumentar el valor de x ó en su defecto disminuir su valor

In [51]:

x = 1  # valor inicial (pruebe cambiando este valor)

# Condición
if x == 1:
    x = x + 1
else:
    x = x -1

print(x) # valor final

2


Más de una expresión de comprobación puede ser parte del bloque a través de `elif`, ejemplo:

In [52]:
x = 3  # valor inicial (pruebe cambiando este valor)

if x == 1:
    x = x + 1
elif x == 2:
    x = x - 1
else:
    x = 0

print(x) # valor final

0


En ocasiones se pueden incluir expresiones **if** anidadas tanto como sea necesario, no es recomendable como práctica de desarrollo de software, por ejemplo:

In [53]:
x = 2
y = 2
if x == 1:
    if y == 2:
        x = x + 1
        y = y + 1
elif x == 2:
    if y == 2:
        x = x - 1
        y = y - 1
else:
    x = 0
    y = 0

print(f'Se espera que x,y sean iguales a 1. x={x} y={y}')

Se espera que x,y sean iguales a 1. x=1 y=1


### 2. Iteraciones
Las iteraciones o bucles permiten repetir una porción del código las veces que sea necesario, mientras la condición booleana sea verdadera o falsa, en python se incluyen únicamente dos funciones:
* <code>while</code>: permite realizar múltiples iteraciones ejecutando un código mientras la condición sea verdadera.
* <code>for</code>: permite iterar en orden sobre cada uno de los elementos de una secuencia, ya sea lista, tupla, diccionario, conjunto o cadena

Para más información revise el siguiente [link]( https://entrenamiento-python-basico.readthedocs.io/es/latest/leccion4/bucle_while.html)

#### Estructura de While:

Por lo general un bloque de código While debe seguir la siguiente forma:

```markdown
while <condicion>:
    bloque de código
```

*Recordemos que en Python no es necesario la palabra clave `return` al final de un bloqué de código ya que la convención es que siempre se retorna la última línea del código.*

In [54]:
#### EJEMPLO 1
# Aumentemos el valor de x hasta 10
x = 1
print('El valor inicial de x es:')
print(x)

while x < 10:
    print(f'El nuevo valor de x es {x}')
    x = x + 1

print('Al finalizar el bucle, el valor de x es:')
print(x)

El valor inicial de x es:
1
El nuevo valor de x es 1
El nuevo valor de x es 2
El nuevo valor de x es 3
El nuevo valor de x es 4
El nuevo valor de x es 5
El nuevo valor de x es 6
El nuevo valor de x es 7
El nuevo valor de x es 8
El nuevo valor de x es 9
Al finalizar el bucle, el valor de x es:
10


#### Estructura For

De la misma forma el bloque `for` sigue una estructura estandar para su definición:

```markdown
for <var> in <secuencia>:
    bloque de código
```

*Recordemos: no es necesario la palabra clave `return` como en otros lenguajes.*

In [55]:
#### EJEMPLO 2
# tomemos como ejemplo una lista de objetos, por ejemplo los tipos de codones y su código genético:
codigo_genetico= [
    ["GUU", "V"], ["GUC", "V"], ["GUA", "V"],
    ["GUG", "V"], ["GCU", "A"], ["GCC", "A"],
    ["GCA", "A"], ["GCG", "A"], ["GAU", "D"],
    ["GAC", "D"], ["GAA", "E"], ["GAG", "E"],
    ["GGU", "G"], ["GGC", "G"], ["GGA", "G"],
    ["GGG", "G"], ["AGA", "R"], ["AGG", "R"],
    ["AGU", "S"], ["AGC", "S"], ["AAU", "N"],
    ["AAC", "N"], ["AAA", "K"], ["AAG", "K"],
    ["ACU", "T"], ["ACC", "T"], ["ACA", "T"],
    ["ACG", "T"], ["AUU", "I"], ["AUC", "I"],
    ["AUA", "I"], ["AUG", "M"], ["CGU", "R"],
    ["CGC", "R"], ["CGA", "R"], ["CGG", "R"],
    ["CCU", "P"], ["CCC", "P"], ["CCA", "P"],
    ["CCG", "P"], ["CAU", "H"], ["CAC", "H"]
]

# Se puede recorrer todos los elementos de la lista lista_prot e imprimir la proteína y su tipo:
for codon in codigo_genetico:
    print(f'El aminoácido de {codon[0]} es {codon[1]}')

El aminoácido de GUU es V
El aminoácido de GUC es V
El aminoácido de GUA es V
El aminoácido de GUG es V
El aminoácido de GCU es A
El aminoácido de GCC es A
El aminoácido de GCA es A
El aminoácido de GCG es A
El aminoácido de GAU es D
El aminoácido de GAC es D
El aminoácido de GAA es E
El aminoácido de GAG es E
El aminoácido de GGU es G
El aminoácido de GGC es G
El aminoácido de GGA es G
El aminoácido de GGG es G
El aminoácido de AGA es R
El aminoácido de AGG es R
El aminoácido de AGU es S
El aminoácido de AGC es S
El aminoácido de AAU es N
El aminoácido de AAC es N
El aminoácido de AAA es K
El aminoácido de AAG es K
El aminoácido de ACU es T
El aminoácido de ACC es T
El aminoácido de ACA es T
El aminoácido de ACG es T
El aminoácido de AUU es I
El aminoácido de AUC es I
El aminoácido de AUA es I
El aminoácido de AUG es M
El aminoácido de CGU es R
El aminoácido de CGC es R
El aminoácido de CGA es R
El aminoácido de CGG es R
El aminoácido de CCU es P
El aminoácido de CCC es P
El aminoácid

Podemos iterar los elementos de un diccionario a través de los pares `key-value` usando el método `.items()`.

In [56]:
#### EJEMPLO 3: Uso de for para recorrer los elementos de un diccionario
codigo_genetico= {
    "GUU": "V", "GUC": "V", "GUA": "V",
    "GUG": "V", "GCU": "A", "GCC": "A",
    "GCA": "A", "GCG": "A", "GAU": "D",
    "GAC": "D", "GAA": "E", "GAG": "E",
    "GGU": "G", "GGC": "G", "GGA": "G",
    "GGG": "G", "AGA": "R", "AGG": "R",
    "AGU": "S", "AGC": "S", "AAU": "N",
    "AAC": "N", "AAA": "K", "AAG": "K",
    "ACU": "T", "ACC": "T", "ACA": "T",
    "ACG": "T", "AUU": "I", "AUC": "I",
    "AUA": "I", "AUG": "M", "CGU": "R",
    "CGC": "R", "CGA": "R", "CGG": "R",
    "CCU": "P", "CCC": "P", "CCA": "P",
    "CCG": "P", "CAU": "H", "CAC": "H",
    "CAA": "Q", "CAG": "Q", "UUU": "F",
    "UUC": "F", "UUA": "L", "UUG": "L",
    "UCU": "S", "UCC": "S", "UCA": "S",
    "UCG": "S", "UAU": "Y", "UAC": "Y",
    "UAA": "STOP", "UAG": "STOP", "UGU":"C",
    "UGC": "C", "UGA": "STOP", "UGG": "W",
    "CUU": "L", "CUC": "L", "CUA": "L",
    "CUG": "L"}

for codon, gen in codigo_genetico.items():
    print(f"El aminoácido de {codon} es {gen}")

El aminoácido de GUU es V
El aminoácido de GUC es V
El aminoácido de GUA es V
El aminoácido de GUG es V
El aminoácido de GCU es A
El aminoácido de GCC es A
El aminoácido de GCA es A
El aminoácido de GCG es A
El aminoácido de GAU es D
El aminoácido de GAC es D
El aminoácido de GAA es E
El aminoácido de GAG es E
El aminoácido de GGU es G
El aminoácido de GGC es G
El aminoácido de GGA es G
El aminoácido de GGG es G
El aminoácido de AGA es R
El aminoácido de AGG es R
El aminoácido de AGU es S
El aminoácido de AGC es S
El aminoácido de AAU es N
El aminoácido de AAC es N
El aminoácido de AAA es K
El aminoácido de AAG es K
El aminoácido de ACU es T
El aminoácido de ACC es T
El aminoácido de ACA es T
El aminoácido de ACG es T
El aminoácido de AUU es I
El aminoácido de AUC es I
El aminoácido de AUA es I
El aminoácido de AUG es M
El aminoácido de CGU es R
El aminoácido de CGC es R
El aminoácido de CGA es R
El aminoácido de CGG es R
El aminoácido de CCU es P
El aminoácido de CCC es P
El aminoácid

# Práctica 2: Expresión del material genético

## Conceptos a trabajar

La **traducción**, es la síntesis de una proteína a partir de la cadena de RNAm, esto ocurre dentro de unas proteínas llamadas ribosomas, durante este proceso, la secuencia de RNAm se lee en grupos de tres nucleótidos, llamados **codones**, los cuales, son interpretados por un **código genético** dando como resultado una codificación de aminoácido (fig. 4), los cuales se plegarán y formarán las proteínas (fig. 3).

<img src="img/Figura4-en-es.png" alt="code" width="1000"/>

*Figura 4. Código genético esencial en la expresión de proteínas donde se evidencia la formación de un codón a partir de un nucleótido (uracilo, adenina, guanina, o citocina), desde la secuencia de inicio (verde) y las de parada (rojo). Figura tomada de: [Molecular biology of the gene, (2008), 15, 509-569]( https://books.google.com.co/books?id=7tadzgEACAAJ&dq=Molecular+biology+of+the+gene&hl=es-419&sa=X&redir_esc=y)*

El ribosoma lee la secuencia en orden, buscando el codón de **inicio** AUG, el cual, a su vez codifica para el aminoácido de metionina y da comienzo a la traducción, al seguir avanzando construye la cadena de aminoácidos, es un proceso que repite muchas veces, en el que se leen las tripletas de nucleótidos y se adhiere el aminoácido correspondiente (fig. 3). La cadena resultante puede ser largas o cortas, se direccionan hasta encontrar uno de los tres codones que codifican para el **stop** (UAA, UGA o UAG) (fig. 4), al sintetizarlo, la cadena se libera del ribosoma y es modificada o combinada para formar una proteína funcional con una estructura especifica involucrada en algún proceso esencial para la célula u organismo.

## Planteamiento del problema
Continuando con el objetivo general, de obtener información básica de la enzima del citocromo P450, proteina anteriormente trabajada. Para ello, vamos a realizar la segunda fase implicada en la expresión génica, con el fin obtener los aminoácidos que codifican para la proteína.

Primero, debemos crear un diccionario en el que se encuentre el código genético, donde especifiquen los codones (tripletas de nucleótidos) que sintetiza su correspondiente aminoácido. Debemos tener en cuenta los pares `key-value`, donde las `key` serían los codones y los `value` los aminoácidos.

In [57]:
#Diccionario de codones para la traduccion
codigo_genetico = {"GUU": "V", "GUC": "V", "GUA": "V", "GUG": "V", "GCU": "A", "GCC": "A", "GCA": "A", "GCG": "A",
                "GAU": "D", "GAC": "D", "GAA": "E", "GAG": "E", "GGU": "G", "GGC": "G", "GGA": "G", "GGG": "G",
                "AGA": "R", "AGG": "R", "AGU": "S", "AGC": "S", "AAU": "N", "AAC": "N", "AAA": "K", "AAG": "K",
                "ACU": "T", "ACC": "T", "ACA": "T", "ACG": "T", "AUU": "I", "AUC": "I", "AUA": "I", "AUG": "M",
                "CGU": "R", "CGC": "R", "CGA": "R", "CGG": "R", "CCU": "P", "CCC": "P", "CCA": "P", "CCG": "P",
                "CAU": "H", "CAC": "H", "CAA": "Q", "CAG": "Q", "UUU": "F", "UUC": "F", "UUA": "L", "UUG": "L",
                "UCU": "S", "UCC": "S", "UCA": "S", "UCG": "S", "UAU": "Y", "UAC": "Y", "UAA": "STOP", "UAG": "STOP",
                "UGU": "C", "UGC": "C", "UGA": "STOP", "UGG": "W", "CUU": "L", "CUC": "L", "CUA": "L", "CUG": "L"}

print(f'Los codones son: \n{list(codigo_genetico.keys())}')
print('-----------------')
print(f'Los aminoácidos son: \n{list(codigo_genetico.values())}')

Los codones son: 
['GUU', 'GUC', 'GUA', 'GUG', 'GCU', 'GCC', 'GCA', 'GCG', 'GAU', 'GAC', 'GAA', 'GAG', 'GGU', 'GGC', 'GGA', 'GGG', 'AGA', 'AGG', 'AGU', 'AGC', 'AAU', 'AAC', 'AAA', 'AAG', 'ACU', 'ACC', 'ACA', 'ACG', 'AUU', 'AUC', 'AUA', 'AUG', 'CGU', 'CGC', 'CGA', 'CGG', 'CCU', 'CCC', 'CCA', 'CCG', 'CAU', 'CAC', 'CAA', 'CAG', 'UUU', 'UUC', 'UUA', 'UUG', 'UCU', 'UCC', 'UCA', 'UCG', 'UAU', 'UAC', 'UAA', 'UAG', 'UGU', 'UGC', 'UGA', 'UGG', 'CUU', 'CUC', 'CUA', 'CUG']
-----------------
Los aminoácidos son: 
['V', 'V', 'V', 'V', 'A', 'A', 'A', 'A', 'D', 'D', 'E', 'E', 'G', 'G', 'G', 'G', 'R', 'R', 'S', 'S', 'N', 'N', 'K', 'K', 'T', 'T', 'T', 'T', 'I', 'I', 'I', 'M', 'R', 'R', 'R', 'R', 'P', 'P', 'P', 'P', 'H', 'H', 'Q', 'Q', 'F', 'F', 'L', 'L', 'S', 'S', 'S', 'S', 'Y', 'Y', 'STOP', 'STOP', 'C', 'C', 'STOP', 'W', 'L', 'L', 'L', 'L']


## Estructuras de control
A continuación, emplearemos las **estructuras de control** para poder analizar la secuencia de RNA del citocromo `RNA_CYP2C9` para sintetizar la proteína, siguiendo estos pasos:
1. Identificar el inicio de la proteína: AUG
2. Dividir de tres en tres
3. Encontrar el stop (pueden ser varios, mirar diccionario)
4. Imprimir la proteína: AUG(codones - de tres en tres)STOP

In [58]:
# Volver a cargar la secuencia
with open("data/sec_CYP2C9.fasta", "r") as GEN:
    sec_CYP2C9 = GEN.read()
DNA_CYP2C9 =(''.join(sec_CYP2C9.split('\n')[1:]))
RNA_CYP2C9 = DNA_CYP2C9.replace("T","U")

run = True
# busqueda codón inicio AUG
i = 0
for i in range(len(RNA_CYP2C9)):
    if RNA_CYP2C9[i:i + 3] == 'AUG':  # Inicio de proteína encontrado
        RNA_CYP2C9 = RNA_CYP2C9[i:]  # recorte de secuencia. Nuevo RNA
        break  # terminar el ciclo for
    if i >= (len(RNA_CYP2C9) - 3):  # Inicio de proteína NO encontrado
        print('No se encontró el codón de inicio AUG')
        RNA_CYP2C9 = RNA_CYP2C9[i:i + 3]
        run = False  # terminar
        break  # termianr el ciclo for

# Este código solo se ejecuta si se encontró el inicio de la proteína
# Se ejecuta con la secuencia recortada
proteina = list()
if run:
    i = 0
    # inicio traducción
    while i <= len(RNA_CYP2C9) - 2:
        codon = codigo_genetico[RNA_CYP2C9[i:i + 3]]
        proteina.append(codon)
        i += 3
        if codon == 'STOP':
            print(f'>> Proteína encontrada')
            RNA_CYP2C9 = RNA_CYP2C9[i:]  # nuevo RNA (recortado)
            proteina = proteina[:-1]
            texto_proteina = ''.join(proteina)
            print(f'Proteina: {texto_proteina}')
            break
        if i >= (len(RNA_CYP2C9) - 3):
            print('No se encontró el codón STOP')
            RNA_KR711927 = RNA_CYP2C9[i:i + 3]
            break

>> Proteína encontrada
Proteina: MDSLVVLVLCLSCLLLLSLWRQSSGRGKLPPGPTPLPVIGNILQIGIKDISKSLTNLSKVYGPVFTLYFGLKPIVVLHGYEAVKEALIDLGEEFSGRGIFPLAERANRGFGIVFSNGKKWKEIRRFSLMTLRNFGMGKRSIEDRVQEEARCLVEELRKTKASPCDPTFILGCAPCNVICSIIFHKRFDYKDQQFLNLMEKLNENIKILSSPWIQICNNFSPIIDYFPGTHNKLLKNVAFMKSYILEKVKEHQESMDMNNPQDFIDCFLMKMEKEKHNQPSEFTIESLENTAVDLFGAGTETTSTTLRYALLLLLKHPEVTAKVQEEIERVIGRNRSPCMQDRSHMPYTDAVVHEVQRYIDLLPTSLPHAVTCDIKFRNYLIPKGTTILISLTSVLHDNKEFPNPEMFDPHHFLDEGGNFKKSKYFMPFSAGKRICVGEALAGMELFLFLTSILQNFNLKSLVDPKNLDTTPVVNGFASVPPFYQLCFIPV


In [59]:
# la variable proteina guarda una lista con cada aminoácido
print(proteina)

['M', 'D', 'S', 'L', 'V', 'V', 'L', 'V', 'L', 'C', 'L', 'S', 'C', 'L', 'L', 'L', 'L', 'S', 'L', 'W', 'R', 'Q', 'S', 'S', 'G', 'R', 'G', 'K', 'L', 'P', 'P', 'G', 'P', 'T', 'P', 'L', 'P', 'V', 'I', 'G', 'N', 'I', 'L', 'Q', 'I', 'G', 'I', 'K', 'D', 'I', 'S', 'K', 'S', 'L', 'T', 'N', 'L', 'S', 'K', 'V', 'Y', 'G', 'P', 'V', 'F', 'T', 'L', 'Y', 'F', 'G', 'L', 'K', 'P', 'I', 'V', 'V', 'L', 'H', 'G', 'Y', 'E', 'A', 'V', 'K', 'E', 'A', 'L', 'I', 'D', 'L', 'G', 'E', 'E', 'F', 'S', 'G', 'R', 'G', 'I', 'F', 'P', 'L', 'A', 'E', 'R', 'A', 'N', 'R', 'G', 'F', 'G', 'I', 'V', 'F', 'S', 'N', 'G', 'K', 'K', 'W', 'K', 'E', 'I', 'R', 'R', 'F', 'S', 'L', 'M', 'T', 'L', 'R', 'N', 'F', 'G', 'M', 'G', 'K', 'R', 'S', 'I', 'E', 'D', 'R', 'V', 'Q', 'E', 'E', 'A', 'R', 'C', 'L', 'V', 'E', 'E', 'L', 'R', 'K', 'T', 'K', 'A', 'S', 'P', 'C', 'D', 'P', 'T', 'F', 'I', 'L', 'G', 'C', 'A', 'P', 'C', 'N', 'V', 'I', 'C', 'S', 'I', 'I', 'F', 'H', 'K', 'R', 'F', 'D', 'Y', 'K', 'D', 'Q', 'Q', 'F', 'L', 'N', 'L', 'M', 'E', 'K',

## Actividad practica 2
Partiendo de lo aprendido, analice la secuencia de aminoácidos obtenidos de la proteina de RNA y responda:
1.	¿Cuántos aminoácidos tiene la proteína?
2.	¿Cuál es el aminoácido más repetido?
3.	Identifique el nucleótido en el que comienza la síntesis de aminoácidos
4.	En que nucleótido termina la síntesis de aminoácidos

## Conclusiones

En este punto de la práctica, utilizamos diversos comandos y métodos con el fin de obtener una secuencia de aminoácidos a partir de un `strigns` de ADN, siendo este un proceso que puede emplearse en secuencias de nucleótidos de diferentes tamaños y de diferentes organismos.

Así pues, para obtener los aminoácidos que componen las proteínas empelamos **arreglos** y **estructuras de control**, donde se obtuvo información básica de los aminoácidos de la proteína citocromo P450, la cual, emplearemos para clasificarlos y obtener información general de la enzima desde sus subunidades (practica 3).

# Teoría: Funciones

A parte de las expresiones y funcionalidades nativas de Python conocidas hasta ahora a través del libro, existen otras que son muy relevantes y necesarias a la hora de escribir cualquier programa de computadora. Y hablamos de las **funciones**: Una función básicamente es un fragmento de código que se puede reutilizar, que tiene un nombre que la identifica, y recibe unos parámetros de entrada. Las funciones por lo general no siempre devuelven un mismo resultado, ellas tienen un comportamiento basado en los valores de sus argumentos.

A la hora de definir una función, es importante tener en cuenta que:

1.	Tener un nombre que explique a primera vista, el resultado y la operación que realiza.
2.	La mayoría de las funciones reciben uno o varios parámetros necesarios para realizar la operación, aunque pueden no recibir ninguno.
3.	Por lo general devuelven un resultado, aunque no siempre sucede.


```markdown
def <nombre_funcion>(<parámetros>):
    bloque código
    bloque código
    ...
    retun <objeto>
```

Veamos un ejemplo:
La siguiente función al ser ejecutada devuelve un dato del tipo `string` si la proteína se encuentra en el diccionario o en su defecto devuelve `None`.

In [60]:
#### EJEMPLO 1: Verificación de existencia de codon de una lista de codones
# Diccionario de proteínas y su tipo:
codigo_genetico = {"GUU": "V", "GUC": "V", "GUA": "V", "GUG": "V", "GCU": "A", "GCC": "A", "GCA": "A", "GCG": "A",
                "GAU": "D", "GAC": "D", "GAA": "E", "GAG": "E", "GGU": "G", "GGC": "G", "GGA": "G", "GGG": "G",
                "AGA": "R", "AGG": "R", "AGU": "S", "AGC": "S", "AAU": "N", "AAC": "N", "AAA": "K", "AAG": "K",
                "ACU": "T", "ACC": "T", "ACA": "T", "ACG": "T", "AUU": "I", "AUC": "I", "AUA": "I", "AUG": "M",
                "CGU": "R", "CGC": "R", "CGA": "R", "CGG": "R", "CCU": "P", "CCC": "P", "CCA": "P", "CCG": "P",
                "CAU": "H", "CAC": "H", "CAA": "Q", "CAG": "Q", "UUU": "F", "UUC": "F", "UUA": "L", "UUG": "L",
                "UCU": "S", "UCC": "S", "UCA": "S", "UCG": "S", "UAU": "Y", "UAC": "Y", "UAA": "STOP", "UAG": "STOP",
                "UGU": "C", "UGC": "C", "UGA": "STOP", "UGG": "W", "CUU": "L", "CUC": "L", "CUA": "L", "CUG": "L"}

# función que verifica si existe un codon definido en el diccionario y devuelve su código genético o su defecto devuelve un valor None.
def codigo_gen_de_codon(codon):
    if codon in codigo_genetico:
        return codigo_genetico[codon]

# Ejecutar la función
print(f'El aminiácido de GCG es: {codigo_gen_de_codon("GCG")}')

El aminiácido de GCG es: A


*Observaciones*:
* Toda función debe iniciar con la palabra clave **def** seguido del nombre, seguido de los parámetros entre paréntesis y finalizar la línea con dos puntos
    * El nombre de la función es: **tipo_de_proteina**
    * El parámetro que recibe la función es: **nombre_proteina**
* El cuerpo de la función esta indentado cuatro espacios
* El final del bloque es cuando la línea vuelve al nivel anterior
* Una vez creada la función se puede invocar con su nombre seguido de paréntesis y si es necesario enviar los parámetros por referencia.





### Parámetros de una función

Una función puede recibir más de un parámetro, en el ejemplo anterior la función solo recibía uno, pero podemos agregar más. Por ejemplo, modifiquemos la función para que reciba también la lista de `proteinas`:

In [61]:
#### EJEMPLO 2

# función que verifica si existe un codon definido en el diccionario y devuelve su código genético o su defecto devuelve un valor None.
# notar que esta función recibe dos paramétros
def codigo_gen_de_codon(tipo_de_codones, nombre):
    if nombre in tipo_de_codones:
        return tipo_de_codones[nombre]

# Forma de ejecutar la función previamente creada
codigo_gen_de_codon(codigo_genetico, "ACC")

'T'

Ahora que no es necesario definir la variable proteínas antes de la función, esto es porque las funciones poseen su propio contexto de ejecución, ahora el valor de la variable `proteínas` es referenciada al momento de ejecutar la función, como su primer parametro.

Sobre los parametros es importante resaltar que:

* Deben tener nombres claros y legibles que complementen lo que la función realiza
* Pueden ser de cualquier tipo como es el caso del ejemplo anterior `proteinas` es un diccionario mientras que `nombre_proteina` es de tipo string
* Pueden tener valores por defecto, veamos un ejemplo a continuación.

In [62]:
#### EJEMPLO 3

# Parámetro por defecto nombre_proteina='AAU'
def codigo_gen_de_codon(tipo_de_codones, nombre='AAU'):
    if nombre in tipo_de_codones:
        return tipo_de_codones[nombre]

# nombre_proteina no es necesario pasarlo como referencia ya que tiene un valor por defecto en la definición de la función.
codigo_gen_de_codon(codigo_genetico)

'N'

Ahora revisemos la implementación de la práctica #1 y realizemos una función que sea del tipo general y que nos sirva para encontrar cualquier proteína.

In [63]:
#### EJEMPLO 4: Función que se encarga de encontrar una proteína a partir de RNA y un codon inicial.

# Volver a cargar la secuencia
with open("data/sec_CYP2C9.fasta", "r") as GEN:
    sec_CYP2C9 = GEN.read()
DNA_CYP2C9 =(''.join(sec_CYP2C9.split('\n')[1:]))
RNA_CYP2C9 = DNA_CYP2C9.replace("T","U")


def rna_a_proteina(rna, codon_inicial='AUG'):
    run = True
    # busqueda codón inicio AUG
    i = 0
    for i in range(len(rna)):
        if rna[i:i + 3] == codon_inicial:  # Inicio de proteína encontrado
            rna = rna[i:]  # recorte de secuencia. Nuevo RNA
            break  # terminar el ciclo for
        if i >= (len(rna) - 3):  # Inicio de proteína NO encontrado
            print('No se encontró el codon de inicio AUG')
            rna = rna[i:i + 3]
            run = False  # terminar
            break  # terminar el ciclo for

    # Este código solo se ejecuta si se encontró el inicio de la proteína
    # Se ejecuta con la secuencia recortada
    if run:
        i = 0
        proteina = list()
        # inicio traducción
        while i <= len(rna) - 2:
            codon = codigo_genetico[rna[i:i + 3]]
            proteina.append(codon)
            i += 3
            if codon == 'STOP':
                print(f'>> Proteína encontrada')
                rna = rna[i:]  # nuevo RNA (recortado)
                proteina = proteina[:-1]
                texto_proteina = ''.join(proteina)
                print(f'Proteina: {texto_proteina}')
                break
            if i >= (len(rna) - 3):
                print('No se encontró el codon STOP')
                rna = rna[i:i + 3]
                break

#Invocamos la función con los argumentos necesarios
rna_a_proteina(RNA_CYP2C9, "AUG")

>> Proteína encontrada
Proteina: MDSLVVLVLCLSCLLLLSLWRQSSGRGKLPPGPTPLPVIGNILQIGIKDISKSLTNLSKVYGPVFTLYFGLKPIVVLHGYEAVKEALIDLGEEFSGRGIFPLAERANRGFGIVFSNGKKWKEIRRFSLMTLRNFGMGKRSIEDRVQEEARCLVEELRKTKASPCDPTFILGCAPCNVICSIIFHKRFDYKDQQFLNLMEKLNENIKILSSPWIQICNNFSPIIDYFPGTHNKLLKNVAFMKSYILEKVKEHQESMDMNNPQDFIDCFLMKMEKEKHNQPSEFTIESLENTAVDLFGAGTETTSTTLRYALLLLLKHPEVTAKVQEEIERVIGRNRSPCMQDRSHMPYTDAVVHEVQRYIDLLPTSLPHAVTCDIKFRNYLIPKGTTILISLTSVLHDNKEFPNPEMFDPHHFLDEGGNFKKSKYFMPFSAGKRICVGEALAGMELFLFLTSILQNFNLKSLVDPKNLDTTPVVNGFASVPPFYQLCFIPV


# Práctica 3: Proteínas y aminoácidos
## Conceptos a trabajar
La diversidad funcional expresada por las proteínas, parten de la variedad molecular y la secuencia especifica que las componen. Los aminoácidos son subunidades de bajo peso molecular, los cuales, cumplen una función específica en la estructura de la proteína, por sus propiedades fisicoquímicas, como, polaridad, acidez o basicidad, aromaticidad, tamaño, capacidad de formar enlaces o su reactividad química (Fig. 5). Por tal razón, pueden ser clasificados de diversas formas:

<img src="img/Figura5-es.jpg" alt="aminoácidos1" width="600"/>

*Figura 5. : Diagrama de algunas propiedades físico-químicas de aminoácidos. Figura tomada de: [Asencio, T., Aguilar, J. (2010) Congreso Español Sobre Tecnologías y Lógica Fuzzy.(https://www.researchgate.net/publication/266892662_Importancia_de_las_Propiedades_Fisico-Quimicas_de_los_Aminoacidos_en_la_Prediccion_de_Estructuras_de_Proteinas_usando_Vecinos_mas_Cercanos)*

1.	Por la polaridad, la capacidad de interaccionar con moléculas de agua, dividiéndose en:

   * Apolares: hidrofóbicos.
   * Polares: hidrofílicos.
   * Ácidos: carga negativa a pH.
   * Básicos: carga positiva a pH fisiológico.

<img src="img/Figura6-es.jpg" alt="aminoácidos2" width="900"/>

*Figura 6. Estructura y clasificación de los aminoácidos por su polaridad. Figura tomada de: [Trudy McKee, James R. McKee. (2014)]( https://accessmedicina.mhmedical.com/book.aspx?bookid=1960)*

2. Por la conformación de su cadena latera, se pueden agrupar en:
   * Alifáticos
   * Aromáticos
   * Hidroxiáminoacidos
   * Tioaminoácidos
   * Iminoácidos
   * Dicarboxílicos
   * Amidas
   * Dibásicos

Conocer las propiedades fisicoquímicas de las proteínas, han facilitado la predicción de sus estructuras secundarias, es decir, entender el plegamiento de las proteínas para la formación tridimensional a partir de la cadena de aminoácidos que la forman, esto mediante los posibles enlaces que establecen entre las subunidades y entre proteínas.

## Planteamiento del problema
Para dar solución al objetivo general de la práctica, analizaremos 2 propiedades fisicoquímicas de la enzima del citocromo P450, empleando como guía la información de las figuras 6 y 7. De esta forma, obtendremos la información básica de la proteína, la cual, facilitaría una predicción de su plegamiento mediante el uso de las ciencias ómicas. Las propiedades que vamos a evaluar son:
* Polaridad
* Acidez o basicidad

Antes de comenzar, debemos crear un diccionario de las propiedades fisicoquímicas que queremos evaluar, con la clasificación de cada aminoácido. Donde, las `key` serían los aminoácidos y los `value` las propiedades.

In [64]:
#Diccionario de aminoácidos para su clasificación
propiedades= {"A": "Apolar", "V": "Apolar", "L": "Apolar", "G": "Apolar", "I": "Apolar", "F": "Apolar","W": "Apolar", "M": "Apolar", "P": "Apolar", "S": "Polar", "T": "Polar", "Y": "Polar", "N": "Polar", "Q": "Polar", "C": "Polar", "D": "Ácidos", "E": "Ácidos", "K": "Básicos", "R": "Básicos",  "H": "Básicos"}

print(f'Los aminoácidos son: \n{list(propiedades.keys())}')
print('-----------------')
print(f'Las propiedades son: \n{set(propiedades.values())}')
# se utiliza un conjunto a partir de la lista para que las propiedades no se repitan

Los aminoácidos son: 
['A', 'V', 'L', 'G', 'I', 'F', 'W', 'M', 'P', 'S', 'T', 'Y', 'N', 'Q', 'C', 'D', 'E', 'K', 'R', 'H']
-----------------
Las propiedades son: 
{'Ácidos', 'Básicos', 'Polar', 'Apolar'}


A continuación, vamos a crear la función `total_elements` para obtener el número de nucleótidos polares, apolares, ácidos y básicos presentes en la proteína.
Se utilizará el módulo `collections.Counter` el cual organiza los elementos de una lista en un `Counter` que dice cuantas veces se repite cada elemento.
El objeto `Counter` se puede comvertir luego en un `diccionario` donde podemos ver la infromación.

`Counter` también tiene métodos útilies, por ejemplo: `.most_common(n)`, el cual retorna el n-elemento más común del `Counter`.

mayor información https://docs.python.org/3/library/collections.html

In [65]:
def total_elements(lista_proteina):
    # Se importa el módulo a utilziar
    from collections import Counter
    # Se crea una lista vaçia donde se va a guardar la propiedad de cada aminoácido
    list_propiedades_proteina = list()
    contador = list()

    # Se va a iterar por cada aminoácido de la proteína
    for element in lista_proteina:

        # Se busca la propiedad del aminoácido y se guarda en la lista (.append())
        list_propiedades_proteina.append(propiedades[element])
        # Se llama al método Counter para organizar los datos
        contador = Counter(list_propiedades_proteina)
    print(f'Resumen de propiedades de la proteína:')
    print(f'Total elementos: {len(lista_proteina)}')
    print(f'Frecuenca de las propiedades: {dict(contador)}')
    print(f'Propiedad más común: {contador.most_common(1)[0]}')

    return None


In [66]:
# Proteína encontrada en la actividad 2
print(proteina)
print('-----------')
total_elements(proteina)

['M', 'D', 'S', 'L', 'V', 'V', 'L', 'V', 'L', 'C', 'L', 'S', 'C', 'L', 'L', 'L', 'L', 'S', 'L', 'W', 'R', 'Q', 'S', 'S', 'G', 'R', 'G', 'K', 'L', 'P', 'P', 'G', 'P', 'T', 'P', 'L', 'P', 'V', 'I', 'G', 'N', 'I', 'L', 'Q', 'I', 'G', 'I', 'K', 'D', 'I', 'S', 'K', 'S', 'L', 'T', 'N', 'L', 'S', 'K', 'V', 'Y', 'G', 'P', 'V', 'F', 'T', 'L', 'Y', 'F', 'G', 'L', 'K', 'P', 'I', 'V', 'V', 'L', 'H', 'G', 'Y', 'E', 'A', 'V', 'K', 'E', 'A', 'L', 'I', 'D', 'L', 'G', 'E', 'E', 'F', 'S', 'G', 'R', 'G', 'I', 'F', 'P', 'L', 'A', 'E', 'R', 'A', 'N', 'R', 'G', 'F', 'G', 'I', 'V', 'F', 'S', 'N', 'G', 'K', 'K', 'W', 'K', 'E', 'I', 'R', 'R', 'F', 'S', 'L', 'M', 'T', 'L', 'R', 'N', 'F', 'G', 'M', 'G', 'K', 'R', 'S', 'I', 'E', 'D', 'R', 'V', 'Q', 'E', 'E', 'A', 'R', 'C', 'L', 'V', 'E', 'E', 'L', 'R', 'K', 'T', 'K', 'A', 'S', 'P', 'C', 'D', 'P', 'T', 'F', 'I', 'L', 'G', 'C', 'A', 'P', 'C', 'N', 'V', 'I', 'C', 'S', 'I', 'I', 'F', 'H', 'K', 'R', 'F', 'D', 'Y', 'K', 'D', 'Q', 'Q', 'F', 'L', 'N', 'L', 'M', 'E', 'K',

Con esta información, ya conocemos la longitud de la secuencia de aminoácidos y las propiedades fisicoquímicas de su estructura, la cual cuenta con regiones tanto polares, como apolares, siendo esta última la más común, lo que nos permite tener una aproximación del carácter de los grupos funcionales con los que es tiende a hacer reacción.

## Actividad practica 3
Teniendo en cuenta lo revisado en este Notebook introductorio y con ayuda de la bibliografía, conteste:
1.	¿Se podrían clasificar los aminoácidos de una forma diferente?
2.	Realice una nueva clasificación de la proteína basándose en la conformación de la cadena latera
3.	Que diferencia presenta la secuencia de aminoácidos final en comparación con la secuencia de CYP2C19 (NM_000769.4) una secuencia de la misma familia de proteínas del citocromo P450 que presenta un polimorfismo (mutación) en la secuencia de aminoácidos.

## Conclusiones
En este tutorial, comprendido los usos de las herramientas básicas de Python empleadas en las practicas bioinformáticas, que van desde el manejo y recopilación de datos, hasta el uso de comandos y métodos para su manipulación y análisis. Esto se realizó mediante dos fases, una teórica y una práctica, donde realizamos la expresión del material genético de una proteína desde una secuencia de ADN, hasta obtener los correspondientes aminoácidos y sus propiedades.
En los próximos tutoriales, explicaremos más herramientas de Python utilizadas en la recopilación y organización de datos obtenidos de recursos electrónicos, implementando diferentes librerías y su desarrollo.


# Bibliografía
1.	Cortés, G. & Aguilar-Ruiz, J. (2006). Importancia de las Propiedades Físico-Químicas de los Aminoácidos en la Predicción de Estructuras de Proteínas usando Vecinos más Cercanos.
2.	Jiménez, F. &  Merchant, H. (2003). Biología celular y molecular. (1ra ed.). Pearson Educación de México, S.A. de C.V
3.	McKee, J. R., & McKee, T. (2014). Bioquímica. Las bases moleculares de la vida. McGraw-Hill Education LLC.
4.	Salazar, A., Sandoval, A., & Armendáriz, J. (2016). Biología Molecular. Fundamentos y aplicaciones en las ciencias de la salud. (2da ed.). HILL/INTERAMERICANA EDITORES, S.A. DE C.V.
5.	Watson, J. D. (2008). Molecular biology of the gene (6th ed.). Pearson/Benjamin Cummings.