# Práctica 2: Expresión del material genético

> **Nota:** Este libro esta disponible de dos maneras: 
> 1. Descargando el repositorio y siguiendo las instrucciones que estan en el archivo [README.md](https://github.com/ramirezlab/CHEMO/blob/main/README.md)
> 2. Haciendo clic aquí en [![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ramirezlab/CHEMO/blob/main/1_PART_ONE/1.3_Practica-2_y_Practica-3.es.ipynb) 

## Conceptos a trabajar

La **traducción**, es la síntesis de una proteína a partir de la cadena de ARNm, esto ocurre dentro de unas proteínas llamadas ribosomas, durante este proceso, la secuencia de ARNm se lee en grupos de tres nucleótidos, llamados **codones**, los cuales, son interpretados por un **código genético** dando como resultado una codificación de aminoácido **<sup> 1 </sup>** (fig. 1), los cuales se plegarán y formarán las proteínas.

<img src="img/Figura4-en-es.png" alt="code" width="1000"/>

*Figura 1. Código genético esencial en la expresión de proteínas donde se evidencia la formación de un codón a partir de un nucleótido (uracilo, adenina, guanina, o citocina), desde la secuencia de inicio (verde) y las de parada (rojo). Figura adaptada de: [Molecular biology of the gene, (2008), 15, 509-569]( https://books.google.com.co/books?id=7tadzgEACAAJ&dq=Molecular+biology+of+the+gene&hl=es-419&sa=X&redir_esc=y)*

El ribosoma lee la secuencia en orden, buscando el codón de **inicio** AUG, el cual, a su vez codifica para el aminoácido de metionina y da comienzo a la traducción, al seguir avanzando construye la cadena de aminoácidos, es un proceso que repite muchas veces, en el que se leen las tripletas de nucleótidos y se adhiere el aminoácido correspondiente (fig. 3 libro 1.2). La cadena resultante puede ser largas o cortas, se direccionan hasta encontrar uno de los tres codones que codifican para el **stop** (UAA, UGA o UAG) (fig. 1), al sintetizarlo, la cadena se libera del ribosoma y es modificada o combinada para formar una proteína funcional con una estructura especifica involucrada en algún proceso esencial para la célula u organismo **<sup> 2 </sup>**.

## Planteamiento del problema
Continuando con el objetivo general, de obtener información básica de la enzima del citocromo P450, proteina anteriormente trabajada. Para ello, vamos a realizar la segunda fase implicada en la expresión génica, con el fin obtener los aminoácidos que codifican para la proteína.

Primero, debemos crear un diccionario en el que se encuentre el código genético, donde especifiquen los codones (tripletas de nucleótidos) que sintetiza su correspondiente aminoácido. Debemos tener en cuenta los pares `key-value`, donde las `key` serían los codones y los `value` los aminoácidos.

In [None]:
# Diccionario de codones para la traduccion
código_genetico = {"GUU": "V", "GUC": "V", "GUA": "V", "GUG": "V", "GCU": "A", "GCC": "A", "GCA": "A", "GCG": "A",
                "GAU": "D", "GAC": "D", "GAA": "E", "GAG": "E", "GGU": "G", "GGC": "G", "GGA": "G", "GGG": "G",
                "AGA": "R", "AGG": "R", "AGU": "S", "AGC": "S", "AAU": "N", "AAC": "N", "AAA": "K", "AAG": "K",
                "ACU": "T", "ACC": "T", "ACA": "T", "ACG": "T", "AUU": "I", "AUC": "I", "AUA": "I", "AUG": "M",
                "CGU": "R", "CGC": "R", "CGA": "R", "CGG": "R", "CCU": "P", "CCC": "P", "CCA": "P", "CCG": "P",
                "CAU": "H", "CAC": "H", "CAA": "Q", "CAG": "Q", "UUU": "F", "UUC": "F", "UUA": "L", "UUG": "L",
                "UCU": "S", "UCC": "S", "UCA": "S", "UCG": "S", "UAU": "Y", "UAC": "Y", "UAA": "STOP", "UAG": "STOP",
                "UGU": "C", "UGC": "C", "UGA": "STOP", "UGG": "W", "CUU": "L", "CUC": "L", "CUA": "L", "CUG": "L"}

print(f'Los codones son: \n{list(código_genetico.keys())}')
print('-----------------')
print(f'Los aminoácidos son: \n{list(código_genetico.values())}')

## Estructuras de control
A continuación, emplearemos las **estructuras de control** para poder analizar la secuencia de ARN del citocromo `ARN_CYP2C9` para sintetizar la proteína, siguiendo estos pasos:
1. Identificar el inicio de la proteína: AUG
2. Dividir de tres en tres
3. Encontrar el stop (pueden ser varios, mirar diccionario)
4. Imprimir la proteína: AUG(codones - de tres en tres)STOP

In [None]:
# Importa el módulo 'request'", que se utiliza para realizar solicitudes HTTP en Python
import requests

# Se define una variable url que contiene la dirección URL de un archivo en formato FASTA que contiene una secuencia de ADN
url = "https://raw.githubusercontent.com/ramirezlab/CHEMO/main/1_PART_ONE/data/sec_CYP2C9.fasta"

# Se define la variable 'response' la cual va a realizar una solicitud HTTP GET a la URL definida en la línea anterior utilizando la función 'get()' del módulo requests.
response = requests.get(url)

# Se verifica si el código de estado de la respuesta HTTP es 200, lo que indica una solicitud exitosa.
if response.status_code == 200:
    sec_CYP2C9 = response.text                        # Obtener el contenido del archivo desde la respuesta HTTP y se guarda en la variable sec_CYP2C9
    ADN_CYP2C9 = ''.join(sec_CYP2C9.split('\n')[1:])  # Procesar la secuencia de ADN para eliminar la primera línea (que generalmente contiene metadatos en un archivo FASTA)
    ARN_CYP2C9 = ADN_CYP2C9.replace("T", "U")         # Se convierte la secuencia de ADN a ARN, reemplazando todas las timinas (T) por uracilos (U)
    run = True
    i = 0
    for i in range(len(ARN_CYP2C9)):
        if ARN_CYP2C9[i:i + 3] == 'AUG':  # Inicio de proteína encontrado
            ARN_CYP2C9 = ARN_CYP2C9[i:]  # Recorte de secuencia. Nuevo ARN
            break
        if i >= (len(ARN_CYP2C9) - 3):  # Inicio de proteína NO encontrado
            print('No se encontró el codón de inicio AUG')
            ARN_CYP2C9 = ARN_CYP2C9[i:i + 3]
            run = False
            break

    proteina = list()
    if run:
        i = 0
        # Inicio de la traducción
        while i <= len(ARN_CYP2C9) - 2:
            codon = código_genetico[ARN_CYP2C9[i:i + 3]]
            proteina.append(codon)
            i += 3
            if codon == 'STOP':
                print(f'>> Proteína encontrada')
                ARN_CYP2C9 = ARN_CYP2C9[i:]  # Nuevo ARN (recortado)
                proteina = proteina[:-1]
                texto_proteina = ''.join(proteina)
                print(f'Proteina: {texto_proteina}')
                break
            if i >= (len(ARN_CYP2C9) - 3):
                print('No se encontró el codón STOP')
                ARN_CYP2C9 = ARN_CYP2C9[i:i + 3]
                break

else:
    print(f"Error al acceder al archivo. Código de estado: {response.status_code}")


In [None]:
# la variable proteina guarda una lista con cada aminoácido
print(proteina)

## Conclusiones

En este punto de la práctica, utilizamos diversos comandos y métodos con el fin de obtener una secuencia de aminoácidos a partir de un `strigns` de ADN, siendo este un proceso que puede emplearse en secuencias de nucleótidos de diferentes tamaños y de diferentes organismos.

Así pues, para obtener los aminoácidos que componen las proteínas empelamos **arreglos** y **estructuras de control**, donde se obtuvo información básica de los aminoácidos de la proteína citocromo P450, la cual, emplearemos para clasificarlos y obtener información general de la enzima desde sus subunidades (práctica 3).

# Práctica 3: Proteínas y aminoácidos
## Conceptos a trabajar
La diversidad funcional expresada por las proteínas, parten de la variedad molecular y la secuencia especifica que las componen. Los aminoácidos son subunidades de bajo peso molecular, los cuales, cumplen una función específica en la estructura de la proteína, por sus propiedades fisicoquímicas, como, polaridad, acidez o basicidad, aromaticidad, tamaño, capacidad de formar enlaces o su reactividad química **<sup> 3 </sup>** (Fig. 2). Por tal razón, pueden ser clasificados de diversas formas:

1.	Por la polaridad, la capacidad de interaccionar con moléculas de agua, dividiéndose en:

   * Apolares: hidrofóbicos.
   * Polares: hidrofílicos.
   * Ácidos: carga negativa a pH.
   * Básicos: carga positiva a pH fisiológico.

<img src="img/Figura6-es.jpg" alt="aminoácidos2" width="900"/>

*Figura 2. Estructura y clasificación de los aminoácidos por su polaridad. Figura adaptada de: [A Brief Guide to the Twenty Common Amino Acids (2014)](https://www.compoundchem.com/2014/09/16/aminoacids/)*

2. Por la conformación de su cadena latera, se pueden agrupar en:
   * Alifáticos
   * Aromáticos
   * Hidroxiáminoacidos
   * Tioaminoácidos
   * Iminoácidos
   * Dicarboxílicos
   * Amidas
   * Dibásicos

Conocer las propiedades fisicoquímicas de las proteínas, han facilitado la predicción de sus estructuras secundarias, es decir, entender el plegamiento de las proteínas para la formación tridimensional a partir de la cadena de aminoácidos que la forman, esto mediante los posibles enlaces que establecen entre las subunidades y entre proteínas.

## Planteamiento del problema
Para dar solución al objetivo general de la práctica, analizaremos 2 propiedades fisicoquímicas de la enzima del citocromo P450, empleando como guía la información de las figuras 6 y 7. De esta forma, obtendremos la información básica de la proteína, la cual, facilitaría una predicción de su plegamiento mediante el uso de las ciencias ómicas. Las propiedades que vamos a evaluar son:
* Polaridad
* Acidez o basicidad

Antes de comenzar, debemos crear un diccionario de las propiedades fisicoquímicas que queremos evaluar, con la clasificación de cada aminoácido. Donde, las `key` serían los aminoácidos y los `value` las propiedades.

In [None]:
#Diccionario de aminoácidos para su clasificación
propiedades= {"A": "Apolar", "V": "Apolar", "L": "Apolar", "G": "Apolar", "I": "Apolar", "F": "Apolar","W": "Apolar", "M": "Apolar", "P": "Apolar", "S": "Polar", "T": "Polar", "Y": "Polar", "N": "Polar", "Q": "Polar", "C": "Polar", "D": "Ácidos", "E": "Ácidos", "K": "Básicos", "R": "Básicos",  "H": "Básicos"}

print(f'Los aminoácidos son: \n{list(propiedades.keys())}')
print('-----------------')
print(f'Las propiedades son: \n{set(propiedades.values())}')
# se utiliza un conjunto a partir de la lista para que las propiedades no se repitan

A continuación, vamos a crear la función `total_elements` para obtener el número de nucleótidos polares, apolares, ácidos y básicos presentes en la proteína.
Se utilizará el módulo `collections.Counter` el cual organiza los elementos de una lista en un `Counter` que dice cuantas veces se repite cada elemento.
El objeto `Counter` se puede comvertir luego en un `diccionario` donde podemos ver la infromación.

`Counter` también tiene métodos útilies, por ejemplo: `.most_common(n)`, el cual retoARN el n-elemento más común del `Counter`.

Mayor información https://docs.python.org/3/library/collections.html

In [None]:
def total_elements(lista_proteina):
    # Se importa el módulo a utilizar
    from collections import Counter
    # Se crea una lista vacia donde se va a guardar la propiedad de cada aminoácido
    list_propiedades_proteina = list()
    contador = list()

    # Se va a iterar por cada aminoácido de la proteína
    for element in lista_proteina:

        # Se busca la propiedad del aminoácido y se guarda en la lista (.append())
        list_propiedades_proteina.append(propiedades[element])
        # Se llama al método Counter para organizar los datos
        contador = Counter(list_propiedades_proteina)
    print(f'Resumen de propiedades de la proteína:')
    print(f'Total elementos: {len(lista_proteina)}')
    print(f'Frecuenca de las propiedades: {dict(contador)}')
    print(f'Propiedad más común: {contador.most_common(1)[0]}')

    return None


In [None]:
# Proteína encontrada en la actividad 2
print(proteina)
print('-----------')
total_elements(proteina)

Con esta información, ya conocemos la longitud de la secuencia de aminoácidos y las propiedades fisicoquímicas de su estructura, la cual cuenta con regiones tanto polares, como apolares, siendo esta última la más común, lo que nos permite tener una aproximación del carácter de los grupos funcionales con los que es tiende a hacer reacción.

## Actividad práctica

Teniendo en cuenta lo revisado en esta primera parte, realice un codigo en python con el cual pueda: 

1. Realizar la transcripción y traducción del siguiente gen:
   
ACAAGTCTTTCCGCCTCCCCAGCCCGCCCGGGAGCTGCGAGCCGCGAGCTGGATTATGGTGGCCTGAGCAGCCAACGCAGCCGCAGGAGCCCGGAGCCCTTGCCCCTGCCCGCGC
CGCCGCCCGCCGGGGGGACCAGGGAAGCCGCCACCGGCCCGCCATGCCCGCCCCTCCCAGCCCCGCCGGGAGCCCGCGCCCGCTGCCCAGGCTGGCCGCCGCCGTGCCGATGTAG
CGGGCTCCGGATCCCAGCCTCTCCCCTGCTCCCGTGCTCTGCGGATCTCCCCTGACCGCTCTCCACAGCCCGGACCCGGGGGCTGGCCCAGGGCCCTGCAGGCCCTGGCGTCCTG
ATGCCCCCAAGCTCCCTCTCCTGAGAAGCCACCAGCACCACCCAGACTTGGGGGCAGGCGCCAGGGACGGACGTGGGCCAGTGCGAGCCCAGAGGGCCCGAAGGCCGGGGCCCAC
CATGGCCCAAGCCCTGCCCTGGCTCCTGCTGTGGATGGGCGCGGGAGTGCTGCCTGCCCACGGCACCCAGCACGGCATCCGGCTGCCCCTGCGCAGCGGCCTGGGGGGCGCCCCC
CTGGGGCTGCGGCTGCCCCGGGAGACCGACGAAGAGCCCGAGGAGCCCGGCCGGAGGGGCAGCTTTGTGGAGATGGTGGACAACCTGAGGGGCAAGTCGGGGCAGGGCTACTACG
TGGAGATGACCGTGGGCAGCCCCCCGCAGACGGTAAGGTGGTCAGGCCAGCCCTTAGCCCTCCGCCTGCATGAGCAGAGGGGAGACAGGATGGGGATGCCTCAAGCTAGCCCCTG
CTCAAATGGGCTGGTGGGGACAGCAGGAGGGACCCCTCCCCAGCCATTCCCCGGGGGTCACGTGGTTGTTGGCAGAAGTGTTCCCAAGCTCCCCATTCCCTCCTCGTCTCCCCTG
GCTGCCTAGTTCCCCTTGCTCCTCATCTGACACATACGCCGTCTGGAAGGATTTGAGGCAAGACAGACACATCAGCTGGGGACCCTGACCTGGAGGAAGGGTCCGCCACAGGGGC
ACTATAACAGGTGTCAGCCCCCTCTGACAGTGGCCCAGTCCGAGTCTCCCAAATCCCACCACTCTAGAGGTTGGCCACCCAACCTTGTCCCCTCCTCTGATTCCCACCATTGTTC
CCAGTACCTCCAGGACCAAGGAATCCTGGCAGCAGTTGAATAAGCACCTTGCTCCCACCATCTGGGCTGCCACTGGTACGGCAAAGTGAGGTTGTCGAGGCCCCCCTGACTGCAC
TCCGCCCGGAAGCCCTGGACAGGCTCCTGCCGTCCCCTCCTCCTCCCCTTCTCCCTCTCGCGGTCTACACTCCGGCCCCTCCCCCACCCCACACCTCCCCAGGCCAGAGGGGAAC
TGAACTGAGCCTGGTGAAAGAACAAATGGTAGGAAAGGAGCCAGAGCTCCCTTTTAAGAGTGGGACTCCTTCCATGGCGGGGGAGAGGGGAGTTACAGAGAAAACACTGTTATGC
CCTCCCCATCCTTCCTGACAATCTCCAAGGTACCTTCAAGGTGGCTGGTGGAGGTGGCACCCTCTGCACCTCTGTGGGTGAGCAGCCCTCCATGTGGGGTGCTGTGGCTGACCTC
TGTGTGCATCTGCCGCCTCTGTGGGGCAGTCCGGGCCCGGGCAGCCCTGTGGTTCTGTGTATGCTGGTGCGTGTCACCTTGAATCTGATCCTGCACATCTGTGAGCCACCTCCGG
ATCTGTGTCTGGGAAGTCTGTCCTTGGGAGGGTCTGTGAAGGTGGGAGTGTGTTTGGGGTGGGCGGAGGGGACAGCCACACTTTCCTGAACTTCTCAGACAGCTGGATCTGGGAG
AAACACAAACCCCCACCTCCCAATTACTTTACAGAAGCCAGCCTTCCTAGGTGCGTGCTCCCCAGCCCTACCTCTCAGCTAGTCGAAAGCCTGGTCTTCCCCACTTTCTCATCCT
CTTTCCTGTGCACCATAACTTCCCCAGCAGTAGTCTCCAGTGGGAATTTGGGAGGGCAGGACAGAAGCCAAATCCAGGCCCTGAGCAAACAGAACGCTAGATGATATCGTCAGGG
AGCAGCAGGTATGCAGAGACCTGGGACCTACTCCTGTTTCTGCGACTGACATGCTGTGCACACTGTGCATGGACCCCATGGCACGATGCAGGACGGGGCTGCAGAACCCACACAA
GCTTTGAGGTCAGACAGTCCACGAATCCCAGCTCTACCACCCACAGCTTTTCCTCTTCTCAGCTGTGTGGCCTTGGGCAAATTGCATAACCTCTCTGAAACTACTGTCATATCTT
TAAAATGAGTAGGAAATGAGACCTCCTTTGCAAGGTAATTGTGAGGATTAAGTTGTGAGGGTTAATTGTTCTAGGTGCTTTCACCCAGAACAATACACCAGCATATAAAACTGAC
CTCCAACAAATATGAAGTCACTTTATCCTTGTCTGGCCTGTTCTGCCTCTTCAATTCTATGCAATGAGGCATAAAAACTCGGATGTCCTGGGCCTCCACGTTTTACATGTATAAA
ACTGGGGTATCCTGTAATCCCAGCACTTTGGGGGGCCAAGGTGGGCAGATCACCTGAGGTCAGGAGTTCGAGACCAGCTTGGCTAACATAGCAAAACCCTGTTTCTACTAAAAAT
ACAAAAATAATTCGCCGGGCCTGGTGGCATGCACCTGTAATCCCAGCTACTCAGGAGGCTGAGGCAGGAGAATCGCTTGAACCTGGGAGGCGGAGGTTGCAGTGAGACAAGATCG
CACCATTGCCCTCCAGCCTGGGCAACAAGAGCAAAACTCTGTCTCAGAAAAAATAAAAACAAAAACAAAAACGGGGTATCCATTGCTGTACTTCCCTGATCCCCTGAAATAATGC
ATACATCCTGCAGCCCAGTACTTAGCAGAGAGTAATTGCTCAATAAATGTCAGTTCCTTCCTCGTTCCTTTCTAGAAGAGGAAAGTGGGCTTAAAGTTCAACACCAGTCCAGGAA
GCTAGTGCCAGGGAGCCCACAACTAAAGCAACTGTGTGGCTTGCACTATGATTTCTAACTAAGCCTGCATCAGCCAGTCTCTGCTCTCTGGTGGCTTGGACTCTCTCCCCATCTG
TCTGTAAGAAGGACGCCCTTTCTTCCTACCTGGCGCGGCTGTTGTAAGTGCCAAATGAGAACTTGGATGGCATTGTATTCTGAACAAGAAAAAGTAAAATTTGGGGAGCACTTTC
TCTGTGCTAGGCAATTAATTGGTGGTGCCTGGGGGCTGATCCACAAAGAGACAAGAAGACATGTTTTCTGCCCACATAGAGTTACAGTGGAAGTGAAAGGGCGGAAGTGACGAGT
ACAAGGTCATCCATGCAGATATACTCAAAGCGAGGTCGGCAAACCCTCATTGGAGTCAGCTAAAAATGTAAATTCCCTGGCCCCATCCCTGACCTCTAGAGACAGGATCTCTGAC
AGTGGGGCCCCGTAGTTTGTGCCTCAAATTTGAGAACCATTTATGGCTGGACGCGGTGGCTCACGCCTGTAATCCCAACACTTTGGGAGGCTGAGGCCGGCGGATCACCTGAGGT
CAGGAGTTCGCGACCAGCCTGGCCAACGTGGTGAAACCCCATCTCTACGAAAAATGCAAAAATTATCTGGGCATG

2. Realizar el cálculo de las propiedades de la nueva proteína (Número de aminoacidos que componen la proteina, clasificación de los aminoácidos y propiedad más común).


Al finalizar deberá preparar un documento en formato PDF en el cual adjunte el codigo propuesto y la salida de la ejecución la cual deberá incluir la secuencia de la proteina, el número de aminoacidos que componen la proteina, clasificación de los aminoácidos y propiedad más común.

## Conclusiones
En este tutorial, comprendido los usos de las herramientas básicas de Python empleadas en las prácticas bioinformáticas, que van desde el manejo y recopilación de datos, hasta el uso de comandos y métodos para su manipulación y análisis. Esto se realizó mediante dos fases, una teórica y una práctica, donde realizamos la expresión del material genético de una proteína desde una secuencia de ADN, hasta obtener los correspondientes aminoácidos y sus propiedades.
En los próximos tutoriales, explicaremos más herramientas de Python utilizadas en la recopilación y organización de datos obtenidos de recursos electrónicos, implementando diferentes librerías y su desarrollo.


# Referencias

1. Translation. (2023). Genome.Gov. https://www.genome.gov/genetics-glossary/Translation
2. Genetic code. (2023). Genome.Gov. https://www.genome.gov/genetics-glossary/Genetic-Code
8. Cortés, G. & Aguilar-Ruiz, J. (2006). Importancia de las Propiedades Físico-Químicas de los Aminoácidos en la Predicción de Estructuras de Proteínas usando Vecinos más Cercanos