# Práctica 2: Expresión del material genético

## Conceptos a trabajar

La **traducción**, es la síntesis de una proteína a partir de la cadena de RNAm, esto ocurre dentro de unas proteínas llamadas ribosomas, durante este proceso, la secuencia de RNAm se lee en grupos de tres nucleótidos, llamados **codones**, los cuales, son interpretados por un **código genético** dando como resultado una codificación de aminoácido**<sup> 6 </sup>** (fig. 4), los cuales se plegarán y formarán las proteínas (fig. 3).

<img src="img/Figura4-en-es.png" alt="code" width="1000"/>

*Figura 4. Código genético esencial en la expresión de proteínas donde se evidencia la formación de un codón a partir de un nucleótido (uracilo, adenina, guanina, o citocina), desde la secuencia de inicio (verde) y las de parada (rojo). Figura adaptada de: [Molecular biology of the gene, (2008), 15, 509-569]( https://books.google.com.co/books?id=7tadzgEACAAJ&dq=Molecular+biology+of+the+gene&hl=es-419&sa=X&redir_esc=y)*

El ribosoma lee la secuencia en orden, buscando el codón de **inicio** AUG, el cual, a su vez codifica para el aminoácido de metionina y da comienzo a la traducción, al seguir avanzando construye la cadena de aminoácidos, es un proceso que repite muchas veces, en el que se leen las tripletas de nucleótidos y se adhiere el aminoácido correspondiente (fig. 3). La cadena resultante puede ser largas o cortas, se direccionan hasta encontrar uno de los tres codones que codifican para el **stop** (UAA, UGA o UAG) (fig. 4), al sintetizarlo, la cadena se libera del ribosoma y es modificada o combinada para formar una proteína funcional con una estructura especifica involucrada en algún proceso esencial para la célula u organismo**<sup> 7 </sup>**.

## Planteamiento del problema
Continuando con el objetivo general, de obtener información básica de la enzima del citocromo P450, proteina anteriormente trabajada. Para ello, vamos a realizar la segunda fase implicada en la expresión génica, con el fin obtener los aminoácidos que codifican para la proteína.

Primero, debemos crear un diccionario en el que se encuentre el código genético, donde especifiquen los codones (tripletas de nucleótidos) que sintetiza su correspondiente aminoácido. Debemos tener en cuenta los pares `key-value`, donde las `key` serían los codones y los `value` los aminoácidos.

In [57]:
#Diccionario de codones para la traduccion
codigo_genetico = {"GUU": "V", "GUC": "V", "GUA": "V", "GUG": "V", "GCU": "A", "GCC": "A", "GCA": "A", "GCG": "A",
                "GAU": "D", "GAC": "D", "GAA": "E", "GAG": "E", "GGU": "G", "GGC": "G", "GGA": "G", "GGG": "G",
                "AGA": "R", "AGG": "R", "AGU": "S", "AGC": "S", "AAU": "N", "AAC": "N", "AAA": "K", "AAG": "K",
                "ACU": "T", "ACC": "T", "ACA": "T", "ACG": "T", "AUU": "I", "AUC": "I", "AUA": "I", "AUG": "M",
                "CGU": "R", "CGC": "R", "CGA": "R", "CGG": "R", "CCU": "P", "CCC": "P", "CCA": "P", "CCG": "P",
                "CAU": "H", "CAC": "H", "CAA": "Q", "CAG": "Q", "UUU": "F", "UUC": "F", "UUA": "L", "UUG": "L",
                "UCU": "S", "UCC": "S", "UCA": "S", "UCG": "S", "UAU": "Y", "UAC": "Y", "UAA": "STOP", "UAG": "STOP",
                "UGU": "C", "UGC": "C", "UGA": "STOP", "UGG": "W", "CUU": "L", "CUC": "L", "CUA": "L", "CUG": "L"}

print(f'Los codones son: \n{list(codigo_genetico.keys())}')
print('-----------------')
print(f'Los aminoácidos son: \n{list(codigo_genetico.values())}')

Los codones son: 
['GUU', 'GUC', 'GUA', 'GUG', 'GCU', 'GCC', 'GCA', 'GCG', 'GAU', 'GAC', 'GAA', 'GAG', 'GGU', 'GGC', 'GGA', 'GGG', 'AGA', 'AGG', 'AGU', 'AGC', 'AAU', 'AAC', 'AAA', 'AAG', 'ACU', 'ACC', 'ACA', 'ACG', 'AUU', 'AUC', 'AUA', 'AUG', 'CGU', 'CGC', 'CGA', 'CGG', 'CCU', 'CCC', 'CCA', 'CCG', 'CAU', 'CAC', 'CAA', 'CAG', 'UUU', 'UUC', 'UUA', 'UUG', 'UCU', 'UCC', 'UCA', 'UCG', 'UAU', 'UAC', 'UAA', 'UAG', 'UGU', 'UGC', 'UGA', 'UGG', 'CUU', 'CUC', 'CUA', 'CUG']
-----------------
Los aminoácidos son: 
['V', 'V', 'V', 'V', 'A', 'A', 'A', 'A', 'D', 'D', 'E', 'E', 'G', 'G', 'G', 'G', 'R', 'R', 'S', 'S', 'N', 'N', 'K', 'K', 'T', 'T', 'T', 'T', 'I', 'I', 'I', 'M', 'R', 'R', 'R', 'R', 'P', 'P', 'P', 'P', 'H', 'H', 'Q', 'Q', 'F', 'F', 'L', 'L', 'S', 'S', 'S', 'S', 'Y', 'Y', 'STOP', 'STOP', 'C', 'C', 'STOP', 'W', 'L', 'L', 'L', 'L']


## Estructuras de control
A continuación, emplearemos las **estructuras de control** para poder analizar la secuencia de RNA del citocromo `RNA_CYP2C9` para sintetizar la proteína, siguiendo estos pasos:
1. Identificar el inicio de la proteína: AUG
2. Dividir de tres en tres
3. Encontrar el stop (pueden ser varios, mirar diccionario)
4. Imprimir la proteína: AUG(codones - de tres en tres)STOP

In [58]:
# Volver a cargar la secuencia
with open("data/sec_CYP2C9.fasta", "r") as GEN:
    sec_CYP2C9 = GEN.read()
DNA_CYP2C9 =(''.join(sec_CYP2C9.split('\n')[1:]))
RNA_CYP2C9 = DNA_CYP2C9.replace("T","U")

run = True
# busqueda codón inicio AUG
i = 0
for i in range(len(RNA_CYP2C9)):
    if RNA_CYP2C9[i:i + 3] == 'AUG':  # Inicio de proteína encontrado
        RNA_CYP2C9 = RNA_CYP2C9[i:]  # recorte de secuencia. Nuevo RNA
        break  # terminar el ciclo for
    if i >= (len(RNA_CYP2C9) - 3):  # Inicio de proteína NO encontrado
        print('No se encontró el codón de inicio AUG')
        RNA_CYP2C9 = RNA_CYP2C9[i:i + 3]
        run = False  # terminar
        break  # termianr el ciclo for

# Este código solo se ejecuta si se encontró el inicio de la proteína
# Se ejecuta con la secuencia recortada
proteina = list()
if run:
    i = 0
    # inicio traducción
    while i <= len(RNA_CYP2C9) - 2:
        codon = codigo_genetico[RNA_CYP2C9[i:i + 3]]
        proteina.append(codon)
        i += 3
        if codon == 'STOP':
            print(f'>> Proteína encontrada')
            RNA_CYP2C9 = RNA_CYP2C9[i:]  # nuevo RNA (recortado)
            proteina = proteina[:-1]
            texto_proteina = ''.join(proteina)
            print(f'Proteina: {texto_proteina}')
            break
        if i >= (len(RNA_CYP2C9) - 3):
            print('No se encontró el codón STOP')
            RNA_KR711927 = RNA_CYP2C9[i:i + 3]
            break

>> Proteína encontrada
Proteina: MDSLVVLVLCLSCLLLLSLWRQSSGRGKLPPGPTPLPVIGNILQIGIKDISKSLTNLSKVYGPVFTLYFGLKPIVVLHGYEAVKEALIDLGEEFSGRGIFPLAERANRGFGIVFSNGKKWKEIRRFSLMTLRNFGMGKRSIEDRVQEEARCLVEELRKTKASPCDPTFILGCAPCNVICSIIFHKRFDYKDQQFLNLMEKLNENIKILSSPWIQICNNFSPIIDYFPGTHNKLLKNVAFMKSYILEKVKEHQESMDMNNPQDFIDCFLMKMEKEKHNQPSEFTIESLENTAVDLFGAGTETTSTTLRYALLLLLKHPEVTAKVQEEIERVIGRNRSPCMQDRSHMPYTDAVVHEVQRYIDLLPTSLPHAVTCDIKFRNYLIPKGTTILISLTSVLHDNKEFPNPEMFDPHHFLDEGGNFKKSKYFMPFSAGKRICVGEALAGMELFLFLTSILQNFNLKSLVDPKNLDTTPVVNGFASVPPFYQLCFIPV


In [None]:
# la variable proteina guarda una lista con cada aminoácido
print(proteina)

## Actividad practica 2
Partiendo de lo aprendido, analice la secuencia de aminoácidos obtenidos de la proteina de RNA y responda:
1.	¿Cuántos aminoácidos tiene la proteína?
2.	¿Cuál es el aminoácido más repetido?
3.	Identifique el nucleótido en el que comienza la síntesis de aminoácidos
4.	En que nucleótido termina la síntesis de aminoácidos

## Conclusiones

En este punto de la práctica, utilizamos diversos comandos y métodos con el fin de obtener una secuencia de aminoácidos a partir de un `strigns` de ADN, siendo este un proceso que puede emplearse en secuencias de nucleótidos de diferentes tamaños y de diferentes organismos.

Así pues, para obtener los aminoácidos que componen las proteínas empelamos **arreglos** y **estructuras de control**, donde se obtuvo información básica de los aminoácidos de la proteína citocromo P450, la cual, emplearemos para clasificarlos y obtener información general de la enzima desde sus subunidades (practica 3).