# Traducción de secuencia de ADN a secuencia de aminoácidos



Cuando hicimos la revisión del programa, vimos que este sólo estaba entrenado para la isoforma 1. Por lo tanto eso resultaba en un conflicto a la hora de introducir mutaciones que no se correspondieran con esta isoforma. Para solucionar aquello se decidió poder introducir las mutaciones en dos escrituras distintas, bien proporcionando la mutación en la proteina, es decir, en la secuencia de aminoácidos o bien proporcionando la mutación en la secuencia de nucleótidos del gen. Esta segunda forma evitaría los problemas surgidos cuando no se conoce a qué isoforma corresponde la mutación. El algoritmo original trabaja con mutaciones escritas en forma de aminoácidos, para ello se ha escrito un código que permite hacer la traducción de una escritura a la otra para así poder ejecutar el algoritmo de ambas formas.
Este código toma por entrada la base higrogenada original, la posición y la base final. 
El programa primero traduce la secuencia completa original de ADN del gen y la traduce en la secuencia completa de aminoácidos. Después toma por entrada la mutación escrita en formato de ADN, localiza en la secuencia original a qué nucleotido inicial nos estamos refiririendo para encontrar el codón correspondiente y traduce la mutación. 
Tras estos pasos, la mutación traducida estará escrita en formato de aminoácidos y podrá introducirse como input en el algoritmo para llevar a cabo la predicción.

In [None]:
#Abre el archivo .txt en el que se encuentra la secuencia de ADN del gen KCNQ2, sólamente la parte que da lugar a la proteina
#que es lo que verdaderamente se necesita.
inputfile="DNA_sequence_original.txt" 
f=open(inputfile,"r")
seq=f.read()
#Se reemplazan posibles caracteres "\n" y "\r"
seq=seq.replace("\n","")
seq=seq.replace("\r","")
#Se convierte la secuencia en lista, para poder indexar sus elementos
seq_list = list(seq)

#Se define una función que, mediante un diccionario, traduce los codones al correspondiente aminoácido.
#Estas equivalencias pueden encontrarse en cualquier libro de biología.
def translate(seq):
    """
    Translate a string containing a nucleotide sequence into a string containing the corresponding sequence of amino acids .
    Nucleotides are translated in triplets using the table dictionary; each amino acid 4 is encoded with a string of length 1.
    """
    table = {
        'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
        'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
        'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
        'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',                  
        'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
        'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
        'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
        'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
        'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
        'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
        'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
        'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
        'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
        'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
        'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_',
        'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W',
    }
#A cada tres nucleotidos le corresponde un único aminoácido, por eso se toma la secuencia de tres en tres y se va traduciendo
    protein=""
    if len(seq)%3==0:
        for i in range(0,len(seq),3):
            codon=seq[i:i+3]
            protein+=table[codon]
    return protein


#Tomamos la secuencia de nuestro gen, y la traducimos a la secuencia de aminoacidos.
#Una vez traducida la secuencia completa se quiere identificar los nucleotidos inicial y final introducidos con sus
#traducciones.
#Se eliminan de esta secuencia posibles caracteres "\n" y "\r"
aminoacids = translate(seq).replace("\n","")
aminoacids = translate(seq).replace("\r","")
#print(aminoacids)
#Se convierte la secuencia de aminoácidos en lista para poder indexarla
amin_list=list(aminoacids)


#Tomamos por entrada la mutacion, en formato ADN (nucleotidos), que queremos traducir: Nucleotido inicial, posicion, nucleotido
#final
mutacion_dna = input()
#La desglosamos en una lista para tomar todos los elementos menos el primero y el último que son los correspondientes a 
#la posicion de la mutacion
lista_mutacion = list(mutacion_dna)
posicion_mutacion_dna = lista_mutacion[1:-1]
#convertimos esos numeros, en un numero entero para operar con él
posicion_dna =int(''.join(posicion_mutacion_dna))


#primero desplazamos los indices ya que python comienza a contar desde cero, es decir, lo que para nosotros es la posicion 1
#para python es la 0
posicion_dna = posicion_dna - 1
#luego vemos que esa mutacion efectivamente puede darse, es decir que en la posicion indicada, origininalmente se encuentra el 
#nucleotido inicial
if lista_mutacion[0] != seq_list[posicion_dna]:
    print('This is not an existing mutation: the position does not correspond to the initial nucleotid')
    
#Si la posicion no se corresponde con el nucleotido central de un codon no podemos predecir nada, el algoritmo sólo está
#entrenado para mutaciones 'missense' o sin sentido
elif posicion_dna%3!=1:
    print('This mutation does not correspond to a missense mutation')
else:
#Cada tres nucleotidos se forma un codon que corresponde a un aminoacido, lo agrupamos en tres para encontrar la posicion del
#aminoaciodo que equivale al codon de la mutacion. 
#Hacemos la división entera para encontrar a qué codón pertenece.
    posicion_amin = posicion_dna//3 
#Modificamos ese elemento, introducimos en nucleotido final en el lugar que estaba el inicial
    seq_list[posicion_dna] = lista_mutacion[-1]
    seq_mod = ''.join(seq_list)
    #print(seq_mod)
#Traducimos la secuencia modificada
    aminoacids_mod = translate(seq_mod).replace("\n","")
    aminoacids_mod = translate(seq_mod).replace("\r","")
    amin_mod_list = list(aminoacids_mod)
    posicion_amin_mod = posicion_amin + 1
    traduccion_list = [amin_list[posicion_amin], str(posicion_amin_mod), amin_mod_list[posicion_amin]]
    traduccion = ''.join(traduccion_list)
    print(traduccion)
    #print(aminoacids_mod)




