# Armadilhas da Tradução Reversa

Quando pesquisadores descobrem uma nova proteína, eles gostariam de inferir a cadeia de mRNA da qual essa proteína poderia ter sido traduzida, permitindo assim localizar os genes associados a essa proteína no genoma.

Infelizmente, embora qualquer cadeia de RNA possa ser traduzida em uma cadeia única de proteína, reverter esse processo gera um número enorme de possíveis cadeias de RNA a partir de uma única cadeia de proteína, porque a maioria dos aminoácidos corresponde a múltiplos códons de RNA (veja a Tabela de Códons de RNA).

Por causa de considerações de memória, a maioria dos formatos de dados embutidos nas linguagens possui limites superiores para o tamanho de um número inteiro: em algumas versões do Python, uma variável "int" pode ser obrigada a não ultrapassar 2³¹−1, ou 2.147.483.647. Como resultado, para lidar com números muito grandes no Rosalind, precisamos desenvolver um sistema que nos permita manipular grandes números sem precisar armazená-los diretamente.

Link: [Inferring mRNA from Protein](https://rosalind.info/problems/mrna/)

### **Problema**

Para inteiros positivos a e n, a módulo n (escrito como a mod n de forma abreviada) é o resto quando a é dividido por n. Por exemplo, 29 mod 11 = 7 porque 29 = 11 × 2 + 7.

A aritmética modular é o estudo da adição, subtração, multiplicação e divisão com respeito à operação módulo. Dizemos que a e b são congruentes módulo n se a mod n = b mod n; neste caso, usamos a notação a ≡ b mod n.

Dois fatos úteis em aritmética modular são que se a ≡ b mod n e c ≡ d mod n, então a + c ≡ b + d mod n e a × c ≡ b × d mod n. Para verificar sua compreensão dessas regras, talvez você queira confirmar essas relações para a = 29, b = 73, c = 10, d = 32 e n = 11.

Como você verá neste exercício, alguns problemas do Rosalind pedirão uma solução inteira (muito grande) módulo um número menor para evitar os problemas computacionais que surgem ao armazenar números tão grandes.

**Dado**: Uma cadeia de proteína com no máximo 1000 aminoácidos.

**Retorne**: O número total de diferentes cadeias de RNA a partir das quais a proteína poderia ter sido traduzida, módulo 1.000.000. (Não negligencie a importância do códon de parada na tradução de proteínas.)

In [None]:
#Insira o caminho abaixo
caminho = "C:\\Users\\usuario\\OneDrive\\Área de Trabalho\\Nova pasta\\ROSALIND-Desafios\\Dados\\rosalind_mrna.txt"

with open(caminho, "r", encoding="utf-8") as arquivo:
    entrada = arquivo.read()

'MKRYGSRDCSPRDDSGAYAGMENFFMKCDSFPQQMHCAVDFTVMGIIMVRYNTTPCHATTGDPNSNISQKGFAYAGRLQDWSYRWFLNATPDDMCTNFVDMHRFPYTELIILVALKGNMHEDFLQARSFCWRMASDNWDHKKTENTRVKIMQAKWQICLLMKCGRQRGWYIRHKISLSHRKAAWRYSYCKISHNMLENVWEQDCKWAQLCGEKYPPIYKLLHRLCQCFKMKEHGMCIAFTPTQMKYTLYWIYPIWYKWEKKSTQNPWHSCVNGIPTPLPRRYRNTDHGALRCRVAMDAITVSAENKTGDWIFYRWSWHVETEMVPGYPPDPHLHTFMYYDTVYMADRGEINWKKQWLNAHYMGHKWYMSGLTWMCQLPGGGMTYNPQMLTGVFCPKYMTICFCVKLWISNNLLNHLDIGTQQKTEHNVQTFGWTNAPQRLVCFMVCPLCYRNCTIRMMIGGHRVGWHIMDRKHLGAVFDYNHGLEYNHFIWMWKMPWSSRICEFIWIARFLHAVWKMSQSMFGIAHDSCMVVSMKWMFNPDGVKKDNQRGMEVPYTASCIQLRVCIAHVANYFKRMLIWNLDSIAINDTIISCNFNAGRFPSVGEKEKINGNDPVDAYFTHLPIDFSSYERTNLFSAVNCWFHMLLLYNCRKMYAFPIDLNLDSKYPCCAQMIYWIIGTDVIDAWVCLPPMRDKSQATGAQLGCAIHCNYSHCAWELMHTHCHTLKYRKTSEMERNIDNQFCLVRAPKGPHIFVGRLIMNPLQFHYSNQEIYTFRGLGESMYTEGYEWKSRPLCPGPWMGGMYANVSICDGWTQSAVRVGPLWGTWSREWMASKSFMILFHNCGDCPHAKKEWLQDFGMRHARQRWAHQISPIVLARPMGILEEMGQYNRQLPLGAGFVHEIVCDHNCITFWLRYKTRPTHNEMKICDSVEYGFKYRRSCQCLSESDCITQWMDFWIKRGSKYKVMVCFHGDRTSQWTSLYPHFHAPRSFQNPCWKPE\

In [8]:
def modulo_da_proteina(entrada):
    entrada = entrada.strip()
    codons_por_aminoacido = {'F': 2, 'L': 6, 'S': 6, 'Y': 2, 'C': 2, 'W': 1, 'P': 4, 'H': 2, 'Q': 2,
                             'R': 6, 'I': 3, 'M': 1, 'T': 4, 'N': 2, 'K': 2, 'V': 4, 'A': 4, 'D': 2,
                             'E': 2, 'G': 4}
    modulo = 1
    for letra in entrada:
        modulo = (modulo * codons_por_aminoacido[letra]) % 1000000
    modulo = (modulo * 3) % 1000000
    return str(modulo)

    
texto = modulo_da_proteina(entrada)
print(texto)

962112


In [9]:
# Caminho para o arquivo dentro da pasta Output
caminho = "C:\\Users\\usuario\\OneDrive\\Área de Trabalho\\Nova pasta\\ROSALIND-Desafios\\Saidas\\rosalind_mrna_output.txt"

with open(caminho, "w", encoding="utf-8") as arquivo:
    arquivo.write(str(texto))