# Motivo Implica Função

Como mencionado em “Traduzindo RNA em Proteína”, proteínas executam toda função prática na célula. Uma unidade estrutural e funcional da proteína é um domínio proteico: em termos da estrutura primária da proteína, o domínio é um intervalo de aminoácidos que pode evoluir e funcionar independentemente.

Cada domínio normalmente corresponde a uma única função da proteína (por exemplo, ligar a proteína ao DNA, criar ou quebrar ligações químicas específicas, etc.). Algumas proteínas, como a mioglobina e o complexo citocromo, possuem apenas um domínio, mas muitas proteínas são multifuncionais e, portanto, possuem vários domínios. É até possível fundir artificialmente diferentes domínios em uma molécula de proteína com propriedades definidas, criando uma proteína quimérica.

Assim como as espécies, proteínas podem evoluir, formando grupos homólogos chamados famílias de proteínas. Proteínas de uma mesma família geralmente têm o mesmo conjunto de domínios, desempenhando funções semelhantes; veja a Figura 1.

![Figura 1](https://rosalind.info/media/problems/mprt/cyclophilines.png)

> Figura 1. A família humana de ciclofilinas, representada pelas estruturas dos domínios isomerases de alguns de seus membros.

Um componente de um domínio essencial para sua função é chamado de motivo, um termo que em geral tem o mesmo significado que em ácidos nucleicos, embora muitos outros termos também sejam usados (blocos, assinaturas, impressões digitais, etc.). Normalmente, motivos proteicos são conservadores do ponto de vista evolutivo, o que significa que aparecem com poucas alterações em diferentes espécies.

As proteínas são identificadas em diferentes laboratórios ao redor do mundo e reunidas em bancos de dados de livre acesso. Um repositório central de dados de proteínas é o UniProt, que fornece anotações detalhadas sobre proteínas, incluindo descrição de função, estrutura de domínios e modificações pós-traducionais. O UniProt também oferece suporte à busca por similaridade de proteínas, análise taxonômica e citações da literatura.

Link: [Independent Alleles](https://rosalind.info/problems/lia/)

### **Problema**

Para permitir a presença de suas formas variantes, um motivo proteico é representado por uma notação abreviada da seguinte forma: [XY] significa "X ou Y" e {X} significa "qualquer aminoácido exceto X". Por exemplo, o motivo de N-glicosilação é escrito como N{P}[ST]{P}.

Você pode ver a descrição completa e as características de uma proteína específica pelo seu ID de acesso "uniprot_id" no banco de dados UniProt, inserindo o número de ID em

http://www.uniprot.org/uniprot/uniprot_id

Alternativamente, você pode obter uma sequência de proteína no formato FASTA acessando

http://www.uniprot.org/uniprot/uniprot_id.fasta

Por exemplo, os dados da proteína B5ZC00 podem ser encontrados em http://www.uniprot.org/uniprot/B5ZC00.

**Dado**: No máximo 15 IDs de acesso ao Banco de Dados de Proteínas UniProt.

**Retorne**: Para cada proteína que possuir o motivo de N-glicosilação, exiba seu ID de acesso seguido por uma lista de posições na sequência da proteína onde o motivo pode ser encontrado.

In [25]:
#Insira o caminho abaixo
caminho = "C:\\Users\\usuario\\OneDrive\\Área de Trabalho\\Nova pasta\\ROSALIND-Desafios\\Dados\\rosalind_mprt.txt"

with open(caminho, "r", encoding="utf-8") as arquivo:
    entrada = arquivo.read()

In [26]:
import requests
import re

def encontrar_motivo_proteico(entrada):
    entrada = entrada.split('\n')
    proteina = r'(?=(N[^P][ST][^P]))'
    saida = ""
    for uniprot_id in entrada:
        uniprot_id_cod = uniprot_id.split('_')[0]
        url = f"https://www.uniprot.org/uniprot/{uniprot_id_cod}.fasta"
        response = requests.get(url)
        if response.status_code == 200:
            fasta = response.text.split('\n', 1)[1].replace('\n', '')
            matches = [m.start() + 1 for m in re.finditer(proteina, fasta)]
            if len(matches) > 0:
                saida += f"{uniprot_id}\n"
                saida += ' '.join(map(str, matches)) + '\n'
        else:
            continue
    saida = saida.strip()
    return saida

texto = encontrar_motivo_proteico(entrada)
print(texto)

A9QYR8
183 210
P02790_HEMO_HUMAN
64 187 240 246 453
P10643_CO7_HUMAN
202 754
P98119_URT1_DESRO
153 398
A6UUD2
155 273
A3N0C7
59
Q81QB7
27
P35446_FSPO_RAT
214 681
P10761_ZP3_MOUSE
146 273 304 327 330


In [27]:
# Caminho para o arquivo dentro da pasta Output
caminho = "C:\\Users\\usuario\\OneDrive\\Área de Trabalho\\Nova pasta\\ROSALIND-Desafios\\Saidas\\rosalind_mprt_output.txt"

with open(caminho, "w", encoding="utf-8") as arquivo:
    arquivo.write(str(texto))