# Anotador Proteico ‚Äì InterProScan para Uma √önica Sequ√™ncia

Este notebook recebe **uma sequ√™ncia proteica** (como string) e utiliza o **InterProScan (EBI)** para:
- buscar dom√≠nios e fam√≠lias em m√∫ltiplos bancos;
- fazer **classifica√ß√£o por confian√ßa** com base no n√∫mero de bancos de dom√≠nios que concordam;
- gerar **visualiza√ß√µes** simples;
- produzir um **relat√≥rio final** em arquivo de texto.

## 0. Configura√ß√£o Inicial do Ambiente

Execute esta se√ß√£o primeiro para configurar o ambiente (por exemplo, no Google Colab).

Ser√£o instalados/garantidos os principais pacotes Python usados ao longo do notebook:
- **biopython** (n√£o √© estritamente obrigat√≥rio aqui, mas √∫til para usos futuros);
- **pandas**: organiza√ß√£o das tabelas de dom√≠nios;
- **matplotlib** e **seaborn**: gera√ß√£o de gr√°ficos;
- **requests**: comunica√ß√£o com a API REST do InterProScan (EBI).

In [None]:
# Instalar depend√™ncias necess√°rias (ajustado para Google Colab ou ambiente similar)
print("=" * 70)
print("CONFIGURANDO AMBIENTE PYTHON")
print("=" * 70)

print("\nüì¶ Instalando/atualizando pacotes Python...")
!pip install -q biopython pandas matplotlib seaborn requests

print("\n‚úÖ Ambiente configurado com sucesso!")
print("=" * 70)

## 1. Informar a Sequ√™ncia Proteica

Edite a c√©lula de c√≥digo abaixo para definir:
- um identificador para a prote√≠na (`seq_id`);
- a sequ√™ncia de amino√°cidos completa (`sequence`), em c√≥digo de uma letra.

A sequ√™ncia deve ser apenas letras de amino√°cidos (A, C, D, E, ...), sem quebras de linha.

In [None]:
# Defina aqui a sua sequ√™ncia proteica
seq_id = "MINHA_PROTEINA"  # Identificador da sequ√™ncia

# INSIRA a sequ√™ncia de amino√°cidos abaixo (string cont√≠nua, sem espa√ßos/linhas)
sequence = ""  # Exemplo: "MKLSKNQNLLDIYGVTGSGKSTLLRCVNLIEKDSG..."

if not sequence:
    print("‚ö†Ô∏è  Aten√ß√£o: a vari√°vel 'sequence' est√° vazia. Edite esta c√©lula e insira a sua sequ√™ncia.")
else:
    print(f"‚úÖ Sequ√™ncia definida para {seq_id} com {len(sequence)} amino√°cidos.")

## 2. Configura√ß√£o do e-mail para o InterProScan

A API REST do **InterProScan (EBI)** pede um e-mail de contato v√°lido.
Como este notebook pode ser reutilizado por diferentes pessoas, o e-mail **n√£o** fica fixo no c√≥digo.

Antes de rodar a predi√ß√£o de dom√≠nios, **edite a c√©lula de c√≥digo abaixo** e insira o seu e-mail de contato onde est√° indicado (`INSIRA email aqui`).

Use, de prefer√™ncia, um e-mail institucional ou acad√™mico.

In [None]:
# E-mail de contato para uso da API do InterProScan
user_email = ""  # INSIRA email aqui (por exemplo: "seu.nome@instituicao.br")

if not user_email:
    print("‚ö†Ô∏è  Aten√ß√£o: a vari√°vel 'user_email' est√° vazia. Edite esta c√©lula e insira um e-mail v√°lido antes de executar as buscas.")
else:
    print(f"‚úÖ E-mail configurado: {user_email}")

## 3. Busca de Dom√≠nios via InterProScan (EBI)

Nesta etapa, usamos a **API REST do InterProScan (iprscan5)** para consultar todos os bancos dispon√≠veis em uma √∫nica chamada, incluindo:
- **Pfam, SMART, PROSITE, PANTHER, PRINTS, PIRSF/PIRSR, TIGRFAMs, CDD, SFLD** (dom√≠nios/fam√≠lias funcionais);
- **Gene3D, SUPERFAMILY** (dom√≠nios/fam√≠lias estruturais);
- **PHOBIUS, TMHMM, SIGNALP** e outros preditores de topologia/localiza√ß√£o.

Os resultados s√£o salvos em um DataFrame (`df_domains`) e em um arquivo CSV consolidado para uso posterior.

In [None]:
import requests
import time
import json
import os
import pandas as pd
from collections import Counter

# Garantir pasta de sa√≠da
os.makedirs('outputs', exist_ok=True)

def search_all_databases(sequence, seq_id, email, timeout=600):
    """Busca dom√≠nios em TODOS os bancos de uma vez (InterProScan completo)"""
    try:
        if not email:
            print("‚ö†Ô∏è  Nenhum e-mail fornecido. Interrompendo requisi√ß√£o.")
            return []

        print(f"   Enviando sequ√™ncia para InterProScan ({seq_id})...", end="", flush=True)
        submit_url = "https://www.ebi.ac.uk/Tools/services/rest/iprscan5/run"
        params = {
            'email': email,
            'sequence': sequence,
            'title': seq_id,
            'goterms': 'false',
            'pathways': 'false'
        }
        response = requests.post(submit_url, data=params, timeout=30)
        if response.status_code != 200:
            print(f" ‚ö™ [HTTP {response.status_code}]", end="")
            return []

        job_id = response.text.strip()
        poll_interval = 5
        max_attempts = timeout // poll_interval

        for attempt in range(max_attempts):
            time.sleep(poll_interval)
            try:
                status_resp = requests.get(
                    f"https://www.ebi.ac.uk/Tools/services/rest/iprscan5/status/{job_id}",
                    timeout=10
                )
            except requests.Timeout:
                print(" ‚ö†Ô∏è [Timeout ao checar status]", end="")
                continue

            if status_resp.status_code != 200:
                print(f" ‚ö™ [HTTP {status_resp.status_code} ao checar status]", end="")
                continue

            status = status_resp.text.strip()

            if status == 'FINISHED':
                try:
                    result = requests.get(
                        f"https://www.ebi.ac.uk/Tools/services/rest/iprscan5/result/{job_id}/json",
                        timeout=60
                    )
                except requests.Timeout:
                    print(" ‚ö†Ô∏è [Timeout ao baixar resultado]", end="")
                    return []

                if result.status_code == 200:
                    data = result.json()
                    domains = []
                    for resultset in data.get('results', []):
                        for match in resultset.get('matches', []):
                            sig = match.get('signature', {})
                            sig_lib = sig.get('signatureLibraryRelease', {})
                            entry = sig.get('entry') or {}
                            locations = match.get('locations', [])

                            if locations:
                                for loc in locations:
                                    domains.append({
                                        'seq_id': seq_id,
                                        'database': sig_lib.get('library', 'UNKNOWN'),
                                        'database_version': sig_lib.get('version', ''),
                                        'accession': sig.get('accession', ''),
                                        'name': sig.get('name', ''),
                                        'description': sig.get('description', ''),
                                        'type': sig.get('type', ''),
                                        'model_ac': match.get('model-ac', ''),
                                        'evalue': match.get('evalue', None),
                                        'score': match.get('score', None),
                                        'start': loc.get('start', None),
                                        'end': loc.get('end', None),
                                        'length': loc.get('end', 0) - loc.get('start', 0) + 1 if loc.get('start') and loc.get('end') else None,
                                        'location_evalue': loc.get('evalue', None),
                                        'location_score': loc.get('score', None),
                                        'hmm_start': loc.get('hmmStart', None),
                                        'hmm_end': loc.get('hmmEnd', None),
                                        'hmm_length': loc.get('hmmLength', None),
                                        'hmm_bounds': loc.get('hmmBounds', ''),
                                        'envelope_start': loc.get('envelopeStart', None),
                                        'envelope_end': loc.get('envelopeEnd', None),
                                        'representative': loc.get('representative', False),
                                        'post_processed': loc.get('postProcessed', False),
                                        'interpro_accession': entry.get('accession', ''),
                                        'interpro_name': entry.get('name', ''),
                                        'interpro_description': entry.get('description', ''),
                                        'interpro_type': entry.get('type', '')
                                    })
                            else:
                                domains.append({
                                    'seq_id': seq_id,
                                    'database': sig_lib.get('library', 'UNKNOWN'),
                                    'database_version': sig_lib.get('version', ''),
                                    'accession': sig.get('accession', ''),
                                    'name': sig.get('name', ''),
                                    'description': sig.get('description', ''),
                                    'type': sig.get('type', ''),
                                    'model_ac': match.get('model-ac', ''),
                                    'evalue': match.get('evalue', None),
                                    'score': match.get('score', None),
                                    'start': None,
                                    'end': None,
                                    'length': None,
                                    'location_evalue': None,
                                    'location_score': None,
                                    'hmm_start': None,
                                    'hmm_end': None,
                                    'hmm_length': None,
                                    'hmm_bounds': '',
                                    'envelope_start': None,
                                    'envelope_end': None,
                                    'representative': False,
                                    'post_processed': False,
                                    'interpro_accession': entry.get('accession', ''),
                                    'interpro_name': entry.get('name', ''),
                                    'interpro_description': entry.get('description', ''),
                                    'interpro_type': entry.get('type', '')
                                })

                    if domains:
                        print(f" ‚úÖ ({len(domains)} dom√≠nios)", end="")
                    else:
                        print(" ‚ö™ Nenhum dom√≠nio encontrado.", end="")
                    return domains
                else:
                    print(f" ‚ö™ [HTTP {result.status_code}]", end="")
                    return []

            elif status in ['FAILED', 'ERROR', 'NOT_FOUND']:
                print(f" ‚ö™ [Status {status}]", end="")
                return []
            elif status == 'RUNNING':
                continue
            else:
                print(f" ‚ö†Ô∏è [Status desconhecido: {status}]", end="")
                continue

        elapsed_time = max_attempts * poll_interval
        print(f" ‚è± [Timeout ap√≥s {elapsed_time}s]", end="")
        return []

    except requests.Timeout:
        print(" ‚ö†Ô∏è [Timeout HTTP]", end="")
        return []
    except Exception as e:
        print(f" ‚ö†Ô∏è [{type(e).__name__}: {str(e)[:50]}]", end="")
        return []

# Executar busca de dom√≠nios para a sequ√™ncia informada
print("=" * 70)
print("BUSCA DE DOM√çNIOS PARA UMA √öNICA SEQU√äNCIA")
print("=" * 70)

if not sequence:
    print("‚ùå A sequ√™ncia est√° vazia. Volte √† se√ß√£o 1 e insira a sequ√™ncia.")
elif not user_email:
    print("‚ùå O e-mail n√£o foi configurado. Volte √† se√ß√£o 2 e insira um e-mail v√°lido.")
else:
    start_time = time.time()
    domains = search_all_databases(sequence, seq_id, user_email, timeout=600)
    elapsed = time.time() - start_time
    print(f"\n\n‚è± Tempo total: {elapsed:.2f}s")

    if domains:
        df_domains = pd.DataFrame(domains)
        out_path = 'outputs/output_all_domains_single_sequence.csv'
        df_domains.to_csv(out_path, index=False)
        print(f"‚úÖ Dom√≠nios salvos em: {out_path}")
        print(f"üìä Total de anota√ß√µes: {len(df_domains)}")
        print(f"üóÉÔ∏è Bancos distintos: {df_domains['database'].nunique()}")
    else:
        df_domains = pd.DataFrame()
        print("‚ö™ Nenhum dom√≠nio retornado pelo InterProScan.")

## 4. Classifica√ß√£o por Confian√ßa e Integra√ß√£o

Aqui, classificamos a prote√≠na com base em **quantos bancos de dom√≠nios diferentes** (funcionais/estruturais) encontraram dom√≠nios nela:
- **Alta confian√ßa**: dom√≠nios em ‚â•5 bancos;
- **M√©dia confian√ßa**: dom√≠nios em 3‚Äì4 bancos;
- **Baixa confian√ßa**: dom√≠nios em 1‚Äì2 bancos;
- **Sem dom√≠nios**: nenhum banco de dom√≠nios encontrou dom√≠nios.

Tamb√©m sumarizamos separadamente as anota√ß√µes de **topologia** (PHOBIUS, TMHMM, SIGNALP).

In [None]:
# Classifica√ß√£o por confian√ßa para uma √∫nica sequ√™ncia
if 'df_domains' in globals() and not df_domains.empty:
    print("=" * 70)
    print("CLASSIFICA√á√ÉO POR CONFIAN√áA ‚Äì SEQU√äNCIA √öNICA")
    print("=" * 70)

    FUNCTIONAL_DOMAINS = ['PFAM', 'SMART', 'PROSITE', 'PANTHER', 'PRINTS',
                          'PIRSF', 'PIRSR', 'HAMAP', 'TIGERFAMS', 'SFLD', 'CDD']
    STRUCTURAL_DOMAINS = ['GENE3D', 'SUPERFAMILY']
    DOMAIN_DATABASES = FUNCTIONAL_DOMAINS + STRUCTURAL_DOMAINS

    TOPOLOGY = ['PHOBIUS', 'TMHMM', 'SIGNALP_EUK', 'SIGNALP_GRAM_POSITIVE',
                'SIGNALP_GRAM_NEGATIVE']

    df_domains_only = df_domains[df_domains['database'].isin(DOMAIN_DATABASES)]
    df_topology = df_domains[df_domains['database'].isin(TOPOLOGY)]

    if not df_domains_only.empty:
        unique_dbs = df_domains_only['database'].unique()
        num_dbs = len(unique_dbs)
        unique_domains = df_domains_only['name'].dropna().unique()

        if num_dbs >= 5:
            confidence = 'Alta confian√ßa (‚â•5 DBs)'
            confidence_level = 'Alta'
        elif num_dbs >= 3:
            confidence = 'M√©dia confian√ßa (3-4 DBs)'
            confidence_level = 'M√©dia'
        elif num_dbs >= 1:
            confidence = 'Baixa confian√ßa (1-2 DBs)'
            confidence_level = 'Baixa'
        else:
            confidence = 'SEM DOM√çNIOS'
            confidence_level = 'Nenhum'

        print(f"\nüìä Bancos de DOM√çNIOS que anotaram a prote√≠na {seq_id}:")
        print(f"   Bancos: {', '.join(sorted(unique_dbs))}")
        print(f"   N√∫mero de bancos: {num_dbs}")
        print(f"   N√∫mero de dom√≠nios √∫nicos: {len(unique_domains)}")
        print(f"   N√≠vel de confian√ßa: {confidence} (classe: {confidence_level})")
    else:
        confidence = 'SEM DOM√çNIOS'
        confidence_level = 'Nenhum'
        print(f"\n‚ö™ Nenhum dom√≠nio em bancos funcionais/estruturais foi encontrado para {seq_id}.")

    # Topologia
    has_tm = False
    has_signal = False
    if not df_topology.empty:
        has_tm = df_topology['name'].str.contains('Transmembrane', case=False, na=False).any()
        has_signal = df_topology['name'].str.contains('Signal', case=False, na=False).any()

        print("\nüìå Anota√ß√µes de TOPOLOGIA (PHOBIUS/TMHMM/SIGNALP):")
        for db in df_topology['database'].unique():
            count = len(df_topology[df_topology['database'] == db])
            print(f"   - {db}: {count} anota√ß√µes")
    else:
        print("\nüìå Nenhuma anota√ß√£o de topologia encontrada.")

    # Guardar resumo em um dicion√°rio para uso em outras c√©lulas
    single_summary = {
        'seq_id': seq_id,
        'num_domain_databases': int(num_dbs) if 'num_dbs' in locals() else 0,
        'confidence': confidence,
        'confidence_level': confidence_level,
        'has_transmembrane': bool(has_tm),
        'has_signal_peptide': bool(has_signal),
        'num_domains': int(len(unique_domains)) if 'unique_domains' in locals() else 0
    }
else:
    print("‚ùå DataFrame 'df_domains' vazio ou n√£o definido. Execute a se√ß√£o 3 primeiro.")

## 5. Visualiza√ß√£o e An√°lise de Dom√≠nios

Gera√ß√£o de gr√°ficos simples para a sequ√™ncia analisada, incluindo:
- distribui√ß√£o das anota√ß√µes por banco de dados;
- destaque das categorias de bancos (funcionais, estruturais, topologia);
- indica√ß√£o visual de presen√ßa/aus√™ncia de caracter√≠sticas topol√≥gicas.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

if 'df_domains' in globals() and not df_domains.empty:
    print("=" * 70)
    print("VISUALIZA√á√ÉO DE DOM√çNIOS ‚Äì SEQU√äNCIA √öNICA")
    print("=" * 70)

    FUNCTIONAL_DOMAINS = ['PFAM', 'SMART', 'PROSITE', 'PANTHER', 'PRINTS',
                          'PIRSF', 'PIRSR', 'HAMAP', 'TIGERFAMS', 'SFLD', 'CDD']
    STRUCTURAL_DOMAINS = ['GENE3D', 'SUPERFAMILY']
    TOPOLOGY = ['PHOBIUS', 'TMHMM', 'SIGNALP_EUK', 'SIGNALP_GRAM_POSITIVE',
                'SIGNALP_GRAM_NEGATIVE']

    df_domains['category'] = 'Outros'
    df_domains.loc[df_domains['database'].isin(FUNCTIONAL_DOMAINS), 'category'] = 'Funcional'
    df_domains.loc[df_domains['database'].isin(STRUCTURAL_DOMAINS), 'category'] = 'Estrutural'
    df_domains.loc[df_domains['database'].isin(TOPOLOGY), 'category'] = 'Topologia'

    fig, axes = plt.subplots(1, 2, figsize=(14, 6))

    # Gr√°fico 1: contagem por banco
    db_counts = df_domains['database'].value_counts().sort_values(ascending=False)
    sns.barplot(x=db_counts.values, y=db_counts.index, ax=axes[0], palette='viridis')
    axes[0].set_xlabel('N√∫mero de anota√ß√µes')
    axes[0].set_ylabel('Banco de dados')
    axes[0].set_title('Anota√ß√µes por banco de dados')

    # Gr√°fico 2: categorias de bancos
    cat_counts = df_domains['category'].value_counts()
    axes[1].pie(cat_counts.values, labels=cat_counts.index, autopct='%1.1f%%', startangle=90)
    axes[1].set_title('Categorias de bancos (Funcional/Estrutural/Topologia)')

    plt.suptitle(f'An√°lise de dom√≠nios para {seq_id}', fontsize=14, fontweight='bold')
    out_fig = 'outputs/single_sequence_domain_analysis.png'
    plt.savefig(out_fig, dpi=300, bbox_inches='tight')
    print(f"‚úÖ Figura salva em: {out_fig}")
    plt.show()
else:
    print("‚ùå Dados insuficientes para visualiza√ß√£o. Execute as se√ß√µes 3 e 4 primeiro.")

## 6. Relat√≥rio Final

Gera um relat√≥rio de texto com:
- resumo da confian√ßa na anota√ß√£o de dom√≠nios;
- lista de dom√≠nios encontrados;
- observa√ß√µes sobre caracter√≠sticas topol√≥gicas (quando presentes).

O relat√≥rio √© salvo na pasta `outputs/`.

In [None]:
# Gera√ß√£o do relat√≥rio final em texto
if 'df_domains' in globals() and not df_domains.empty and 'single_summary' in globals():
    report_path = 'outputs/relatorio_dominios_single_sequence.txt'
    with open(report_path, 'w', encoding='utf-8') as f:
        f.write("="*70 + "\n")
        f.write("RELAT√ìRIO DE DOM√çNIOS ‚Äì SEQU√äNCIA √öNICA\n")
        f.write("="*70 + "\n\n")

        f.write(f"Sequ√™ncia: {single_summary['seq_id']}\n")
        f.write(f"N√∫mero de bancos de dom√≠nios: {single_summary['num_domain_databases']}\n")
        f.write(f"N√∫mero de dom√≠nios √∫nicos: {single_summary['num_domains']}\n")
        f.write(f"N√≠vel de confian√ßa: {single_summary['confidence']} (classe: {single_summary['confidence_level']})\n\n")

        f.write("DOM√çNIOS ENCONTRADOS:\n")
        f.write("-"*70 + "\n")
        for acc, name in sorted(set(zip(df_domains['accession'], df_domains['name']))):
            f.write(f"{acc}: {name}\n")

        f.write("\nCARACTER√çSTICAS TOPOL√ìGICAS:\n")
        f.write("-"*70 + "\n")
        if single_summary['has_transmembrane']:
            f.write("‚Ä¢ Evid√™ncia de regi√µes transmembrana presentes.\n")
        else:
            f.write("‚Ä¢ N√£o h√° evid√™ncia clara de regi√µes transmembrana.\n")
        if single_summary['has_signal_peptide']:
            f.write("‚Ä¢ Evid√™ncia de pept√≠deo sinal presente.\n")
        else:
            f.write("‚Ä¢ N√£o h√° evid√™ncia clara de pept√≠deo sinal.\n")

        f.write("\nNOTAS:\n")
        f.write("-"*70 + "\n")
        f.write("‚Ä¢ Alta confian√ßa (‚â•5 bancos) sugere fun√ß√£o bem estabelecida.\n")
        f.write("‚Ä¢ Baixa confian√ßa (1‚Äì2 bancos) indica anota√ß√µes mais incertas.\n")
        f.write("‚Ä¢ Aus√™ncia de dom√≠nios n√£o implica aus√™ncia de fun√ß√£o, mas pode indicar prote√≠nas espec√≠ficas do organismo ou pouco caracterizadas.\n")

        f.write("="*70 + "\n")
        f.write(f"Relat√≥rio gerado em: {pd.Timestamp.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
        f.write("="*70 + "\n")

    print(f"‚úÖ Relat√≥rio salvo em: {report_path}")
else:
    print("‚ùå N√£o h√° dados suficientes para gerar o relat√≥rio. Execute as se√ß√µes 3, 4 e 5 primeiro.")