# 🧬 BioRemPP - Demonstração Completa das Funcionalidades

## 📋 Notebook de Demonstração v0.5.0

Este notebook demonstra todas as principais funcionalidades do **BioRemPP** (Biological Remediation Pathway Predictor), incluindo:

- 🔬 Processamento individual de bancos de dados
- 🌐 Processamento multi-banco
- 📊 Análise e visualização de resultados
- 🐍 Uso da API Python
- 🔧 Configurações avançadas

---

## 🚀 Configuração Inicial

In [1]:
# Instalação do BioRemPP (descomente se necessário)
# !pip install biorempp

# Importações necessárias
import os
import sys
import pandas as pd
import numpy as np
from pathlib import Path
import time
from datetime import datetime

# Importações do BioRemPP
try:
    from biorempp.pipelines import (
        run_biorempp_processing_pipeline,
        run_kegg_processing_pipeline,
        run_hadeg_processing_pipeline,
        run_toxcsm_processing_pipeline,
        run_all_processing_pipelines
    )
    from biorempp.utils import get_logger, save_dataframe_output
    from biorempp.input_processing import input_loader, input_validator
    print("✅ BioRemPP importado com sucesso!")
except ImportError as e:
    print(f"❌ Erro ao importar BioRemPP: {e}")
    print("💡 Certifique-se de que o BioRemPP está instalado: pip install biorempp")

✅ BioRemPP importado com sucesso!


---

## 📁 Preparação dos Dados de Teste

In [4]:
# Criação de diretórios de trabalho
work_dir = Path("biorempp_demo")
work_dir.mkdir(exist_ok=True)

input_dir = work_dir / "input"
output_dir = work_dir / "output"
input_dir.mkdir(exist_ok=True)
output_dir.mkdir(exist_ok=True)

print(f"📁 Diretório de trabalho criado: {work_dir.absolute()}")
print(f"📥 Diretório de entrada: {input_dir.absolute()}")
print(f"📤 Diretório de saída: {output_dir.absolute()}")

📁 Diretório de trabalho criado: c:\Users\Douglas\Documents\biorempp_package\biorempp\notebooks\biorempp_demo
📥 Diretório de entrada: c:\Users\Douglas\Documents\biorempp_package\biorempp\notebooks\biorempp_demo\input
📤 Diretório de saída: c:\Users\Douglas\Documents\biorempp_package\biorempp\notebooks\biorempp_demo\output


In [5]:
# Criação de arquivo de dados de teste
sample_data = [
    ">K00001",
    ">K00002", 
    ">K00003",
    ">K00004",
    ">K00005",
    ">K00006",
    ">K00007",
    ">K00008",
    ">K00009",
    ">K00010"
]

sample_file = input_dir / "sample_data.txt"
with open(sample_file, 'w') as f:
    f.write('\n'.join(sample_data))

print(f"📄 Arquivo de teste criado: {sample_file}")
print(f"📊 Número de identificadores: {len(sample_data)}")

# Visualização do arquivo
with open(sample_file, 'r') as f:
    content = f.read()
    print("\n📋 Conteúdo do arquivo de teste:")
    print(content)

📄 Arquivo de teste criado: biorempp_demo\input\sample_data.txt
📊 Número de identificadores: 10

📋 Conteúdo do arquivo de teste:
>K00001
>K00002
>K00003
>K00004
>K00005
>K00006
>K00007
>K00008
>K00009
>K00010


---

## 🔍 1. Processamento Individual de Bancos

### 📊 Banco BioRemPP

In [6]:
print("🧬 Processando banco BioRemPP...")
print("=" * 50)

start_time = time.time()

try:
    biorempp_result = run_biorempp_processing_pipeline(
        input_path=str(sample_file),
        output_dir=str(output_dir),
        optimize_types=True
    )
    
    end_time = time.time()
    processing_time = end_time - start_time
    
    print(f"✅ Processamento BioRemPP concluído em {processing_time:.2f} segundos")
    print(f"📊 Matches encontrados: {biorempp_result.get('matches', 'N/A')}")
    print(f"📁 Arquivo de saída: {biorempp_result.get('output_path', 'N/A')}")
    
    # Verificar se o arquivo foi criado
    output_path = biorempp_result.get('output_path')
    if output_path and os.path.exists(output_path):
        file_size = os.path.getsize(output_path) / 1024  # KB
        print(f"💾 Tamanho do arquivo: {file_size:.1f} KB")
    
except Exception as e:
    print(f"❌ Erro no processamento BioRemPP: {e}")
    biorempp_result = None

🧬 Processando banco BioRemPP...
❌ Erro no processamento BioRemPP: Pipeline error: Input processing error: No valid sample or KO entries found in the file.


### 🧬 Banco KEGG

In [None]:
print("🗂️ Processando banco KEGG...")
print("=" * 50)

start_time = time.time()

try:
    kegg_result = run_kegg_processing_pipeline(
        input_path=str(sample_file),
        output_dir=str(output_dir),
        optimize_types=True
    )
    
    end_time = time.time()
    processing_time = end_time - start_time
    
    print(f"✅ Processamento KEGG concluído em {processing_time:.2f} segundos")
    print(f"📊 Matches encontrados: {kegg_result.get('matches', 'N/A')}")
    print(f"📁 Arquivo de saída: {kegg_result.get('output_path', 'N/A')}")
    
    # Verificar se o arquivo foi criado
    output_path = kegg_result.get('output_path')
    if output_path and os.path.exists(output_path):
        file_size = os.path.getsize(output_path) / 1024  # KB
        print(f"💾 Tamanho do arquivo: {file_size:.1f} KB")
    
except Exception as e:
    print(f"❌ Erro no processamento KEGG: {e}")
    kegg_result = None

### 🏭 Banco HAdeg

In [None]:
print("🏭 Processando banco HAdeg...")
print("=" * 50)

start_time = time.time()

try:
    hadeg_result = run_hadeg_processing_pipeline(
        input_path=str(sample_file),
        output_dir=str(output_dir),
        optimize_types=True
    )
    
    end_time = time.time()
    processing_time = end_time - start_time
    
    print(f"✅ Processamento HAdeg concluído em {processing_time:.2f} segundos")
    print(f"📊 Matches encontrados: {hadeg_result.get('matches', 'N/A')}")
    print(f"📁 Arquivo de saída: {hadeg_result.get('output_path', 'N/A')}")
    
    # Verificar se o arquivo foi criado
    output_path = hadeg_result.get('output_path')
    if output_path and os.path.exists(output_path):
        file_size = os.path.getsize(output_path) / 1024  # KB
        print(f"💾 Tamanho do arquivo: {file_size:.1f} KB")
    
except Exception as e:
    print(f"❌ Erro no processamento HAdeg: {e}")
    hadeg_result = None

### ☠️ Banco ToxCSM

In [3]:
print("☠️ Processando banco ToxCSM...")
print("=" * 50)

start_time = time.time()

try:
    toxcsm_result = run_toxcsm_processing_pipeline(
        input_path=str(sample_file),
        output_dir=str(output_dir),
        optimize_types=True
    )
    
    end_time = time.time()
    processing_time = end_time - start_time
    
    print(f"✅ Processamento ToxCSM concluído em {processing_time:.2f} segundos")
    print(f"📊 Matches encontrados: {toxcsm_result.get('matches', 'N/A')}")
    print(f"📁 Arquivo de saída: {toxcsm_result.get('output_path', 'N/A')}")
    
    # Verificar se o arquivo foi criado
    output_path = toxcsm_result.get('output_path')
    if output_path and os.path.exists(output_path):
        file_size = os.path.getsize(output_path) / 1024  # KB
        print(f"💾 Tamanho do arquivo: {file_size:.1f} KB")
    
except Exception as e:
    print(f"❌ Erro no processamento ToxCSM: {e}")
    toxcsm_result = None

☠️ Processando banco ToxCSM...
❌ Erro no processamento ToxCSM: name 'sample_file' is not defined


---

## 🌐 2. Processamento Multi-Banco

Processamento simultâneo de todos os bancos de dados:

In [None]:
print("🌐 Processando TODOS os bancos simultaneamente...")
print("=" * 60)

start_time = time.time()

try:
    all_results = run_all_processing_pipelines(
        input_path=str(sample_file),
        output_dir=str(output_dir / "multi_banco"),
        optimize_types=True
    )
    
    end_time = time.time()
    total_processing_time = end_time - start_time
    
    print(f"✅ Processamento multi-banco concluído em {total_processing_time:.2f} segundos")
    print("\n📊 Resumo dos Resultados:")
    print("-" * 50)
    
    total_matches = 0
    
    for database, result in all_results.items():
        matches = result.get('matches', 0)
        total_matches += matches if isinstance(matches, int) else 0
        
        print(f"🗄️  {database.upper():12}: {matches:>6} matches")
        
        output_path = result.get('output_path')
        if output_path and os.path.exists(output_path):
            file_size = os.path.getsize(output_path) / 1024
            print(f"   📁 Arquivo: {Path(output_path).name} ({file_size:.1f} KB)")
        print()
    
    print(f"🎯 TOTAL GERAL: {total_matches} matches")
    print(f"⏱️  Tempo médio por banco: {total_processing_time/len(all_results):.2f} segundos")
    
except Exception as e:
    print(f"❌ Erro no processamento multi-banco: {e}")
    all_results = {}

---

## 📊 3. Análise e Visualização dos Resultados

In [None]:
# Listar todos os arquivos de resultado
print("📁 Arquivos de resultado gerados:")
print("=" * 40)

result_files = []
for root, dirs, files in os.walk(output_dir):
    for file in files:
        if file.endswith('.txt'):
            file_path = os.path.join(root, file)
            file_size = os.path.getsize(file_path) / 1024
            result_files.append((file_path, file_size))
            print(f"📄 {file} ({file_size:.1f} KB)")
            print(f"   📂 {os.path.relpath(file_path, output_dir)}")
            print()

print(f"📊 Total de arquivos gerados: {len(result_files)}")

In [None]:
# Análise detalhada de um arquivo de resultado (se disponível)
if result_files:
    # Pegar o primeiro arquivo para análise
    sample_result_file = result_files[0][0]
    
    print(f"📊 Análise detalhada do arquivo: {os.path.basename(sample_result_file)}")
    print("=" * 60)
    
    try:
        # Ler as primeiras linhas
        with open(sample_result_file, 'r', encoding='utf-8') as f:
            lines = f.readlines()
        
        print(f"📝 Total de linhas: {len(lines)}")
        print(f"📋 Primeiras 5 linhas:")
        print("-" * 40)
        
        for i, line in enumerate(lines[:5]):
            print(f"{i+1:2d}: {line.strip()}")
        
        if len(lines) > 5:
            print("   ...")
            print(f"{len(lines):2d}: {lines[-1].strip()}")
        
        # Análise com pandas se possível
        try:
            df = pd.read_csv(sample_result_file, sep=';')
            print(f"\n📊 Análise estatística:")
            print(f"   🔢 Número de registros: {len(df)}")
            print(f"   📋 Número de colunas: {len(df.columns)}")
            print(f"   📄 Colunas disponíveis:")
            
            for i, col in enumerate(df.columns):
                print(f"      {i+1:2d}. {col}")
                
        except Exception as e:
            print(f"ℹ️  Não foi possível analisar com pandas: {e}")
    
    except Exception as e:
        print(f"❌ Erro ao analisar arquivo: {e}")
else:
    print("⚠️  Nenhum arquivo de resultado encontrado para análise.")

---

## 🔧 4. Configurações Avançadas

### Processamento com Configurações Personalizadas

In [None]:
print("🔧 Demonstração de configurações avançadas...")
print("=" * 50)

# Criar diretório para configurações avançadas
advanced_dir = output_dir / "advanced_config"
advanced_dir.mkdir(exist_ok=True)

try:
    # Processamento com separador personalizado
    custom_result = run_biorempp_processing_pipeline(
        input_path=str(sample_file),
        output_dir=str(advanced_dir),
        output_filename="custom_output.csv",
        sep=",",  # Separador CSV
        add_timestamp=True,
        optimize_types=False
    )
    
    print("✅ Processamento com configurações personalizadas concluído")
    print(f"📁 Arquivo personalizado: {custom_result.get('output_path', 'N/A')}")
    print(f"📊 Matches: {custom_result.get('matches', 'N/A')}")
    
    # Verificar o arquivo criado
    output_path = custom_result.get('output_path')
    if output_path and os.path.exists(output_path):
        print(f"\n📋 Primeiras linhas do arquivo personalizado:")
        with open(output_path, 'r', encoding='utf-8') as f:
            for i, line in enumerate(f.readlines()[:3]):
                print(f"   {i+1}: {line.strip()}")
    
except Exception as e:
    print(f"❌ Erro nas configurações avançadas: {e}")

### Uso de Utilitários do BioRemPP

In [None]:
print("🛠️ Demonstração dos utilitários do BioRemPP...")
print("=" * 50)

try:
    # Configuração de logging
    logger = get_logger("demo_notebook")
    logger.info("Logger configurado para o notebook de demonstração")
    print("✅ Logger configurado com sucesso")
    
    # Exemplo de validação de entrada
    print("\n🔍 Validando arquivo de entrada...")
    
    try:
        # Carregar e validar dados de entrada
        input_data = input_loader.load_input_data(str(sample_file))
        print(f"✅ Dados carregados: {len(input_data)} identificadores")
        
        # Mostrar alguns identificadores
        print("📋 Identificadores carregados:")
        for i, identifier in enumerate(input_data[:5]):
            print(f"   {i+1}: {identifier}")
            
    except Exception as e:
        print(f"❌ Erro na validação: {e}")
    
    # Exemplo de manipulação de dataframe personalizada
    print("\n📊 Criando dataframe de exemplo...")
    
    example_data = {
        'Identifier': ['K00001', 'K00002', 'K00003'],
        'Name': ['Enzyme 1', 'Enzyme 2', 'Enzyme 3'],
        'Function': ['Function A', 'Function B', 'Function C'],
        'Pathway': ['Pathway X', 'Pathway Y', 'Pathway Z']
    }
    
    df_example = pd.DataFrame(example_data)
    print("✅ DataFrame de exemplo criado:")
    print(df_example)
    
    # Salvar usando utilitário do BioRemPP
    example_output = advanced_dir / "example_dataframe.txt"
    
    try:
        save_dataframe_output(
            df_example,
            str(example_output),
            sep=";",
            add_timestamp=True
        )
        print(f"✅ DataFrame salvo em: {example_output}")
    except Exception as e:
        print(f"❌ Erro ao salvar DataFrame: {e}")
    
except Exception as e:
    print(f"❌ Erro nos utilitários: {e}")

---

## 📈 5. Análise Comparativa dos Bancos

In [None]:
print("📈 Análise comparativa dos resultados dos bancos...")
print("=" * 55)

# Coletar dados dos resultados individuais
results_summary = []

individual_results = {
    'BioRemPP': biorempp_result,
    'KEGG': kegg_result,
    'HAdeg': hadeg_result,
    'ToxCSM': toxcsm_result
}

for db_name, result in individual_results.items():
    if result and isinstance(result, dict):
        matches = result.get('matches', 0)
        output_path = result.get('output_path', '')
        
        file_size = 0
        if output_path and os.path.exists(output_path):
            file_size = os.path.getsize(output_path) / 1024
        
        results_summary.append({
            'Database': db_name,
            'Matches': matches,
            'File_Size_KB': round(file_size, 1)
        })

if results_summary:
    # Criar DataFrame para análise
    summary_df = pd.DataFrame(results_summary)
    
    print("📊 Resumo Comparativo:")
    print(summary_df.to_string(index=False))
    
    print(f"\n🎯 Estatísticas:")
    total_matches = summary_df['Matches'].sum()
    total_size = summary_df['File_Size_KB'].sum()
    avg_matches = summary_df['Matches'].mean()
    
    print(f"   🔢 Total de matches: {total_matches}")
    print(f"   💾 Tamanho total dos arquivos: {total_size:.1f} KB")
    print(f"   📊 Média de matches por banco: {avg_matches:.1f}")
    
    # Banco com mais matches
    best_db = summary_df.loc[summary_df['Matches'].idxmax()]
    print(f"   🏆 Banco com mais matches: {best_db['Database']} ({best_db['Matches']} matches)")
    
else:
    print("⚠️  Nenhum resultado disponível para análise comparativa.")

---

## 🎨 6. Visualização Simples dos Resultados

In [None]:
# Visualização em texto dos resultados
print("🎨 Visualização dos resultados...")
print("=" * 40)

if results_summary:
    # Gráfico de barras simples em texto
    print("📊 Gráfico de Matches por Banco:")
    print("-" * 40)
    
    max_matches = max([r['Matches'] for r in results_summary])
    bar_width = 30
    
    for result in results_summary:
        db_name = result['Database']
        matches = result['Matches']
        
        if max_matches > 0:
            bar_length = int((matches / max_matches) * bar_width)
            bar = "█" * bar_length + "░" * (bar_width - bar_length)
        else:
            bar = "░" * bar_width
        
        print(f"{db_name:8} |{bar}| {matches:5d}")
    
    print(f"{'':8} |{'-'*bar_width}|")
    print(f"{'':8} 0{' '*(bar_width-10)}{max_matches:>8}")

print("\n🎉 Demonstração concluída com sucesso!")

---

## 📋 7. Resumo Final e Informações Úteis

In [None]:
print("📋 RESUMO FINAL DA DEMONSTRAÇÃO")
print("=" * 50)

# Informações sobre os arquivos criados
print(f"📁 Diretório de trabalho: {work_dir.absolute()}")
print(f"📥 Arquivo de entrada usado: {sample_file.name}")
print(f"📤 Diretório de saída: {output_dir.absolute()}")

# Contar todos os arquivos criados
total_files = 0
total_size = 0

for root, dirs, files in os.walk(output_dir):
    for file in files:
        if file.endswith('.txt') or file.endswith('.csv'):
            file_path = os.path.join(root, file)
            file_size = os.path.getsize(file_path)
            total_files += 1
            total_size += file_size

print(f"\n📊 Arquivos gerados:")
print(f"   🔢 Total de arquivos: {total_files}")
print(f"   💾 Tamanho total: {total_size/1024:.1f} KB")

# Comandos CLI equivalentes
print(f"\n🖥️ Comandos CLI equivalentes:")
print(f"   biorempp --input {sample_file} --database biorempp")
print(f"   biorempp --input {sample_file} --database kegg")
print(f"   biorempp --input {sample_file} --database hadeg")
print(f"   biorempp --input {sample_file} --database toxcsm")
print(f"   biorempp --input {sample_file} --all-databases")

# Próximos passos
print(f"\n🚀 Próximos passos sugeridos:")
print(f"   1. Experimentar com seus próprios dados")
print(f"   2. Explorar configurações avançadas")
print(f"   3. Integrar na sua pipeline de análise")
print(f"   4. Consultar a documentação completa")

print(f"\n✨ Obrigado por experimentar o BioRemPP!")
print(f"🔗 Documentação: https://biorempp.readthedocs.io")
print(f"💬 Suporte: https://github.com/DougFelipe/biorempp/issues")

---

## 🔧 8. Limpeza (Opcional)

Execute esta célula se desejar remover os arquivos de demonstração:

In [None]:
# Descomente as linhas abaixo para remover os arquivos de demonstração

# import shutil
# 
# try:
#     shutil.rmtree(work_dir)
#     print(f"🧹 Diretório de demonstração removido: {work_dir}")
# except Exception as e:
#     print(f"❌ Erro ao remover diretório: {e}")

print("ℹ️  Para remover os arquivos de demonstração, descomente o código acima.")