# üß¨ BioRemPP - Demonstra√ß√£o Completa das Funcionalidades

## üìã Notebook de Demonstra√ß√£o v0.5.0

Este notebook demonstra todas as principais funcionalidades do **BioRemPP** (Biological Remediation Pathway Predictor), incluindo:

- üî¨ Processamento individual de bancos de dados
- üåê Processamento multi-banco
- üìä An√°lise e visualiza√ß√£o de resultados
- üêç Uso da API Python
- üîß Configura√ß√µes avan√ßadas

---

## üöÄ Configura√ß√£o Inicial

In [1]:
# Instala√ß√£o do BioRemPP (descomente se necess√°rio)
# !pip install biorempp

# Importa√ß√µes necess√°rias
import os
import sys
import pandas as pd
import numpy as np
from pathlib import Path
import time
from datetime import datetime

# Importa√ß√µes do BioRemPP
try:
    from biorempp.pipelines import (
        run_biorempp_processing_pipeline,
        run_kegg_processing_pipeline,
        run_hadeg_processing_pipeline,
        run_toxcsm_processing_pipeline,
        run_all_processing_pipelines
    )
    from biorempp.utils import get_logger, save_dataframe_output
    from biorempp.input_processing import input_loader, input_validator
    print("‚úÖ BioRemPP importado com sucesso!")
except ImportError as e:
    print(f"‚ùå Erro ao importar BioRemPP: {e}")
    print("üí° Certifique-se de que o BioRemPP est√° instalado: pip install biorempp")

‚úÖ BioRemPP importado com sucesso!


---

## üìÅ Prepara√ß√£o dos Dados de Teste

In [4]:
# Cria√ß√£o de diret√≥rios de trabalho
work_dir = Path("biorempp_demo")
work_dir.mkdir(exist_ok=True)

input_dir = work_dir / "input"
output_dir = work_dir / "output"
input_dir.mkdir(exist_ok=True)
output_dir.mkdir(exist_ok=True)

print(f"üìÅ Diret√≥rio de trabalho criado: {work_dir.absolute()}")
print(f"üì• Diret√≥rio de entrada: {input_dir.absolute()}")
print(f"üì§ Diret√≥rio de sa√≠da: {output_dir.absolute()}")

üìÅ Diret√≥rio de trabalho criado: c:\Users\Douglas\Documents\biorempp_package\biorempp\notebooks\biorempp_demo
üì• Diret√≥rio de entrada: c:\Users\Douglas\Documents\biorempp_package\biorempp\notebooks\biorempp_demo\input
üì§ Diret√≥rio de sa√≠da: c:\Users\Douglas\Documents\biorempp_package\biorempp\notebooks\biorempp_demo\output


In [5]:
# Cria√ß√£o de arquivo de dados de teste
sample_data = [
    ">K00001",
    ">K00002", 
    ">K00003",
    ">K00004",
    ">K00005",
    ">K00006",
    ">K00007",
    ">K00008",
    ">K00009",
    ">K00010"
]

sample_file = input_dir / "sample_data.txt"
with open(sample_file, 'w') as f:
    f.write('\n'.join(sample_data))

print(f"üìÑ Arquivo de teste criado: {sample_file}")
print(f"üìä N√∫mero de identificadores: {len(sample_data)}")

# Visualiza√ß√£o do arquivo
with open(sample_file, 'r') as f:
    content = f.read()
    print("\nüìã Conte√∫do do arquivo de teste:")
    print(content)

üìÑ Arquivo de teste criado: biorempp_demo\input\sample_data.txt
üìä N√∫mero de identificadores: 10

üìã Conte√∫do do arquivo de teste:
>K00001
>K00002
>K00003
>K00004
>K00005
>K00006
>K00007
>K00008
>K00009
>K00010


---

## üîç 1. Processamento Individual de Bancos

### üìä Banco BioRemPP

In [6]:
print("üß¨ Processando banco BioRemPP...")
print("=" * 50)

start_time = time.time()

try:
    biorempp_result = run_biorempp_processing_pipeline(
        input_path=str(sample_file),
        output_dir=str(output_dir),
        optimize_types=True
    )
    
    end_time = time.time()
    processing_time = end_time - start_time
    
    print(f"‚úÖ Processamento BioRemPP conclu√≠do em {processing_time:.2f} segundos")
    print(f"üìä Matches encontrados: {biorempp_result.get('matches', 'N/A')}")
    print(f"üìÅ Arquivo de sa√≠da: {biorempp_result.get('output_path', 'N/A')}")
    
    # Verificar se o arquivo foi criado
    output_path = biorempp_result.get('output_path')
    if output_path and os.path.exists(output_path):
        file_size = os.path.getsize(output_path) / 1024  # KB
        print(f"üíæ Tamanho do arquivo: {file_size:.1f} KB")
    
except Exception as e:
    print(f"‚ùå Erro no processamento BioRemPP: {e}")
    biorempp_result = None

üß¨ Processando banco BioRemPP...
‚ùå Erro no processamento BioRemPP: Pipeline error: Input processing error: No valid sample or KO entries found in the file.


### üß¨ Banco KEGG

In [None]:
print("üóÇÔ∏è Processando banco KEGG...")
print("=" * 50)

start_time = time.time()

try:
    kegg_result = run_kegg_processing_pipeline(
        input_path=str(sample_file),
        output_dir=str(output_dir),
        optimize_types=True
    )
    
    end_time = time.time()
    processing_time = end_time - start_time
    
    print(f"‚úÖ Processamento KEGG conclu√≠do em {processing_time:.2f} segundos")
    print(f"üìä Matches encontrados: {kegg_result.get('matches', 'N/A')}")
    print(f"üìÅ Arquivo de sa√≠da: {kegg_result.get('output_path', 'N/A')}")
    
    # Verificar se o arquivo foi criado
    output_path = kegg_result.get('output_path')
    if output_path and os.path.exists(output_path):
        file_size = os.path.getsize(output_path) / 1024  # KB
        print(f"üíæ Tamanho do arquivo: {file_size:.1f} KB")
    
except Exception as e:
    print(f"‚ùå Erro no processamento KEGG: {e}")
    kegg_result = None

### üè≠ Banco HAdeg

In [None]:
print("üè≠ Processando banco HAdeg...")
print("=" * 50)

start_time = time.time()

try:
    hadeg_result = run_hadeg_processing_pipeline(
        input_path=str(sample_file),
        output_dir=str(output_dir),
        optimize_types=True
    )
    
    end_time = time.time()
    processing_time = end_time - start_time
    
    print(f"‚úÖ Processamento HAdeg conclu√≠do em {processing_time:.2f} segundos")
    print(f"üìä Matches encontrados: {hadeg_result.get('matches', 'N/A')}")
    print(f"üìÅ Arquivo de sa√≠da: {hadeg_result.get('output_path', 'N/A')}")
    
    # Verificar se o arquivo foi criado
    output_path = hadeg_result.get('output_path')
    if output_path and os.path.exists(output_path):
        file_size = os.path.getsize(output_path) / 1024  # KB
        print(f"üíæ Tamanho do arquivo: {file_size:.1f} KB")
    
except Exception as e:
    print(f"‚ùå Erro no processamento HAdeg: {e}")
    hadeg_result = None

### ‚ò†Ô∏è Banco ToxCSM

In [3]:
print("‚ò†Ô∏è Processando banco ToxCSM...")
print("=" * 50)

start_time = time.time()

try:
    toxcsm_result = run_toxcsm_processing_pipeline(
        input_path=str(sample_file),
        output_dir=str(output_dir),
        optimize_types=True
    )
    
    end_time = time.time()
    processing_time = end_time - start_time
    
    print(f"‚úÖ Processamento ToxCSM conclu√≠do em {processing_time:.2f} segundos")
    print(f"üìä Matches encontrados: {toxcsm_result.get('matches', 'N/A')}")
    print(f"üìÅ Arquivo de sa√≠da: {toxcsm_result.get('output_path', 'N/A')}")
    
    # Verificar se o arquivo foi criado
    output_path = toxcsm_result.get('output_path')
    if output_path and os.path.exists(output_path):
        file_size = os.path.getsize(output_path) / 1024  # KB
        print(f"üíæ Tamanho do arquivo: {file_size:.1f} KB")
    
except Exception as e:
    print(f"‚ùå Erro no processamento ToxCSM: {e}")
    toxcsm_result = None

‚ò†Ô∏è Processando banco ToxCSM...
‚ùå Erro no processamento ToxCSM: name 'sample_file' is not defined


---

## üåê 2. Processamento Multi-Banco

Processamento simult√¢neo de todos os bancos de dados:

In [None]:
print("üåê Processando TODOS os bancos simultaneamente...")
print("=" * 60)

start_time = time.time()

try:
    all_results = run_all_processing_pipelines(
        input_path=str(sample_file),
        output_dir=str(output_dir / "multi_banco"),
        optimize_types=True
    )
    
    end_time = time.time()
    total_processing_time = end_time - start_time
    
    print(f"‚úÖ Processamento multi-banco conclu√≠do em {total_processing_time:.2f} segundos")
    print("\nüìä Resumo dos Resultados:")
    print("-" * 50)
    
    total_matches = 0
    
    for database, result in all_results.items():
        matches = result.get('matches', 0)
        total_matches += matches if isinstance(matches, int) else 0
        
        print(f"üóÑÔ∏è  {database.upper():12}: {matches:>6} matches")
        
        output_path = result.get('output_path')
        if output_path and os.path.exists(output_path):
            file_size = os.path.getsize(output_path) / 1024
            print(f"   üìÅ Arquivo: {Path(output_path).name} ({file_size:.1f} KB)")
        print()
    
    print(f"üéØ TOTAL GERAL: {total_matches} matches")
    print(f"‚è±Ô∏è  Tempo m√©dio por banco: {total_processing_time/len(all_results):.2f} segundos")
    
except Exception as e:
    print(f"‚ùå Erro no processamento multi-banco: {e}")
    all_results = {}

---

## üìä 3. An√°lise e Visualiza√ß√£o dos Resultados

In [None]:
# Listar todos os arquivos de resultado
print("üìÅ Arquivos de resultado gerados:")
print("=" * 40)

result_files = []
for root, dirs, files in os.walk(output_dir):
    for file in files:
        if file.endswith('.txt'):
            file_path = os.path.join(root, file)
            file_size = os.path.getsize(file_path) / 1024
            result_files.append((file_path, file_size))
            print(f"üìÑ {file} ({file_size:.1f} KB)")
            print(f"   üìÇ {os.path.relpath(file_path, output_dir)}")
            print()

print(f"üìä Total de arquivos gerados: {len(result_files)}")

In [None]:
# An√°lise detalhada de um arquivo de resultado (se dispon√≠vel)
if result_files:
    # Pegar o primeiro arquivo para an√°lise
    sample_result_file = result_files[0][0]
    
    print(f"üìä An√°lise detalhada do arquivo: {os.path.basename(sample_result_file)}")
    print("=" * 60)
    
    try:
        # Ler as primeiras linhas
        with open(sample_result_file, 'r', encoding='utf-8') as f:
            lines = f.readlines()
        
        print(f"üìù Total de linhas: {len(lines)}")
        print(f"üìã Primeiras 5 linhas:")
        print("-" * 40)
        
        for i, line in enumerate(lines[:5]):
            print(f"{i+1:2d}: {line.strip()}")
        
        if len(lines) > 5:
            print("   ...")
            print(f"{len(lines):2d}: {lines[-1].strip()}")
        
        # An√°lise com pandas se poss√≠vel
        try:
            df = pd.read_csv(sample_result_file, sep=';')
            print(f"\nüìä An√°lise estat√≠stica:")
            print(f"   üî¢ N√∫mero de registros: {len(df)}")
            print(f"   üìã N√∫mero de colunas: {len(df.columns)}")
            print(f"   üìÑ Colunas dispon√≠veis:")
            
            for i, col in enumerate(df.columns):
                print(f"      {i+1:2d}. {col}")
                
        except Exception as e:
            print(f"‚ÑπÔ∏è  N√£o foi poss√≠vel analisar com pandas: {e}")
    
    except Exception as e:
        print(f"‚ùå Erro ao analisar arquivo: {e}")
else:
    print("‚ö†Ô∏è  Nenhum arquivo de resultado encontrado para an√°lise.")

---

## üîß 4. Configura√ß√µes Avan√ßadas

### Processamento com Configura√ß√µes Personalizadas

In [None]:
print("üîß Demonstra√ß√£o de configura√ß√µes avan√ßadas...")
print("=" * 50)

# Criar diret√≥rio para configura√ß√µes avan√ßadas
advanced_dir = output_dir / "advanced_config"
advanced_dir.mkdir(exist_ok=True)

try:
    # Processamento com separador personalizado
    custom_result = run_biorempp_processing_pipeline(
        input_path=str(sample_file),
        output_dir=str(advanced_dir),
        output_filename="custom_output.csv",
        sep=",",  # Separador CSV
        add_timestamp=True,
        optimize_types=False
    )
    
    print("‚úÖ Processamento com configura√ß√µes personalizadas conclu√≠do")
    print(f"üìÅ Arquivo personalizado: {custom_result.get('output_path', 'N/A')}")
    print(f"üìä Matches: {custom_result.get('matches', 'N/A')}")
    
    # Verificar o arquivo criado
    output_path = custom_result.get('output_path')
    if output_path and os.path.exists(output_path):
        print(f"\nüìã Primeiras linhas do arquivo personalizado:")
        with open(output_path, 'r', encoding='utf-8') as f:
            for i, line in enumerate(f.readlines()[:3]):
                print(f"   {i+1}: {line.strip()}")
    
except Exception as e:
    print(f"‚ùå Erro nas configura√ß√µes avan√ßadas: {e}")

### Uso de Utilit√°rios do BioRemPP

In [None]:
print("üõ†Ô∏è Demonstra√ß√£o dos utilit√°rios do BioRemPP...")
print("=" * 50)

try:
    # Configura√ß√£o de logging
    logger = get_logger("demo_notebook")
    logger.info("Logger configurado para o notebook de demonstra√ß√£o")
    print("‚úÖ Logger configurado com sucesso")
    
    # Exemplo de valida√ß√£o de entrada
    print("\nüîç Validando arquivo de entrada...")
    
    try:
        # Carregar e validar dados de entrada
        input_data = input_loader.load_input_data(str(sample_file))
        print(f"‚úÖ Dados carregados: {len(input_data)} identificadores")
        
        # Mostrar alguns identificadores
        print("üìã Identificadores carregados:")
        for i, identifier in enumerate(input_data[:5]):
            print(f"   {i+1}: {identifier}")
            
    except Exception as e:
        print(f"‚ùå Erro na valida√ß√£o: {e}")
    
    # Exemplo de manipula√ß√£o de dataframe personalizada
    print("\nüìä Criando dataframe de exemplo...")
    
    example_data = {
        'Identifier': ['K00001', 'K00002', 'K00003'],
        'Name': ['Enzyme 1', 'Enzyme 2', 'Enzyme 3'],
        'Function': ['Function A', 'Function B', 'Function C'],
        'Pathway': ['Pathway X', 'Pathway Y', 'Pathway Z']
    }
    
    df_example = pd.DataFrame(example_data)
    print("‚úÖ DataFrame de exemplo criado:")
    print(df_example)
    
    # Salvar usando utilit√°rio do BioRemPP
    example_output = advanced_dir / "example_dataframe.txt"
    
    try:
        save_dataframe_output(
            df_example,
            str(example_output),
            sep=";",
            add_timestamp=True
        )
        print(f"‚úÖ DataFrame salvo em: {example_output}")
    except Exception as e:
        print(f"‚ùå Erro ao salvar DataFrame: {e}")
    
except Exception as e:
    print(f"‚ùå Erro nos utilit√°rios: {e}")

---

## üìà 5. An√°lise Comparativa dos Bancos

In [None]:
print("üìà An√°lise comparativa dos resultados dos bancos...")
print("=" * 55)

# Coletar dados dos resultados individuais
results_summary = []

individual_results = {
    'BioRemPP': biorempp_result,
    'KEGG': kegg_result,
    'HAdeg': hadeg_result,
    'ToxCSM': toxcsm_result
}

for db_name, result in individual_results.items():
    if result and isinstance(result, dict):
        matches = result.get('matches', 0)
        output_path = result.get('output_path', '')
        
        file_size = 0
        if output_path and os.path.exists(output_path):
            file_size = os.path.getsize(output_path) / 1024
        
        results_summary.append({
            'Database': db_name,
            'Matches': matches,
            'File_Size_KB': round(file_size, 1)
        })

if results_summary:
    # Criar DataFrame para an√°lise
    summary_df = pd.DataFrame(results_summary)
    
    print("üìä Resumo Comparativo:")
    print(summary_df.to_string(index=False))
    
    print(f"\nüéØ Estat√≠sticas:")
    total_matches = summary_df['Matches'].sum()
    total_size = summary_df['File_Size_KB'].sum()
    avg_matches = summary_df['Matches'].mean()
    
    print(f"   üî¢ Total de matches: {total_matches}")
    print(f"   üíæ Tamanho total dos arquivos: {total_size:.1f} KB")
    print(f"   üìä M√©dia de matches por banco: {avg_matches:.1f}")
    
    # Banco com mais matches
    best_db = summary_df.loc[summary_df['Matches'].idxmax()]
    print(f"   üèÜ Banco com mais matches: {best_db['Database']} ({best_db['Matches']} matches)")
    
else:
    print("‚ö†Ô∏è  Nenhum resultado dispon√≠vel para an√°lise comparativa.")

---

## üé® 6. Visualiza√ß√£o Simples dos Resultados

In [None]:
# Visualiza√ß√£o em texto dos resultados
print("üé® Visualiza√ß√£o dos resultados...")
print("=" * 40)

if results_summary:
    # Gr√°fico de barras simples em texto
    print("üìä Gr√°fico de Matches por Banco:")
    print("-" * 40)
    
    max_matches = max([r['Matches'] for r in results_summary])
    bar_width = 30
    
    for result in results_summary:
        db_name = result['Database']
        matches = result['Matches']
        
        if max_matches > 0:
            bar_length = int((matches / max_matches) * bar_width)
            bar = "‚ñà" * bar_length + "‚ñë" * (bar_width - bar_length)
        else:
            bar = "‚ñë" * bar_width
        
        print(f"{db_name:8} |{bar}| {matches:5d}")
    
    print(f"{'':8} |{'-'*bar_width}|")
    print(f"{'':8} 0{' '*(bar_width-10)}{max_matches:>8}")

print("\nüéâ Demonstra√ß√£o conclu√≠da com sucesso!")

---

## üìã 7. Resumo Final e Informa√ß√µes √öteis

In [None]:
print("üìã RESUMO FINAL DA DEMONSTRA√á√ÉO")
print("=" * 50)

# Informa√ß√µes sobre os arquivos criados
print(f"üìÅ Diret√≥rio de trabalho: {work_dir.absolute()}")
print(f"üì• Arquivo de entrada usado: {sample_file.name}")
print(f"üì§ Diret√≥rio de sa√≠da: {output_dir.absolute()}")

# Contar todos os arquivos criados
total_files = 0
total_size = 0

for root, dirs, files in os.walk(output_dir):
    for file in files:
        if file.endswith('.txt') or file.endswith('.csv'):
            file_path = os.path.join(root, file)
            file_size = os.path.getsize(file_path)
            total_files += 1
            total_size += file_size

print(f"\nüìä Arquivos gerados:")
print(f"   üî¢ Total de arquivos: {total_files}")
print(f"   üíæ Tamanho total: {total_size/1024:.1f} KB")

# Comandos CLI equivalentes
print(f"\nüñ•Ô∏è Comandos CLI equivalentes:")
print(f"   biorempp --input {sample_file} --database biorempp")
print(f"   biorempp --input {sample_file} --database kegg")
print(f"   biorempp --input {sample_file} --database hadeg")
print(f"   biorempp --input {sample_file} --database toxcsm")
print(f"   biorempp --input {sample_file} --all-databases")

# Pr√≥ximos passos
print(f"\nüöÄ Pr√≥ximos passos sugeridos:")
print(f"   1. Experimentar com seus pr√≥prios dados")
print(f"   2. Explorar configura√ß√µes avan√ßadas")
print(f"   3. Integrar na sua pipeline de an√°lise")
print(f"   4. Consultar a documenta√ß√£o completa")

print(f"\n‚ú® Obrigado por experimentar o BioRemPP!")
print(f"üîó Documenta√ß√£o: https://biorempp.readthedocs.io")
print(f"üí¨ Suporte: https://github.com/DougFelipe/biorempp/issues")

---

## üîß 8. Limpeza (Opcional)

Execute esta c√©lula se desejar remover os arquivos de demonstra√ß√£o:

In [None]:
# Descomente as linhas abaixo para remover os arquivos de demonstra√ß√£o

# import shutil
# 
# try:
#     shutil.rmtree(work_dir)
#     print(f"üßπ Diret√≥rio de demonstra√ß√£o removido: {work_dir}")
# except Exception as e:
#     print(f"‚ùå Erro ao remover diret√≥rio: {e}")

print("‚ÑπÔ∏è  Para remover os arquivos de demonstra√ß√£o, descomente o c√≥digo acima.")