# üöÄ BrainX - Sistema Completo Adaptativo

## ‚ö†Ô∏è IMPORTANTE: Este notebook foi otimizado para Google Colab com GPU

**Para melhor performance:**
1. Fa√ßa upload deste notebook no Google Colab: https://colab.research.google.com
2. Habilite GPU: Runtime ‚Üí Change runtime type ‚Üí GPU
3. Execute todas as c√©lulas na ordem

**Funciona localmente tamb√©m**, mas ser√° mais lento sem GPU.

---

Sistema completo com todas as melhorias para superar todos os modelos:
- ‚úÖ Prompts adaptativos por TRI
- ‚úÖ Few-shots customizados por tema
- ‚úÖ Detec√ß√£o de figuras simples
- ‚úÖ Self-Consistency (m√∫ltiplas passagens)
- ‚úÖ Prompt ultra-simples para quest√µes f√°ceis
- ‚úÖ Prompt especializado para Natureza

**Meta**: 94%+ acur√°cia (superar GPT-4o com 93.85%)


## üì¶ Instala√ß√£o e Configura√ß√£o


In [44]:
# Instalar depend√™ncias
try:
    get_ipython().run_line_magic('pip', 'install -q openai python-dotenv tqdm')
except:
    import subprocess
    subprocess.run(['pip', 'install', '-q', 'openai', 'python-dotenv', 'tqdm'])

# Verificar GPU e ambiente
print("üîç VERIFICANDO AMBIENTE E GPU")
print("=" * 60)

# Verificar se est√° no Colab
try:
    import google.colab
    print("‚úÖ Google Colab detectado")
    IN_COLAB = True
    print("üí° Para habilitar GPU: Runtime ‚Üí Change runtime type ‚Üí GPU")
except ImportError:
    print("‚ö†Ô∏è  Executando LOCALMENTE (n√£o no Google Colab)")
    print("   üí° Para melhor performance, use Google Colab com GPU")
    print("   üìå Link: https://colab.research.google.com")
    IN_COLAB = False

# Verificar GPU
USANDO_GPU = False
try:
    import torch
    if torch.cuda.is_available():
        device_name = torch.cuda.get_device_name(0)
        memory_gb = torch.cuda.get_device_properties(0).total_memory / 1e9
        print(f"\n‚úÖ GPU dispon√≠vel: {device_name}")
        print(f"   Mem√≥ria GPU: {memory_gb:.1f} GB")
        print(f"   CUDA Version: {torch.version.cuda}")
        USANDO_GPU = True
    else:
        print(f"\n‚ö†Ô∏è  GPU n√£o dispon√≠vel (usando CPU)")
        if IN_COLAB:
            print("   üí° Dica: V√° em Runtime ‚Üí Change runtime type ‚Üí GPU")
        else:
            print("   üí° Para GPU, execute no Google Colab")
except ImportError:
    print("\n‚ö†Ô∏è  PyTorch n√£o instalado")
    if IN_COLAB:
        try:
            get_ipython().run_line_magic('pip', 'install -q torch')
        except:
            pass
        try:
            import torch
            if torch.cuda.is_available():
                print(f"‚úÖ GPU dispon√≠vel: {torch.cuda.get_device_name(0)}")
                USANDO_GPU = True
            else:
                print("‚ö†Ô∏è  GPU n√£o dispon√≠vel")
        except:
            pass
    else:
        print("   (PyTorch opcional para verifica√ß√£o local)")

# Verificar vari√°veis de ambiente
import os
if IN_COLAB:
    print(f"\nüìä Informa√ß√µes do Colab:")
    print(f"   COLAB_GPU: {os.environ.get('COLAB_GPU', 'n√£o definida')}")

print(f"\nüí° Nota sobre Performance:")
if IN_COLAB and USANDO_GPU:
    print(f"   ‚úÖ Ambiente otimizado: Colab + GPU")
elif IN_COLAB:
    print(f"   ‚ö†Ô∏è  Colab sem GPU - habilite GPU para melhor performance")
else:
    print(f"   ‚ö†Ô∏è  Executando localmente - ser√° mais lento")
    print(f"   üí° Recomendado: Use Google Colab com GPU para processar mais r√°pido")
print(f"   - Chamadas API s√£o via rede (n√£o usam GPU diretamente)")
print(f"   - Mas GPU permite otimiza√ß√µes e processamento paralelo")


Note: you may need to restart the kernel to use updated packages.
üîç VERIFICANDO AMBIENTE E GPU
‚ö†Ô∏è  Executando LOCALMENTE (n√£o no Google Colab)
   üí° Para melhor performance, use Google Colab com GPU
   üìå Link: https://colab.research.google.com

‚ö†Ô∏è  GPU n√£o dispon√≠vel (usando CPU)
   üí° Para GPU, execute no Google Colab

üí° Nota sobre Performance:
   ‚ö†Ô∏è  Executando localmente - ser√° mais lento
   üí° Recomendado: Use Google Colab com GPU para processar mais r√°pido
   - Chamadas API s√£o via rede (n√£o usam GPU diretamente)
   - Mas GPU permite otimiza√ß√µes e processamento paralelo


In [45]:
# Clonar reposit√≥rio (com detec√ß√£o de caminho duplicado)
import os
from pathlib import Path
import subprocess
import shutil

current_dir = Path.cwd()
print(f"üìÅ Diret√≥rio inicial: {current_dir}")

# DETECTAR E CORRIGIR CAMINHO DUPLICADO
# Se o caminho cont√©m "gpt-4-enem/gpt-4-enem", estamos em um diret√≥rio duplicado
path_str = str(current_dir)
if path_str.count('gpt-4-enem') >= 2:
    # Encontrar o primeiro "gpt-4-enem" v√°lido (que tem scripts/analise_enem)
    parts = path_str.split('/')
    for i in range(len(parts)):
        if parts[i] == 'gpt-4-enem':
            # Tentar caminho at√© este ponto
            test_path = Path('/'.join(parts[:i+1]))
            if (test_path / 'scripts' / 'analise_enem').exists():
                print(f"üîß Detectado caminho duplicado! Corrigindo...")
                print(f"   Caminho duplicado: {current_dir}")
                print(f"   Caminho correto: {test_path}")
                os.chdir(test_path)
                current_dir = Path.cwd()
                print(f"‚úÖ Corrigido! Agora em: {current_dir}")
                break

# Estrat√©gia: encontrar o diret√≥rio raiz do reposit√≥rio
repo_root = None

# Verificar se j√° estamos no diret√≥rio raiz do reposit√≥rio
if (current_dir / 'scripts' / 'analise_enem').exists():
    repo_root = current_dir
    print(f"‚úÖ J√° estamos no diret√≥rio raiz do reposit√≥rio: {repo_root}")
elif (current_dir.parent / 'scripts' / 'analise_enem').exists():
    repo_root = current_dir.parent
    print(f"‚úÖ Reposit√≥rio encontrado no diret√≥rio pai: {repo_root}")
elif (current_dir.parent.parent / 'scripts' / 'analise_enem').exists():
    repo_root = current_dir.parent.parent
    print(f"‚úÖ Reposit√≥rio encontrado 2 n√≠veis acima: {repo_root}")

# Se ainda n√£o encontrou, verificar se precisa clonar
if repo_root is None:
    # Verificar se o diret√≥rio atual √© "gpt-4-enem" ou est√° dentro dele
    if current_dir.name == 'gpt-4-enem' and (current_dir / 'scripts' / 'analise_enem').exists():
        repo_root = current_dir
        print(f"‚úÖ J√° estamos dentro do reposit√≥rio: {repo_root}")
    elif (current_dir / 'gpt-4-enem' / 'scripts' / 'analise_enem').exists():
        repo_root = current_dir / 'gpt-4-enem'
        print(f"‚úÖ Reposit√≥rio encontrado em subdiret√≥rio: {repo_root}")
    else:
        # Determinar onde clonar baseado no diret√≥rio atual
        # Se estamos em notebooks/, ir para a raiz do Colab (geralmente /content)
        if 'notebooks' in str(current_dir) or current_dir.name == 'notebooks':
            # Ir para a raiz do Colab (geralmente /content)
            colab_root = Path('/content') if Path('/content').exists() else current_dir
            while colab_root.parent != colab_root:  # Enquanto n√£o for a raiz
                if (colab_root / 'scripts' / 'analise_enem').exists():
                    repo_root = colab_root
                    break
                if colab_root.parent == colab_root:
                    break
                colab_root = colab_root.parent
            
            if repo_root is None:
                clone_target = colab_root / 'gpt-4-enem'
                if (clone_target / 'scripts' / 'analise_enem').exists():
                    repo_root = clone_target
                    print(f"‚úÖ Reposit√≥rio j√° existe: {repo_root}")
                elif not clone_target.exists():
                    print(f"üì• Clonando reposit√≥rio em: {clone_target.parent}")
                    subprocess.run(['git', 'clone', 'https://github.com/xtribr/enemnlp.git', str(clone_target)], 
                                 cwd=str(clone_target.parent), check=True)
                    repo_root = clone_target
                    print(f"‚úÖ Reposit√≥rio clonado em: {repo_root}")
                else:
                    repo_root = clone_target
        else:
            # Clonar no diret√≥rio atual
            clone_target = current_dir / 'gpt-4-enem'
            if not clone_target.exists():
                print(f"üì• Clonando reposit√≥rio...")
                subprocess.run(['git', 'clone', 'https://github.com/xtribr/enemnlp.git', 'gpt-4-enem'], 
                             cwd=str(current_dir), check=True)
                repo_root = clone_target
                print(f"‚úÖ Reposit√≥rio clonado em: {repo_root}")
            elif (clone_target / 'scripts' / 'analise_enem').exists():
                repo_root = clone_target
                print(f"‚úÖ Reposit√≥rio j√° existe: {repo_root}")
            else:
                repo_root = clone_target

# Mudar para o diret√≥rio raiz do reposit√≥rio
if repo_root and repo_root.exists():
    os.chdir(repo_root)
    final_dir = Path.cwd()
    print(f"üìÅ Diret√≥rio final: {final_dir}")
    
    # Verificar se est√° correto
    if (final_dir / 'scripts' / 'analise_enem').exists():
        print("‚úÖ Diret√≥rio correto! scripts/analise_enem encontrado")
    else:
        print(f"‚ö†Ô∏è  Aten√ß√£o: scripts/analise_enem n√£o encontrado em {final_dir}")
        print("   A c√©lula seguinte tentar√° encontrar automaticamente")
else:
    print("‚ùå N√£o foi poss√≠vel encontrar ou criar o reposit√≥rio")
    print(f"   Diret√≥rio atual permanece: {Path.cwd()}")


üìÅ Diret√≥rio inicial: /Users/bunker/gpt-4-enem/gpt-4-enem
üîß Detectado caminho duplicado! Corrigindo...
   Caminho duplicado: /Users/bunker/gpt-4-enem/gpt-4-enem
   Caminho correto: /Users/bunker/gpt-4-enem/gpt-4-enem
‚úÖ Corrigido! Agora em: /Users/bunker/gpt-4-enem/gpt-4-enem
‚úÖ J√° estamos no diret√≥rio raiz do reposit√≥rio: /Users/bunker/gpt-4-enem/gpt-4-enem
üìÅ Diret√≥rio final: /Users/bunker/gpt-4-enem/gpt-4-enem
‚úÖ Diret√≥rio correto! scripts/analise_enem encontrado


In [46]:
# Configurar API Key da Maritaca
from getpass import getpass
import os
from pathlib import Path
from dotenv import load_dotenv

# Tentar carregar do .env se existir
env_file = Path('.env')
if env_file.exists():
    load_dotenv(env_file)
    print("‚úÖ .env carregado")

# Se n√£o estiver configurada, pedir ao usu√°rio
if not os.getenv('CURSORMINIMAC') and not os.getenv('MARITALK_API_SECRET_KEY'):
    print("üîë Configure sua chave API da Maritaca:")
    api_key = getpass("Cole sua chave (ser√° ocultada): ")
    os.environ['CURSORMINIMAC'] = api_key
    print("‚úÖ Chave configurada!")
else:
    api_key = os.getenv('CURSORMINIMAC') or os.getenv('MARITALK_API_SECRET_KEY')
    print(f"‚úÖ Chave j√° configurada: ...{api_key[-10:] if api_key else 'N/A'}")


‚úÖ .env carregado
‚úÖ Chave j√° configurada: ...697ebc2587


## üß† Importar Sistema BrainX


In [47]:
import sys
import json
import time
from collections import Counter, defaultdict
from pathlib import Path
from typing import Dict, List, Optional
import importlib.util
import os

# Verificar diret√≥rio atual e corrigir se necess√°rio
current_dir = Path.cwd()
print(f"üìÅ Diret√≥rio atual: {current_dir}")

# Verificar diret√≥rio atual
current_dir = Path.cwd()
print(f"üìÅ Diret√≥rio atual: {current_dir}")

# Verificar se scripts/analise_enem existe no diret√≥rio atual
scripts_dir = current_dir / 'scripts' / 'analise_enem'

if not scripts_dir.exists():
    # Se n√£o existe, procurar em locais alternativos
    print("üîç Procurando scripts/analise_enem em locais alternativos...")
    
    possible_paths = [
        current_dir / 'scripts' / 'analise_enem',
        current_dir / 'gpt-4-enem' / 'scripts' / 'analise_enem',
        current_dir.parent / 'scripts' / 'analise_enem',
        current_dir.parent.parent / 'scripts' / 'analise_enem',
        Path('/content') / 'gpt-4-enem' / 'scripts' / 'analise_enem',  # Colab padr√£o
        Path('/content') / 'enemnlp' / 'scripts' / 'analise_enem',  # Se clonou como enemnlp
    ]
    
    found_path = None
    for path in possible_paths:
        if path.exists():
            found_path = path
            # Mudar para o diret√≥rio raiz (2 n√≠veis acima de scripts/analise_enem)
            project_root = path.parent.parent
            os.chdir(project_root)
            scripts_dir = Path('scripts/analise_enem')
            print(f"‚úÖ Encontrado em: {found_path}")
            print(f"üìÅ Mudando para diret√≥rio raiz: {Path.cwd()}")
            break
    
    if found_path is None:
        print(f"‚ùå Diret√≥rio scripts/analise_enem n√£o encontrado!")
        print(f"   Diret√≥rio atual: {Path.cwd()}")
        print(f"   Tentamos os seguintes caminhos:")
        for path in possible_paths:
            exists = path.exists()
            print(f"     - {path} {'‚úÖ' if exists else '‚ùå'}")
        print(f"\n   Conte√∫do do diret√≥rio atual:")
        try:
            items = list(Path('.').iterdir())
            for item in items[:15]:  # Mostrar mais itens
                print(f"     - {item.name} {'(dir)' if item.is_dir() else ''}")
            if len(items) > 15:
                print(f"     ... e mais {len(items) - 15} itens")
        except Exception as e:
            print(f"     Erro ao listar: {e}")
        print(f"\nüí° Solu√ß√£o: Certifique-se de que o reposit√≥rio foi clonado completamente")
        raise FileNotFoundError(f"Diret√≥rio scripts/analise_enem n√£o encontrado. Verifique se o reposit√≥rio foi clonado corretamente.")

# Verificar novamente ap√≥s poss√≠vel mudan√ßa de diret√≥rio
if not scripts_dir.exists():
    scripts_dir = Path('scripts/analise_enem')
    
if not scripts_dir.exists():
    raise FileNotFoundError(f"scripts/analise_enem n√£o existe em {Path.cwd()}")

# Verificar se arquivos essenciais existem
arquivos_essenciais = [
    '70_prompts_adaptativos_por_tri.py',
    '75_deteccao_figuras_simples.py',
    '79_prompt_ultra_simples_facil.py'
]

print(f"‚úÖ Usando scripts em: {scripts_dir.absolute()}")
print(f"\nüîç Verificando arquivos essenciais:")
arquivos_faltando = []
for arquivo in arquivos_essenciais:
    arquivo_path = scripts_dir / arquivo
    if arquivo_path.exists():
        print(f"   ‚úÖ {arquivo}")
    else:
        print(f"   ‚ùå {arquivo} - N√ÉO ENCONTRADO!")
        arquivos_faltando.append(arquivo)

if arquivos_faltando:
    print(f"\n‚ö†Ô∏è  Arquivos faltando: {', '.join(arquivos_faltando)}")
    print(f"   Isso pode indicar que o reposit√≥rio n√£o foi clonado completamente")
    print(f"   Tente clonar novamente ou verifique se os arquivos existem no GitHub")

# Adicionar scripts ao path
sys.path.insert(0, str(scripts_dir.absolute()))
sys.path.insert(0, str(Path('.').absolute()))

# Importar m√≥dulos do BrainX
# Prompts adaptativos
prompts_path = scripts_dir / '70_prompts_adaptativos_por_tri.py'
if not prompts_path.exists():
    print(f"‚ùå ERRO: Arquivo n√£o encontrado: {prompts_path.absolute()}")
    print(f"\nüîß Tentando solu√ß√µes alternativas...")
    
    # Tentar baixar do GitHub se n√£o existir
    try:
        import urllib.request
        github_url = "https://raw.githubusercontent.com/xtribr/enemnlp/main/scripts/analise_enem/70_prompts_adaptativos_por_tri.py"
        print(f"   üì• Baixando do GitHub: {github_url}")
        urllib.request.urlretrieve(github_url, str(prompts_path))
        print(f"   ‚úÖ Arquivo baixado com sucesso!")
    except Exception as e:
        print(f"   ‚ùå Erro ao baixar: {str(e)[:100]}")
        raise FileNotFoundError(f"Arquivo n√£o encontrado e n√£o foi poss√≠vel baixar: {prompts_path.absolute()}")

spec = importlib.util.spec_from_file_location('prompts_adaptativos', str(prompts_path.absolute()))
prompts_module = importlib.util.module_from_spec(spec)
spec.loader.exec_module(prompts_module)
print("‚úÖ Prompts adaptativos carregados")

# Few-shots
fewshots_path = scripts_dir / '73_fewshots_customizados_por_tema.py'
if not fewshots_path.exists():
    print(f"‚ö†Ô∏è  Arquivo n√£o encontrado, tentando baixar do GitHub...")
    try:
        import urllib.request
        github_url = "https://raw.githubusercontent.com/xtribr/enemnlp/main/scripts/analise_enem/73_fewshots_customizados_por_tema.py"
        urllib.request.urlretrieve(github_url, str(fewshots_path))
        print(f"   ‚úÖ Arquivo baixado!")
    except Exception as e:
        print(f"   ‚ö†Ô∏è  N√£o foi poss√≠vel baixar: {str(e)[:100]}")
        fewshots_module = None
        print("‚ö†Ô∏è  Few-shots customizados n√£o encontrado (opcional)")
else:
    spec2 = importlib.util.spec_from_file_location('fewshots_customizados', str(fewshots_path.absolute()))
    fewshots_module = importlib.util.module_from_spec(spec2)
    spec2.loader.exec_module(fewshots_module)
    print("‚úÖ Few-shots customizados carregados")

# Detec√ß√£o de figuras
figuras_path = scripts_dir / '75_deteccao_figuras_simples.py'
if not figuras_path.exists():
    print(f"‚ö†Ô∏è  Arquivo n√£o encontrado, tentando baixar do GitHub...")
    try:
        import urllib.request
        github_url = "https://raw.githubusercontent.com/xtribr/enemnlp/main/scripts/analise_enem/75_deteccao_figuras_simples.py"
        urllib.request.urlretrieve(github_url, str(figuras_path))
        print(f"   ‚úÖ Arquivo baixado!")
    except Exception as e:
        raise FileNotFoundError(f"Arquivo n√£o encontrado: {figuras_path.absolute()}")
spec3 = importlib.util.spec_from_file_location('deteccao_figuras', str(figuras_path.absolute()))
figuras_module = importlib.util.module_from_spec(spec3)
spec3.loader.exec_module(figuras_module)
print("‚úÖ Detec√ß√£o de figuras carregada")

# Prompt simples
simples_path = scripts_dir / '79_prompt_ultra_simples_facil.py'
if not simples_path.exists():
    print(f"‚ö†Ô∏è  Arquivo n√£o encontrado, tentando baixar do GitHub...")
    try:
        import urllib.request
        github_url = "https://raw.githubusercontent.com/xtribr/enemnlp/main/scripts/analise_enem/79_prompt_ultra_simples_facil.py"
        urllib.request.urlretrieve(github_url, str(simples_path))
        print(f"   ‚úÖ Arquivo baixado!")
    except Exception as e:
        raise FileNotFoundError(f"Arquivo n√£o encontrado: {simples_path.absolute()}")
spec4 = importlib.util.spec_from_file_location('prompt_simples', str(simples_path.absolute()))
simples_module = importlib.util.module_from_spec(spec4)
spec4.loader.exec_module(simples_module)
print("‚úÖ Prompt ultra-simples carregado")

# Few-shots Natureza
natureza_path = scripts_dir / '81_fewshots_natureza_expandido.py'
if not natureza_path.exists():
    print(f"‚ö†Ô∏è  Arquivo n√£o encontrado, tentando baixar do GitHub...")
    try:
        import urllib.request
        github_url = "https://raw.githubusercontent.com/xtribr/enemnlp/main/scripts/analise_enem/81_fewshots_natureza_expandido.py"
        urllib.request.urlretrieve(github_url, str(natureza_path))
        print(f"   ‚úÖ Arquivo baixado!")
    except Exception as e:
        print(f"   ‚ö†Ô∏è  N√£o foi poss√≠vel baixar: {str(e)[:100]}")
        natureza_module = None
        print("‚ö†Ô∏è  Few-shots Natureza n√£o encontrado (opcional)")
else:
    spec5 = importlib.util.spec_from_file_location('fewshots_natureza', str(natureza_path.absolute()))
    natureza_module = importlib.util.module_from_spec(spec5)
    spec5.loader.exec_module(natureza_module)
    print("‚úÖ Few-shots Natureza carregados")

# Prompt Natureza
prompt_nat_path = scripts_dir / '82_prompt_especializado_natureza.py'
if not prompt_nat_path.exists():
    print(f"‚ö†Ô∏è  Arquivo n√£o encontrado, tentando baixar do GitHub...")
    try:
        import urllib.request
        github_url = "https://raw.githubusercontent.com/xtribr/enemnlp/main/scripts/analise_enem/82_prompt_especializado_natureza.py"
        urllib.request.urlretrieve(github_url, str(prompt_nat_path))
        print(f"   ‚úÖ Arquivo baixado!")
    except Exception as e:
        print(f"   ‚ö†Ô∏è  N√£o foi poss√≠vel baixar: {str(e)[:100]}")
        prompt_nat_module = None
        print("‚ö†Ô∏è  Prompt Natureza n√£o encontrado (opcional)")
else:
    spec6 = importlib.util.spec_from_file_location('prompt_natureza', str(prompt_nat_path.absolute()))
    prompt_nat_module = importlib.util.module_from_spec(spec6)
    spec6.loader.exec_module(prompt_nat_module)
    print("‚úÖ Prompt Natureza carregado")

print("\n‚úÖ Todos os m√≥dulos do BrainX carregados!")


üìÅ Diret√≥rio atual: /Users/bunker/gpt-4-enem/gpt-4-enem
üìÅ Diret√≥rio atual: /Users/bunker/gpt-4-enem/gpt-4-enem
‚úÖ Usando scripts em: /Users/bunker/gpt-4-enem/gpt-4-enem/scripts/analise_enem

üîç Verificando arquivos essenciais:
   ‚úÖ 70_prompts_adaptativos_por_tri.py
   ‚úÖ 75_deteccao_figuras_simples.py
   ‚úÖ 79_prompt_ultra_simples_facil.py
‚úÖ Prompts adaptativos carregados
‚úÖ Few-shots customizados carregados
‚úÖ Detec√ß√£o de figuras carregada
‚úÖ Prompt ultra-simples carregado
‚úÖ Few-shots Natureza carregados
‚úÖ Prompt Natureza carregado

‚úÖ Todos os m√≥dulos do BrainX carregados!


In [48]:
import openai
from tqdm import tqdm

def configurar_api_colab():
    """Configura API para Colab"""
    api_key = os.getenv('CURSORMINIMAC') or os.getenv('MARITALK_API_SECRET_KEY')
    if not api_key:
        raise ValueError("Chave API n√£o configurada!")
    
    return openai.OpenAI(
        api_key=api_key,
        base_url="https://chat.maritaca.ai/api"
    )

def extrair_resposta(texto: str) -> Optional[str]:
    """Extrai resposta do modelo - vers√£o melhorada"""
    if not texto:
        return None
    
    import re
    texto_upper = texto.upper().strip()
    
    # Padr√µes expl√≠citos (prioridade alta)
    padroes_explicitos = [
        r'RESPOSTA:\s*([A-E])',
        r'ALTERNATIVA\s*([A-E])',
        r'GABARITO:\s*([A-E])',
        r'A\s*RESPOSTA\s*√â\s*([A-E])',
        r'RESPOSTA\s*CORRETA:\s*([A-E])',
        r'LETRA\s*([A-E])',
    ]
    
    for padrao in padroes_explicitos:
        match = re.search(padrao, texto_upper)
        if match:
            letra = match.group(1)
            if letra in ['A', 'B', 'C', 'D', 'E']:
                return letra
    
    # Procurar por padr√µes como "A)", "B)", etc no final do texto
    padroes_finais = re.findall(r'\b([A-E])\s*[\)\.:]?\s*$', texto_upper[-200:])
    if padroes_finais:
        letra = padroes_finais[-1]
        if letra in ['A', 'B', 'C', 'D', 'E']:
            return letra
    
    # √öltimo recurso: procurar qualquer letra A-E isolada no final
    # (mas com cuidado para n√£o pegar letras no meio do texto)
    palavras_finais = texto_upper.split()[-10:]  # √öltimas 10 palavras
    for palavra in reversed(palavras_finais):
        palavra_limpa = re.sub(r'[^A-E]', '', palavra)
        if palavra_limpa in ['A', 'B', 'C', 'D', 'E']:
            return palavra_limpa
    
    return None

def carregar_questoes_colab(anos=None, apenas_2024=False, incluir_treino=True):
    """
    Carrega quest√µes de TODAS as fontes: ENEM, ITA, IME, FUVEST, UNICAMP
    
    Args:
        anos: Lista de anos ENEM para carregar (ex: [2022, 2023, 2024]). Se None, carrega todos.
        apenas_2024: Se True, carrega apenas ENEM 2024 (180 quest√µes). Se False, carrega todos os anos ENEM.
        incluir_treino: Se True, carrega tamb√©m ITA, IME, FUVEST, UNICAMP de data/treino/
    
    Returns:
        Dict com quest√µes organizadas por √°rea
    """
    processed_dir = Path('data/processed')
    treino_dir = Path('data/treino')
    
    questoes_por_area = {
        'languages': [],
        'human-sciences': [],
        'natural-sciences': [],
        'mathematics': []
    }
    
    total_carregado = 0
    
    # ===== CARREGAR ENEM =====
    if processed_dir.exists():
        if apenas_2024:
            arquivos_enem = [processed_dir / 'enem_2024_completo.jsonl']
            print("üìÅ Carregando apenas ENEM 2024 (180 quest√µes)")
        else:
            if anos:
                arquivos_enem = [processed_dir / f'enem_{ano}_completo.jsonl' for ano in anos]
            else:
                arquivos_enem = sorted(processed_dir.glob('enem_*_completo.jsonl'))
            print(f"üìÅ Carregando ENEM: {len(arquivos_enem)} arquivo(s)")
        
        for arquivo in arquivos_enem:
            if not arquivo.exists():
                continue
            
            ano = arquivo.stem.replace('enem_', '').replace('_completo', '')
            
            try:
                with open(arquivo, 'r', encoding='utf-8') as f:
                    count_arquivo = 0
                    for line in f:
                        if line.strip():
                            questao = json.loads(line)
                            num_str = questao.get('id', '').replace('questao_', '') or questao.get('number', '')
                            
                            try:
                                num = int(num_str)
                                # Classificar por n√∫mero (ENEM sempre tem 45 por √°rea)
                                if 1 <= num <= 45:
                                    area = 'languages'
                                elif 46 <= num <= 90:
                                    area = 'human-sciences'
                                elif 91 <= num <= 135:
                                    area = 'natural-sciences'
                                elif 136 <= num <= 180:
                                    area = 'mathematics'
                                else:
                                    continue
                                
                                # Adicionar informa√ß√£o
                                questao['number'] = num
                                questao['area'] = area
                                questao['ano'] = ano
                                questao['exame'] = 'ENEM'
                                
                                questoes_por_area[area].append(questao)
                                count_arquivo += 1
                                total_carregado += 1
                            except (ValueError, TypeError):
                                continue
                    
                    if count_arquivo > 0:
                        print(f"   ‚úÖ ENEM {ano}: {count_arquivo} quest√µes")
            except Exception as e:
                print(f"   ‚ö†Ô∏è  Erro ao carregar {arquivo.name}: {str(e)[:50]}")
                continue
    else:
        print(f"‚ö†Ô∏è  Diret√≥rio ENEM n√£o encontrado: {processed_dir}")
    
    # ===== CARREGAR ITA, IME, FUVEST, UNICAMP =====
    if incluir_treino and treino_dir.exists():
        print(f"\nüìÅ Carregando quest√µes de treino (ITA, IME, FUVEST, UNICAMP)...")
        
        arquivos_treino = [
            ('FUVEST', treino_dir / 'treino_fuvest.jsonl'),
            ('ITA', treino_dir / 'treino_ita.jsonl'),
            ('IME', treino_dir / 'treino_ime.jsonl'),
            ('UNICAMP', treino_dir / 'treino_unicamp.jsonl'),
        ]
        
        for exame_nome, arquivo in arquivos_treino:
            if not arquivo.exists():
                continue
            
            try:
                with open(arquivo, 'r', encoding='utf-8') as f:
                    count_arquivo = 0
                    for line in f:
                        if line.strip():
                            questao = json.loads(line)
                            
                            # Quest√µes de treino j√° t√™m 'area' definida
                            area = questao.get('area', '').lower()
                            
                            # Mapear √°reas
                            if area in ['languages', 'human-sciences', 'natural-sciences', 'mathematics']:
                                # Adicionar informa√ß√£o do exame
                                questao['exame'] = exame_nome
                                questao['exam_type'] = questao.get('exam_type', exame_nome.lower())
                                
                                questoes_por_area[area].append(questao)
                                count_arquivo += 1
                                total_carregado += 1
                    
                    if count_arquivo > 0:
                        print(f"   ‚úÖ {exame_nome}: {count_arquivo} quest√µes")
            except Exception as e:
                print(f"   ‚ö†Ô∏è  Erro ao carregar {arquivo.name}: {str(e)[:50]}")
                continue
    elif incluir_treino:
        print(f"‚ö†Ô∏è  Diret√≥rio de treino n√£o encontrado: {treino_dir}")
    
    # ===== ESTAT√çSTICAS FINAIS =====
    print(f"\nüìä Total carregado: {total_carregado} quest√µes")
    print(f"\nüìä Por √°rea:")
    for area, questoes in questoes_por_area.items():
        print(f"   {area}: {len(questoes)} quest√µes")
    
    # Estat√≠sticas por exame
    exames_count = {}
    for area_questoes in questoes_por_area.values():
        for q in area_questoes:
            exame = q.get('exame', 'Desconhecido')
            exames_count[exame] = exames_count.get(exame, 0) + 1
    
    if exames_count:
        print(f"\nüìä Por exame:")
        for exame, count in sorted(exames_count.items()):
            print(f"   {exame}: {count} quest√µes")
    
    return questoes_por_area

print("‚úÖ Fun√ß√µes auxiliares carregadas!")


‚úÖ Fun√ß√µes auxiliares carregadas!


In [49]:
# üîß PREPARAR DIRET√ìRIOS DE DADOS
# Criar diret√≥rios se n√£o existirem
from pathlib import Path
import os

data_dirs = [
    Path('data/processed'),
    Path('data/treino'),
    Path('results')
]

print("üìÅ Preparando diret√≥rios de dados...")
for dir_path in data_dirs:
    dir_path.mkdir(parents=True, exist_ok=True)
    print(f"   ‚úÖ {dir_path}")

# Verificar se h√° dados
processed_dir = Path('data/processed')
treino_dir = Path('data/treino')

enem_files = list(processed_dir.glob('enem_*.jsonl')) if processed_dir.exists() else []
treino_files = list(treino_dir.glob('treino_*.jsonl')) if treino_dir.exists() else []

print(f"\nüìä Status dos dados:")
print(f"   ENEM: {len(enem_files)} arquivo(s) encontrado(s)")
print(f"   Treino: {len(treino_files)} arquivo(s) encontrado(s)")

if len(enem_files) == 0 and len(treino_files) == 0:
    print("\n‚ö†Ô∏è  NENHUM DADO ENCONTRADO!")
    print("\nüí° OP√á√ïES PARA CARREGAR DADOS:")
    print("\n   1. FAZER UPLOAD MANUAL (Recomendado):")
    print("      - Clique no √≠cone de pasta üìÅ no Colab")
    print("      - Fa√ßa upload dos arquivos:")
    print("        * data/processed/enem_2024_completo.jsonl")
    print("        * data/treino/treino_*.jsonl (opcional)")
    print("\n   2. BAIXAR DADOS DO GITHUB (se dispon√≠veis):")
    print("      - Execute a c√©lula abaixo para tentar baixar")
    print("\n   3. USAR DADOS DE EXEMPLO:")
    print("      - O sistema pode funcionar com dados m√≠nimos")
    print("      - Mas acur√°cia ser√° limitada")
    
    print("\nüí° SOLU√á√ÉO: Fazer upload do DATASET COMPLETO")
    print("\n   Op√ß√£o 1: Upload via c√≥digo (pr√≥xima c√©lula) - RECOMENDADO")
    print("      - Execute a c√©lula 10")
    print("      - Selecione TODOS os arquivos de uma vez:")
    print("        * ENEM 2009-2025 (17 arquivos)")
    print("        * Treino: FUVEST, ITA, IME, UNICAMP (4 arquivos)")
    print("\n   Op√ß√£o 2: Upload manual via interface do Colab")
    print("      - Clique no √≠cone üìÅ (pasta) na barra lateral")
    print("      - Navegue at√© data/processed/ e fa√ßa upload de todos os ENEM")
    print("      - Navegue at√© data/treino/ e fa√ßa upload de todos os treinos")
    print("\n   ‚ö†Ô∏è  IMPORTANTE: Os dados n√£o est√£o no GitHub (est√£o no .gitignore)")
    print("      Voc√™ precisa fazer upload do dataset completo dos seus arquivos locais")
else:
    print("\n‚úÖ Dados encontrados! Pronto para carregar quest√µes.")


üìÅ Preparando diret√≥rios de dados...
   ‚úÖ data/processed
   ‚úÖ data/treino
   ‚úÖ results

üìä Status dos dados:
   ENEM: 21 arquivo(s) encontrado(s)
   Treino: 5 arquivo(s) encontrado(s)

‚úÖ Dados encontrados! Pronto para carregar quest√µes.


In [50]:
# üì§ UPLOAD DE DATASET COMPLETO
# Fa√ßa upload de TODOS os arquivos de uma vez!
# Voc√™ pode selecionar m√∫ltiplos arquivos simultaneamente

from pathlib import Path
import os

# Detectar se est√° no Colab
try:
    import google.colab
    IN_COLAB = True
except ImportError:
    IN_COLAB = False

if IN_COLAB:
    from google.colab import files
else:
    print("‚ö†Ô∏è  N√£o est√° no Google Colab!")
    print("   Esta c√©lula s√≥ funciona no Colab.")
    print("   Use a interface do Colab (√≠cone üìÅ) para fazer upload manualmente.")
    files = None

print("üì§ UPLOAD DE DATASET COMPLETO")
print("=" * 70)
print("\nüí° INSTRU√á√ïES:")
print("   1. Execute esta c√©lula")
print("   2. Clique em 'Escolher arquivos' e selecione TODOS os arquivos de uma vez:")
print("      - ENEM: enem_2009_completo.jsonl at√© enem_2025_completo.jsonl (17 arquivos)")
print("      - Treino: treino_fuvest.jsonl, treino_ita.jsonl, treino_ime.jsonl, treino_unicamp.jsonl")
print("   3. Os arquivos ser√£o organizados automaticamente nas pastas corretas")
print("\nüìÅ DATASET COMPLETO:")
print("   üìö ENEM (2009-2025):")
print("      - enem_2009_completo.jsonl")
print("      - enem_2010_completo.jsonl")
print("      - ... (at√© 2025)")
print("      - enem_2025_completo.jsonl")
print("   üìö TREINO:")
print("      - treino_fuvest.jsonl")
print("      - treino_ita.jsonl")
print("      - treino_ime.jsonl")
print("      - treino_unicamp.jsonl")
print("\nüí° DICA: Voc√™ pode selecionar m√∫ltiplos arquivos de uma vez!")
print("   - No Windows/Linux: Ctrl+Clique para selecionar m√∫ltiplos")
print("   - No Mac: Cmd+Clique para selecionar m√∫ltiplos")
print("\n‚ö†Ô∏è  Alternativa: Use a interface do Colab (√≠cone üìÅ na barra lateral)")
print("   - Fa√ßa upload diretamente nas pastas data/processed/ e data/treino/")
print("\n" + "=" * 70)

# Criar diret√≥rios se n√£o existirem
Path('data/processed').mkdir(parents=True, exist_ok=True)
Path('data/treino').mkdir(parents=True, exist_ok=True)

if not IN_COLAB:
    print("\n‚ùå Esta funcionalidade requer Google Colab.")
    print("   Use a interface do Colab (√≠cone üìÅ na barra lateral) para fazer upload.")
else:
    print("\nüîΩ Selecione os arquivos para upload...")
    print("   (Pressione Ctrl+C se preferir fazer upload manual)")

try:
    if not IN_COLAB:
        uploaded = {}
    else:
        uploaded = files.upload()
    
    if uploaded:
        print(f"\n‚úÖ {len(uploaded)} arquivo(s) recebido(s)!")
        
        for filename, content in uploaded.items():
            # Determinar destino baseado no nome
            if 'enem_' in filename and filename.endswith('.jsonl'):
                dest = Path('data/processed') / filename
            elif 'treino_' in filename and filename.endswith('.jsonl'):
                dest = Path('data/treino') / filename
            else:
                # Tentar adivinhar
                if 'processed' in filename or 'enem' in filename.lower():
                    dest = Path('data/processed') / filename
                else:
                    dest = Path('data/treino') / filename
            
            # Salvar arquivo
            dest.parent.mkdir(parents=True, exist_ok=True)
            with open(dest, 'wb') as f:
                f.write(content)
            
            size_kb = len(content) / 1024
            print(f"   ‚úÖ {filename} ‚Üí {dest} ({size_kb:.1f} KB)")
        
        print("\nüéâ Upload conclu√≠do! Execute a c√©lula anterior novamente para verificar.")
    else:
        print("\n‚ö†Ô∏è  Nenhum arquivo selecionado.")
        print("   Use a interface do Colab (√≠cone üìÅ) para fazer upload manualmente.")
        
except KeyboardInterrupt:
    print("\n\n‚ö†Ô∏è  Upload cancelado.")
    print("   Use a interface do Colab (√≠cone üìÅ) para fazer upload manualmente.")
except Exception as e:
    print(f"\n‚ùå Erro durante upload: {str(e)}")
    print("   Use a interface do Colab (√≠cone üìÅ) para fazer upload manualmente.")


‚ö†Ô∏è  N√£o est√° no Google Colab!
   Esta c√©lula s√≥ funciona no Colab.
   Use a interface do Colab (√≠cone üìÅ) para fazer upload manualmente.
üì§ UPLOAD DE DATASET COMPLETO

üí° INSTRU√á√ïES:
   1. Execute esta c√©lula
   2. Clique em 'Escolher arquivos' e selecione TODOS os arquivos de uma vez:
      - ENEM: enem_2009_completo.jsonl at√© enem_2025_completo.jsonl (17 arquivos)
      - Treino: treino_fuvest.jsonl, treino_ita.jsonl, treino_ime.jsonl, treino_unicamp.jsonl
   3. Os arquivos ser√£o organizados automaticamente nas pastas corretas

üìÅ DATASET COMPLETO:
   üìö ENEM (2009-2025):
      - enem_2009_completo.jsonl
      - enem_2010_completo.jsonl
      - ... (at√© 2025)
      - enem_2025_completo.jsonl
   üìö TREINO:
      - treino_fuvest.jsonl
      - treino_ita.jsonl
      - treino_ime.jsonl
      - treino_unicamp.jsonl

üí° DICA: Voc√™ pode selecionar m√∫ltiplos arquivos de uma vez!
   - No Windows/Linux: Ctrl+Clique para selecionar m√∫ltiplos
   - No Mac: Cmd+Cliq

In [51]:
# Configurar
client = configurar_api_colab()

# CARREGAR QUEST√ïES
# Verificar se a fun√ß√£o tem os par√¢metros novos
import inspect
try:
    sig = inspect.signature(carregar_questoes_colab)
    params = list(sig.parameters.keys())
    tem_parametro_novo = 'apenas_2024' in params
    
    if tem_parametro_novo:
        print("‚úÖ Fun√ß√£o atualizada detectada")
        # Op√ß√£o 1: Apenas ENEM 2024 (180 quest√µes) - mais r√°pido para testes
        # questoes_por_area = carregar_questoes_colab(apenas_2024=True)
        
        # Op√ß√£o 2: Todos os anos dispon√≠veis (dataset completo) - RECOMENDADO
        questoes_por_area = carregar_questoes_colab(apenas_2024=False)
        
        # Op√ß√£o 3: Anos espec√≠ficos (ex: √∫ltimos 3 anos)
        # questoes_por_area = carregar_questoes_colab(anos=[2022, 2023, 2024])
    else:
        print("‚ö†Ô∏è  Fun√ß√£o antiga detectada - usando vers√£o compat√≠vel")
        print("   (Execute a c√©lula 8 novamente para usar vers√£o completa)")
        # Vers√£o compat√≠vel: chamar sem par√¢metros (carrega apenas 2024)
        questoes_por_area = carregar_questoes_colab()
        
except NameError:
    print("‚ùå ERRO: Fun√ß√£o carregar_questoes_colab n√£o encontrada!")
    print("   Execute a c√©lula 8 primeiro!")
    raise
except TypeError as e:
    # Se der erro de par√¢metro, tentar sem par√¢metros
    print("‚ö†Ô∏è  Tentando vers√£o compat√≠vel...")
    questoes_por_area = carregar_questoes_colab()

area_names = {
    'languages': 'Linguagens',
    'human-sciences': 'Humanas',
    'natural-sciences': 'Natureza',
    'mathematics': 'Matem√°tica'
}

total = sum(len(q) for q in questoes_por_area.values())
print(f"\n‚úÖ Total: {total} quest√µes carregadas")
for area, name in area_names.items():
    count = len(questoes_por_area.get(area, []))
    print(f"   {name}: {count} quest√µes")


‚úÖ Fun√ß√£o atualizada detectada
üìÅ Carregando ENEM: 17 arquivo(s)
   ‚úÖ ENEM 2024: 180 quest√µes

üìÅ Carregando quest√µes de treino (ITA, IME, FUVEST, UNICAMP)...
   ‚úÖ FUVEST: 1282 quest√µes
   ‚úÖ ITA: 714 quest√µes
   ‚úÖ IME: 147 quest√µes
   ‚úÖ UNICAMP: 708 quest√µes

üìä Total carregado: 3031 quest√µes

üìä Por √°rea:
   languages: 562 quest√µes
   human-sciences: 721 quest√µes
   natural-sciences: 1224 quest√µes
   mathematics: 524 quest√µes

üìä Por exame:
   ENEM: 180 quest√µes
   FUVEST: 1282 quest√µes
   IME: 147 quest√µes
   ITA: 714 quest√µes
   UNICAMP: 708 quest√µes

‚úÖ Total: 3031 quest√µes carregadas
   Linguagens: 562 quest√µes
   Humanas: 721 quest√µes
   Natureza: 1224 quest√µes
   Matem√°tica: 524 quest√µes


In [52]:
# Configura√ß√£o do teste - APROVEITANDO PODER DE PROCESSAMENTO!
# Op√ß√µes:
# - TESTE R√ÅPIDO: QUESTOES_POR_AREA = 10, N_PASSAGENS = 3
# - TESTE M√âDIO: QUESTOES_POR_AREA = 45, N_PASSAGENS = 5 (recomendado)
# - TESTE COMPLETO: QUESTOES_POR_AREA = None (todas), N_PASSAGENS = 7 (m√°xima qualidade)

QUESTOES_POR_AREA = 45  # 45 = todas as quest√µes de uma √°rea do ENEM (ou None para todas)
N_PASSAGENS = 5  # Self-consistency (3=r√°pido, 5=balanceado, 7=m√°xima qualidade)

print(f"üìä Configura√ß√£o - Aproveitando GPU do Colab:")
print(f"   Quest√µes por √°rea: {QUESTOES_POR_AREA if QUESTOES_POR_AREA else 'TODAS'}")
print(f"   Passagens (self-consistency): {N_PASSAGENS}")
if QUESTOES_POR_AREA:
    total_questoes = QUESTOES_POR_AREA * 4
    total_api_calls = total_questoes * N_PASSAGENS
    tempo_estimado = (total_api_calls * 0.5) / 60  # ~0.5s por chamada
    print(f"   Total de quest√µes: {total_questoes}")
    print(f"   Total de chamadas API: {total_api_calls}")
    print(f"   Tempo estimado: ~{tempo_estimado:.1f} minutos")
else:
    print(f"   Total de quest√µes: TODAS dispon√≠veis")
    print(f"   ‚ö†Ô∏è  Isso pode levar muito tempo!")


üìä Configura√ß√£o - Aproveitando GPU do Colab:
   Quest√µes por √°rea: 45
   Passagens (self-consistency): 5
   Total de quest√µes: 180
   Total de chamadas API: 900
   Tempo estimado: ~7.5 minutos


In [53]:
# Fun√ß√£o completa de avalia√ß√£o
def construir_prompt_final_colab(questao, prompts_module, fewshots_module, figuras_module, 
                                simples_module, natureza_module, prompt_nat_module):
    """Constr√≥i prompt final com todas as melhorias"""
    num = questao.get('number', 0)
    area = questao.get('area', '')
    
    # Obter TRI (s√≥ funciona para Matem√°tica 136-180)
    tri_info = prompts_module.obter_info_tri(num)
    tri_value = tri_info.get('TRI', 0)
    nivel = prompts_module.classificar_por_tri(tri_value) if tri_value > 0 else 'medio'
    tema = tri_info.get('Tema', 'N/A')
    
    # Prompt adaptativo baseado em TRI (se dispon√≠vel) ou √°rea
    if tri_value > 0:
        # Temos TRI - usar prompt adaptativo
        prompt_base = prompts_module.selecionar_prompt_por_tri(tri_value)
    else:
        # Sem TRI - criar prompt espec√≠fico por √°rea
        if area == 'languages':
            prompt_base = """Voc√™ √© um especialista em quest√µes de Linguagens do ENEM.

Esta quest√£o envolve interpreta√ß√£o de texto, gram√°tica, literatura ou artes.

üìã METODOLOGIA PARA LINGUAGENS:

1. LEITURA ATENTA
   - Leia o texto/contexto com cuidado
   - Identifique o g√™nero textual
   - Observe elementos de coes√£o e coer√™ncia

2. AN√ÅLISE DA PERGUNTA
   - O que exatamente est√° sendo perguntado?
   - √â sobre interpreta√ß√£o, gram√°tica, literatura ou artes?
   - Identifique palavras-chave na pergunta

3. AN√ÅLISE DAS ALTERNATIVAS
   - Leia todas as alternativas antes de escolher
   - Elimine alternativas claramente incorretas
   - Compare com o texto/contexto fornecido

4. VALIDA√á√ÉO
   - Sua resposta est√° fundamentada no texto?
   - Faz sentido no contexto?
   - Responde exatamente o que foi perguntado?

Agora, resolva a quest√£o abaixo:

"""
        elif area == 'human-sciences':
            prompt_base = """Voc√™ √© um especialista em quest√µes de Ci√™ncias Humanas do ENEM.

Esta quest√£o envolve Hist√≥ria, Geografia, Filosofia ou Sociologia.

üìã METODOLOGIA PARA CI√äNCIAS HUMANAS:

1. CONTEXTUALIZA√á√ÉO
   - Identifique o per√≠odo hist√≥rico ou contexto geogr√°fico
   - Relacione com conceitos de Hist√≥ria, Geografia, Filosofia ou Sociologia
   - Observe dados, mapas ou gr√°ficos fornecidos

2. AN√ÅLISE DA PERGUNTA
   - O que est√° sendo perguntado?
   - Qual √°rea do conhecimento (Hist√≥ria, Geografia, Filosofia, Sociologia)?
   - Identifique conceitos-chave

3. RELA√á√ÉO COM O CONTEXTO
   - Relacione a pergunta com o contexto fornecido
   - Use conhecimentos hist√≥ricos/geogr√°ficos relevantes
   - Considere m√∫ltiplas perspectivas quando aplic√°vel

4. AN√ÅLISE DAS ALTERNATIVAS
   - Elimine alternativas anacr√¥nicas ou geograficamente incorretas
   - Compare com o contexto fornecido
   - Verifique se a resposta est√° fundamentada

Agora, resolva a quest√£o abaixo:

"""
        elif area == 'natural-sciences':
            prompt_base = """Voc√™ √© um especialista em quest√µes de Ci√™ncias da Natureza do ENEM.

Esta quest√£o envolve F√≠sica, Qu√≠mica ou Biologia.

üìã METODOLOGIA PARA CI√äNCIAS DA NATUREZA:

1. IDENTIFICA√á√ÉO DO PROBLEMA
   - Leia o contexto e a pergunta
   - Identifique a √°rea (F√≠sica, Qu√≠mica ou Biologia)
   - Anote os dados fornecidos

2. CONCEITOS CIENT√çFICOS
   - Identifique os conceitos cient√≠ficos envolvidos
   - Relacione com f√≥rmulas ou princ√≠pios quando aplic√°vel
   - Considere unidades de medida

3. RESOLU√á√ÉO
   - Resolva passo a passo
   - Mostre c√°lculos quando necess√°rio
   - Verifique cada etapa

4. VALIDA√á√ÉO
   - Verifique se a resposta faz sentido cientificamente
   - Confirme unidades e ordens de grandeza
   - Compare com as alternativas

Agora, resolva a quest√£o abaixo:

"""
        else:
            # Matem√°tica sem TRI ou √°rea desconhecida
            prompt_base = """Voc√™ √© um especialista em quest√µes do ENEM. Resolva passo-a-passo.

üìã METODOLOGIA:

1. Leia o contexto e a pergunta com aten√ß√£o
2. Identifique o que est√° sendo pedido
3. Resolva passo a passo
4. Verifique se a resposta faz sentido
5. Escolha a alternativa correta

Agora, resolva a quest√£o abaixo:

"""
    
    # Prompt ultra-simples se f√°cil
    if tri_value > 0 and tri_value < 650:
        prompt_base = simples_module.aplicar_prompt_ultra_simples(
            prompt_base, questao, tri_value, figuras_module.obter_info_figura
        )
    
    # Few-shots e prompts espec√≠ficos
    if area == 'natural-sciences' and prompt_nat_module:
        prompt_base = prompt_nat_module.criar_prompt_natureza(prompt_base)
        if nivel == 'medio' and natureza_module:
            fewshots = natureza_module.obter_fewshots_natureza(5)
            for fs in fewshots:
                prompt_base += f"\n\nExemplo:\n{fs['question']}\n{fs['response']}\n"
    elif area == 'mathematics' and nivel == 'medio' and fewshots_module:
        prompt_base = fewshots_module.criar_prompt_com_fewshots(prompt_base, tema, 3)
    
    # Detec√ß√£o de figuras
    prompt_final = figuras_module.criar_prompt_com_deteccao_figura(prompt_base, questao)
    
    return prompt_final, {'tri': tri_value, 'nivel': nivel, 'tema': tema, 'area': area}

def formatar_questao_colab(questao):
    """Formata quest√£o"""
    texto = ""
    if questao.get('context'):
        texto += f"CONTEXTO:\n{questao['context']}\n\n"
    if questao.get('description'):
        desc = questao['description']
        if isinstance(desc, list) and desc:
            texto += f"DESCRI√á√ÉO DAS IMAGENS:\n{desc[0]}\n\n"
        elif desc:
            texto += f"DESCRI√á√ÉO DAS IMAGENS:\n{desc}\n\n"
    texto += f"PERGUNTA:\n{questao.get('question', '')}\n\n"
    texto += "ALTERNATIVAS:\n"
    for i, alt in enumerate(questao.get('alternatives', []), 1):
        letra = chr(64 + i)
        texto += f"{letra}) {alt}\n"
    return texto

def resolver_com_self_consistency_colab(client, questao, n_passagens, prompts_module, 
                                         fewshots_module, figuras_module, simples_module,
                                         natureza_module, prompt_nat_module, usar_paralelo=False):
    """
    Resolve com self-consistency
    
    Args:
        usar_paralelo: Se True, tenta processar passagens em paralelo (requer GPU/threading)
    """
    respostas = []
    
    prompt_final, info = construir_prompt_final_colab(
        questao, prompts_module, fewshots_module, figuras_module,
        simples_module, natureza_module, prompt_nat_module
    )
    questao_formatada = formatar_questao_colab(questao)
    prompt_completo = prompt_final + questao_formatada
    
    # Otimiza√ß√£o: reduzir delay se GPU dispon√≠vel
    delay = 0.1 if usar_paralelo else 0.2
    
    for i in range(n_passagens):
        try:
            response = client.chat.completions.create(
                model="sabia-3",
                messages=[
                    {"role": "system", "content": "Voc√™ √© um especialista em quest√µes do ENEM."},
                    {"role": "user", "content": prompt_completo}
                ],
                temperature=0.1,
                max_tokens=2000
            )
            
            resposta_texto = response.choices[0].message.content
            resposta_extraida = extrair_resposta(resposta_texto)
            
            if resposta_extraida:
                respostas.append(resposta_extraida)
            
            time.sleep(delay)  # Delay reduzido se GPU dispon√≠vel
        except Exception as e:
            print(f"      ‚ö†Ô∏è  Erro passagem {i+1}: {str(e)[:50]}")
            continue
    
    if not respostas:
        return None, 0.0, info
    
    # Vota√ß√£o majorit√°ria
    contador = Counter(respostas)
    resposta_mais_frequente = contador.most_common(1)[0]
    resposta_final = resposta_mais_frequente[0]
    frequencia = resposta_mais_frequente[1]
    confianca = frequencia / len(respostas)
    
    return resposta_final, confianca, info

print("‚úÖ Fun√ß√µes de avalia√ß√£o carregadas!")


‚úÖ Fun√ß√µes de avalia√ß√£o carregadas!


In [55]:
# EXECUTAR AVALIA√á√ÉO COMPLETA
print("=" * 70)
print("üöÄ AVALIA√á√ÉO COMPLETA - BRAINX")
print("=" * 70)
print()

# Verificar se GPU est√° dispon√≠vel para otimiza√ß√£o
try:
    import torch
    usar_gpu_otimizado = torch.cuda.is_available()
    if usar_gpu_otimizado:
        print("‚úÖ GPU detectada - usando otimiza√ß√µes")
    else:
        print("‚ö†Ô∏è  GPU n√£o detectada - processamento padr√£o")
except:
    usar_gpu_otimizado = False

stats_por_area = defaultdict(lambda: {'correct': 0, 'total': 0})
resultados = []
total_geral = 0
correct_geral = 0
start_time = time.time()

for area_key, area_name in area_names.items():
    questoes = questoes_por_area.get(area_key, [])
    
    # Limitar se QUESTOES_POR_AREA estiver definido
    if QUESTOES_POR_AREA:
        questoes = questoes[:QUESTOES_POR_AREA]
    
    # Se n√£o h√° limite, usar todas (mas avisar)
    if not QUESTOES_POR_AREA and len(questoes) > 100:
        print(f"‚ö†Ô∏è  {area_name}: {len(questoes)} quest√µes - isso pode levar muito tempo!")
    
    if not questoes:
        print(f"‚ö†Ô∏è  Nenhuma quest√£o para {area_name}")
        continue
    
    print(f"\nüìö {area_name} ({len(questoes)} quest√µes)")
    print("-" * 70)
    
    # Otimiza√ß√£o: reduzir delay entre quest√µes se GPU dispon√≠vel
    delay_entre_questoes = 0.1 if usar_gpu_otimizado else 0.3
    
    for q in tqdm(questoes, desc=f"{area_name}"):
        q_num = q.get('number', 0)
        total_geral += 1
        stats_por_area[area_name]['total'] += 1
        
        resposta_final, confianca, info = resolver_com_self_consistency_colab(
            client, q, N_PASSAGENS, prompts_module, fewshots_module,
            figuras_module, simples_module, natureza_module, prompt_nat_module,
            usar_paralelo=usar_gpu_otimizado
        )
        
        # Normalizar label (garantir mai√∫scula)
        correct_answer_raw = q.get('label', '') or q.get('answer', '') or q.get('gabarito', '')
        correct_answer = str(correct_answer_raw).upper().strip()
        
        # Validar que √© uma alternativa v√°lida
        if correct_answer not in ['A', 'B', 'C', 'D', 'E']:
            print(f"  Q{q_num}: ‚ö†Ô∏è  Gabarito inv√°lido: '{correct_answer_raw}'")
            correct_answer = ''
        
        # Comparar (normalizar resposta tamb√©m)
        resposta_normalizada = str(resposta_final).upper().strip() if resposta_final else ''
        is_correct = (resposta_normalizada == correct_answer) if (resposta_normalizada and correct_answer) else False
        
        if is_correct:
            correct_geral += 1
            stats_por_area[area_name]['correct'] += 1
            print(f"  Q{q_num}: ‚úÖ ({resposta_final}, conf: {confianca:.0%})")
        else:
            print(f"  Q{q_num}: ‚ùå ({resposta_final} vs {correct_answer}, conf: {confianca:.0%})")
        
        resultados.append({
            'area': area_name,
            'numero': q_num,
            'resposta': resposta_final,
            'gabarito': correct_answer,
            'correto': is_correct,
            'confianca': confianca
        })
        
        time.sleep(delay_entre_questoes)  # Delay otimizado

elapsed_time = time.time() - start_time
accuracy_geral = correct_geral / total_geral if total_geral > 0 else 0

print("\n" + "=" * 70)
print("üìä RESULTADOS FINAIS")
print("=" * 70)
print()
print(f"üéØ Acur√°cia Geral: {accuracy_geral:.2%} ({correct_geral}/{total_geral})")
print(f"‚è±Ô∏è  Tempo: {elapsed_time:.1f}s ({elapsed_time/total_geral:.1f}s por quest√£o)")
print()

print("üìä Por √Årea:")
print("-" * 50)
for area_name in ['Linguagens', 'Humanas', 'Natureza', 'Matem√°tica']:
    stats = stats_por_area[area_name]
    if stats['total'] > 0:
        acc = stats['correct'] / stats['total']
        print(f"{area_name:<15} {stats['correct']:>3}/{stats['total']:<3} = {acc:>5.1f}%")

print()
print("üìà Compara√ß√£o:")
print("-" * 50)
print(f"BrainX (Teste):     {accuracy_geral:.2%}")
print(f"BrainX (Atual):     86.59%")
print(f"GPT-4o (Paper):     93.85%")
print(f"Gap para GPT-4o:    {93.85 - accuracy_geral*100:+.2f} pontos")

if accuracy_geral >= 0.94:
    print("\nüéâ PARAB√âNS! BrainX superou GPT-4o!")
elif accuracy_geral >= 0.90:
    print("\n‚úÖ Excelente! Muito pr√≥ximo do GPT-4o!")
elif accuracy_geral >= 0.87:
    print("\n‚úÖ Bom resultado! Melhorias funcionando!")

# Salvar resultados
from datetime import datetime
output_file = Path(f"results/avaliacao_colab_{datetime.now().strftime('%Y%m%d_%H%M%S')}.json")
output_file.parent.mkdir(exist_ok=True)

with open(output_file, 'w', encoding='utf-8') as f:
    json.dump({
        'total': total_geral,
        'correct': correct_geral,
        'accuracy': accuracy_geral,
        'stats_por_area': dict(stats_por_area),
        'resultados': resultados,
        'timestamp': datetime.now().isoformat()
    }, f, indent=2, ensure_ascii=False)

print(f"\nüíæ Resultados salvos em: {output_file}")


üöÄ AVALIA√á√ÉO COMPLETA - BRAINX

‚ö†Ô∏è  GPU n√£o detectada - processamento padr√£o

üìö Linguagens (45 quest√µes)
----------------------------------------------------------------------


Linguagens:   0%|          | 0/45 [00:00<?, ?it/s]


KeyboardInterrupt: 