# F√°brica de Snapshots (Snapshot Factory)

Este notebook foi desenhado para rodar no **Google Colab** (com GPU).
Ele cria a estrutura de pastas recomendada e treina modelos Generalistas e Especialistas em lote.

> **Dica Colab**: Descomente a linha de instala√ß√£o apropriada (P√∫blica ou Privada) abaixo.

In [None]:
# 1. Setup Ambiental e Instala√ß√£o
import os

# --- INSTALA√á√ÉO (Descomente uma das op√ß√µes) ---

# Op√ß√£o A: Reposit√≥rio P√öBLICO (Mais simples)
# !pip install git+https://github.com/aretw0/predicoes-loterias-caixa.git

# Op√ß√£o B: Reposit√≥rio PRIVADO (Requer Token)
# 1. Adicione seu Token nas 'Sessions Secrets' do Colab (√≠cone de chave üóùÔ∏è na esquerda) com nome 'GITHUB_TOKEN'
# 2. Habilite o acesso ao notebook nas configura√ß√µes da Secret
# try:
#     from google.colab import userdata
#     token = userdata.get('GITHUB_TOKEN')
#     !pip install git+https://{token}@github.com/aretw0/predicoes-loterias-caixa.git
# except Exception as e:
#     print(f"Erro de Instala√ß√£o: {e}. Verifique se adicionou a Secret 'GITHUB_TOKEN'.")

import pandas as pd

# Importando diretamente do pacote instalado
try:
    from src.loterias.megasena import MegaSena
    from src.loterias.models import TransformerModel, CatBoostModel, LSTMModel
    print("‚úÖ M√≥dulos instalados e importados com sucesso!")
except ImportError:
    print("‚ùå M√≥dulos n√£o encontrados! Voc√™ rodou a instala√ß√£o do pip acima?")

In [None]:
# 2. Criar Estrutura de Pastas
games = ['megasena', 'lotofacil', 'quina']
types = ['generalistas', 'especialistas/virada', 'especialistas/acumulados']

for game in games:
    for t in types:
        path = f"snapshots/{game}/{t}"
        os.makedirs(path, exist_ok=True)
        print(f"Criado: {path}")

In [None]:
# 3. Carregar Dados Reais
lottery = MegaSena()
df_full = lottery.preprocess_data()
print(f"Total Concursos: {len(df_full)}")

## 4. Treinar Generalistas (Todos os dados)
Use par√¢metros agressivos aqui.

In [None]:
print("--- Treinando Transformer Generalista ---")
model_gen = TransformerModel(1, 60, 6)
# High-Compute Params
history = model_gen.train(df_full, epochs=100, batch_size=64, 
                          head_size=256, num_heads=4, ff_dim=256)

save_path = "snapshots/megasena/generalistas/transformer_heavy_v1.keras"
model_gen.save(save_path)
print(f"Salvo: {save_path}")

## 5. Treinar Especialistas (Mega da Virada / Final 0 ou 5)
Filtramos o DataFrame para conter apenas concursos com final 0 ou 5.

In [None]:
# Filtrar apenas finais 0 ou 5
# Assumindo que o √≠ndice do DF ou uma coluna 'concurso' ajude, ou inferindo pelo row count se for sequencial.
# O DataManager atual n√£o exp√µe explicito o numero do concurso como coluna garantida em todos, 
# mas 'preprocess_data' da MegaSena geralmente mantem a ordem.
# Vamos filtrar onde (index + 1) % 5 == 0 (Aproxima√ß√£o, ideal √© ter coluna Concurso)

# Se o CSV tiver coluna 'Concurso', usamos ela.
if 'Concurso' in df_full.columns:
    df_virada = df_full[df_full['Concurso'] % 5 == 0].copy()
else:
    # Fallback: Mega Sena √© sequencial. O √≠ndice do dataframe geralmente alinha se n√£o houver buracos.
    print("Aviso: Coluna 'Concurso' n√£o encontrada. Usando √≠ndice.")
    df_virada = df_full[df_full.index % 5 == 0].copy() # Simplifica√ß√£o

print(f"Dados Filtrados (Virada/Especiais): {len(df_virada)} concursos.")

print("--- Treinando Transformer Especialista (Virada) ---")
model_spec = TransformerModel(1, 60, 6)
# Treinamos com MENOS √©pocas talvez, pois tem menos dados, ou MAIS para overfitar o padr√£o?
# Especialistas podem se dar ao luxo de 'decorar' mais.
model_spec.train(df_virada, epochs=200, batch_size=16) 

save_path_spec = "snapshots/megasena/especialistas/virada/transformer_virada_v1.keras"
model_spec.save(save_path_spec)
print(f"Salvo: {save_path_spec}")

In [None]:
# 6. Baixar Snapshots (Google Colab)
# Compacta e baixa a pasta de snapshots automaticamente
import shutil
try:
    from google.colab import files
    shutil.make_archive('snapshots_backup', 'zip', 'snapshots')
    files.download('snapshots_backup.zip')
except ImportError:
    print("Ambiente n√£o √© o Colab ou google.colab n√£o encontrado.")