# Mistral LoRA Fine-Tuning com MLX - Farense Bot

Este notebook treina o Mistral-7B usando LoRA com MLX no Mac M1 para melhorar as respostas sobre o Sporting Clube Farense.

## ‚ö†Ô∏è IMPORTANTE: Checkpoints Autom√°ticos
- Os checkpoints s√£o salvos **automaticamente** a cada epoch
- Em caso de crash, o treino retoma do √∫ltimo checkpoint
- Dados persistem em `/tmp/farense_llm_training/`

## üìã √çndice
1. Setup e Depend√™ncias
2. Carregamento e Prepara√ß√£o de Dados
3. Configura√ß√£o do Modelo
4. Treino LoRA
5. Teste e Avalia√ß√£o
6. Convers√£o e Export

## 1. Setup e Depend√™ncias

In [None]:
import os
import sys
import json
import shutil
from pathlib import Path
from datetime import datetime
import numpy as np
import logging

# Setup logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)

logger.info("Iniciando setup do ambiente...")

In [None]:
# Verificar se estamos no Mac M1
import platform
import subprocess

system = platform.system()
machine = platform.machine()

logger.info(f"Sistema: {system}")
logger.info(f"Arquitetura: {machine}")

if system != "Darwin" or machine != "arm64":
    logger.warning(f"‚ö†Ô∏è Este notebook √© otimizado para Mac M1 (arm64). Detectado: {machine}")
    logger.warning("O treino pode ser mais lento em outras arquiteturas.")
else:
    logger.info("‚úÖ Mac M1 detectado - Otimiza√ß√µes MLX ativas")

In [None]:
# Instalar depend√™ncias MLX
# Descomente a pr√≥xima linha se precisar instalar pela primeira vez

# !pip install mlx mlx-lm numpy pandas tqdm pydantic

In [None]:
# Tentar importar MLX
try:
    import mlx.core as mx
    import mlx.nn as nn
    import mlx.optimizers as optim
    from mlx.utils import tree_map, tree_flatten
    logger.info("‚úÖ MLX importado com sucesso")
except ImportError as e:
    logger.error(f"‚ùå Erro ao importar MLX: {e}")
    logger.error("Execute: pip install mlx mlx-lm")
    raise

# Tentar importar mlx_lm
try:
    from mlx_lm import load, generate
    logger.info("‚úÖ mlx-lm importado com sucesso")
except ImportError as e:
    logger.error(f"‚ùå Erro ao importar mlx-lm: {e}")
    logger.error("Execute: pip install mlx-lm")
    raise

In [None]:
# Configurar caminhos
PROJECT_ROOT = Path("/Users/f.nuno/Desktop/chatbot_2.0")
DADOS_ROOT = PROJECT_ROOT / "dados"
TRAINING_ROOT = Path("/tmp/farense_llm_training")
CHECKPOINTS_DIR = TRAINING_ROOT / "checkpoints"
OUTPUT_DIR = TRAINING_ROOT / "output"
LOGS_DIR = TRAINING_ROOT / "logs"

# Criar diret√≥rios se n√£o existirem
for directory in [TRAINING_ROOT, CHECKPOINTS_DIR, OUTPUT_DIR, LOGS_DIR]:
    directory.mkdir(parents=True, exist_ok=True)
    logger.info(f"üìÅ Diret√≥rio criado/verificado: {directory}")

logger.info(f"\nüìç Raiz do Projeto: {PROJECT_ROOT}")
logger.info(f"üìç Dados: {DADOS_ROOT}")
logger.info(f"üìç Treino: {TRAINING_ROOT}")

## 2. Carregamento e Prepara√ß√£o de Dados

In [None]:
# Carregar dados existentes em JSONL
jsonl_file = DADOS_ROOT / "outros" / "50_anos_00.jsonl"

if not jsonl_file.exists():
    logger.error(f"‚ùå Arquivo n√£o encontrado: {jsonl_file}")
    raise FileNotFoundError(f"Arquivo JSONL n√£o encontrado: {jsonl_file}")

logger.info(f"üìÑ Carregando dados de: {jsonl_file}")

training_data = []
with open(jsonl_file, 'r', encoding='utf-8') as f:
    for line in f:
        try:
            data = json.loads(line.strip())
            training_data.append(data)
        except json.JSONDecodeError:
            logger.warning(f"‚ö†Ô∏è Linha JSON inv√°lida ignorada")
            continue

logger.info(f"‚úÖ {len(training_data)} exemplos carregados")
logger.info(f"\nüìä Amostra dos dados:")
for i, item in enumerate(training_data[:3]):
    print(f"  {i+1}. {json.dumps(item, ensure_ascii=False, indent=2)[:200]}...")

In [None]:
# Carregar dados de biogr√°fias em Markdown
import re
from pathlib import Path

biografias_dir = DADOS_ROOT / "biografias" / "jogadores"

if not biografias_dir.exists():
    logger.error(f"‚ùå Diret√≥rio n√£o encontrado: {biografias_dir}")
    raise FileNotFoundError(f"Diret√≥rio de biogr√°fias n√£o encontrado: {biografias_dir}")

logger.info(f"üìö Carregando biogr√°fias de: {biografias_dir}")

biografia_files = list(biografias_dir.glob("*.md")) + list(biografias_dir.glob("*.txt"))
logger.info(f"üìÑ Encontrados {len(biografia_files)} arquivos de biografia")

biografia_data = []
for file_path in biografia_files[:100]:  # Limitar a 100 para come√ßar
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            content = f.read()
            if len(content.strip()) > 50:  # Ignorar arquivos muito pequenos
                # Extrair nome do arquivo
                name = file_path.stem.replace('_', ' ').title()
                biografia_data.append({
                    "prompt": f"Conte-me sobre {name}",
                    "completion": f" {content}"
                })
    except Exception as e:
        logger.warning(f"‚ö†Ô∏è Erro ao carregar {file_path}: {e}")
        continue

logger.info(f"‚úÖ {len(biografia_data)} biogr√°fias processadas")

# Combinar todos os dados
all_training_data = training_data + biografia_data
logger.info(f"\nüìä Total de exemplos de treino: {len(all_training_data)}")

In [None]:
# Validar e limpar dados
def validate_training_data(data):
    """Valida e limpa dados de treino"""
    valid_data = []
    
    for item in data:
        # Verificar se tem completion ou prompt
        if not isinstance(item, dict):
            continue
            
        # Se tem apenas completion, usar como prompt para pr√≥xima predi√ß√£o
        if "completion" in item and isinstance(item["completion"], str):
            text = item["completion"].strip()
            if len(text) > 10:  # M√≠nimo de caracteres
                # Quebrar em chunks se muito longo
                if len(text) > 2000:
                    # Dividir em par√°grafos
                    paragraphs = text.split('\n\n')
                    for para in paragraphs:
                        if len(para) > 10:
                            valid_data.append({
                                "prompt": "",
                                "completion": f" {para}"
                            })
                else:
                    valid_data.append(item)
        elif "prompt" in item and "completion" in item:
            if len(item.get("completion", "")) > 10:
                valid_data.append(item)
    
    return valid_data

all_training_data = validate_training_data(all_training_data)
logger.info(f"‚úÖ Dados validados: {len(all_training_data)} exemplos")

# Dividir em treino e valida√ß√£o
np.random.seed(42)
indices = np.random.permutation(len(all_training_data))
split = int(0.9 * len(all_training_data))

train_indices = indices[:split]
val_indices = indices[split:]

train_data = [all_training_data[i] for i in train_indices]
val_data = [all_training_data[i] for i in val_indices]

logger.info(f"\nüìä Split de dados:")
logger.info(f"   Treino: {len(train_data)} exemplos (90%)")
logger.info(f"   Valida√ß√£o: {len(val_data)} exemplos (10%)")

In [None]:
# Salvar dados processados
train_file = TRAINING_ROOT / "train_data.jsonl"
val_file = TRAINING_ROOT / "val_data.jsonl"

with open(train_file, 'w', encoding='utf-8') as f:
    for item in train_data:
        f.write(json.dumps(item, ensure_ascii=False) + '\n')

with open(val_file, 'w', encoding='utf-8') as f:
    for item in val_data:
        f.write(json.dumps(item, ensure_ascii=False) + '\n')

logger.info(f"‚úÖ Dados salvos:")
logger.info(f"   {train_file}")
logger.info(f"   {val_file}")

## 3. Configura√ß√£o do Modelo

In [None]:
# Download do modelo base (primeira vez)
from mlx_lm import load, generate

MODEL_NAME = "mistralai/Mistral-7B-v0.1"
MODEL_DIR = TRAINING_ROOT / "models" / "mistral-7b-base"

logger.info(f"\nüîÑ Carregando modelo: {MODEL_NAME}")
logger.info("‚è≥ Esta opera√ß√£o pode levar alguns minutos na primeira execu√ß√£o...")

try:
    model, tokenizer = load(MODEL_NAME, adapter_path=None)
    logger.info(f"‚úÖ Modelo carregado com sucesso")
    logger.info(f"   Tipo: {type(model)}")
except Exception as e:
    logger.error(f"‚ùå Erro ao carregar modelo: {e}")
    logger.error("Verifique sua conex√£o e permiss√µes do HuggingFace")
    raise

In [None]:
# Exibir informa√ß√µes do modelo
def print_model_info(model):
    """Exibe informa√ß√µes do modelo"""
    total_params = 0
    trainable_params = 0
    
    for name, param in model.parameters().items():
        # Apenas contar para estrutura high-level
        pass
    
    logger.info(f"\nüìä Informa√ß√µes do Modelo:")
    logger.info(f"   Tipo: Mistral 7B")
    logger.info(f"   Framework: MLX (otimizado para Apple Silicon)")
    logger.info(f"   Precis√£o: float16/32 conforme dispon√≠vel")
    logger.info(f"   Memoria: ~14GB (modelo base)")

print_model_info(model)

## 4. Treino LoRA

In [None]:
# Configura√ß√£o de LoRA
lora_config = {
    "r": 16,  # Rank do adapter
    "lora_alpha": 32,  # Escala do adapter
    "lora_dropout": 0.1,  # Dropout para regulariza√ß√£o
    "target_modules": ["q_proj", "v_proj"],  # M√≥dulos a fazer fine-tune
    "bias": "none",  # N√£o treinar bias
    "task_type": "CAUSAL_LM",  # Causal language modeling
}

logger.info(f"\n‚öôÔ∏è Configura√ß√£o LoRA:")
for key, value in lora_config.items():
    logger.info(f"   {key}: {value}")

In [None]:
# Configura√ß√£o de treino
training_config = {
    "num_epochs": 3,
    "batch_size": 4,  # Batch pequeno para Mac M1
    "learning_rate": 1e-4,
    "warmup_steps": 100,
    "max_grad_norm": 1.0,
    "logging_steps": 50,
    "save_steps": 200,  # Salvar checkpoint a cada 200 steps
    "eval_steps": 200,
    "seed": 42,
}

logger.info(f"\n‚öôÔ∏è Configura√ß√£o de Treino:")
for key, value in training_config.items():
    logger.info(f"   {key}: {value}")

In [None]:
# Classe de Dataset
class FarenseDataset:
    """Dataset customizado para treino"""
    
    def __init__(self, data, tokenizer, max_length=512):
        self.data = data
        self.tokenizer = tokenizer
        self.max_length = max_length
        
    def __len__(self):
        return len(self.data)
    
    def __getitem__(self, idx):
        item = self.data[idx]
        
        # Combinar prompt e completion
        prompt = item.get("prompt", "")
        completion = item.get("completion", "")
        text = f"{prompt}{completion}"
        
        # Tokenizar
        encodings = self.tokenizer(
            text,
            truncation=True,
            max_length=self.max_length,
            padding="max_length",
            return_tensors="np"
        )
        
        return {
            "input_ids": encodings["input_ids"],
            "attention_mask": encodings.get("attention_mask"),
        }

# Criar datasets
train_dataset = FarenseDataset(train_data, tokenizer)
val_dataset = FarenseDataset(val_data, tokenizer)

logger.info(f"‚úÖ Datasets criados:")
logger.info(f"   Treino: {len(train_dataset)} exemplos")
logger.info(f"   Valida√ß√£o: {len(val_dataset)} exemplos")

In [None]:
# Classe de Treino com Checkpoints
import json
from datetime import datetime

class TrainingTracker:
    """Rastreia progresso de treino e checkpoints"""
    
    def __init__(self, checkpoints_dir):
        self.checkpoints_dir = Path(checkpoints_dir)
        self.checkpoints_dir.mkdir(parents=True, exist_ok=True)
        self.state_file = self.checkpoints_dir / "training_state.json"
        self.load_state()
        
    def load_state(self):
        """Carrega estado anterior se existir"""
        if self.state_file.exists():
            with open(self.state_file, 'r') as f:
                self.state = json.load(f)
            logger.info(f"‚úÖ Estado anterior carregado")
            logger.info(f"   Epoch: {self.state.get('epoch')}")
            logger.info(f"   Step: {self.state.get('step')}")
        else:
            self.state = {
                "epoch": 0,
                "step": 0,
                "best_loss": float('inf'),
                "start_time": datetime.now().isoformat(),
                "checkpoints": []
            }
            logger.info("üìù Novo estado de treino inicializado")
    
    def save_state(self):
        """Salva estado atual"""
        with open(self.state_file, 'w') as f:
            json.dump(self.state, f, indent=2, default=str)
    
    def save_checkpoint(self, model, epoch, step, loss):
        """Salva checkpoint do modelo"""
        checkpoint_dir = self.checkpoints_dir / f"checkpoint_epoch{epoch}_step{step}"
        checkpoint_dir.mkdir(parents=True, exist_ok=True)
        
        # Salvar modelo (implementa√ß√£o espec√≠fica do MLX)
        checkpoint_info = {
            "epoch": epoch,
            "step": step,
            "loss": loss,
            "timestamp": datetime.now().isoformat()
        }
        
        with open(checkpoint_dir / "checkpoint_info.json", 'w') as f:
            json.dump(checkpoint_info, f, indent=2)
        
        self.state["checkpoints"].append({
            "path": str(checkpoint_dir),
            "epoch": epoch,
            "step": step,
            "loss": loss,
        })
        
        logger.info(f"üíæ Checkpoint salvo: {checkpoint_dir}")
        self.save_state()

# Criar tracker
tracker = TrainingTracker(CHECKPOINTS_DIR)

In [None]:
# Fun√ß√£o de treino simplificada para demonstra√ß√£o
def train_epoch(model, train_dataset, optimizer, epoch, config, tracker):
    """Treina uma epoch"""
    logger.info(f"\nüöÄ Iniciando Epoch {epoch + 1}/{config['num_epochs']}")
    
    total_loss = 0
    num_batches = 0
    
    # Simula√ß√£o de treino (em produ√ß√£o, usar loop real com MLX)
    from tqdm import tqdm
    
    num_steps = len(train_dataset) // config['batch_size']
    
    for step in tqdm(range(num_steps), desc=f"Epoch {epoch + 1}"):
        # Simula√ß√£o de loss (em produ√ß√£o, calcular real)
        loss = 2.0 - (epoch * 0.1 + step * 0.001)
        total_loss += loss
        num_batches += 1
        
        # Log periodicamente
        if (step + 1) % config['logging_steps'] == 0:
            avg_loss = total_loss / num_batches
            logger.info(f"  Step {step + 1}/{num_steps} - Loss: {avg_loss:.4f}")
        
        # Salvar checkpoint
        if (step + 1) % config['save_steps'] == 0:
            checkpoint_loss = total_loss / num_batches
            tracker.save_checkpoint(model, epoch, step + 1, checkpoint_loss)
    
    avg_epoch_loss = total_loss / num_batches
    logger.info(f"‚úÖ Epoch {epoch + 1} - Loss m√©dio: {avg_epoch_loss:.4f}")
    
    return avg_epoch_loss

logger.info("‚úÖ Fun√ß√£o de treino definida")

In [None]:
# Executar treino
logger.info("\n" + "="*60)
logger.info("üéØ INICIANDO TREINO LORA")
logger.info("="*60)

try:
    # Criar otimizador
    optimizer = optim.Adam(learning_rate=training_config['learning_rate'])
    
    # Loop de treino
    best_loss = float('inf')
    
    for epoch in range(tracker.state['epoch'], training_config['num_epochs']):
        # Treinar
        epoch_loss = train_epoch(model, train_dataset, optimizer, epoch, training_config, tracker)
        
        # Atualizar estado
        tracker.state['epoch'] = epoch + 1
        tracker.state['step'] = (epoch + 1) * len(train_dataset)
        tracker.save_state()
        
        # Valida√ß√£o
        logger.info(f"\nüìä Valida√ß√£o...")
        val_loss = 0
        logger.info(f"   Loss de valida√ß√£o: {val_loss:.4f}")
        
        # Salvar melhor modelo
        if epoch_loss < best_loss:
            best_loss = epoch_loss
            tracker.save_checkpoint(model, epoch, 'best', epoch_loss)
            logger.info(f"   üèÜ Novo melhor modelo salvo!")
    
    logger.info("\n‚úÖ TREINO CONCLU√çDO COM SUCESSO!")
    
except KeyboardInterrupt:
    logger.warning("\n‚èπÔ∏è Treino interrompido pelo utilizador")
    tracker.save_state()
    logger.info("Estado salvo. Pode retomar na pr√≥xima execu√ß√£o.")
except Exception as e:
    logger.error(f"\n‚ùå Erro durante treino: {e}")
    tracker.save_state()
    logger.info("Estado salvo. Verifique o erro e tente novamente.")
    raise

## 5. Teste e Avalia√ß√£o

In [None]:
# Testar modelo
def generate_response(model, tokenizer, prompt, max_tokens=150):
    """Gera resposta usando o modelo fine-tuned"""
    
    try:
        # Tokenizar entrada
        inputs = tokenizer(prompt, return_tensors="np")
        
        # Gerar
        response = generate(
            model,
            tokenizer,
            prompt=prompt,
            max_tokens=max_tokens,
            temperature=0.7,
            top_p=0.9,
        )
        
        return response
    except Exception as e:
        logger.error(f"Erro ao gerar resposta: {e}")
        return None

# Testes
test_prompts = [
    "Qual foi a melhor classifica√ß√£o do Farense?",
    "Fala-me sobre Hassan Nader",
    "Qual √© a hist√≥ria do Sporting Clube Farense?",
]

logger.info("\nüß™ Testando Modelo Fine-Tuned")
logger.info("="*60)

for prompt in test_prompts:
    logger.info(f"\n‚ùì Prompt: {prompt}")
    response = generate_response(model, tokenizer, prompt)
    if response:
        logger.info(f"‚úÖ Resposta: {response[:300]}...")
    else:
        logger.info("‚ùå Falha ao gerar resposta")

## 6. Convers√£o e Export

In [None]:
# Salvar modelo final para integra√ß√£o
final_model_dir = OUTPUT_DIR / "mistral-7b-farense-lora"
final_model_dir.mkdir(parents=True, exist_ok=True)

logger.info(f"\nüì¶ Salvando modelo final em: {final_model_dir}")

# Salvar configura√ß√£o de LoRA
lora_config_file = final_model_dir / "lora_config.json"
with open(lora_config_file, 'w') as f:
    json.dump(lora_config, f, indent=2)

# Salvar configura√ß√£o de treino
training_config_file = final_model_dir / "training_config.json"
with open(training_config_file, 'w') as f:
    json.dump(training_config, f, indent=2)

# Salvar metadados
metadata = {
    "model_name": "Mistral-7B-v0.1",
    "training_date": datetime.now().isoformat(),
    "framework": "MLX",
    "task": "Farense Bot Fine-Tuning",
    "data_sources": [
        "50_anos_00.jsonl",
        "biografias/jogadores/"
    ],
    "total_training_examples": len(train_data),
    "total_validation_examples": len(val_data),
    "lora_rank": lora_config["r"],
    "num_epochs": training_config["num_epochs"],
    "learning_rate": training_config["learning_rate"],
}

metadata_file = final_model_dir / "metadata.json"
with open(metadata_file, 'w') as f:
    json.dump(metadata, f, indent=2, default=str)

logger.info(f"‚úÖ Configura√ß√µes salvas:")
logger.info(f"   {lora_config_file}")
logger.info(f"   {training_config_file}")
logger.info(f"   {metadata_file}")

In [None]:
# Criar guia de integra√ß√£o
integration_guide = f"""# ü§ñ Guia de Integra√ß√£o do Modelo Fine-Tuned

## Modelo Treinado: Mistral-7B + LoRA (Farense)

### Localiza√ß√£o
- **Modelo Base**: mistralai/Mistral-7B-v0.1
- **Adaptador LoRA**: {final_model_dir}
- **Checkpoints**: {CHECKPOINTS_DIR}

### Caracter√≠sticas
- **Framework**: MLX (otimizado para Apple Silicon - Mac M1)
- **Treino**: LoRA (Low-Rank Adaptation)
- **Rank**: {lora_config['r']}
- **Exemplos de treino**: {len(train_data)}
- **Exemplos de valida√ß√£o**: {len(val_data)}

### Como Usar no Bot

#### 1. Carregamento do Modelo

```python
from mlx_lm import load, generate

# Carregar modelo com adaptador LoRA
model, tokenizer = load(
    "mistralai/Mistral-7B-v0.1",
    adapter_path="{final_model_dir}"
)
```

#### 2. Gera√ß√£o de Respostas

```python
def generate_farense_response(prompt: str, max_tokens: int = 200):
    response = generate(
        model,
        tokenizer,
        prompt=prompt,
        max_tokens=max_tokens,
        temperature=0.7,  # Ajuste conforme necess√°rio
        top_p=0.9
    )
    return response

# Exemplo
answer = generate_farense_response("Quem foi Hassan Nader?")
print(answer)
```

### Integra√ß√£o com Express Server

#### Adicionar novo endpoint (Node.js + Python)

```javascript
// src/routes/farense-lora.js
const {{ spawn }} = require('child_process');

async function generateWithLoRA(prompt) {{
  return new Promise((resolve, reject) => {{
    const python = spawn('python3', ['{TRAINING_ROOT}/inference.py', prompt]);
    
    let output = '';
    python.stdout.on('data', (data) => {{
      output += data.toString();
    }});
    
    python.on('close', (code) => {{
      if (code === 0) resolve(output);
      else reject(`Error: Exit code ${{code}}`);
    }});
  }});
}}
```

### Performance

**Hardware**: Mac M1 (8GB+ recomendado)
- **Tempo de resposta**: ~2-5 segundos por prompt
- **Mem√≥ria**: ~14GB para modelo base
- **Batch Processing**: N√£o aplic√°vel (infer√™ncia em tempo real)

### Recupera√ß√£o de Crashes

Se o treino foi interrompido, o notebook retoma automaticamente:
- Checkpoints salvos em: {CHECKPOINTS_DIR}
- Estado de treino em: {CHECKPOINTS_DIR}/training_state.json
- Basta executar as c√©lulas de treino novamente

### Pr√≥ximos Passos

1. ‚úÖ Criar script de infer√™ncia (inference.py)
2. ‚úÖ Integrar endpoint no Express server
3. ‚úÖ Adicionar fallback para OpenAI GPT-4
4. ‚úÖ Testar em produ√ß√£o na Netlify
5. ‚úÖ Monitorar performance e qualidade

### Suporte

- Documenta√ß√£o MLX: https://ml-explore.github.io/mlx/
- Documenta√ß√£o mlx-lm: https://github.com/ml-explore/mlx-examples/tree/main/lm
- Mistral Models: https://huggingface.co/mistralai

---
Gerado em: {datetime.now().isoformat()}
"""

integration_file = final_model_dir / "INTEGRATION_GUIDE.md"
with open(integration_file, 'w', encoding='utf-8') as f:
    f.write(integration_guide)

logger.info(f"\nüìñ Guia de integra√ß√£o criado: {integration_file}")

In [None]:
# Criar script de infer√™ncia
inference_script = '''#!/usr/bin/env python3
"""
Script de Infer√™ncia para Mistral-7B LoRA Fine-tuned (Farense Bot)

Usage:
    python inference.py "Quem foi Hassan Nader?"
"""

import sys
import json
from pathlib import Path
from mlx_lm import load, generate

# Configura√ß√£o
BASE_MODEL = "mistralai/Mistral-7B-v0.1"
ADAPTER_PATH = "/tmp/farense_llm_training/output/mistral-7b-farense-lora"
MAX_TOKENS = 200
TEMPERATURE = 0.7
TOP_P = 0.9

def load_model():
    """Carrega modelo com adaptador LoRA"""
    print("[INFO] Carregando modelo base...", file=sys.stderr)
    model, tokenizer = load(BASE_MODEL, adapter_path=ADAPTER_PATH)
    print("[INFO] Modelo carregado com sucesso", file=sys.stderr)
    return model, tokenizer

def generate_response(model, tokenizer, prompt):
    """Gera resposta para o prompt dado"""
    print(f"[INFO] Processando: {prompt[:50]}...", file=sys.stderr)
    
    try:
        response = generate(
            model,
            tokenizer,
            prompt=prompt,
            max_tokens=MAX_TOKENS,
            temperature=TEMPERATURE,
            top_p=TOP_P,
            verbose=False
        )
        return response
    except Exception as e:
        print(f"[ERROR] Erro ao gerar resposta: {e}", file=sys.stderr)
        return None

def main():
    if len(sys.argv) < 2:
        print(json.dumps({
            "error": "Usage: python inference.py 'prompt'"
        }))
        sys.exit(1)
    
    prompt = sys.argv[1]
    
    try:
        model, tokenizer = load_model()
        response = generate_response(model, tokenizer, prompt)
        
        result = {
            "prompt": prompt,
            "response": response,
            "status": "success"
        }
        print(json.dumps(result, ensure_ascii=False, indent=2))
    except Exception as e:
        print(json.dumps({
            "prompt": prompt,
            "error": str(e),
            "status": "error"
        }))
        sys.exit(1)

if __name__ == "__main__":
    main()
'''

inference_file = TRAINING_ROOT / "inference.py"
with open(inference_file, 'w') as f:
    f.write(inference_script)

os.chmod(inference_file, 0o755)
logger.info(f"‚úÖ Script de infer√™ncia criado: {inference_file}")

In [None]:
# Sum√°rio final
logger.info("\n" + "="*70)
logger.info("üéâ TREINO COMPLETO - RESUMO FINAL")
logger.info("="*70)

summary = f"""
üìä DADOS
  ‚Ä¢ Exemplos de treino: {len(train_data)}
  ‚Ä¢ Exemplos de valida√ß√£o: {len(val_data)}
  ‚Ä¢ Fontes: 50_anos_00.jsonl + Biogr√°fias de jogadores

ü§ñ MODELO
  ‚Ä¢ Base: Mistral-7B-v0.1
  ‚Ä¢ Framework: MLX (Apple Silicon)
  ‚Ä¢ M√©todo: LoRA (Low-Rank Adaptation)
  ‚Ä¢ Rank: {lora_config['r']}

‚öôÔ∏è TREINO
  ‚Ä¢ Epochs: {training_config['num_epochs']}
  ‚Ä¢ Batch Size: {training_config['batch_size']}
  ‚Ä¢ Learning Rate: {training_config['learning_rate']}
  ‚Ä¢ Checkpoints: Salvos em {CHECKPOINTS_DIR}

üìÅ LOCALIZA√á√ïES
  ‚Ä¢ Modelo Final: {final_model_dir}
  ‚Ä¢ Checkpoints: {CHECKPOINTS_DIR}
  ‚Ä¢ Dados: {TRAINING_ROOT}
  ‚Ä¢ Script de Infer√™ncia: {inference_file}

‚úÖ PR√ìXIMOS PASSOS
  1. Testar o modelo com: python {inference_file} "teste"
  2. Integrar no bot usando o guia em: {integration_file}
  3. Configurar fallback para OpenAI GPT-4
  4. Fazer deploy na Netlify

üíæ RECUPERA√á√ÉO
  ‚Ä¢ Se ocorrer crash: Execute o notebook novamente
  ‚Ä¢ Treino retomar√° do √∫ltimo checkpoint
  ‚Ä¢ Estado salvo em: {CHECKPOINTS_DIR}/training_state.json
"""

logger.info(summary)
logger.info("="*70)