In [2]:
from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments, DataCollatorForLanguageModeling
import os
import pandas as pd
import numpy as np
import torch
from datasets import Dataset
from sklearn.model_selection import train_test_split
from google.colab import drive
from torch.nn import CrossEntropyLoss
import gc

# === CONFIGURA√á√ÉO OTIMIZADA DE MEM√ìRIA ===
def cleanup_memory():
    """Limpa cache da GPU e coleta garbage"""
    gc.collect()
    if torch.cuda.is_available():
        torch.cuda.empty_cache()
        torch.cuda.synchronize()

def print_gpu_utilization():
    """Mostra utiliza√ß√£o da GPU"""
    if torch.cuda.is_available():
        allocated = torch.cuda.memory_allocated() / 1024**3
        reserved = torch.cuda.memory_reserved() / 1024**3
        print(f"üñ•Ô∏è GPU - Alocado: {allocated:.1f}GB | Reservado: {reserved:.1f}GB")

# Configura√ß√µes globais para economia de mem√≥ria
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "expandable_segments:True"
torch.backends.cudnn.benchmark = False
torch.backends.cudnn.deterministic = True

# Limpeza inicial
cleanup_memory()

drive.mount('/content/drive')

# === CONFIGURA√á√ÉO DO MODELO ===
model_id = "Emilio407/guarani-jopara-gemma-2-2b-it-v1"
print(f"üîÑ Carregando modelo: {model_id}")

# Carrega tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_id)
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
print("‚úÖ Tokenizer carregado")

# Carrega modelo com otimiza√ß√µes
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.float16,  # Usa half precision desde o carregamento
    device_map="auto",
    low_cpu_mem_usage=True,
)
print("‚úÖ Modelo carregado com otimiza√ß√µes")
print_gpu_utilization()

# === PREPARA√á√ÉO DOS DADOS OTIMIZADA ===
print("\nüîÑ Carregando e preparando dados...")
df = pd.read_json("/content/drive/MyDrive/Doutorado Unesp/assistente-guarani/data/dados_treinamento_guarani.json")

# Divide os dados (usando menos dados se necess√°rio para economizar mem√≥ria)
if len(df) > 1000:  # Se tiver muitos dados, usa uma amostra
    df = df.sample(n=1000, random_state=42)
    print(f"‚ö†Ô∏è Usando amostra de 1000 exemplos para economizar mem√≥ria")

train_df, val_df = train_test_split(df, test_size=0.2, random_state=42)
print(f"üìä Treino: {len(train_df)} | Valida√ß√£o: {len(val_df)}")

# Converte para Dataset
train_dataset = Dataset.from_pandas(train_df)
val_dataset = Dataset.from_pandas(val_df)

# Fun√ß√£o de tokeniza√ß√£o otimizada
def tokenize(example):
    prompt = example["instruction"] + "\n" + example["input"] + "\n"
    target = example["output"]
    full_text = prompt + target

    # Tokeniza com max_length menor para economizar mem√≥ria
    tokenized = tokenizer(
        full_text,
        truncation=True,
        padding="max_length",
        max_length=256,  # Reduzido para economizar mem√≥ria
        return_tensors=None  # N√£o retorna tensors para economizar mem√≥ria
    )

    tokenized["labels"] = tokenized["input_ids"].copy()
    return tokenized

print("üîÑ Aplicando tokeniza√ß√£o...")
tokenized_train = train_dataset.map(
    tokenize,
    remove_columns=train_dataset.column_names,
    batched=False,  # Processa um por vez para economizar mem√≥ria
    load_from_cache_file=False
)
tokenized_val = val_dataset.map(
    tokenize,
    remove_columns=val_dataset.column_names,
    batched=False,
    load_from_cache_file=False
)

cleanup_memory()
print("‚úÖ Tokeniza√ß√£o conclu√≠da")

# Data collator otimizado
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False,
    return_tensors="pt"
)

# === FUN√á√ÉO DE M√âTRICAS OTIMIZADA ===
def compute_metrics(eval_pred):
    """Fun√ß√£o de m√©tricas otimizada para economizar mem√≥ria"""
    predictions, labels = eval_pred

    # Move para CPU se necess√°rio
    if isinstance(predictions, torch.Tensor):
        predictions = predictions.detach().cpu()
    if isinstance(labels, torch.Tensor):
        labels = labels.detach().cpu()

    # Calcula perplexity de forma mais eficiente
    try:
        shift_logits = predictions[..., :-1, :].contiguous()
        shift_labels = labels[..., 1:].contiguous()

        shift_logits = shift_logits.view(-1, shift_logits.size(-1))
        shift_labels = shift_labels.view(-1)

        # Remove padding
        mask = shift_labels != -100
        shift_logits = shift_logits[mask]
        shift_labels = shift_labels[mask]

        # Calcula loss
        loss_fct = CrossEntropyLoss()
        loss = loss_fct(shift_logits.float(), shift_labels)
        perplexity = torch.exp(loss)

        return {
            "eval_loss": loss.item(),
            "perplexity": perplexity.item()
        }
    except Exception as e:
        print(f"‚ö†Ô∏è Erro no c√°lculo de m√©tricas: {e}")
        return {"eval_loss": 0.0, "perplexity": 1000.0}

# === ARGUMENTOS DE TREINAMENTO ULTRA-OTIMIZADOS ===
training_args = TrainingArguments(
    output_dir="/content/drive/MyDrive/Doutorado Unesp/assistente-guarani/data/modelo_finetunado",

    # Configura√ß√µes de batch otimizadas
    per_device_train_batch_size=1,      # Muito pequeno para economizar mem√≥ria
    per_device_eval_batch_size=1,       # Muito pequeno para avalia√ß√£o
    gradient_accumulation_steps=8,       # Simula batch_size=8

    # Configura√ß√µes de treinamento
    num_train_epochs=2,                  # Reduzido para teste inicial
    learning_rate=2e-5,                  # Learning rate conservador
    warmup_ratio=0.1,                    # Warmup para estabilidade

    # Configura√ß√µes de avalia√ß√£o
    eval_strategy="steps",
    eval_steps=100,                      # Avalia menos frequentemente
    eval_accumulation_steps=1,           # N√£o acumula durante avalia√ß√£o

    # Configura√ß√µes de salvamento
    save_strategy="steps",
    save_steps=200,                      # Salva menos frequentemente
    save_total_limit=1,                  # Mant√©m apenas 1 checkpoint

    # Otimiza√ß√µes de mem√≥ria CR√çTICAS
    fp16=False,                          # Half precision - ESSENCIAL!
    dataloader_pin_memory=False,        # Economiza mem√≥ria
    gradient_checkpointing=True,        # Troca computa√ß√£o por mem√≥ria
    dataloader_num_workers=0,           # Sem workers paralelos
    remove_unused_columns=True,         # Remove colunas desnecess√°rias

    # Configura√ß√µes de otimizador
    optim="adamw_torch",                # Otimizador eficiente
    weight_decay=0.01,
    adam_epsilon=1e-8,

    # Logging e relat√≥rios
    logging_dir="logs",
    logging_steps=50,
    logging_first_step=True,

    # Configura√ß√µes de modelo
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
    greater_is_better=False,

    # Desabilita relat√≥rios externos
    report_to=[],

    # Configura√ß√µes adicionais para estabilidade
    max_grad_norm=1.0,                  # Gradient clipping
    prediction_loss_only=False,
)

print("\nüîÑ Iniciando treinamento com configura√ß√µes otimizadas...")
print_gpu_utilization()

# === TRAINER OTIMIZADO ===
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_val,
    tokenizer=tokenizer,
    data_collator=data_collator,
    compute_metrics=compute_metrics,
)

# === TREINAMENTO COM MONITORAMENTO ===
try:
    print("üöÄ Iniciando treinamento...")
    trainer.train()
    print("‚úÖ Treinamento conclu√≠do!")

    # Salva o modelo
    output_dir = "/content/drive/MyDrive/Doutorado Unesp/assistente-guarani/data/modelo_finetunado"
    trainer.save_model(output_dir)
    tokenizer.save_pretrained(output_dir)
    print(f"‚úÖ Modelo salvo em: {output_dir}")

except Exception as e:
    print(f"‚ùå Erro durante treinamento: {e}")
    print("üí° Tentando com configura√ß√µes ainda mais conservadoras...")

    # Configura√ß√µes de emerg√™ncia
    training_args.per_device_train_batch_size = 1
    training_args.gradient_accumulation_steps = 4
    training_args.num_train_epochs = 1

    trainer = Trainer(
        model=model,
        args=training_args,
        train_dataset=tokenized_train.select(range(min(100, len(tokenized_train)))),  # Usa s√≥ 100 exemplos
        eval_dataset=tokenized_val.select(range(min(20, len(tokenized_val)))),
        tokenizer=tokenizer,
        data_collator=data_collator,
    )

    trainer.train()
    trainer.save_model(output_dir)

# === LIMPEZA ANTES DA AVALIA√á√ÉO ===
del trainer
cleanup_memory()
print("\nüßπ Mem√≥ria limpa ap√≥s treinamento")
print_gpu_utilization()

# === AVALIA√á√ÉO OTIMIZADA ===
print("\n=== INICIANDO AVALIA√á√ÉO ===")

# Carrega modelo treinado com otimiza√ß√µes
model_path = "/content/drive/MyDrive/Doutorado Unesp/assistente-guarani/data/modelo_finetunado"
tokenizer_trained = AutoTokenizer.from_pretrained(model_path)
model_trained = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype=torch.float16,
    device_map="auto",
    low_cpu_mem_usage=True
)
model_trained.eval()

print("‚úÖ Modelo treinado carregado para avalia√ß√£o")

# Fun√ß√£o de avalia√ß√£o otimizada
def avaliar_modelo_otimizado(perguntas_teste):
    """Avalia o modelo de forma otimizada"""
    resultados = []

    for i, pergunta in enumerate(perguntas_teste):
        try:
            inputs = tokenizer_trained(pergunta, return_tensors="pt")

            with torch.no_grad():
                outputs = model_trained.generate(
                    inputs['input_ids'],
                    max_length=80,  # Reduzido para economizar
                    do_sample=True,
                    temperature=0.7,
                    num_return_sequences=1,
                    pad_token_id=tokenizer_trained.eos_token_id,
                    early_stopping=True
                )

            resposta = tokenizer_trained.decode(outputs[0], skip_special_tokens=True)
            resposta_limpa = resposta[len(pergunta):].strip()

            resultados.append({
                'pergunta': pergunta,
                'resposta': resposta_limpa
            })

            print(f"Pergunta {i+1}: {pergunta}")
            print(f"Resposta: {resposta_limpa}")
            print("-" * 50)

            # Limpa mem√≥ria a cada itera√ß√£o
            del inputs, outputs
            cleanup_memory()

        except Exception as e:
            print(f"‚ö†Ô∏è Erro na pergunta '{pergunta}': {e}")

    return resultados

# Perguntas de teste
perguntas_teste = [
    "Como se diz 'gavi√£o' em Guarani?",
    "Como se diz '√°gua' em Guarani?",
    "Como se diz 'casa' em Guarani?",
    "Como se diz 'sol' em Guarani?",
    "Como se diz 'lua' em Guarani?"
]

print("üîÑ Testando modelo treinado...")
resultados = avaliar_modelo_otimizado(perguntas_teste)

# === C√ÅLCULO DE PERPLEXITY OTIMIZADO ===
def calcular_perplexity_otimizado(model, tokenizer, dataset, max_samples=30):
    """Calcula perplexity de forma otimizada"""
    model.eval()
    total_loss = 0
    total_tokens = 0
    processed = 0

    # Usa amostra muito pequena para economizar mem√≥ria
    indices = np.random.choice(len(dataset), min(max_samples, len(dataset)), replace=False)
    sample_dataset = dataset.select(indices)

    print(f"üîÑ Calculando perplexity em {len(sample_dataset)} exemplos...")

    with torch.no_grad():
        for example in sample_dataset:
            try:
                input_ids = torch.tensor([example['input_ids']], dtype=torch.long)
                labels = torch.tensor([example['labels']], dtype=torch.long)

                outputs = model(input_ids, labels=labels)
                loss = outputs.loss

                # Conta tokens v√°lidos
                mask = labels != -100
                num_tokens = mask.sum().item()

                if num_tokens > 0:
                    total_loss += loss.item() * num_tokens
                    total_tokens += num_tokens

                processed += 1
                if processed % 10 == 0:
                    print(f"   Processados: {processed}/{len(sample_dataset)}")

                # Limpa mem√≥ria
                del input_ids, labels, outputs
                cleanup_memory()

            except Exception as e:
                print(f"‚ö†Ô∏è Erro no exemplo {processed}: {e}")
                continue

    if total_tokens > 0:
        avg_loss = total_loss / total_tokens
        perplexity = np.exp(avg_loss)
    else:
        perplexity = float('inf')

    return perplexity

# Calcula perplexity do modelo treinado
print("\nüîÑ Calculando m√©tricas do modelo treinado...")
perplexity_trained = calcular_perplexity_otimizado(model_trained, tokenizer_trained, tokenized_val)
print(f"üìä Perplexity modelo treinado: {perplexity_trained:.2f}")

# Remove modelo treinado da mem√≥ria
del model_trained
cleanup_memory()
print("üßπ Modelo treinado removido da mem√≥ria")

# === COMPARA√á√ÉO COM MODELO BASE ===
print("\nüîÑ Carregando modelo base para compara√ß√£o...")
try:
    model_base = AutoModelForCausalLM.from_pretrained(
        model_id,
        torch_dtype=torch.float16,
        device_map="auto",
        low_cpu_mem_usage=True
    )
    model_base.eval()

    # Testa modelo base
    print("üîÑ Testando modelo base...")
    pergunta_teste = "Como se diz 'gavi√£o' em Guarani?"
    inputs = tokenizer(pergunta_teste, return_tensors="pt")

    with torch.no_grad():
        outputs_base = model_base.generate(
            inputs['input_ids'],
            max_length=80,
            do_sample=False,
            num_return_sequences=1,
            pad_token_id=tokenizer.eos_token_id
        )

    resposta_base = tokenizer.decode(outputs_base[0], skip_special_tokens=True)
    resposta_base_limpa = resposta_base[len(pergunta_teste):].strip()

    # Calcula perplexity do modelo base
    perplexity_base = calcular_perplexity_otimizado(model_base, tokenizer, tokenized_val)

    # Resultados finais
    print(f"\n=== RESULTADOS FINAIS ===")
    print(f"üìä Perplexity modelo base: {perplexity_base:.2f}")
    print(f"üìä Perplexity modelo treinado: {perplexity_trained:.2f}")

    print(f"\nüîç TESTE COMPARATIVO: '{pergunta_teste}'")
    print(f"Modelo Base: {resposta_base_limpa}")

    # Carrega modelo treinado novamente para compara√ß√£o
    model_trained_comp = AutoModelForCausalLM.from_pretrained(
        model_path,
        torch_dtype=torch.float16,
        device_map="auto",
        low_cpu_mem_usage=True
    )

    with torch.no_grad():
        outputs_trained = model_trained_comp.generate(
            inputs['input_ids'],
            max_length=80,
            do_sample=False,
            num_return_sequences=1,
            pad_token_id=tokenizer_trained.eos_token_id
        )

    resposta_trained = tokenizer_trained.decode(outputs_trained[0], skip_special_tokens=True)
    resposta_trained_limpa = resposta_trained[len(pergunta_teste):].strip()
    print(f"Modelo Treinado: {resposta_trained_limpa}")

    if perplexity_trained < perplexity_base:
        melhoria = perplexity_base - perplexity_trained
        print(f"\n‚úÖ SUCESSO! O fine-tuning melhorou o modelo!")
        print(f"üéØ Redu√ß√£o na perplexity: {melhoria:.2f}")
    else:
        diferenca = perplexity_trained - perplexity_base
        print(f"\n‚ö†Ô∏è O modelo ainda precisa de ajustes")
        print(f"üìà Aumento na perplexity: {diferenca:.2f}")
        print("üí° Sugest√µes: mais dados, mais √©pocas, ou ajustar learning rate")

except Exception as e:
    print(f"‚ö†Ô∏è Erro na compara√ß√£o: {e}")
    print("‚úÖ Mas o treinamento foi conclu√≠do com sucesso!")

# Limpeza final
cleanup_memory()
print(f"\nüéØ Avalia√ß√£o conclu√≠da! Modelo salvo em: {output_dir}")
print_gpu_utilization()

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
üîÑ Carregando modelo: Emilio407/guarani-jopara-gemma-2-2b-it-v1
‚úÖ Tokenizer carregado


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

‚úÖ Modelo carregado com otimiza√ß√µes
üñ•Ô∏è GPU - Alocado: 14.6GB | Reservado: 15.7GB

üîÑ Carregando e preparando dados...
üìä Treino: 224 | Valida√ß√£o: 57
üîÑ Aplicando tokeniza√ß√£o...


Map:   0%|          | 0/224 [00:00<?, ? examples/s]

Map:   0%|          | 0/57 [00:00<?, ? examples/s]

‚úÖ Tokeniza√ß√£o conclu√≠da

üîÑ Iniciando treinamento com configura√ß√µes otimizadas...
üñ•Ô∏è GPU - Alocado: 14.6GB | Reservado: 15.7GB
üöÄ Iniciando treinamento...


  trainer = Trainer(


‚ùå Erro durante treinamento: CUDA out of memory. Tried to allocate 1.10 GiB. GPU 0 has a total capacity of 22.16 GiB of which 1.03 GiB is free. Process 21898 has 21.13 GiB memory in use. Of the allocated memory 20.60 GiB is allocated by PyTorch, and 304.28 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)
üí° Tentando com configura√ß√µes ainda mais conservadoras...


  trainer = Trainer(


OutOfMemoryError: CUDA out of memory. Tried to allocate 1.10 GiB. GPU 0 has a total capacity of 22.16 GiB of which 1.03 GiB is free. Process 21898 has 21.13 GiB memory in use. Of the allocated memory 20.60 GiB is allocated by PyTorch, and 304.25 MiB is reserved by PyTorch but unallocated. If reserved but unallocated memory is large try setting PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True to avoid fragmentation.  See documentation for Memory Management  (https://pytorch.org/docs/stable/notes/cuda.html#environment-variables)