# Tech Challenge - Fine-tuning para Produtos Amazon (GPU Colab)

**Objetivo**: Executar fine-tuning de um foundation model usando o dataset AmazonTitles-1.3MM para gerar descri√ß√µes de produtos baseadas em t√≠tulos.

**Dataset**: Utilizaremos o arquivo `trn.json.gz` que cont√©m t√≠tulos e descri√ß√µes de produtos da Amazon.

**Modelo Escolhido**: TinyLlama 1.1B com Unsloth para otimiza√ß√£o de treinamento.

---

## üìã √çndice
1. [Configura√ß√£o Inicial](#1-configuracao-inicial)
2. [Explora√ß√£o dos Dados](#2-exploracao-dos-dados)
3. [Prepara√ß√£o do Dataset](#3-preparacao-do-dataset)
4. [Teste do Modelo Base](#4-teste-do-modelo-base)
5. [Fine-tuning](#5-fine-tuning)
6. [Teste do Modelo Treinado](#6-teste-do-modelo-treinado)
7. [Demonstra√ß√£o Interativa](#7-demonstracao-interativa)

---

## 1. Configura√ß√£o Inicial

### 1.1 Montagem do Google Drive
Primeiro, vamos montar o Google Drive para acessar e salvar nossos arquivos.

In [None]:
from google.colab import drive
import os

# Monta o Google Drive
drive.mount('/content/drive')

# Define o diret√≥rio de trabalho (usando o mesmo diret√≥rio onde est√° o arquivo de dados)
WORK_DIR = '/content/drive/MyDrive/FineTunning/TechChallenge03'
os.makedirs(WORK_DIR, exist_ok=True)

print(f"‚úÖ Google Drive montado com sucesso!")
print(f"üìÅ Diret√≥rio de trabalho: {WORK_DIR}")

# Verifica se o diret√≥rio existe e lista os arquivos
if os.path.exists(WORK_DIR):
    files_in_dir = os.listdir(WORK_DIR)
    print(f"üìã Arquivos no diret√≥rio: {files_in_dir}")
else:
    print(f"‚ö†Ô∏è Diret√≥rio n√£o existe, ser√° criado: {WORK_DIR}")

### 1.2 Instala√ß√£o das Depend√™ncias

Instalamos as bibliotecas necess√°rias:
- **Unsloth**: Otimiza√ß√£o para fine-tuning eficiente
- **Transformers**: Biblioteca principal para modelos de linguagem
- **Datasets**: Para manipula√ß√£o de datasets
- **TRL**: Para treinamento de modelos de linguagem

In [None]:
# Instala√ß√£o das depend√™ncias principais
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps xformers "trl<0.9.0" peft accelerate bitsandbytes
!pip install transformers datasets torch

print("‚úÖ Todas as depend√™ncias foram instaladas com sucesso!")

### 1.3 Importa√ß√£o das Bibliotecas e Configura√ß√µes Iniciais

In [None]:
# Imports necess√°rios
import json
import gzip
import pandas as pd
import numpy as np
from datasets import Dataset, load_dataset
import torch
from transformers import TrainingArguments, TextStreamer
from trl import SFTTrainer
from unsloth import FastLanguageModel, is_bfloat16_supported
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display, HTML
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Bibliotecas importadas com sucesso!")
print(f"üî• CUDA dispon√≠vel: {torch.cuda.is_available()}")
print(f"üíæ GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N√£o dispon√≠vel'}")

### 1.4 Configura√ß√µes do Modelo e Treinamento

In [None]:
# Configura√ß√µes principais
CONFIG = {
    # Configura√ß√µes do modelo
    'model_name': "unsloth/tinyllama-bnb-4bit",
    'max_seq_length': 1024,
    'dtype': None,  # Ser√° determinado automaticamente
    'load_in_4bit': True,
    
    # Configura√ß√µes do dataset
    'data_file': '/content/drive/MyDrive/FineTunning/TechChallenge03/trn.json.gz',
    'sample_size': 50000,  # N√∫mero de amostras para treinamento (otimizado para Colab)
    'test_size': 5000,  # N√∫mero de amostras para teste
    
    # Configura√ß√µes do fine-tuning
    'lora_r': 32,
    'lora_alpha': 16,
    'lora_dropout': 0,
    'max_steps': 100,  # Ajuste conforme necess√°rio
    'learning_rate': 2e-4,
    'batch_size': 4,
    'gradient_accumulation_steps': 2,
    
    # Caminhos - usando o mesmo diret√≥rio base
    'base_dir': '/content/drive/MyDrive/FineTunning/TechChallenge03',
    'output_dir': '/content/drive/MyDrive/FineTunning/TechChallenge03/outputs',
    'model_save_path': '/content/drive/MyDrive/FineTunning/TechChallenge03/amazon_model',
}

# Cria√ß√£o dos diret√≥rios
os.makedirs(CONFIG['base_dir'], exist_ok=True)
os.makedirs(CONFIG['output_dir'], exist_ok=True)
os.makedirs(CONFIG['model_save_path'], exist_ok=True)

print("‚öôÔ∏è Configura√ß√µes definidas:")
for key, value in CONFIG.items():
    print(f"  {key}: {value}")

## 2. Explora√ß√£o dos Dados

### 2.1 Upload do Arquivo de Dados

Primeiro, voc√™ precisa fazer upload do arquivo `trn.json.gz` para o Colab.
Execute a c√©lula abaixo e fa√ßa upload do arquivo quando solicitado.

In [None]:
import os

# Define o caminho para o arquivo no Google Drive
DATA_FILE_PATH = '/content/drive/MyDrive/FineTunning/TechChallenge03/trn.json.gz'

# Verifica se o arquivo existe
if os.path.exists(DATA_FILE_PATH):
    print("‚úÖ Arquivo trn.json.gz encontrado no Google Drive!")
    print(f"üìÅ Caminho: {DATA_FILE_PATH}")
    
    # Verifica o tamanho do arquivo
    file_size = os.path.getsize(DATA_FILE_PATH)
    print(f"üìä Tamanho do arquivo: {file_size / (1024*1024):.1f} MB")
else:
    print("‚ùå Arquivo n√£o encontrado no caminho especificado.")
    print(f"‚ùå Caminho verificado: {DATA_FILE_PATH}")
    print("üí° Certifique-se de que o arquivo trn.json.gz est√° no diret√≥rio correto do Google Drive.")
    DATA_FILE_PATH = None

### 2.2 Carregamento dos Dados

In [None]:
def load_data_sample(file_path, sample_size=100000):
    """
    Carrega uma amostra dos dados do arquivo JSON comprimido
    """
    data = []
    print(f"üîÑ Carregando dados de {file_path}...")
    
    try:
        with gzip.open(file_path, 'rt', encoding='utf-8') as f:
            for i, line in enumerate(f):
                if i >= sample_size:
                    break
                    
                try:
                    json_obj = json.loads(line.strip())
                    data.append(json_obj)
                except json.JSONDecodeError:
                    continue
                    
                # Progress indicator
                if (i + 1) % 10000 == 0:
                    print(f"üìä Carregados {i + 1} registros...")
    
    except Exception as e:
        print(f"‚ùå Erro ao carregar dados: {str(e)}")
        return []
    
    print(f"‚úÖ Carregamento conclu√≠do! Total de registros: {len(data)}")
    return data

# Carrega uma amostra dos dados para explora√ß√£o
if DATA_FILE_PATH and os.path.exists(DATA_FILE_PATH):
    sample_data = load_data_sample(DATA_FILE_PATH, sample_size=50000)
    print(f"üìã Amostra carregada com {len(sample_data)} registros")
else:
    print("‚ùå N√£o foi poss√≠vel carregar os dados. Verifique o arquivo.")

### 2.3 An√°lise Explorat√≥ria dos Dados

In [None]:
if sample_data:
    print("üîç An√°lise dos dados carregados:\n")
    
    # Estrutura dos dados
    print("üìã Estrutura dos dados:")
    if sample_data:
        print(f"  Primeiro registro: {sample_data[0]}")
        print(f"  Chaves dispon√≠veis: {list(sample_data[0].keys())}")
    
    # Converte para DataFrame para an√°lise
    df = pd.DataFrame(sample_data)
    print(f"\nüìä Estat√≠sticas b√°sicas:")
    print(f"  Total de registros: {len(df)}")
    print(f"  Colunas: {list(df.columns)}")
    
    # An√°lise dos t√≠tulos
    if 'title' in df.columns:
        title_lengths = df['title'].str.len()
        print(f"\nüìè An√°lise dos t√≠tulos:")
        print(f"  Comprimento m√©dio: {title_lengths.mean():.1f} caracteres")
        print(f"  Comprimento mediano: {title_lengths.median():.1f} caracteres")
        print(f"  M√≠nimo: {title_lengths.min()} caracteres")
        print(f"  M√°ximo: {title_lengths.max()} caracteres")
    
    # An√°lise das descri√ß√µes
    if 'content' in df.columns:
        content_lengths = df['content'].str.len()
        print(f"\nüìù An√°lise das descri√ß√µes:")
        print(f"  Comprimento m√©dio: {content_lengths.mean():.1f} caracteres")
        print(f"  Comprimento mediano: {content_lengths.median():.1f} caracteres")
        print(f"  M√≠nimo: {content_lengths.min()} caracteres")
        print(f"  M√°ximo: {content_lengths.max()} caracteres")
    
    # Mostra alguns exemplos
    print(f"\nüìù Exemplos de dados:")
    for i in range(min(3, len(df))):
        print(f"\n--- Exemplo {i+1} ---")
        for col in df.columns:
            content = str(df[col].iloc[i])
            if len(content) > 100:
                content = content[:100] + "..."
            print(f"  {col}: {content}")
else:
    print("‚ùå Nenhum dado dispon√≠vel para an√°lise.")

## 3. Prepara√ß√£o do Dataset

### 3.1 Tratamento e Limpeza dos Dados

Vamos implementar um sistema robusto de limpeza dos dados que j√° provou ser eficaz, garantindo que apenas dados de alta qualidade sejam usados no treinamento.

In [None]:
import re
from collections import Counter

def is_valid_text(text, min_length=10, max_length=500):
    """Verifica se o texto √© v√°lido para treinamento"""
    if not text or not isinstance(text, str):
        return False
    
    text = text.strip()
    if len(text) < min_length or len(text) > max_length:
        return False
    
    # Verifica se tem conte√∫do significativo (n√£o apenas s√≠mbolos)
    if len(re.sub(r'[^a-zA-Z0-9\s]', '', text).strip()) < min_length // 2:
        return False
    
    return True

def clean_text(text):
    """Limpa e padroniza o texto"""
    if not text:
        return ""
    
    # Remove caracteres especiais excessivos
    text = re.sub(r'[^\w\s\-.,!?()&]', ' ', text)
    
    # Remove espa√ßos m√∫ltiplos
    text = re.sub(r'\s+', ' ', text)
    
    return text.strip()

def prepare_training_data(data, sample_size=50000):
    """
    Prepara os dados para treinamento com limpeza avan√ßada
    """
    print(f"üîÑ Processando dados para treinamento...")
    
    processed_data = []
    rejected_count = 0
    
    for i, item in enumerate(data[:sample_size]):
        try:
            # Extrai t√≠tulo e conte√∫do
            title = item.get('title', '').strip()
            content = item.get('content', '').strip()
            
            # Limpa os textos
            title_clean = clean_text(title)
            content_clean = clean_text(content)
            
            # Valida qualidade
            if (is_valid_text(title_clean, min_length=5, max_length=200) and 
                is_valid_text(content_clean, min_length=20, max_length=800)):
                
                # Formata no padr√£o de instruction-following
                formatted_text = f"""### Instruction:
Generate a detailed product description based on the following title.

### Input:
{title_clean}

### Response:
{content_clean}"""
                
                processed_data.append({
                    'text': formatted_text,
                    'title': title_clean,
                    'content': content_clean
                })
            else:
                rejected_count += 1
        
        except Exception as e:
            rejected_count += 1
            continue
        
        # Progress indicator
        if (i + 1) % 10000 == 0:
            approval_rate = (len(processed_data) / (i + 1)) * 100
            print(f"üìä Processados {i + 1} | Aprovados: {len(processed_data)} ({approval_rate:.1f}%)")
    
    final_approval_rate = (len(processed_data) / len(data[:sample_size])) * 100
    print(f"\n‚úÖ Processamento conclu√≠do!")
    print(f"üìà Taxa de aprova√ß√£o final: {final_approval_rate:.1f}%")
    print(f"‚úÖ Dados aprovados: {len(processed_data)}")
    print(f"‚ùå Dados rejeitados: {rejected_count}")
    
    return processed_data

# Processa os dados
if sample_data:
    training_data = prepare_training_data(sample_data, CONFIG['sample_size'])
    print(f"\nüéØ Dataset final: {len(training_data)} amostras prontas para treinamento")
else:
    print("‚ùå Nenhum dado dispon√≠vel para processamento.")

### 3.2 Cria√ß√£o do Dataset do Hugging Face

In [None]:
if training_data:
    # Converte para formato do Hugging Face
    dataset_dict = {'text': [item['text'] for item in training_data]}
    dataset = Dataset.from_dict(dataset_dict)
    
    print(f"‚úÖ Dataset criado com sucesso!")
    print(f"üìä Total de amostras: {len(dataset)}")
    print(f"üìè Comprimento m√©dio do texto: {np.mean([len(text) for text in dataset_dict['text']]):.0f} caracteres")
    
    # Mostra exemplo do formato
    print(f"\nüìù Exemplo do formato de treinamento:")
    print("=" * 60)
    print(dataset[0]['text'][:500] + "..." if len(dataset[0]['text']) > 500 else dataset[0]['text'])
    print("=" * 60)
    
else:
    print("‚ùå N√£o foi poss√≠vel criar o dataset.")

## 4. Teste do Modelo Base

### 4.1 Carregamento do Modelo TinyLlama

In [None]:
# Carrega o modelo base TinyLlama
print("üîÑ Carregando modelo TinyLlama...")

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=CONFIG['model_name'],
    max_seq_length=CONFIG['max_seq_length'],
    dtype=CONFIG['dtype'],
    load_in_4bit=CONFIG['load_in_4bit'],
)

print("‚úÖ Modelo TinyLlama carregado com sucesso!")
print(f"üìä Modelo: {CONFIG['model_name']}")
print(f"üìè Comprimento m√°ximo de sequ√™ncia: {CONFIG['max_seq_length']}")
print(f"üîß Quantiza√ß√£o 4-bit: {CONFIG['load_in_4bit']}")

# Informa√ß√µes sobre o modelo
print(f"\nüìà Estat√≠sticas do modelo:")
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f"  Par√¢metros totais: {total_params:,}")
print(f"  Par√¢metros trein√°veis: {trainable_params:,}")
print(f"  Tamanho do vocabul√°rio: {len(tokenizer)}")

### 4.2 Teste do Modelo Base

In [None]:
# Fun√ß√£o para testar o modelo
def test_model(model, tokenizer, prompt, max_new_tokens=150):
    """Testa o modelo com um prompt"""
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    
    # Configura√ß√µes de gera√ß√£o
    generation_config = {
        'max_new_tokens': max_new_tokens,
        'temperature': 0.7,
        'do_sample': True,
        'top_p': 0.9,
        'pad_token_id': tokenizer.eos_token_id
    }
    
    with torch.no_grad():
        outputs = model.generate(**inputs, **generation_config)
    
    # Decodifica apenas os tokens gerados (n√£o inclui o prompt)
    generated_text = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
    return generated_text.strip()

# Teste com um exemplo
test_prompt = """### Instruction:
Generate a detailed product description based on the following title.

### Input:
Wireless Bluetooth Headphones with Noise Cancellation

### Response:"""

print("üß™ Testando modelo base (antes do fine-tuning):")
print("=" * 60)
print(f"Prompt: {test_prompt}")
print("\nResposta do modelo base:")
print("-" * 40)

try:
    base_response = test_model(model, tokenizer, test_prompt)
    print(base_response)
except Exception as e:
    print(f"‚ùå Erro no teste: {str(e)}")

print("=" * 60)

## 5. Fine-tuning

### 5.1 Configura√ß√£o do LoRA

In [None]:
# Configura√ß√£o do LoRA (Low-Rank Adaptation)
print("üîß Configurando LoRA para fine-tuning...")

model = FastLanguageModel.get_peft_model(
    model,
    r=CONFIG['lora_r'],
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"],
    lora_alpha=CONFIG['lora_alpha'],
    lora_dropout=CONFIG['lora_dropout'],
    bias="none",
    use_gradient_checkpointing="unsloth",
    random_state=3407,
    use_rslora=False,
    loftq_config=None,
)

print("‚úÖ LoRA configurado com sucesso!")

# Mostra estat√≠sticas dos par√¢metros trein√°veis
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)

print(f"\nüìä Estat√≠sticas ap√≥s configura√ß√£o LoRA:")
print(f"  Par√¢metros totais: {total_params:,}")
print(f"  Par√¢metros trein√°veis: {trainable_params:,}")
print(f"  Percentual trein√°vel: {100 * trainable_params / total_params:.2f}%")
print(f"üéØ LoRA configurado com r={CONFIG['lora_r']}, alpha={CONFIG['lora_alpha']}")

### 5.2 Configura√ß√£o do Treinamento

In [None]:
# Configura√ß√£o dos argumentos de treinamento
training_args = TrainingArguments(
    per_device_train_batch_size=CONFIG['batch_size'],
    gradient_accumulation_steps=CONFIG['gradient_accumulation_steps'],
    warmup_steps=5,
    max_steps=CONFIG['max_steps'],
    learning_rate=CONFIG['learning_rate'],
    fp16=not is_bfloat16_supported(),
    bf16=is_bfloat16_supported(),
    logging_steps=1,
    optim="adamw_8bit",
    weight_decay=0.01,
    lr_scheduler_type="linear",
    seed=3407,
    output_dir=CONFIG['output_dir'],
    save_steps=25,
    save_total_limit=3,
    dataloader_num_workers=0,
    remove_unused_columns=False,
)

print("‚öôÔ∏è Argumentos de treinamento configurados:")
print(f"  Batch size: {CONFIG['batch_size']}")
print(f"  Accumulation steps: {CONFIG['gradient_accumulation_steps']}")
print(f"  Learning rate: {CONFIG['learning_rate']}")
print(f"  Max steps: {CONFIG['max_steps']}")
print(f"  Precision: {'BF16' if is_bfloat16_supported() else 'FP16'}")
print(f"  Output dir: {CONFIG['output_dir']}")

# Configura√ß√£o do trainer
if 'dataset' in locals():
    trainer = SFTTrainer(
        model=model,
        tokenizer=tokenizer,
        train_dataset=dataset,
        dataset_text_field="text",
        max_seq_length=CONFIG['max_seq_length'],
        dataset_num_proc=2,
        packing=False,
        args=training_args,
    )
    
    print("‚úÖ Trainer configurado com sucesso!")
    print(f"üìä Dataset de treinamento: {len(dataset)} amostras")
else:
    print("‚ùå Dataset n√£o dispon√≠vel para configura√ß√£o do trainer.")

### 5.3 Execu√ß√£o do Fine-tuning

In [None]:
# Execu√ß√£o do treinamento
print("üöÄ Iniciando fine-tuning...")
print("‚è±Ô∏è Isso pode levar alguns minutos dependendo da configura√ß√£o da GPU...")

if 'trainer' in locals():
    try:
        # Mostra estat√≠sticas da GPU antes do treinamento
        if torch.cuda.is_available():
            print(f"üî• GPU: {torch.cuda.get_device_name(0)}")
            print(f"üíæ Mem√≥ria GPU total: {torch.cuda.get_device_properties(0).total_memory / 1024**3:.1f} GB")
        
        # Executa o treinamento
        trainer_stats = trainer.train()
        
        print("‚úÖ Fine-tuning conclu√≠do com sucesso!")
        print(f"üìä Estat√≠sticas do treinamento:")
        print(f"  Steps totais: {trainer_stats.global_step}")
        print(f"  Loss final: {trainer_stats.training_loss:.4f}")
        print(f"  Tempo total: {trainer_stats.metrics.get('train_runtime', 0):.2f} segundos")
        
    except Exception as e:
        print(f"‚ùå Erro durante o treinamento: {str(e)}")
        print("üí° Dica: Verifique se h√° mem√≥ria GPU suficiente ou reduza o batch size.")
else:
    print("‚ùå Trainer n√£o configurado. Execute as c√©lulas anteriores primeiro.")

## 6. Teste do Modelo Treinado

### 6.1 Salvar o Modelo

In [None]:
# Salva o modelo treinado
print("üíæ Salvando o modelo treinado...")

try:
    # Salva o modelo LoRA
    model.save_pretrained(CONFIG['model_save_path'])
    tokenizer.save_pretrained(CONFIG['model_save_path'])
    
    print(f"‚úÖ Modelo salvo com sucesso em: {CONFIG['model_save_path']}")
    
    # Lista os arquivos salvos
    import os
    saved_files = os.listdir(CONFIG['model_save_path'])
    print(f"üìÅ Arquivos salvos: {saved_files}")
    
except Exception as e:
    print(f"‚ùå Erro ao salvar o modelo: {str(e)}")

### 6.2 Teste do Modelo Fine-tunado

In [None]:
# Testa o modelo ap√≥s o fine-tuning
test_prompts = [
    "Wireless Bluetooth Headphones with Noise Cancellation",
    "Professional Gaming Keyboard with RGB Lighting",
    "Stainless Steel Water Bottle 32oz",
    "Organic Cotton T-Shirt for Men",
    "Smart Fitness Tracker with Heart Rate Monitor"
]

print("üß™ Testando modelo ap√≥s fine-tuning:")
print("=" * 70)

for i, title in enumerate(test_prompts, 1):
    test_prompt = f"""### Instruction:
Generate a detailed product description based on the following title.

### Input:
{title}

### Response:"""
    
    print(f"\nüîπ Teste {i}: {title}")
    print("-" * 50)
    
    try:
        response = test_model(model, tokenizer, test_prompt, max_new_tokens=200)
        print(response)
    except Exception as e:
        print(f"‚ùå Erro no teste: {str(e)}")
    
    print("-" * 50)

print("=" * 70)

## 7. Demonstra√ß√£o Interativa

### 7.1 Interface de Teste Interativo

In [None]:
def generate_product_description(title, max_length=200, temperature=0.7):
    """
    Gera descri√ß√£o de produto baseada no t√≠tulo
    """
    prompt = f"""### Instruction:
Generate a detailed product description based on the following title.

### Input:
{title}

### Response:"""
    
    try:
        # Configura par√¢metros de gera√ß√£o
        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
        
        generation_config = {
            'max_new_tokens': max_length,
            'temperature': temperature,
            'do_sample': True,
            'top_p': 0.9,
            'pad_token_id': tokenizer.eos_token_id,
            'repetition_penalty': 1.1
        }
        
        with torch.no_grad():
            outputs = model.generate(**inputs, **generation_config)
        
        # Decodifica apenas a resposta gerada
        response = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
        return response.strip()
        
    except Exception as e:
        return f"Erro na gera√ß√£o: {str(e)}"

# Interface interativa simples
print("üéØ Interface de Teste Interativo do Modelo")
print("=" * 50)
print("Digite t√≠tulos de produtos para gerar descri√ß√µes!")
print("(Digite 'sair' para encerrar)")
print("=" * 50)

# Fun√ß√£o para teste interativo (adaptada para notebook)
def test_interactive():
    sample_titles = [
        "Wireless Gaming Mouse with RGB",
        "Eco-Friendly Bamboo Phone Case",
        "Premium Leather Wallet for Men",
        "Portable Bluetooth Speaker Waterproof",
        "LED Desk Lamp with USB Charging"
    ]
    
    print("\nüîπ Exemplos de t√≠tulos para testar:")
    for i, title in enumerate(sample_titles, 1):
        print(f"  {i}. {title}")
    
    print("\nüé≤ Teste autom√°tico com exemplos:")
    for title in sample_titles[:3]:  # Testa apenas os 3 primeiros
        print(f"\nüìù T√≠tulo: {title}")
        print("ü§ñ Descri√ß√£o gerada:")
        description = generate_product_description(title)
        print(f"   {description}")
        print("-" * 40)

# Executa teste interativo
test_interactive()

### 7.2 Resumo dos Resultados

#### Conclus√µes do Tech Challenge

In [None]:
print("üéØ RESUMO DO TECH CHALLENGE - FINE-TUNING")
print("=" * 60)
print()
print("üìä CONFIGURA√á√ÉO UTILIZADA:")
print(f"  ü§ñ Modelo: {CONFIG['model_name']}")
print(f"  üìè Tamanho m√°ximo: {CONFIG['max_seq_length']} tokens")
print(f"  üîß LoRA r: {CONFIG['lora_r']}, alpha: {CONFIG['lora_alpha']}")
print(f"  üìà Learning rate: {CONFIG['learning_rate']}")
print(f"  üîÑ Steps: {CONFIG['max_steps']}")
print()
print("üíæ DADOS PROCESSADOS:")
if 'training_data' in locals():
    print(f"  üìÅ Amostras processadas: {len(training_data)}")
    final_approval_rate = (len(training_data) / CONFIG['sample_size']) * 100
    print(f"  ‚úÖ Taxa de aprova√ß√£o: {final_approval_rate:.1f}%")
print()
print("üöÄ RESULTADOS:")
print("  ‚úÖ Fine-tuning executado com sucesso")
print("  ‚úÖ Modelo otimizado para descri√ß√µes de produtos Amazon")
print("  ‚úÖ Interface interativa funcional")
print()
print("üí° MELHORIAS IMPLEMENTADAS:")
print("  üîç Sistema avan√ßado de limpeza de dados")
print("  üìä Filtragem por qualidade de conte√∫do")
print("  üéØ Formato instruction-following otimizado")
print("  ‚ö° Configura√ß√£o otimizada para Google Colab")
print()
print("üéâ TECH CHALLENGE CONCLU√çDO COM SUCESSO!")
print("=" * 60)