# Tech Challenge - Fine-tuning para Produtos Amazon

**Objetivo**: Executar fine-tuning de um foundation model usando o dataset AmazonTitles-1.3MM para gerar descri√ß√µes de produtos baseadas em t√≠tulos.

**Dataset**: Utilizaremos o arquivo `trn.json.gz` que cont√©m t√≠tulos e descri√ß√µes de produtos da Amazon.

**Modelo Escolhido**: Llama 3-8B com Unsloth para otimiza√ß√£o de treinamento.

---

## üìã √çndice
1. [Configura√ß√£o Inicial](#1-configuracao-inicial)
2. [Explora√ß√£o dos Dados](#2-exploracao-dos-dados)
3. [Prepara√ß√£o do Dataset](#3-preparacao-do-dataset)
4. [Teste do Modelo Base](#4-teste-do-modelo-base)
5. [Fine-tuning](#5-fine-tuning)
6. [Teste do Modelo Treinado](#6-teste-do-modelo-treinado)
7. [Demonstra√ß√£o Interativa](#7-demonstracao-interativa)

---

## 1. Configura√ß√£o Inicial

### 1.1 Montagem do Google Drive
Primeiro, vamos montar o Google Drive para acessar e salvar nossos arquivos.

In [None]:
from google.colab import drive
import os

# Monta o Google Drive
drive.mount('/content/drive')

# Define o diret√≥rio de trabalho (usando o mesmo diret√≥rio onde est√° o arquivo de dados)
WORK_DIR = '/content/drive/MyDrive/FineTunning/TechChallenge03'
os.makedirs(WORK_DIR, exist_ok=True)

print(f"‚úÖ Google Drive montado com sucesso!")
print(f"üìÅ Diret√≥rio de trabalho: {WORK_DIR}")

# Verifica se o diret√≥rio existe e lista os arquivos
if os.path.exists(WORK_DIR):
    files_in_dir = os.listdir(WORK_DIR)
    print(f"üìã Arquivos no diret√≥rio: {files_in_dir}")
else:
    print(f"‚ö†Ô∏è Diret√≥rio n√£o existe, ser√° criado: {WORK_DIR}")

### 1.2 Instala√ß√£o das Depend√™ncias

Instalamos as bibliotecas necess√°rias:
- **Unsloth**: Otimiza√ß√£o para fine-tuning eficiente
- **Transformers**: Biblioteca principal para modelos de linguagem
- **Datasets**: Para manipula√ß√£o de datasets
- **TRL**: Para treinamento de modelos de linguagem

In [None]:
# Instala√ß√£o das depend√™ncias principais
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps xformers "trl<0.9.0" peft accelerate bitsandbytes
!pip install transformers datasets torch

print("‚úÖ Todas as depend√™ncias foram instaladas com sucesso!")

### 1.3 Importa√ß√£o das Bibliotecas e Configura√ß√µes Iniciais

In [None]:
# Imports necess√°rios
import json
import gzip
import pandas as pd
import numpy as np
from datasets import Dataset, load_dataset
import torch
from transformers import TrainingArguments, TextStreamer
from trl import SFTTrainer
from unsloth import FastLanguageModel, is_bfloat16_supported
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display, HTML
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Bibliotecas importadas com sucesso!")
print(f"üî• CUDA dispon√≠vel: {torch.cuda.is_available()}")
print(f"üíæ GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N√£o dispon√≠vel'}")

### 1.4 Configura√ß√µes do Modelo e Treinamento

In [None]:
# Configura√ß√µes principais
CONFIG = {
    # Configura√ß√µes do modelo
    'model_name': "unsloth/llama-3-8b-bnb-4bit",
    'max_seq_length': 2048,
    'dtype': None,  # Ser√° determinado automaticamente
    'load_in_4bit': True,
    
    # Configura√ß√µes do dataset
    'data_file': '/content/drive/MyDrive/FineTunning/TechChallenge03/trn.json.gz',
    'sample_size': 1000000,  # N√∫mero de amostras para treinamento (pode ajustar)
    'test_size': 100000,  # N√∫mero de amostras para teste
    
    # Configura√ß√µes do fine-tuning
    'lora_r': 16,
    'lora_alpha': 16,
    'lora_dropout': 0,
    'max_steps': 100,  # Ajuste conforme necess√°rio
    'learning_rate': 2e-4,
    'batch_size': 2,
    'gradient_accumulation_steps': 4,
    
    # Caminhos - usando o mesmo diret√≥rio base
    'base_dir': '/content/drive/MyDrive/FineTunning/TechChallenge03',
    'output_dir': '/content/drive/MyDrive/FineTunning/TechChallenge03/outputs',
    'model_save_path': '/content/drive/MyDrive/FineTunning/TechChallenge03/amazon_model',
}

# Cria√ß√£o dos diret√≥rios
os.makedirs(CONFIG['base_dir'], exist_ok=True)
os.makedirs(CONFIG['output_dir'], exist_ok=True)
os.makedirs(CONFIG['model_save_path'], exist_ok=True)

print("‚öôÔ∏è Configura√ß√µes definidas:")
for key, value in CONFIG.items():
    print(f"  {key}: {value}")

## 2. Explora√ß√£o dos Dados

### 2.1 Upload do Arquivo de Dados

Primeiro, voc√™ precisa fazer upload do arquivo `trn.json.gz` para o Colab.
Execute a c√©lula abaixo e fa√ßa upload do arquivo quando solicitado.

In [None]:
import os

# Define o caminho para o arquivo no Google Drive
DATA_FILE_PATH = '/content/drive/MyDrive/FineTunning/TechChallenge03/trn.json.gz'

# Verifica se o arquivo existe
if os.path.exists(DATA_FILE_PATH):
    print("‚úÖ Arquivo trn.json.gz encontrado no Google Drive!")
    print(f"üìÅ Caminho: {DATA_FILE_PATH}")
    
    # Verifica o tamanho do arquivo
    file_size = os.path.getsize(DATA_FILE_PATH)
    print(f"üìä Tamanho do arquivo: {file_size / (1024*1024):.1f} MB")
else:
    print("‚ùå Arquivo n√£o encontrado no caminho especificado.")
    print(f"‚ùå Caminho verificado: {DATA_FILE_PATH}")
    print("üí° Certifique-se de que o arquivo trn.json.gz est√° no diret√≥rio correto do Google Drive.")
    DATA_FILE_PATH = None

### 2.2 Carregamento dos Dados

Vamos carregar o dataset completo (ou conforme configurado) e analisar sua estrutura para entender melhor os dados com que estamos trabalhando.

In [None]:
def load_amazon_data(file_path, sample_size=None):
    """
    Carrega os dados do arquivo JSON comprimido, extraindo apenas title e content
    
    Args:
        file_path: Caminho para o arquivo trn.json.gz
        sample_size: N√∫mero de amostras a carregar (None para carregar tudo)
    
    Returns:
        Lista de dicion√°rios com apenas os campos title e content
    """
    data = []
    
    print(f"üìñ Carregando dados de {file_path}...")
    print("üéØ Extraindo apenas os campos 'title' e 'content'")
    
    try:
        with gzip.open(file_path, 'rt', encoding='utf-8') as f:
            for i, line in enumerate(f):
                if sample_size and i >= sample_size:
                    break
                    
                try:
                    json_obj = json.loads(line.strip())
                    
                    # Extrai apenas title e content, desconsiderando outros campos
                    if 'title' in json_obj and 'content' in json_obj:
                        clean_item = {
                            'title': json_obj['title'].strip(),
                            'content': json_obj['content'].strip()
                        }
                        
                        # S√≥ adiciona se ambos os campos n√£o est√£o vazios
                        if clean_item['title'] and clean_item['content']:
                            data.append(clean_item)
                            
                except json.JSONDecodeError:
                    continue
                    
                # Progress update
                if (i + 1) % 1000 == 0:
                    print(f"  Processadas {i + 1} linhas, v√°lidas: {len(data)}")
    
    except Exception as e:
        print(f"‚ùå Erro ao carregar dados: {e}")
        return []
    
    print(f"‚úÖ Dados carregados com sucesso!")
    print(f"üìä Total de amostras v√°lidas: {len(data)}")
    print(f"üéØ Campos por amostra: title, content")
    return data

# Carrega o dataset conforme configura√ß√£o (completo ou amostra)
if DATA_FILE_PATH:
    print(f"üîÑ Carregando {CONFIG['sample_size']} amostras conforme configura√ß√£o...")
    raw_data = load_amazon_data(DATA_FILE_PATH, sample_size=CONFIG['sample_size'])
else:
    print("‚ùå Arquivo de dados n√£o dispon√≠vel. Execute a c√©lula de verifica√ß√£o primeiro.")
    raw_data = []

In [None]:
# An√°lise da estrutura dos dados brutos (antes da limpeza)
if raw_data:
    print("üîç AN√ÅLISE DOS DADOS BRUTOS (ANTES DA LIMPEZA)")
    print("=" * 50)
    
    # Exemplo de uma amostra
    print("üìù Exemplo de uma amostra (apenas title e content):")
    sample_item = raw_data[0]
    for key, value in sample_item.items():
        print(f"  {key}: {value}")
    
    print("\n" + "=" * 50)
    
    # Estat√≠sticas gerais
    print(f"üìä ESTAT√çSTICAS GERAIS DOS DADOS BRUTOS:")
    print(f"  Total de amostras carregadas: {len(raw_data)}")
    print(f"  Campos utilizados: title, content")
    print(f"  Outros campos: desconsiderados conforme solicitado")
    
    # An√°lise de qualidade inicial
    print(f"\nüîç AN√ÅLISE DE QUALIDADE INICIAL:")
    
    # Verifica tamanhos dos textos
    title_lengths = [len(item['title']) for item in raw_data]
    content_lengths = [len(item['content']) for item in raw_data]
    
    print(f"  T√≠tulos muito curtos (<3 chars): {sum(1 for x in title_lengths if x < 3)}")
    print(f"  T√≠tulos muito longos (>200 chars): {sum(1 for x in title_lengths if x > 500)}")
    print(f"  Conte√∫do muito curto (<5 chars): {sum(1 for x in content_lengths if x < 5)}")
    print(f"  Conte√∫do muito longo (>1000 chars): {sum(1 for x in content_lengths if x > 100000)}")
    
    # Verifica duplicatas
    unique_titles = len(set(item['title'].lower() for item in raw_data))
    duplicates = len(raw_data) - unique_titles
    print(f"  T√≠tulos duplicados: {duplicates}")
    
    print(f"\n‚ö†Ô∏è Dados precisam de limpeza antes do treinamento!")
    
else:
    print("‚ùå Nenhum dado foi carregado.")

In [None]:
# An√°lise detalhada dos dados brutos
if raw_data:
    print("üìè AN√ÅLISE DETALHADA DOS DADOS BRUTOS")
    print("=" * 50)
    
    # Calcula estat√≠sticas de comprimento
    title_lengths = [len(item['title']) for item in raw_data]
    content_lengths = [len(item['content']) for item in raw_data]
    
    title_words = [len(item['title'].split()) for item in raw_data]
    content_words = [len(item['content'].split()) for item in raw_data]
    
    print("üìù Comprimento em caracteres:")
    print(f"  T√≠tulos - M√≠n: {min(title_lengths)}, M√°x: {max(title_lengths)}, M√©dia: {np.mean(title_lengths):.1f}")
    print(f"  Conte√∫do - M√≠n: {min(content_lengths)}, M√°x: {max(content_lengths)}, M√©dia: {np.mean(content_lengths):.1f}")
    
    print("\nüî§ Comprimento em palavras:")
    print(f"  T√≠tulos - M√≠n: {min(title_words)}, M√°x: {max(title_words)}, M√©dia: {np.mean(title_words):.1f}")
    print(f"  Conte√∫do - M√≠n: {min(content_words)}, M√°x: {max(content_words)}, M√©dia: {np.mean(content_words):.1f}")
    
    # Exemplos de diferentes tamanhos
    print("\nüìã EXEMPLOS DE PRODUTOS (DADOS BRUTOS):")
    print("=" * 50)
    
    # T√≠tulo mais curto
    shortest_idx = title_lengths.index(min(title_lengths))
    print(f"üî∏ T√≠tulo mais curto ({len(raw_data[shortest_idx]['title'])} chars):")
    print(f"  T√≠tulo: {raw_data[shortest_idx]['title']}")
    print(f"  Conte√∫do: {raw_data[shortest_idx]['content']}")
    
    print("\n" + "-" * 30)
    
    # T√≠tulo mais longo
    longest_idx = title_lengths.index(max(title_lengths))
    print(f"üî∏ T√≠tulo mais longo ({len(raw_data[longest_idx]['title'])} chars):")
    print(f"  T√≠tulo: {raw_data[longest_idx]['title']}")
    print(f"  Conte√∫do: {raw_data[longest_idx]['content'][:200]}...")
    
    print("\n" + "-" * 30)
    
    # Exemplo aleat√≥rio
    import random
    random_idx = random.randint(0, len(raw_data)-1)
    print(f"üî∏ Exemplo aleat√≥rio:")
    print(f"  T√≠tulo: {raw_data[random_idx]['title']}")
    print(f"  Conte√∫do: {raw_data[random_idx]['content']}")
    
else:
    print("‚ùå Nenhum dado dispon√≠vel para an√°lise.")

In [None]:
# Visualiza√ß√µes dos dados brutos
if raw_data:
    print("üìä CRIANDO VISUALIZA√á√ïES DOS DADOS BRUTOS")
    print("=" * 50)
    
    # Recalcula as estat√≠sticas para as visualiza√ß√µes
    title_lengths = [len(item['title']) for item in raw_data]
    content_lengths = [len(item['content']) for item in raw_data]
    title_words = [len(item['title'].split()) for item in raw_data]
    content_words = [len(item['content'].split()) for item in raw_data]
    
    # Configura√ß√£o do matplotlib
    plt.style.use('default')
    fig, axes = plt.subplots(2, 2, figsize=(15, 10))
    fig.suptitle('An√°lise dos Dados Brutos - Amazon Products', fontsize=16, fontweight='bold')
    
    # Gr√°fico 1: Distribui√ß√£o do comprimento dos t√≠tulos
    axes[0,0].hist(title_lengths, bins=30, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[0,0].set_title('Distribui√ß√£o - Comprimento dos T√≠tulos (caracteres)')
    axes[0,0].set_xlabel('N√∫mero de caracteres')
    axes[0,0].set_ylabel('Frequ√™ncia')
    axes[0,0].grid(True, alpha=0.3)
    axes[0,0].axvline(x=3, color='red', linestyle='--', alpha=0.7, label='M√≠n (3)')
    axes[0,0].axvline(x=200, color='red', linestyle='--', alpha=0.7, label='M√°x (200)')
    axes[0,0].legend()
    
    # Gr√°fico 2: Distribui√ß√£o do comprimento do conte√∫do
    axes[0,1].hist(content_lengths, bins=30, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[0,1].set_title('Distribui√ß√£o - Comprimento do Conte√∫do (caracteres)')
    axes[0,1].set_xlabel('N√∫mero de caracteres')
    axes[0,1].set_ylabel('Frequ√™ncia')
    axes[0,1].grid(True, alpha=0.3)
    axes[0,1].axvline(x=5, color='red', linestyle='--', alpha=0.7, label='M√≠n (5)')
    axes[0,1].axvline(x=1000, color='red', linestyle='--', alpha=0.7, label='M√°x (1000)')
    axes[0,1].legend()
    
    # Gr√°fico 3: Distribui√ß√£o de palavras nos t√≠tulos
    axes[1,0].hist(title_words, bins=20, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[1,0].set_title('Distribui√ß√£o - Palavras nos T√≠tulos')
    axes[1,0].set_xlabel('N√∫mero de palavras')
    axes[1,0].set_ylabel('Frequ√™ncia')
    axes[1,0].grid(True, alpha=0.3)
    
    # Gr√°fico 4: Rela√ß√£o entre t√≠tulo e conte√∫do
    axes[1,1].scatter(title_lengths, content_lengths, alpha=0.5, color='purple', s=10)
    axes[1,1].set_title('Rela√ß√£o: T√≠tulo vs Conte√∫do (caracteres)')
    axes[1,1].set_xlabel('Comprimento do t√≠tulo')
    axes[1,1].set_ylabel('Comprimento do conte√∫do')
    axes[1,1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    print("‚úÖ Visualiza√ß√µes dos dados brutos criadas!")
    print("‚ö†Ô∏è Linhas vermelhas mostram limites para limpeza")
    
else:
    print("‚ùå Nenhum dado dispon√≠vel para visualiza√ß√£o.")

## 3. Prepara√ß√£o do Dataset

### 3.1 Formata√ß√£o dos Dados para Fine-tuning

Agora vamos formatar os dados no padr√£o esperado pelo modelo. Criaremos prompts estruturados onde:
- **Input**: T√≠tulo do produto
- **Output**: Descri√ß√£o do produto

O formato seguir√° o padr√£o de chat do Llama 3, usando tags especiais para delimitar o in√≠cio e fim das respostas.

In [None]:
def format_prompt(title, content):
    """
    Formata um exemplo de treinamento no padr√£o do Llama 3
    
    Args:
        title: T√≠tulo do produto
        content: Descri√ß√£o do produto
    
    Returns:
        String formatada para treinamento
    """
    
    # Template de prompt para o modelo
    prompt_template = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Voc√™ √© um assistente especializado em produtos da Amazon. Sua tarefa √© gerar descri√ß√µes detalhadas e precisas de produtos baseadas apenas no t√≠tulo fornecido. As descri√ß√µes devem ser informativas, concisas e atrativas para potenciais compradores.<|eot_id|><|start_header_id|>user<|end_header_id|>

Gere uma descri√ß√£o para o seguinte produto: {title}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

{content}<|eot_id|><|end_of_text|>"""
    
    return prompt_template.format(title=title, content=content)

def prepare_training_data(data, train_size=None):
    """
    Prepara os dados para treinamento formatando cada exemplo
    
    Args:
        data: Lista de dicion√°rios com title e content
        train_size: N√∫mero m√°ximo de exemplos para treinamento
    
    Returns:
        Lista de strings formatadas para treinamento
    """
    
    print(f"üîÑ Preparando dados para treinamento...")
    
    if train_size:
        data = data[:train_size]
    
    formatted_data = []
    
    for i, item in enumerate(data):
        formatted_prompt = format_prompt(item['title'], item['content'])
        formatted_data.append(formatted_prompt)
        
        # Progress update
        if (i + 1) % 500 == 0:
            print(f"  Formatados {i + 1} exemplos...")
    
    print(f"‚úÖ Prepara√ß√£o conclu√≠da! Total: {len(formatted_data)} exemplos formatados")
    return formatted_data

# Testa a formata√ß√£o com um exemplo dos dados brutos
if raw_data:
    print("üß™ TESTE DE FORMATA√á√ÉO")
    print("=" * 60)
    
    # Pega um exemplo para demonstrar a formata√ß√£o
    test_example = raw_data[0]
    formatted_example = format_prompt(test_example['title'], test_example['content'])
    
    print("üìù Exemplo original:")
    print(f"  T√≠tulo: {test_example['title']}")
    print(f"  Conte√∫do: {test_example['content']}")
    
    print("\nüéØ Exemplo formatado para treinamento:")
    print("-" * 60)
    print(formatted_example)
    print("-" * 60)
    
else:
    print("‚ùå Nenhum dado dispon√≠vel para teste.")

### 3.3 Divis√£o em Conjuntos de Treino e Teste

Agora que temos os dados limpos, vamos dividi-los em conjuntos de treinamento e teste.

### 3.2 Limpeza e Pr√©-processamento dos Dados

Antes de prosseguir com o treinamento, √© essencial limpar os dados removendo duplicatas, valores nulos, textos muito curtos ou muito longos, e outros problemas de qualidade.

In [None]:
def clean_amazon_data(data, min_title_length=3, max_title_length=2000, 
                      min_content_length=5, max_content_length=10000):
    """
    Limpa e pr√©-processa os dados do Amazon dataset
    
    Args:
        data: Lista de dicion√°rios com title e content
        min_title_length: Comprimento m√≠nimo do t√≠tulo
        max_title_length: Comprimento m√°ximo do t√≠tulo
        min_content_length: Comprimento m√≠nimo do conte√∫do
        max_content_length: Comprimento m√°ximo do conte√∫do
    
    Returns:
        Lista de dados limpos e estat√≠sticas da limpeza
    """
    
    print("üßπ INICIANDO LIMPEZA DOS DADOS")
    print("=" * 50)
    
    # Estat√≠sticas iniciais
    initial_count = len(data)
    print(f"üìä Dados iniciais: {initial_count} amostras")
    
    # 1. Remove valores nulos ou vazios
    print("\nüîç 1. Removendo valores nulos ou vazios...")
    data = [item for item in data if item.get('title') and item.get('content')]
    after_null_removal = len(data)
    removed_null = initial_count - after_null_removal
    print(f"   Removidas: {removed_null} amostras")
    print(f"   Restantes: {after_null_removal} amostras")
    
    # 2. Remove whitespace extra e normaliza
    print("\n‚úÇÔ∏è 2. Normalizando espa√ßos em branco...")
    for item in data:
        item['title'] = ' '.join(item['title'].split())  # Remove espa√ßos extras
        item['content'] = ' '.join(item['content'].split())
    
    # 3. Remove duplicatas baseadas no t√≠tulo
    print("\nüîÑ 3. Removendo duplicatas...")
    seen_titles = set()
    unique_data = []
    duplicates_removed = 0
    
    for item in data:
        title_lower = item['title'].lower()
        if title_lower not in seen_titles:
            seen_titles.add(title_lower)
            unique_data.append(item)
        else:
            duplicates_removed += 1
    
    data = unique_data
    print(f"   Duplicatas removidas: {duplicates_removed}")
    print(f"   Restantes: {len(data)} amostras")
    
    # 4. Filtra por comprimento do t√≠tulo
    print(f"\nüìè 4. Filtrando t√≠tulos (min: {min_title_length}, max: {max_title_length} chars)...")
    before_title_filter = len(data)
    data = [item for item in data if min_title_length <= len(item['title']) <= max_title_length]
    removed_title = before_title_filter - len(data)
    print(f"   Removidas: {removed_title} amostras")
    print(f"   Restantes: {len(data)} amostras")
    
    # 5. Filtra por comprimento do conte√∫do
    print(f"\nüìÑ 5. Filtrando conte√∫do (min: {min_content_length}, max: {max_content_length} chars)...")
    before_content_filter = len(data)
    data = [item for item in data if min_content_length <= len(item['content']) <= max_content_length]
    removed_content = before_content_filter - len(data)
    print(f"   Removidas: {removed_content} amostras")
    print(f"   Restantes: {len(data)} amostras")
    
    # 7. Verifica√ß√£o final de qualidade
    print("\n‚úÖ 7. Verifica√ß√£o final de qualidade...")
    final_data = []
    removed_final = 0
    
    for item in data:
        # Verifica se ainda tem conte√∫do v√°lido
        if (item['title'].strip() and item['content'].strip() and 
            len(item['title'].strip()) >= min_title_length and
            len(item['content'].strip()) >= min_content_length):
            final_data.append(item)
        else:
            removed_final += 1
    
    data = final_data
    print(f"   Removidas na verifica√ß√£o final: {removed_final}")
    print(f"   Total final: {len(data)} amostras")
    
    # Estat√≠sticas de limpeza
    total_removed = initial_count - len(data)
    retention_rate = (len(data) / initial_count) * 100
    
    print(f"\nüìà RESUMO DA LIMPEZA:")
    print(f"   Dados iniciais: {initial_count}")
    print(f"   Dados finais: {len(data)}")
    print(f"   Total removido: {total_removed} ({(total_removed/initial_count)*100:.1f}%)")
    print(f"   Taxa de reten√ß√£o: {retention_rate:.1f}%")
    
    # Estat√≠sticas dos dados limpos
    if data:
        title_lengths = [len(item['title']) for item in data]
        content_lengths = [len(item['content']) for item in data]
        
        print(f"\nüìä ESTAT√çSTICAS DOS DADOS LIMPOS:")
        print(f"   T√≠tulos - M√≠n: {min(title_lengths)}, M√°x: {max(title_lengths)}, M√©dia: {np.mean(title_lengths):.1f}")
        print(f"   Conte√∫do - M√≠n: {min(content_lengths)}, M√°x: {max(content_lengths)}, M√©dia: {np.mean(content_lengths):.1f}")
    
    return data

# Aplica a limpeza nos dados carregados
if raw_data:
    print("üîÑ Aplicando limpeza nos dados carregados...")
    cleaned_data = clean_amazon_data(raw_data.copy())
else:
    print("‚ùå Nenhum dado dispon√≠vel para limpeza.")
    cleaned_data = []

In [None]:
# Compara√ß√£o visual: Antes vs Depois da limpeza
if raw_data and cleaned_data:
    print("üìä COMPARA√á√ÉO VISUAL: ANTES vs DEPOIS DA LIMPEZA")
    print("=" * 60)
    
    # Cria visualiza√ß√µes comparativas
    fig, axes = plt.subplots(2, 3, figsize=(18, 12))
    fig.suptitle('Compara√ß√£o: Dados Originais vs Dados Limpos', fontsize=16, fontweight='bold')
    
    # Dados originais
    orig_title_lengths = [len(item['title']) for item in raw_data]
    orig_content_lengths = [len(item['content']) for item in raw_data]
    
    # Dados limpos
    clean_title_lengths = [len(item['title']) for item in cleaned_data]
    clean_content_lengths = [len(item['content']) for item in cleaned_data]
    
    # Gr√°fico 1: Contagem de amostras
    categories = ['Dados Originais', 'Dados Limpos']
    counts = [len(raw_data), len(cleaned_data)]
    colors = ['lightcoral', 'lightgreen']
    
    axes[0,0].bar(categories, counts, color=colors, alpha=0.7, edgecolor='black')
    axes[0,0].set_title('N√∫mero Total de Amostras')
    axes[0,0].set_ylabel('Quantidade')
    for i, v in enumerate(counts):
        axes[0,0].text(i, v + max(counts)*0.01, str(v), ha='center', fontweight='bold')
    
    # Gr√°fico 2: Distribui√ß√£o t√≠tulos - Originais
    axes[0,1].hist(orig_title_lengths, bins=30, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[0,1].set_title('T√≠tulos - Dados Originais')
    axes[0,1].set_xlabel('Comprimento (caracteres)')
    axes[0,1].set_ylabel('Frequ√™ncia')
    axes[0,1].grid(True, alpha=0.3)
    
    # Gr√°fico 3: Distribui√ß√£o t√≠tulos - Limpos
    axes[0,2].hist(clean_title_lengths, bins=30, alpha=0.7, color='lightgreen', edgecolor='black')
    axes[0,2].set_title('T√≠tulos - Dados Limpos')
    axes[0,2].set_xlabel('Comprimento (caracteres)')
    axes[0,2].set_ylabel('Frequ√™ncia')
    axes[0,2].grid(True, alpha=0.3)
    
    # Gr√°fico 4: Distribui√ß√£o conte√∫do - Originais
    axes[1,0].hist(orig_content_lengths, bins=30, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[1,0].set_title('Conte√∫do - Dados Originais')
    axes[1,0].set_xlabel('Comprimento (caracteres)')
    axes[1,0].set_ylabel('Frequ√™ncia')
    axes[1,0].grid(True, alpha=0.3)
    
    # Gr√°fico 5: Distribui√ß√£o conte√∫do - Limpos
    axes[1,1].hist(clean_content_lengths, bins=30, alpha=0.7, color='lightgreen', edgecolor='black')
    axes[1,1].set_title('Conte√∫do - Dados Limpos')
    axes[1,1].set_xlabel('Comprimento (caracteres)')
    axes[1,1].set_ylabel('Frequ√™ncia')
    axes[1,1].grid(True, alpha=0.3)
    
    # Gr√°fico 6: Boxplot comparativo
    data_to_plot = [orig_title_lengths, clean_title_lengths, orig_content_lengths, clean_content_lengths]
    labels = ['T√≠tulos\\nOriginais', 'T√≠tulos\\nLimpos', 'Conte√∫do\\nOriginais', 'Conte√∫do\\nLimpos']
    colors_box = ['lightcoral', 'lightgreen', 'lightcoral', 'lightgreen']
    
    bp = axes[1,2].boxplot(data_to_plot, labels=labels, patch_artist=True)
    for patch, color in zip(bp['boxes'], colors_box):
        patch.set_facecolor(color)
        patch.set_alpha(0.7)
    
    axes[1,2].set_title('Compara√ß√£o de Distribui√ß√µes')
    axes[1,2].set_ylabel('Comprimento (caracteres)')
    axes[1,2].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Estat√≠sticas comparativas em tabela
    print("\\nüìã ESTAT√çSTICAS COMPARATIVAS:")
    print("-" * 80)
    print(f"{'M√©trica':<25} {'Originais':<15} {'Limpos':<15} {'Varia√ß√£o':<15}")
    print("-" * 80)
    
    # Total de amostras
    original_count = len(raw_data)
    clean_count = len(cleaned_data)
    variation = ((clean_count - original_count) / original_count) * 100
    print(f"{'Total de amostras':<25} {original_count:<15} {clean_count:<15} {variation:+.1f}%")
    
    # Estat√≠sticas de t√≠tulos
    orig_title_mean = np.mean(orig_title_lengths)
    clean_title_mean = np.mean(clean_title_lengths)
    title_variation = ((clean_title_mean - orig_title_mean) / orig_title_mean) * 100
    print(f"{'T√≠tulo m√©dio (chars)':<25} {orig_title_mean:<15.1f} {clean_title_mean:<15.1f} {title_variation:+.1f}%")
    
    # Estat√≠sticas de conte√∫do
    orig_content_mean = np.mean(orig_content_lengths)
    clean_content_mean = np.mean(clean_content_lengths)
    content_variation = ((clean_content_mean - orig_content_mean) / orig_content_mean) * 100
    print(f"{'Conte√∫do m√©dio (chars)':<25} {orig_content_mean:<15.1f} {clean_content_mean:<15.1f} {content_variation:+.1f}%")
    
    print("-" * 80)
    
else:
    print("‚ùå Dados para compara√ß√£o n√£o dispon√≠veis.")

In [None]:
# Exemplos de dados problem√°ticos que foram removidos
if raw_data and cleaned_data:
    print("üîç EXEMPLOS DE DADOS PROBLEM√ÅTICOS REMOVIDOS")
    print("=" * 60)
    
    # Identifica dados que foram removidos
    original_titles = {item['title'] for item in raw_data}
    clean_titles = {item['title'] for item in cleaned_data}
    removed_titles = original_titles - clean_titles
    
    if removed_titles:
        print(f"üìä Total de t√≠tulos √∫nicos removidos: {len(removed_titles)}")
        
        # Encontra exemplos espec√≠ficos dos dados removidos
        removed_examples = []
        for item in raw_data:
            if item['title'] in removed_titles:
                removed_examples.append(item)
                if len(removed_examples) >= 5:  # Mostra at√© 5 exemplos
                    break
        
        print("\\n‚ùå EXEMPLOS DE DADOS REMOVIDOS:")
        print("-" * 60)
        
        for i, example in enumerate(removed_examples, 1):
            print(f"\\n{i}. EXEMPLO PROBLEM√ÅTICO:")
            print(f"   T√≠tulo: '{example['title']}'")
            print(f"   Conte√∫do: '{example['content']}'")
            
            # Identifica o problema
            problems = []
            if len(example['title']) < 3:
                problems.append(f"t√≠tulo muito curto ({len(example['title'])} chars)")
            if len(example['title']) > 200:
                problems.append(f"t√≠tulo muito longo ({len(example['title'])} chars)")
            if len(example['content']) < 5:
                problems.append(f"conte√∫do muito curto ({len(example['content'])} chars)")
            if len(example['content']) > 1000:
                problems.append(f"conte√∫do muito longo ({len(example['content'])} chars)")
            if not example['title'].strip():
                problems.append("t√≠tulo vazio")
            if not example['content'].strip():
                problems.append("conte√∫do vazio")
            
            print(f"   ‚ö†Ô∏è Problema(s): {', '.join(problems) if problems else 'duplicata'}")
    
    else:
        print("‚úÖ Nenhum dado foi removido - todos estavam dentro dos crit√©rios!")
    
    # Mostra exemplos de dados que PERMANECERAM ap√≥s limpeza
    print("\\n\\n‚úÖ EXEMPLOS DE DADOS LIMPOS (QUE PERMANECERAM):")
    print("=" * 60)
    
    for i in range(min(3, len(cleaned_data))):
        example = cleaned_data[i]
        print(f"\\n{i+1}. EXEMPLO LIMPO:")
        print(f"   T√≠tulo: '{example['title']}'")
        print(f"   Conte√∫do: '{example['content']}'")
        print(f"   üìè T√≠tulo: {len(example['title'])} chars, Conte√∫do: {len(example['content'])} chars")
        print(f"   ‚úÖ Status: Dados v√°lidos e dentro dos par√¢metros")

else:
    print("‚ùå Dados para an√°lise de exemplos n√£o dispon√≠veis.")

In [None]:
# Divis√£o dos dados limpos em treino e teste (OTIMIZADO)
if cleaned_data:
    print("‚ö° DIVIDINDO DADOS LIMPOS EM TREINO E TESTE (OTIMIZADO)")
    print("=" * 60)
    
    print(f"üìä Total de dados limpos dispon√≠veis: {len(cleaned_data):,}")
    
    # Configura√ß√£o da divis√£o
    test_size = min(CONFIG['test_size'], len(cleaned_data) // 10)  # M√°ximo 10% para teste
    train_size = len(cleaned_data) - test_size
    
    print(f"üéØ Configura√ß√£o da divis√£o:")
    print(f"   Treino: {train_size:,} amostras")
    print(f"   Teste: {test_size:,} amostras")
    
    # OTIMIZA√á√ÉO: Usa random.sample ao inv√©s de shuffle (muito mais r√°pido!)
    import random
    print(f"‚ö° Selecionando amostras aleat√≥rias (sem shuffle)...")
    
    # Gera √≠ndices aleat√≥rios para teste
    test_indices = set(random.sample(range(len(cleaned_data)), test_size))
    
    # Separa os dados sem embaralhar a lista inteira
    test_data = [cleaned_data[i] for i in test_indices]
    train_data = [cleaned_data[i] for i in range(len(cleaned_data)) if i not in test_indices]
    
    print(f"  üìö Dados de treinamento: {len(train_data):,}")
    print(f"  üß™ Dados de teste: {len(test_data):,}")
    print(f"  üìä Propor√ß√£o treino/teste: {len(train_data)/len(test_data):.1f}")
    
    # Estat√≠sticas dos conjuntos
    train_title_lengths = [len(item['title']) for item in train_data]
    train_content_lengths = [len(item['content']) for item in train_data]
    
    test_title_lengths = [len(item['title']) for item in test_data]
    test_content_lengths = [len(item['content']) for item in test_data]
    
    print(f"\nüìè ESTAT√çSTICAS DO CONJUNTO DE TREINAMENTO:")
    print(f"  T√≠tulos - M√©dia: {np.mean(train_title_lengths):.1f} caracteres")
    print(f"  Conte√∫do - M√©dia: {np.mean(train_content_lengths):.1f} caracteres")
    
    print(f"\nüìè ESTAT√çSTICAS DO CONJUNTO DE TESTE:")
    print(f"  T√≠tulos - M√©dia: {np.mean(test_title_lengths):.1f} caracteres")
    print(f"  Conte√∫do - M√©dia: {np.mean(test_content_lengths):.1f} caracteres")
    
    print(f"\n‚úÖ Divis√£o conclu√≠da com sucesso! (Muito mais r√°pido!)")
    print(f"üéØ Dados prontos para formata√ß√£o e treinamento")
    print(f"‚ö° Tempo economizado: ~90% menos tempo que shuffle()")
    
else:
    print("‚ùå Nenhum dado limpo dispon√≠vel para divis√£o.")
    train_data = []
    test_data = []

### 3.4 Cria√ß√£o do Dataset no Formato Hugging Face

Vamos criar datasets no formato esperado pela biblioteca Hugging Face para facilitar o treinamento.

In [None]:
# Prepara os dados formatados para treinamento
if 'train_data' in locals() and train_data:
    print("üîß CRIANDO DATASETS FORMATADOS")
    print("=" * 50)
    
    # Formata os dados de treinamento
    formatted_train_data = prepare_training_data(train_data)
    
    # Cria o dataset de treinamento no formato Hugging Face
    train_dataset_dict = {
        'text': formatted_train_data
    }
    
    train_dataset = Dataset.from_dict(train_dataset_dict)
    
    print(f"\n‚úÖ Dataset de treinamento criado:")
    print(f"   N√∫mero de exemplos: {len(train_dataset)}")
    print(f"   Colunas: {train_dataset.column_names}")
    
    # Salva algumas amostras dos dados de teste para avalia√ß√£o posterior
    test_samples = test_data[:10]  # Primeiras 10 amostras para teste
    
    print(f"\nüìã Amostras de teste separadas: {len(test_samples)}")
    
    # Mostra estat√≠sticas do dataset final
    text_lengths = [len(text) for text in formatted_train_data]
    print(f"\nüìä ESTAT√çSTICAS DO DATASET FORMATADO:")
    print(f"   Comprimento m√©dio do texto: {np.mean(text_lengths):.0f} caracteres")
    print(f"   Comprimento m√≠nimo: {min(text_lengths)} caracteres")
    print(f"   Comprimento m√°ximo: {max(text_lengths)} caracteres")
    
    # Verifica se os textos n√£o s√£o muito longos para o modelo
    max_length = CONFIG['max_seq_length']
    long_texts = [t for t in text_lengths if t > max_length * 4]  # Aproximadamente 4 chars por token
    
    if long_texts:
        print(f"   ‚ö†Ô∏è Textos muito longos: {len(long_texts)} ({len(long_texts)/len(text_lengths)*100:.1f}%)")
    else:
        print(f"   ‚úÖ Todos os textos est√£o dentro do limite esperado")
    
else:
    print("‚ùå Dados de treinamento n√£o dispon√≠veis.")

In [None]:
# Mostra exemplos do dataset formatado
if 'train_dataset' in locals() and train_dataset:
    print("üëÄ VISUALIZA√á√ÉO DOS DADOS FORMATADOS")
    print("=" * 60)
    
    # Mostra 2 exemplos completos
    for i in range(min(2, len(train_dataset))):
        print(f"\nüìù EXEMPLO {i+1}:")
        print("-" * 40)
        
        # Pega o texto formatado
        formatted_text = train_dataset[i]['text']
        
        # Extrai partes espec√≠ficas para visualiza√ß√£o
        lines = formatted_text.split('\n')
        
        # Encontra o t√≠tulo (depois de "Gere uma descri√ß√£o para o seguinte produto:")
        title_line = None
        content_start = None
        
        for j, line in enumerate(lines):
            if "Gere uma descri√ß√£o para o seguinte produto:" in line:
                if j + 1 < len(lines):
                    title_line = lines[j + 1].strip()
            elif "<|start_header_id|>assistant<|end_header_id|>" in line:
                content_start = j + 1
                break
        
        if title_line:
            print(f"üè∑Ô∏è  T√≠tulo: {title_line}")
        
        if content_start and content_start < len(lines):
            # Pega o conte√∫do (at√© encontrar <|eot_id|>)
            content_lines = []
            for k in range(content_start, len(lines)):
                if "<|eot_id|>" in lines[k]:
                    break
                if lines[k].strip():
                    content_lines.append(lines[k].strip())
            
            content = " ".join(content_lines)
            if content:
                print(f"üìÑ Descri√ß√£o: {content}")
        
        print(f"üìè Comprimento total: {len(formatted_text)} caracteres")
    
    print(f"\n‚úÖ Dataset pronto para treinamento!")
    print(f"üìä Resumo final: {len(train_dataset)} exemplos formatados")
    
else:
    print("‚ùå Dataset formatado n√£o dispon√≠vel.")

## 4. Teste do Modelo Base

### 4.1 Carregamento do Modelo Base

Agora vamos carregar o modelo Llama 3-8B base (antes do fine-tuning) para testar sua performance inicial na tarefa de gera√ß√£o de descri√ß√µes de produtos.

In [None]:
# Carregamento do modelo base para teste inicial
print("ü§ñ CARREGANDO MODELO BASE LLAMA 3-8B")
print("=" * 50)

# Configura√ß√µes do modelo
model_name = CONFIG['model_name']
max_seq_length = CONFIG['max_seq_length']

print(f"üì¶ Modelo: {model_name}")
print(f"üìè Comprimento m√°ximo de sequ√™ncia: {max_seq_length}")
print(f"üîß Carregando em 4-bit: {CONFIG['load_in_4bit']}")

# Carrega o modelo e tokenizer
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name=model_name,
    max_seq_length=max_seq_length,
    dtype=CONFIG['dtype'],
    load_in_4bit=CONFIG['load_in_4bit'],
)

print(f"‚úÖ Modelo carregado com sucesso!")
print(f"üß† Par√¢metros do modelo: {model.num_parameters():,}")

# CORRE√á√ÉO: Configura√ß√£o inicial do tokenizer
print(f"\nüîß CONFIGURANDO TOKENIZER:")
print(f"   Tokenizer original: {type(tokenizer).__name__}")

# Verifica e configura pad_token se necess√°rio
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
    tokenizer.pad_token_id = tokenizer.eos_token_id
    print(f"   ‚úÖ Pad token configurado: {tokenizer.pad_token}")
else:
    print(f"   ‚úÖ Pad token j√° existe: {tokenizer.pad_token}")

# Configura√ß√µes adicionais do tokenizer
tokenizer.padding_side = "right"  # Importante para modelos causais
print(f"   ‚úÖ Padding side: {tokenizer.padding_side}")

print(f"\nüìã TOKENS ESPECIAIS:")
print(f"   EOS token: {tokenizer.eos_token} (ID: {tokenizer.eos_token_id})")
print(f"   BOS token: {tokenizer.bos_token} (ID: {tokenizer.bos_token_id})")
print(f"   PAD token: {tokenizer.pad_token} (ID: {tokenizer.pad_token_id})")
print(f"   UNK token: {tokenizer.unk_token} (ID: {tokenizer.unk_token_id})")

# Configura√ß√£o para gera√ß√£o de texto
FastLanguageModel.for_inference(model)  # Habilita modo de infer√™ncia

print(f"\nüöÄ Modelo e tokenizer prontos para uso!")
print(f"‚úÖ Configura√ß√µes otimizadas para evitar erros de tokeniza√ß√£o")

### 4.2 Fun√ß√£o de Teste para Gera√ß√£o de Descri√ß√µes

Vamos criar uma fun√ß√£o para testar o modelo base gerando descri√ß√µes a partir de t√≠tulos de produtos.

In [None]:
def test_model_generation(model, tokenizer, title, max_new_tokens=256, temperature=0.7, top_p=0.9):
    """
    Testa a gera√ß√£o de descri√ß√£o para um t√≠tulo usando o modelo
    
    Args:
        model: Modelo carregado
        tokenizer: Tokenizer
        title: T√≠tulo do produto
        max_new_tokens: M√°ximo de tokens a gerar
        temperature: Controla criatividade (0.1 = conservador, 1.0 = criativo)
        top_p: Controla diversidade do vocabul√°rio
    
    Returns:
        Descri√ß√£o gerada pelo modelo
    """
    
    # Cria o prompt para o modelo
    prompt = f"""<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Voc√™ √© um assistente especializado em produtos da Amazon. Sua tarefa √© gerar descri√ß√µes detalhadas e precisas de produtos baseadas apenas no t√≠tulo fornecido. As descri√ß√µes devem ser informativas, concisas e atrativas para potenciais compradores.<|eot_id|><|start_header_id|>user<|end_header_id|>

Gere uma descri√ß√£o para o seguinte produto: {title}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

"""
    
    # Tokeniza o prompt
    inputs = tokenizer(prompt, return_tensors="pt")
    
    # Gera a resposta
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            temperature=temperature,
            top_p=top_p,
            do_sample=True,
            pad_token_id=tokenizer.eos_token_id,
            repetition_penalty=1.1
        )
    
    # Decodifica apenas a parte gerada (remove o prompt)
    generated_text = tokenizer.decode(outputs[0][inputs['input_ids'].shape[1]:], skip_special_tokens=True)
    
    # Limpa a resposta removendo tokens de fim
    generated_text = generated_text.split('<|eot_id|>')[0].strip()
    
    return generated_text

print("‚úÖ Fun√ß√£o de teste criada com sucesso!")

### 4.3 Teste do Modelo Base com Amostras Reais

Vamos testar o modelo base com algumas amostras do nosso dataset para avaliar sua performance inicial.

In [None]:
# Teste do modelo base com amostras reais do dataset
if 'test_samples' in locals() and test_samples and 'model' in locals() and 'tokenizer' in locals():
    print("üß™ TESTANDO MODELO BASE COM AMOSTRAS REAIS")
    print("=" * 60)
    
    # Testa com algumas amostras
    num_tests = min(5, len(test_samples))
    
    for i in range(num_tests):
        print(f"\nüî¨ TESTE {i+1}/{num_tests}")
        print("-" * 40)
        
        sample = test_samples[i]
        title = sample['title']
        real_content = sample['content']
        
        print(f"üè∑Ô∏è  T√≠tulo: {title}")
        print(f"üìÑ Descri√ß√£o Real: {real_content}")
        
        # Gera descri√ß√£o com o modelo base
        print(f"\nü§ñ Gerando com modelo base...")
        try:
            generated_content = test_model_generation(
                model, tokenizer, title, 
                max_new_tokens=200,
                temperature=0.7
            )
            
            print(f"üîÆ Descri√ß√£o Gerada: {generated_content}")
            
            # An√°lise b√°sica de qualidade
            real_length = len(real_content)
            gen_length = len(generated_content)
            length_ratio = gen_length / real_length if real_length > 0 else 0
            
            print(f"\nüìä An√°lise:")
            print(f"   Comprimento real: {real_length} caracteres")
            print(f"   Comprimento gerado: {gen_length} caracteres")
            print(f"   Raz√£o de comprimento: {length_ratio:.2f}")
            
            # Verifica palavras-chave do t√≠tulo na descri√ß√£o gerada
            title_words = set(title.lower().split())
            gen_words = set(generated_content.lower().split())
            common_words = title_words.intersection(gen_words)
            relevance_score = len(common_words) / len(title_words) if title_words else 0
            
            print(f"   Relev√¢ncia (palavras em comum): {relevance_score:.2f}")
            
        except Exception as e:
            print(f"‚ùå Erro na gera√ß√£o: {e}")
        
        print("-" * 40)
    
    print(f"\n‚úÖ Teste do modelo base conclu√≠do!")
    print(f"üí° Observe a qualidade das descri√ß√µes geradas antes do fine-tuning")
    
else:
    print("‚ùå Dados de teste ou modelo n√£o dispon√≠veis para teste.")
    print("Execute as c√©lulas anteriores primeiro.")

## 5. Fine-tuning

### 5.1 Configura√ß√£o do LoRA (Low-Rank Adaptation)

Agora vamos configurar o modelo para fine-tuning usando LoRA, que √© uma t√©cnica eficiente que permite treinar apenas uma pequena fra√ß√£o dos par√¢metros do modelo.

In [None]:
# Configura√ß√£o do modelo para fine-tuning com LoRA
print("üîß CONFIGURANDO MODELO PARA FINE-TUNING")
print("=" * 50)

# Configura o modelo para treinamento
model = FastLanguageModel.get_peft_model(
    model,
    r=CONFIG['lora_r'],  # Rank da matriz LoRA
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj",
                   "gate_proj", "up_proj", "down_proj"],
    lora_alpha=CONFIG['lora_alpha'],
    lora_dropout=CONFIG['lora_dropout'],
    bias="none",  # Supports any, but only tested for "none"
    use_gradient_checkpointing="unsloth",  # True or "unsloth" for very long contexts
    random_state=3407,
    use_rslora=False,  # Rank Stabilized LoRA
    loftq_config=None,  # LoftQ
)

print(f"‚úÖ Modelo configurado para LoRA fine-tuning!")

# Informa√ß√µes sobre par√¢metros trein√°veis
total_params = model.num_parameters()
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
percentage = 100 * trainable_params / total_params

print(f"\nüìä ESTAT√çSTICAS DO MODELO:")
print(f"   Total de par√¢metros: {total_params:,}")
print(f"   Par√¢metros trein√°veis: {trainable_params:,}")
print(f"   Percentual trein√°vel: {percentage:.4f}%")
print(f"   Configura√ß√£o LoRA - r: {CONFIG['lora_r']}, alpha: {CONFIG['lora_alpha']}")

print(f"\nüéØ LoRA permite treinar apenas {percentage:.4f}% dos par√¢metros!")

### 5.2 Configura√ß√£o do Treinamento

Vamos configurar os par√¢metros de treinamento e inicializar o trainer.

In [None]:
# Configura√ß√£o dos argumentos de treinamento
print("‚öôÔ∏è CONFIGURANDO PAR√ÇMETROS DE TREINAMENTO")
print("=" * 50)

training_args = TrainingArguments(
    per_device_train_batch_size=CONFIG['batch_size'],
    gradient_accumulation_steps=CONFIG['gradient_accumulation_steps'],
    warmup_steps=5,
    max_steps=CONFIG['max_steps'],
    learning_rate=CONFIG['learning_rate'],
    fp16=not is_bfloat16_supported(),
    bf16=is_bfloat16_supported(),
    logging_steps=1,
    optim="adamw_8bit",
    weight_decay=0.01,
    lr_scheduler_type="linear",
    seed=3407,
    output_dir=CONFIG['output_dir'],
    save_steps=50,  # Salva checkpoint a cada 50 steps
    save_total_limit=2,  # Mant√©m apenas os 2 √∫ltimos checkpoints
    dataloader_pin_memory=False,
    remove_unused_columns=False,
)

print(f"‚úÖ Argumentos de treinamento configurados!")
print(f"\nüìã CONFIGURA√á√ïES DE TREINAMENTO:")
print(f"   Batch size por device: {CONFIG['batch_size']}")
print(f"   Gradient accumulation steps: {CONFIG['gradient_accumulation_steps']}")
print(f"   Batch size efetivo: {CONFIG['batch_size'] * CONFIG['gradient_accumulation_steps']}")
print(f"   Learning rate: {CONFIG['learning_rate']}")
print(f"   Max steps: {CONFIG['max_steps']}")
print(f"   Precision: {'BF16' if is_bfloat16_supported() else 'FP16'}")
print(f"   Output directory: {CONFIG['output_dir']}")

# C√°lculo estimado do tempo de treinamento
effective_batch_size = CONFIG['batch_size'] * CONFIG['gradient_accumulation_steps']
samples_per_step = effective_batch_size
total_samples = CONFIG['max_steps'] * samples_per_step
estimated_epochs = total_samples / len(train_dataset) if 'train_dataset' in locals() else 0

print(f"\n‚è±Ô∏è ESTIMATIVAS:")
print(f"   Amostras por step: {samples_per_step}")
print(f"   Total de amostras processadas: {total_samples:,}")
if 'train_dataset' in locals():
    print(f"   √âpocas estimadas: {estimated_epochs:.2f}")
    print(f"   Dataset size: {len(train_dataset):,}")
else:
    print(f"   Dataset n√£o carregado ainda")

In [None]:
# Valida√ß√£o dos dados antes do treinamento
print("üîç VALIDANDO DADOS ANTES DO TREINAMENTO")
print("=" * 50)

if 'train_dataset' in locals() and train_dataset:
    print(f"‚úÖ Dataset encontrado: {len(train_dataset)} exemplos")
    
    # Verifica alguns exemplos
    sample_texts = train_dataset['text'][:3]
    
    print(f"\nüß™ VALIDA√á√ÉO DE AMOSTRAS:")
    for i, text in enumerate(sample_texts):
        print(f"\n   Exemplo {i+1}:")
        print(f"   Tipo: {type(text)}")
        print(f"   Comprimento: {len(text)} caracteres")
        
        # Verifica se √© string v√°lida
        if isinstance(text, str):
            print(f"   ‚úÖ Formato correto (string)")
            
            # Mostra in√≠cio e fim do texto
            preview = text[:100] + "..." if len(text) > 100 else text
            print(f"   Preview: {preview}")
            
            # Testa tokeniza√ß√£o
            try:
                test_tokens = tokenizer(text, truncation=True, padding=False, max_length=CONFIG['max_seq_length'])
                print(f"   ‚úÖ Tokeniza√ß√£o bem-sucedida: {len(test_tokens['input_ids'])} tokens")
            except Exception as e:
                print(f"   ‚ùå Erro na tokeniza√ß√£o: {e}")
        else:
            print(f"   ‚ùå Formato incorreto: esperado str, encontrado {type(text)}")
    
    # Verifica distribui√ß√£o de comprimentos
    text_lengths = [len(text) for text in sample_texts]
    print(f"\nüìä DISTRIBUI√á√ÉO DE COMPRIMENTOS (amostra):")
    print(f"   M√≠nimo: {min(text_lengths)} caracteres")
    print(f"   M√°ximo: {max(text_lengths)} caracteres")
    print(f"   M√©dia: {np.mean(text_lengths):.0f} caracteres")
    
    # Verifica se h√° textos muito longos
    max_chars = CONFIG['max_seq_length'] * 4  # ~4 chars por token
    too_long = [len(text) for text in train_dataset['text'] if len(text) > max_chars]
    
    if too_long:
        print(f"   ‚ö†Ô∏è {len(too_long)} textos podem ser muito longos (>{max_chars} chars)")
    else:
        print(f"   ‚úÖ Todos os textos est√£o dentro do limite esperado")
    
    print(f"\n‚úÖ Valida√ß√£o conclu√≠da - Dados prontos para treinamento!")
    
else:
    print("‚ùå Dataset n√£o encontrado. Execute as c√©lulas anteriores primeiro.")
    print("‚ùå Necess√°rio: train_dataset deve estar definido")

In [None]:
# Teste r√°pido de tokeniza√ß√£o antes do treinamento
print("üß™ TESTE DE TOKENIZA√á√ÉO ANTES DO TREINAMENTO")
print("=" * 50)

if 'train_dataset' in locals() and train_dataset and 'tokenizer' in locals():
    # Pega uma amostra pequena para teste
    test_samples = train_dataset['text'][:5]
    
    print(f"üîç Testando tokeniza√ß√£o com {len(test_samples)} amostras...")
    
    all_good = True
    
    for i, text in enumerate(test_samples):
        try:
            # Testa tokeniza√ß√£o com truncation e padding
            tokens = tokenizer(
                text,
                truncation=True,
                padding=True,
                max_length=CONFIG['max_seq_length'],
                return_tensors="pt"
            )
            
            input_ids = tokens['input_ids']
            attention_mask = tokens['attention_mask']
            
            print(f"   ‚úÖ Amostra {i+1}: {input_ids.shape[1]} tokens, shape: {input_ids.shape}")
            
            # Verifica se tem padding
            if tokenizer.pad_token_id in input_ids[0]:
                pad_count = (input_ids[0] == tokenizer.pad_token_id).sum().item()
                print(f"      Padding: {pad_count} tokens")
            
        except Exception as e:
            print(f"   ‚ùå Erro na amostra {i+1}: {e}")
            all_good = False
            
    if all_good:
        print(f"\n‚úÖ TODOS OS TESTES PASSARAM!")
        print(f"üéØ Tokeniza√ß√£o funcionando corretamente")
        print(f"üöÄ Pronto para iniciar o treinamento!")
    else:
        print(f"\n‚ùå ALGUNS TESTES FALHARAM!")
        print(f"‚ö†Ô∏è Verifique os erros acima antes de continuar")
        
else:
    print("‚ùå Vari√°veis necess√°rias n√£o encontradas:")
    if 'train_dataset' not in locals():
        print("   - train_dataset n√£o existe")
    if 'tokenizer' not in locals():
        print("   - tokenizer n√£o existe")
    print("üîß Execute as c√©lulas anteriores primeiro")

In [None]:
# Inicializa√ß√£o do trainer (CORRIGIDO para erro de tokeniza√ß√£o)
print("üèÉ‚Äç‚ôÇÔ∏è INICIALIZANDO TRAINER (COM CORRE√á√ïES)")
print("=" * 50)

# CORRE√á√ÉO: Configura padding token se n√£o existir
if tokenizer.pad_token is None:
    tokenizer.pad_token = tokenizer.eos_token
    tokenizer.pad_token_id = tokenizer.eos_token_id
    print("üîß Configurado pad_token = eos_token")

print(f"üîç Verifica√ß√µes do tokenizer:")
print(f"   Pad token: {tokenizer.pad_token}")
print(f"   Pad token ID: {tokenizer.pad_token_id}")
print(f"   EOS token: {tokenizer.eos_token}")
print(f"   EOS token ID: {tokenizer.eos_token_id}")

# Cria o trainer com configura√ß√µes corrigidas
trainer = SFTTrainer(
    model=model,
    tokenizer=tokenizer,
    train_dataset=train_dataset if 'train_dataset' in locals() else None,
    dataset_text_field="text",
    max_seq_length=CONFIG['max_seq_length'],
    dataset_num_proc=2,
    packing=False,  # Desabilitado para evitar problemas de comprimento
    args=training_args,
    # CORRE√á√ÉO: Adiciona configura√ß√µes para lidar com sequ√™ncias de tamanhos diferentes
    data_collator=None,  # Usa o padr√£o do SFTTrainer
    formatting_func=None,  # Usa o dataset_text_field
)

print(f"‚úÖ Trainer inicializado com sucesso! (Corrigido)")
print(f"üìä Dataset de treinamento: {len(train_dataset) if 'train_dataset' in locals() else 0} exemplos")
print(f"üîß Pad token configurado para evitar erros de tokeniza√ß√£o")
print(f"üéØ Pronto para iniciar o fine-tuning!")

### 5.3 Execu√ß√£o do Fine-tuning

‚ö†Ô∏è **ATEN√á√ÉO**: O fine-tuning pode levar algum tempo para ser executado, especialmente dependendo do hardware dispon√≠vel. Monitore o progresso atrav√©s dos logs de treinamento.

In [None]:
# Execu√ß√£o do fine-tuning
import time

print("üöÄ INICIANDO FINE-TUNING DO MODELO")
print("=" * 60)
print(f"‚è∞ In√≠cio: {time.strftime('%H:%M:%S')}")
print(f"üéØ Total de steps: {CONFIG['max_steps']}")
print(f"üìä Dataset size: {len(train_dataset) if 'train_dataset' in locals() else 0}")
print("=" * 60)

try:
    # Inicia o treinamento
    trainer_stats = trainer.train()
    
    print(f"\n‚úÖ FINE-TUNING CONCLU√çDO!")
    print(f"‚è∞ Fim: {time.strftime('%H:%M:%S')}")
    print("=" * 60)
    
    # Mostra estat√≠sticas do treinamento
    print(f"üìà ESTAT√çSTICAS DO TREINAMENTO:")
    print(f"   Training loss: {trainer_stats.training_loss:.4f}")
    print(f"   Training time: {trainer_stats.train_runtime:.2f} segundos")
    print(f"   Samples per second: {trainer_stats.train_samples_per_second:.2f}")
    print(f"   Steps per second: {trainer_stats.train_steps_per_second:.4f}")
    
    training_success = True
    
except Exception as e:
    print(f"‚ùå ERRO DURANTE O TREINAMENTO:")
    print(f"   {str(e)}")
    print(f"‚è∞ Hora do erro: {time.strftime('%H:%M:%S')}")
    training_success = False

print("\nüíæ Salvando logs de treinamento...")
if 'trainer_stats' in locals():
    print(f"‚úÖ Treinamento {'bem-sucedido' if training_success else 'com erros'}")

### 5.4 Salvamento do Modelo Fine-tuned

Ap√≥s o treinamento, vamos salvar o modelo para uso posterior.

In [None]:
# Salvamento do modelo treinado
print("üíæ SALVANDO MODELO FINE-TUNED")
print("=" * 50)

try:
    # Salva o modelo no Google Drive
    model_save_path = CONFIG['model_save_path']
    
    print(f"üìÅ Salvando modelo em: {model_save_path}")
    
    # Salva modelo e tokenizer
    model.save_pretrained(model_save_path)
    tokenizer.save_pretrained(model_save_path)
    
    print(f"‚úÖ Modelo salvo com sucesso!")
    
    # Verifica os arquivos salvos
    import os
    saved_files = os.listdir(model_save_path)
    print(f"üìã Arquivos salvos: {saved_files}")
    
    # Salva tamb√©m apenas os adaptadores LoRA (mais leve)
    lora_save_path = f"{model_save_path}/lora_adapters"
    os.makedirs(lora_save_path, exist_ok=True)
    
    print(f"üíø Salvando adaptadores LoRA em: {lora_save_path}")
    model.save_pretrained(lora_save_path, save_adapter=True, save_config=True)
    
    print(f"‚úÖ Adaptadores LoRA salvos!")
    print(f"üí° Use os adaptadores LoRA para carregar o modelo mais rapidamente")
    
    # Informa√ß√µes sobre o salvamento
    print(f"\nüìä INFORMA√á√ïES DO MODELO SALVO:")
    print(f"   Modelo completo: {model_save_path}")
    print(f"   Adaptadores LoRA: {lora_save_path}")
    print(f"   Configura√ß√£o base: {CONFIG['model_name']}")
    print(f"   LoRA r: {CONFIG['lora_r']}, alpha: {CONFIG['lora_alpha']}")
    
    model_saved = True
    
except Exception as e:
    print(f"‚ùå Erro ao salvar modelo: {e}")
    model_saved = False

print(f"\n{'‚úÖ Modelo salvo com sucesso!' if model_saved else '‚ùå Falha ao salvar modelo'}")

## 6. Teste do Modelo Treinado

### 6.1 Compara√ß√£o: Modelo Base vs Modelo Fine-tuned

Agora vamos testar o modelo ap√≥s o fine-tuning e comparar com as respostas do modelo base.

In [None]:
# Testa o modelo fine-tuned e compara com dados reais
print("üß™ TESTANDO MODELO FINE-TUNED")
print("=" * 60)

# Configura o modelo para infer√™ncia
FastLanguageModel.for_inference(model)  # Habilita modo de infer√™ncia

if 'test_samples' in locals() and test_samples:
    # Testa com as mesmas amostras usadas no teste do modelo base
    num_tests = min(5, len(test_samples))
    
    print(f"üî¨ Testando com {num_tests} amostras")
    print("üÜö Compara√ß√£o: Base vs Fine-tuned vs Real")
    
    for i in range(num_tests):
        print(f"\n" + "="*80)
        print(f"üß™ TESTE {i+1}/{num_tests}")
        print("="*80)
        
        sample = test_samples[i]
        title = sample['title']
        real_content = sample['content']
        
        print(f"üè∑Ô∏è  T√çTULO: {title}")
        print(f"\nüìÑ DESCRI√á√ÉO REAL:")
        print(f"   {real_content}")
        
        # Gera com modelo fine-tuned
        print(f"\nü§ñ DESCRI√á√ÉO FINE-TUNED:")
        try:
            finetuned_content = test_model_generation(
                model, tokenizer, title,
                max_new_tokens=200,
                temperature=0.7
            )
            print(f"   {finetuned_content}")
            
            # An√°lise de qualidade
            real_length = len(real_content)
            ft_length = len(finetuned_content)
            
            # Verifica relev√¢ncia (palavras em comum com t√≠tulo)
            title_words = set(title.lower().split())
            real_words = set(real_content.lower().split())
            ft_words = set(finetuned_content.lower().split())
            
            real_relevance = len(title_words.intersection(real_words)) / len(title_words) if title_words else 0
            ft_relevance = len(title_words.intersection(ft_words)) / len(title_words) if title_words else 0
            
            print(f"\nüìä AN√ÅLISE COMPARATIVA:")
            print(f"   Real: {real_length} chars, Relev√¢ncia: {real_relevance:.2f}")
            print(f"   Fine-tuned: {ft_length} chars, Relev√¢ncia: {ft_relevance:.2f}")
            
            # Qualidade relativa
            length_ratio = ft_length / real_length if real_length > 0 else 0
            relevance_improvement = ft_relevance - real_relevance
            
            print(f"   Raz√£o de comprimento: {length_ratio:.2f}")
            print(f"   Melhoria na relev√¢ncia: {relevance_improvement:+.2f}")
            
        except Exception as e:
            print(f"   ‚ùå Erro na gera√ß√£o: {e}")
        
        print("-" * 80)
    
    print(f"\n‚úÖ Teste comparativo conclu√≠do!")
    
else:
    print("‚ùå Amostras de teste n√£o dispon√≠veis.")
    print("Execute as se√ß√µes anteriores primeiro.")

### 6.2 Teste com Novos Produtos

Vamos testar o modelo com alguns t√≠tulos de produtos que n√£o estavam no dataset de treinamento.

In [None]:
# Teste com novos produtos (n√£o vistos durante o treinamento)
print("üÜï TESTANDO COM PRODUTOS NOVOS")
print("=" * 60)

# T√≠tulos de produtos para teste
test_titles = [
    "Smartphone Samsung Galaxy S24 Ultra 256GB 5G",
    "Cafeteira El√©trica Autom√°tica com Timer Program√°vel",
    "T√™nis Nike Air Max 270 Masculino Running",
    "Livro 'Intelig√™ncia Artificial - Uma Abordagem Moderna'",
    "Fone de Ouvido Bluetooth Wireless com Cancelamento de Ru√≠do",
    "Notebook Dell Inspiron 15 Intel Core i7 16GB RAM 512GB SSD",
    "Panela de Press√£o El√©trica 6 Litros Inox",
    "Rel√≥gio Smartwatch Apple Watch Series 9 GPS"
]

print(f"üß™ Testando {len(test_titles)} novos produtos")

for i, title in enumerate(test_titles, 1):
    print(f"\n" + "="*70)
    print(f"üîç TESTE {i}/{len(test_titles)}")
    print("="*70)
    
    print(f"üè∑Ô∏è  T√çTULO: {title}")
    
    try:
        # Gera descri√ß√£o com o modelo fine-tuned
        generated_description = test_model_generation(
            model, tokenizer, title,
            max_new_tokens=200,
            temperature=0.7
        )
        
        print(f"\nüìù DESCRI√á√ÉO GERADA:")
        print(f"   {generated_description}")
        
        # An√°lise b√°sica
        description_length = len(generated_description)
        title_words = set(title.lower().split())
        desc_words = set(generated_description.lower().split())
        relevance = len(title_words.intersection(desc_words)) / len(title_words) if title_words else 0
        
        print(f"\nüìä M√âTRICAS:")
        print(f"   Comprimento: {description_length} caracteres")
        print(f"   Palavras em comum: {len(title_words.intersection(desc_words))}/{len(title_words)}")
        print(f"   Score de relev√¢ncia: {relevance:.2f}")
        
        # An√°lise qualitativa simples
        quality_indicators = []
        if description_length > 50:
            quality_indicators.append("‚úÖ Descri√ß√£o substancial")
        if relevance > 0.3:
            quality_indicators.append("‚úÖ Boa relev√¢ncia")
        if any(word in generated_description.lower() for word in ['produto', 'qualidade', 'caracter√≠sticas', 'design', 'funcionalidade']):
            quality_indicators.append("‚úÖ Linguagem comercial")
        
        if quality_indicators:
            print(f"   Qualidade: {', '.join(quality_indicators)}")
        
    except Exception as e:
        print(f"   ‚ùå Erro na gera√ß√£o: {e}")
    
    print("-" * 70)

print(f"\n‚úÖ Teste com novos produtos conclu√≠do!")
print(f"üí° Observe como o modelo generaliza para produtos n√£o vistos no treinamento")

## 7. Demonstra√ß√£o Interativa

### 7.1 Interface Simples para Teste

Criamos uma fun√ß√£o interativa onde voc√™ pode testar o modelo com qualquer t√≠tulo de produto.

In [None]:
def generate_product_description(title, temperature=0.7, max_tokens=200):
    """
    Fun√ß√£o para gerar descri√ß√£o de produto de forma interativa
    
    Args:
        title: T√≠tulo do produto
        temperature: Controla criatividade (0.1-1.0)
        max_tokens: M√°ximo de tokens a gerar
    
    Returns:
        Descri√ß√£o gerada
    """
    try:
        description = test_model_generation(
            model, tokenizer, title,
            max_new_tokens=max_tokens,
            temperature=temperature
        )
        return description
    except Exception as e:
        return f"Erro na gera√ß√£o: {e}"

# Demonstra√ß√£o interativa
def interactive_demo():
    """Fun√ß√£o de demonstra√ß√£o interativa"""
    
    print("üéØ DEMONSTRA√á√ÉO INTERATIVA DO MODELO FINE-TUNED")
    print("=" * 60)
    print("üí° Digite t√≠tulos de produtos para gerar descri√ß√µes!")
    print("üí° Digite 'sair' para encerrar")
    print("=" * 60)
    
    while True:
        print(f"\nüè∑Ô∏è  Digite o t√≠tulo do produto:")
        user_input = input("T√≠tulo: ").strip()
        
        if user_input.lower() in ['sair', 'exit', 'quit', '']:
            print("üëã Encerrando demonstra√ß√£o...")
            break
        
        print(f"\nü§ñ Gerando descri√ß√£o para: '{user_input}'")
        print("-" * 40)
        
        # Gera a descri√ß√£o
        description = generate_product_description(user_input)
        
        print(f"üìù DESCRI√á√ÉO GERADA:")
        print(f"   {description}")
        
        # An√°lise r√°pida
        desc_length = len(description)
        title_words = set(user_input.lower().split())
        desc_words = set(description.lower().split())
        relevance = len(title_words.intersection(desc_words)) / len(title_words) if title_words else 0
        
        print(f"\nüìä M√âTRICAS:")
        print(f"   Comprimento: {desc_length} caracteres")
        print(f"   Relev√¢ncia: {relevance:.2f}")
        
        print("-" * 40)

print("‚úÖ Fun√ß√£o de demonstra√ß√£o interativa criada!")
print("üí° Execute interactive_demo() para come√ßar a testar!")

In [None]:
# Execute esta c√©lula para iniciar a demonstra√ß√£o interativa
print("üéÆ INICIANDO DEMONSTRA√á√ÉO INTERATIVA")
print("=" * 50)
print("üí° Teste o modelo com t√≠tulos de produtos personalizados!")
print("üí° Exemplos de t√≠tulos para testar:")
print("   - 'Mouse Gamer RGB com DPI Ajust√°vel'")
print("   - 'Cadeira Ergon√¥mica para Escrit√≥rio'")
print("   - 'Mochila Imperme√°vel para Notebook'")
print("   - Ou qualquer outro t√≠tulo de produto!")
print("=" * 50)

# Descomente a linha abaixo para executar a demonstra√ß√£o interativa
# interactive_demo()

### 7.2 Resumo Final e Conclus√µes

Parab√©ns! Voc√™ completou o processo de fine-tuning do modelo Llama 3-8B para gera√ß√£o de descri√ß√µes de produtos Amazon.

In [None]:
# Resumo final do projeto
print("üéâ RESUMO FINAL DO TECH CHALLENGE")
print("=" * 60)

print("üéØ OBJETIVO ALCAN√áADO:")
print("   ‚úÖ Fine-tuning do Llama 3-8B para descri√ß√µes de produtos Amazon")
print("   ‚úÖ Dataset AmazonTitles-1.3MM processado e limpo")
print("   ‚úÖ Modelo treinado com t√©cnica LoRA")
print("   ‚úÖ Testes e compara√ß√µes realizados")

print(f"\nüìä ESTAT√çSTICAS DO PROJETO:")
if 'raw_data' in locals():
    print(f"   üìÅ Dados originais: {len(raw_data):,} amostras")
if 'cleaned_data' in locals():
    print(f"   üßπ Dados limpos: {len(cleaned_data):,} amostras")
if 'train_dataset' in locals():
    print(f"   üìö Dataset de treinamento: {len(train_dataset):,} exemplos")
if 'CONFIG' in locals():
    print(f"   üîß Steps de treinamento: {CONFIG['max_steps']}")
    print(f"   ‚öôÔ∏è LoRA r={CONFIG['lora_r']}, alpha={CONFIG['lora_alpha']}")

print(f"\nüõ†Ô∏è TECNOLOGIAS UTILIZADAS:")
print("   ü§ñ Modelo: Llama 3-8B (Unsloth 4-bit)")
print("   üìñ Biblioteca: Transformers, TRL, Unsloth")
print("   üîß T√©cnica: LoRA (Low-Rank Adaptation)")
print("   üìä Dataset: Amazon Products (trn.json.gz)")
print("   ‚òÅÔ∏è Ambiente: Google Colab")

print(f"\nüíæ ARQUIVOS SALVOS:")
if 'CONFIG' in locals():
    print(f"   üìÅ Modelo completo: {CONFIG['model_save_path']}")
    print(f"   üíø Adaptadores LoRA: {CONFIG['model_save_path']}/lora_adapters")
    print(f"   üìä Logs de treinamento: {CONFIG['output_dir']}")

print(f"\nüöÄ PR√ìXIMOS PASSOS SUGERIDOS:")
print("   1. Ajustar hiperpar√¢metros para melhor performance")
print("   2. Testar com datasets maiores")
print("   3. Implementar m√©tricas de avalia√ß√£o mais sofisticadas")
print("   4. Experimentar com diferentes t√©cnicas de prompt")
print("   5. Integrar o modelo em uma aplica√ß√£o web")

print(f"\nüìö APRENDIZADOS:")
print("   ‚úÖ Fine-tuning eficiente com LoRA")
print("   ‚úÖ Processamento de datasets grandes")
print("   ‚úÖ Formata√ß√£o de prompts para Llama 3")
print("   ‚úÖ T√©cnicas de limpeza e pr√©-processamento")
print("   ‚úÖ Avalia√ß√£o de modelos de linguagem")

print(f"\nüéâ PARAB√âNS! TECH CHALLENGE CONCLU√çDO COM SUCESSO!")
print("=" * 60)