# Tech Challenge - Fine-tuning para Produtos Amazon

**Objetivo**: Executar fine-tuning de um foundation model usando o dataset AmazonTitles-1.3MM para gerar descri√ß√µes de produtos baseadas em t√≠tulos.

**Dataset**: Utilizaremos o arquivo `trn.json.gz` que cont√©m t√≠tulos e descri√ß√µes de produtos da Amazon.

**Modelo Escolhido**: Llama 3-8B com Unsloth para otimiza√ß√£o de treinamento.

---

## üìã √çndice
1. [Configura√ß√£o Inicial](#1-configuracao-inicial)
2. [Explora√ß√£o dos Dados](#2-exploracao-dos-dados)
3. [Prepara√ß√£o do Dataset](#3-preparacao-do-dataset)
4. [Teste do Modelo Base](#4-teste-do-modelo-base)
5. [Fine-tuning](#5-fine-tuning)
6. [Teste do Modelo Treinado](#6-teste-do-modelo-treinado)
7. [Demonstra√ß√£o Interativa](#7-demonstracao-interativa)

---

## 1. Configura√ß√£o Inicial

### 1.1 Montagem do Google Drive
Primeiro, vamos montar o Google Drive para acessar e salvar nossos arquivos.

In [None]:
from google.colab import drive
import os

# Monta o Google Drive
drive.mount('/content/drive')

# Define o diret√≥rio de trabalho (usando o mesmo diret√≥rio onde est√° o arquivo de dados)
WORK_DIR = '/content/drive/MyDrive/FineTunning/TechChallenge03'
os.makedirs(WORK_DIR, exist_ok=True)

print(f"‚úÖ Google Drive montado com sucesso!")
print(f"üìÅ Diret√≥rio de trabalho: {WORK_DIR}")

# Verifica se o diret√≥rio existe e lista os arquivos
if os.path.exists(WORK_DIR):
    files_in_dir = os.listdir(WORK_DIR)
    print(f"üìã Arquivos no diret√≥rio: {files_in_dir}")
else:
    print(f"‚ö†Ô∏è Diret√≥rio n√£o existe, ser√° criado: {WORK_DIR}")

### 1.2 Instala√ß√£o das Depend√™ncias

Instalamos as bibliotecas necess√°rias:
- **Unsloth**: Otimiza√ß√£o para fine-tuning eficiente
- **Transformers**: Biblioteca principal para modelos de linguagem
- **Datasets**: Para manipula√ß√£o de datasets
- **TRL**: Para treinamento de modelos de linguagem

In [None]:
# Instala√ß√£o das depend√™ncias principais
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps xformers "trl<0.9.0" peft accelerate bitsandbytes
!pip install transformers datasets torch

print("‚úÖ Todas as depend√™ncias foram instaladas com sucesso!")

### 1.3 Importa√ß√£o das Bibliotecas e Configura√ß√µes Iniciais

In [None]:
# Imports necess√°rios
import json
import gzip
import pandas as pd
import numpy as np
from datasets import Dataset, load_dataset
import torch
from transformers import TrainingArguments, TextStreamer
from trl import SFTTrainer
from unsloth import FastLanguageModel, is_bfloat16_supported
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display, HTML
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Bibliotecas importadas com sucesso!")
print(f"üî• CUDA dispon√≠vel: {torch.cuda.is_available()}")
print(f"üíæ GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N√£o dispon√≠vel'}")

### 1.4 Configura√ß√µes do Modelo e Treinamento

In [None]:
# Configura√ß√µes principais
CONFIG = {
    # Configura√ß√µes do modelo
    'model_name': "unsloth/llama-3-8b-bnb-4bit",
    'max_seq_length': 2048,
    'dtype': None,  # Ser√° determinado automaticamente
    'load_in_4bit': True,
    
    # Configura√ß√µes do dataset
    'data_file': '/content/drive/MyDrive/FineTunning/TechChallenge03/trn.json.gz',
    'sample_size': 10000,  # N√∫mero de amostras para treinamento (pode ajustar)
    'test_size': 100,  # N√∫mero de amostras para teste
    
    # Configura√ß√µes do fine-tuning
    'lora_r': 16,
    'lora_alpha': 16,
    'lora_dropout': 0,
    'max_steps': 100,  # Ajuste conforme necess√°rio
    'learning_rate': 2e-4,
    'batch_size': 2,
    'gradient_accumulation_steps': 4,
    
    # Caminhos - usando o mesmo diret√≥rio base
    'base_dir': '/content/drive/MyDrive/FineTunning/TechChallenge03',
    'output_dir': '/content/drive/MyDrive/FineTunning/TechChallenge03/outputs',
    'model_save_path': '/content/drive/MyDrive/FineTunning/TechChallenge03/amazon_model',
}

# Cria√ß√£o dos diret√≥rios
os.makedirs(CONFIG['base_dir'], exist_ok=True)
os.makedirs(CONFIG['output_dir'], exist_ok=True)
os.makedirs(CONFIG['model_save_path'], exist_ok=True)

print("‚öôÔ∏è Configura√ß√µes definidas:")
for key, value in CONFIG.items():
    print(f"  {key}: {value}")

## 2. Explora√ß√£o dos Dados

### 2.1 Upload do Arquivo de Dados

Primeiro, voc√™ precisa fazer upload do arquivo `trn.json.gz` para o Colab.
Execute a c√©lula abaixo e fa√ßa upload do arquivo quando solicitado.

In [None]:
import os

# Define o caminho para o arquivo no Google Drive
DATA_FILE_PATH = '/content/drive/MyDrive/FineTunning/TechChallenge03/trn.json.gz'

# Verifica se o arquivo existe
if os.path.exists(DATA_FILE_PATH):
    print("‚úÖ Arquivo trn.json.gz encontrado no Google Drive!")
    print(f"üìÅ Caminho: {DATA_FILE_PATH}")
    
    # Verifica o tamanho do arquivo
    file_size = os.path.getsize(DATA_FILE_PATH)
    print(f"üìä Tamanho do arquivo: {file_size / (1024*1024):.1f} MB")
else:
    print("‚ùå Arquivo n√£o encontrado no caminho especificado.")
    print(f"‚ùå Caminho verificado: {DATA_FILE_PATH}")
    print("üí° Certifique-se de que o arquivo trn.json.gz est√° no diret√≥rio correto do Google Drive.")
    DATA_FILE_PATH = None

### 2.2 Carregamento dos Dados

Vamos carregar o dataset completo (ou conforme configurado) e analisar sua estrutura para entender melhor os dados com que estamos trabalhando.

In [None]:
def load_amazon_data(file_path, sample_size=None):
    """
    Carrega os dados do arquivo JSON comprimido, extraindo apenas title e content
    
    Args:
        file_path: Caminho para o arquivo trn.json.gz
        sample_size: N√∫mero de amostras a carregar (None para carregar tudo)
    
    Returns:
        Lista de dicion√°rios com apenas os campos title e content
    """
    data = []
    
    print(f"üìñ Carregando dados de {file_path}...")
    print("üéØ Extraindo apenas os campos 'title' e 'content'")
    
    try:
        with gzip.open(file_path, 'rt', encoding='utf-8') as f:
            for i, line in enumerate(f):
                if sample_size and i >= sample_size:
                    break
                    
                try:
                    json_obj = json.loads(line.strip())
                    
                    # Extrai apenas title e content, desconsiderando outros campos
                    if 'title' in json_obj and 'content' in json_obj:
                        clean_item = {
                            'title': json_obj['title'].strip(),
                            'content': json_obj['content'].strip()
                        }
                        
                        # S√≥ adiciona se ambos os campos n√£o est√£o vazios
                        if clean_item['title'] and clean_item['content']:
                            data.append(clean_item)
                            
                except json.JSONDecodeError:
                    continue
                    
                # Progress update
                if (i + 1) % 1000 == 0:
                    print(f"  Processadas {i + 1} linhas, v√°lidas: {len(data)}")
    
    except Exception as e:
        print(f"‚ùå Erro ao carregar dados: {e}")
        return []
    
    print(f"‚úÖ Dados carregados com sucesso!")
    print(f"üìä Total de amostras v√°lidas: {len(data)}")
    print(f"üéØ Campos por amostra: title, content")
    return data

# Carrega o dataset conforme configura√ß√£o (completo ou amostra)
if DATA_FILE_PATH:
    print(f"üîÑ Carregando {CONFIG['sample_size']} amostras conforme configura√ß√£o...")
    raw_data = load_amazon_data(DATA_FILE_PATH, sample_size=CONFIG['sample_size'])
else:
    print("‚ùå Arquivo de dados n√£o dispon√≠vel. Execute a c√©lula de verifica√ß√£o primeiro.")
    raw_data = []

In [None]:
# An√°lise da estrutura dos dados brutos (antes da limpeza)
if raw_data:
    print("üîç AN√ÅLISE DOS DADOS BRUTOS (ANTES DA LIMPEZA)")
    print("=" * 50)
    
    # Exemplo de uma amostra
    print("üìù Exemplo de uma amostra (apenas title e content):")
    sample_item = raw_data[0]
    for key, value in sample_item.items():
        print(f"  {key}: {value}")
    
    print("\n" + "=" * 50)
    
    # Estat√≠sticas gerais
    print(f"üìä ESTAT√çSTICAS GERAIS DOS DADOS BRUTOS:")
    print(f"  Total de amostras carregadas: {len(raw_data)}")
    print(f"  Campos utilizados: title, content")
    print(f"  Outros campos: desconsiderados conforme solicitado")
    
    # An√°lise de qualidade inicial
    print(f"\nüîç AN√ÅLISE DE QUALIDADE INICIAL:")
    
    # Verifica tamanhos dos textos
    title_lengths = [len(item['title']) for item in raw_data]
    content_lengths = [len(item['content']) for item in raw_data]
    
    print(f"  T√≠tulos muito curtos (<3 chars): {sum(1 for x in title_lengths if x < 3)}")
    print(f"  T√≠tulos muito longos (>200 chars): {sum(1 for x in title_lengths if x > 200)}")
    print(f"  Conte√∫do muito curto (<5 chars): {sum(1 for x in content_lengths if x < 5)}")
    print(f"  Conte√∫do muito longo (>1000 chars): {sum(1 for x in content_lengths if x > 1000)}")
    
    # Verifica duplicatas
    unique_titles = len(set(item['title'].lower() for item in raw_data))
    duplicates = len(raw_data) - unique_titles
    print(f"  T√≠tulos duplicados: {duplicates}")
    
    print(f"\n‚ö†Ô∏è Dados precisam de limpeza antes do treinamento!")
    
else:
    print("‚ùå Nenhum dado foi carregado.")

In [None]:
# An√°lise detalhada dos dados brutos
if raw_data:
    print("üìè AN√ÅLISE DETALHADA DOS DADOS BRUTOS")
    print("=" * 50)
    
    # Calcula estat√≠sticas de comprimento
    title_lengths = [len(item['title']) for item in raw_data]
    content_lengths = [len(item['content']) for item in raw_data]
    
    title_words = [len(item['title'].split()) for item in raw_data]
    content_words = [len(item['content'].split()) for item in raw_data]
    
    print("üìù Comprimento em caracteres:")
    print(f"  T√≠tulos - M√≠n: {min(title_lengths)}, M√°x: {max(title_lengths)}, M√©dia: {np.mean(title_lengths):.1f}")
    print(f"  Conte√∫do - M√≠n: {min(content_lengths)}, M√°x: {max(content_lengths)}, M√©dia: {np.mean(content_lengths):.1f}")
    
    print("\nüî§ Comprimento em palavras:")
    print(f"  T√≠tulos - M√≠n: {min(title_words)}, M√°x: {max(title_words)}, M√©dia: {np.mean(title_words):.1f}")
    print(f"  Conte√∫do - M√≠n: {min(content_words)}, M√°x: {max(content_words)}, M√©dia: {np.mean(content_words):.1f}")
    
    # Exemplos de diferentes tamanhos
    print("\nüìã EXEMPLOS DE PRODUTOS (DADOS BRUTOS):")
    print("=" * 50)
    
    # T√≠tulo mais curto
    shortest_idx = title_lengths.index(min(title_lengths))
    print(f"üî∏ T√≠tulo mais curto ({len(raw_data[shortest_idx]['title'])} chars):")
    print(f"  T√≠tulo: {raw_data[shortest_idx]['title']}")
    print(f"  Conte√∫do: {raw_data[shortest_idx]['content']}")
    
    print("\n" + "-" * 30)
    
    # T√≠tulo mais longo
    longest_idx = title_lengths.index(max(title_lengths))
    print(f"üî∏ T√≠tulo mais longo ({len(raw_data[longest_idx]['title'])} chars):")
    print(f"  T√≠tulo: {raw_data[longest_idx]['title']}")
    print(f"  Conte√∫do: {raw_data[longest_idx]['content'][:200]}...")
    
    print("\n" + "-" * 30)
    
    # Exemplo aleat√≥rio
    import random
    random_idx = random.randint(0, len(raw_data)-1)
    print(f"üî∏ Exemplo aleat√≥rio:")
    print(f"  T√≠tulo: {raw_data[random_idx]['title']}")
    print(f"  Conte√∫do: {raw_data[random_idx]['content']}")
    
else:
    print("‚ùå Nenhum dado dispon√≠vel para an√°lise.")

In [None]:
# Visualiza√ß√µes dos dados brutos
if raw_data:
    print("üìä CRIANDO VISUALIZA√á√ïES DOS DADOS BRUTOS")
    print("=" * 50)
    
    # Recalcula as estat√≠sticas para as visualiza√ß√µes
    title_lengths = [len(item['title']) for item in raw_data]
    content_lengths = [len(item['content']) for item in raw_data]
    title_words = [len(item['title'].split()) for item in raw_data]
    content_words = [len(item['content'].split()) for item in raw_data]
    
    # Configura√ß√£o do matplotlib
    plt.style.use('default')
    fig, axes = plt.subplots(2, 2, figsize=(15, 10))
    fig.suptitle('An√°lise dos Dados Brutos - Amazon Products', fontsize=16, fontweight='bold')
    
    # Gr√°fico 1: Distribui√ß√£o do comprimento dos t√≠tulos
    axes[0,0].hist(title_lengths, bins=30, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[0,0].set_title('Distribui√ß√£o - Comprimento dos T√≠tulos (caracteres)')
    axes[0,0].set_xlabel('N√∫mero de caracteres')
    axes[0,0].set_ylabel('Frequ√™ncia')
    axes[0,0].grid(True, alpha=0.3)
    axes[0,0].axvline(x=3, color='red', linestyle='--', alpha=0.7, label='M√≠n (3)')
    axes[0,0].axvline(x=200, color='red', linestyle='--', alpha=0.7, label='M√°x (200)')
    axes[0,0].legend()
    
    # Gr√°fico 2: Distribui√ß√£o do comprimento do conte√∫do
    axes[0,1].hist(content_lengths, bins=30, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[0,1].set_title('Distribui√ß√£o - Comprimento do Conte√∫do (caracteres)')
    axes[0,1].set_xlabel('N√∫mero de caracteres')
    axes[0,1].set_ylabel('Frequ√™ncia')
    axes[0,1].grid(True, alpha=0.3)
    axes[0,1].axvline(x=5, color='red', linestyle='--', alpha=0.7, label='M√≠n (5)')
    axes[0,1].axvline(x=1000, color='red', linestyle='--', alpha=0.7, label='M√°x (1000)')
    axes[0,1].legend()
    
    # Gr√°fico 3: Distribui√ß√£o de palavras nos t√≠tulos
    axes[1,0].hist(title_words, bins=20, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[1,0].set_title('Distribui√ß√£o - Palavras nos T√≠tulos')
    axes[1,0].set_xlabel('N√∫mero de palavras')
    axes[1,0].set_ylabel('Frequ√™ncia')
    axes[1,0].grid(True, alpha=0.3)
    
    # Gr√°fico 4: Rela√ß√£o entre t√≠tulo e conte√∫do
    axes[1,1].scatter(title_lengths, content_lengths, alpha=0.5, color='purple', s=10)
    axes[1,1].set_title('Rela√ß√£o: T√≠tulo vs Conte√∫do (caracteres)')
    axes[1,1].set_xlabel('Comprimento do t√≠tulo')
    axes[1,1].set_ylabel('Comprimento do conte√∫do')
    axes[1,1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    print("‚úÖ Visualiza√ß√µes dos dados brutos criadas!")
    print("‚ö†Ô∏è Linhas vermelhas mostram limites para limpeza")
    
else:
    print("‚ùå Nenhum dado dispon√≠vel para visualiza√ß√£o.")

## 3. Prepara√ß√£o do Dataset

### 3.1 Formata√ß√£o dos Dados para Fine-tuning

Agora vamos formatar os dados no padr√£o esperado pelo modelo. Criaremos prompts estruturados onde:
- **Input**: T√≠tulo do produto
- **Output**: Descri√ß√£o do produto

O formato seguir√° o padr√£o de chat do Llama 3, usando tags especiais para delimitar o in√≠cio e fim das respostas.

In [None]:
def format_prompt(title, content):
    """
    Formata um exemplo de treinamento no padr√£o do Llama 3
    
    Args:
        title: T√≠tulo do produto
        content: Descri√ß√£o do produto
    
    Returns:
        String formatada para treinamento
    """
    
    # Template de prompt para o modelo
    prompt_template = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Voc√™ √© um assistente especializado em produtos da Amazon. Sua tarefa √© gerar descri√ß√µes detalhadas e precisas de produtos baseadas apenas no t√≠tulo fornecido. As descri√ß√µes devem ser informativas, concisas e atrativas para potenciais compradores.<|eot_id|><|start_header_id|>user<|end_header_id|>

Gere uma descri√ß√£o para o seguinte produto: {title}<|eot_id|><|start_header_id|>assistant<|end_header_id|>

{content}<|eot_id|><|end_of_text|>"""
    
    return prompt_template.format(title=title, content=content)

def prepare_training_data(data, train_size=None):
    """
    Prepara os dados para treinamento formatando cada exemplo
    
    Args:
        data: Lista de dicion√°rios com title e content
        train_size: N√∫mero m√°ximo de exemplos para treinamento
    
    Returns:
        Lista de strings formatadas para treinamento
    """
    
    print(f"üîÑ Preparando dados para treinamento...")
    
    if train_size:
        data = data[:train_size]
    
    formatted_data = []
    
    for i, item in enumerate(data):
        formatted_prompt = format_prompt(item['title'], item['content'])
        formatted_data.append(formatted_prompt)
        
        # Progress update
        if (i + 1) % 500 == 0:
            print(f"  Formatados {i + 1} exemplos...")
    
    print(f"‚úÖ Prepara√ß√£o conclu√≠da! Total: {len(formatted_data)} exemplos formatados")
    return formatted_data

# Testa a formata√ß√£o com um exemplo
if sample_data:
    print("üß™ TESTE DE FORMATA√á√ÉO")
    print("=" * 60)
    
    # Pega um exemplo para demonstrar a formata√ß√£o
    test_example = sample_data[0]
    formatted_example = format_prompt(test_example['title'], test_example['content'])
    
    print("üìù Exemplo original:")
    print(f"  T√≠tulo: {test_example['title']}")
    print(f"  Conte√∫do: {test_example['content']}")
    
    print("\nüéØ Exemplo formatado para treinamento:")
    print("-" * 60)
    print(formatted_example)
    print("-" * 60)
    
else:
    print("‚ùå Nenhum dado dispon√≠vel para teste.")

### 3.3 Divis√£o em Conjuntos de Treino e Teste

Agora que temos os dados limpos, vamos dividi-los em conjuntos de treinamento e teste.

### 3.2 Limpeza e Pr√©-processamento dos Dados

Antes de prosseguir com o treinamento, √© essencial limpar os dados removendo duplicatas, valores nulos, textos muito curtos ou muito longos, e outros problemas de qualidade.

In [None]:
def clean_amazon_data(data, min_title_length=3, max_title_length=200, 
                      min_content_length=5, max_content_length=1000):
    """
    Limpa e pr√©-processa os dados do Amazon dataset
    
    Args:
        data: Lista de dicion√°rios com title e content
        min_title_length: Comprimento m√≠nimo do t√≠tulo
        max_title_length: Comprimento m√°ximo do t√≠tulo
        min_content_length: Comprimento m√≠nimo do conte√∫do
        max_content_length: Comprimento m√°ximo do conte√∫do
    
    Returns:
        Lista de dados limpos e estat√≠sticas da limpeza
    """
    
    print("üßπ INICIANDO LIMPEZA DOS DADOS")
    print("=" * 50)
    
    # Estat√≠sticas iniciais
    initial_count = len(data)
    print(f"üìä Dados iniciais: {initial_count} amostras")
    
    # 1. Remove valores nulos ou vazios
    print("\nüîç 1. Removendo valores nulos ou vazios...")
    data = [item for item in data if item.get('title') and item.get('content')]
    after_null_removal = len(data)
    removed_null = initial_count - after_null_removal
    print(f"   Removidas: {removed_null} amostras")
    print(f"   Restantes: {after_null_removal} amostras")
    
    # 2. Remove whitespace extra e normaliza
    print("\n‚úÇÔ∏è 2. Normalizando espa√ßos em branco...")
    for item in data:
        item['title'] = ' '.join(item['title'].split())  # Remove espa√ßos extras
        item['content'] = ' '.join(item['content'].split())
    
    # 3. Remove duplicatas baseadas no t√≠tulo
    print("\nüîÑ 3. Removendo duplicatas...")
    seen_titles = set()
    unique_data = []
    duplicates_removed = 0
    
    for item in data:
        title_lower = item['title'].lower()
        if title_lower not in seen_titles:
            seen_titles.add(title_lower)
            unique_data.append(item)
        else:
            duplicates_removed += 1
    
    data = unique_data
    print(f"   Duplicatas removidas: {duplicates_removed}")
    print(f"   Restantes: {len(data)} amostras")
    
    # 4. Filtra por comprimento do t√≠tulo
    print(f"\nüìè 4. Filtrando t√≠tulos (min: {min_title_length}, max: {max_title_length} chars)...")
    before_title_filter = len(data)
    data = [item for item in data if min_title_length <= len(item['title']) <= max_title_length]
    removed_title = before_title_filter - len(data)
    print(f"   Removidas: {removed_title} amostras")
    print(f"   Restantes: {len(data)} amostras")
    
    # 5. Filtra por comprimento do conte√∫do
    print(f"\nüìÑ 5. Filtrando conte√∫do (min: {min_content_length}, max: {max_content_length} chars)...")
    before_content_filter = len(data)
    data = [item for item in data if min_content_length <= len(item['content']) <= max_content_length]
    removed_content = before_content_filter - len(data)
    print(f"   Removidas: {removed_content} amostras")
    print(f"   Restantes: {len(data)} amostras")
    
    # 6. Remove caracteres especiais problem√°ticos
    print("\nüîß 6. Limpando caracteres especiais...")
    import re
    
    for item in data:\n        # Remove caracteres de controle e caracteres n√£o imprim√≠veis
        item['title'] = re.sub(r'[\\x00-\\x1f\\x7f-\\x9f]', '', item['title'])
        item['content'] = re.sub(r'[\\x00-\\x1f\\x7f-\\x9f]', '', item['content'])
        
        # Remove m√∫ltiplas quebras de linha
        item['content'] = re.sub(r'\\n+', ' ', item['content'])
        
        # Remove espa√ßos extras novamente
        item['title'] = ' '.join(item['title'].split())
        item['content'] = ' '.join(item['content'].split())
    
    # 7. Verifica√ß√£o final de qualidade
    print("\n‚úÖ 7. Verifica√ß√£o final de qualidade...")
    final_data = []
    removed_final = 0
    
    for item in data:
        # Verifica se ainda tem conte√∫do v√°lido
        if (item['title'].strip() and item['content'].strip() and 
            len(item['title'].strip()) >= min_title_length and
            len(item['content'].strip()) >= min_content_length):
            final_data.append(item)
        else:
            removed_final += 1
    
    data = final_data
    print(f"   Removidas na verifica√ß√£o final: {removed_final}")
    print(f"   Total final: {len(data)} amostras")
    
    # Estat√≠sticas de limpeza
    total_removed = initial_count - len(data)
    retention_rate = (len(data) / initial_count) * 100
    
    print(f"\nüìà RESUMO DA LIMPEZA:")
    print(f"   Dados iniciais: {initial_count}")
    print(f"   Dados finais: {len(data)}")
    print(f"   Total removido: {total_removed} ({(total_removed/initial_count)*100:.1f}%)")
    print(f"   Taxa de reten√ß√£o: {retention_rate:.1f}%")
    
    # Estat√≠sticas dos dados limpos
    if data:
        title_lengths = [len(item['title']) for item in data]
        content_lengths = [len(item['content']) for item in data]
        
        print(f"\nüìä ESTAT√çSTICAS DOS DADOS LIMPOS:")
        print(f"   T√≠tulos - M√≠n: {min(title_lengths)}, M√°x: {max(title_lengths)}, M√©dia: {np.mean(title_lengths):.1f}")
        print(f"   Conte√∫do - M√≠n: {min(content_lengths)}, M√°x: {max(content_lengths)}, M√©dia: {np.mean(content_lengths):.1f}")
    
    return data

# Aplica a limpeza nos dados carregados
if raw_data:
    print("üîÑ Aplicando limpeza nos dados carregados...")
    cleaned_data = clean_amazon_data(raw_data.copy())
else:
    print("‚ùå Nenhum dado dispon√≠vel para limpeza.")
    cleaned_data = []

In [None]:
# Compara√ß√£o visual: Antes vs Depois da limpeza
if raw_data and cleaned_data:
    print("üìä COMPARA√á√ÉO VISUAL: ANTES vs DEPOIS DA LIMPEZA")
    print("=" * 60)
    
    # Cria visualiza√ß√µes comparativas
    fig, axes = plt.subplots(2, 3, figsize=(18, 12))
    fig.suptitle('Compara√ß√£o: Dados Originais vs Dados Limpos', fontsize=16, fontweight='bold')
    
    # Dados originais
    orig_title_lengths = [len(item['title']) for item in raw_data]
    orig_content_lengths = [len(item['content']) for item in raw_data]
    
    # Dados limpos
    clean_title_lengths = [len(item['title']) for item in cleaned_data]
    clean_content_lengths = [len(item['content']) for item in cleaned_data]
    
    # Gr√°fico 1: Contagem de amostras
    categories = ['Dados Originais', 'Dados Limpos']
    counts = [len(raw_data), len(cleaned_data)]
    colors = ['lightcoral', 'lightgreen']
    
    axes[0,0].bar(categories, counts, color=colors, alpha=0.7, edgecolor='black')
    axes[0,0].set_title('N√∫mero Total de Amostras')
    axes[0,0].set_ylabel('Quantidade')
    for i, v in enumerate(counts):
        axes[0,0].text(i, v + max(counts)*0.01, str(v), ha='center', fontweight='bold')
    
    # Gr√°fico 2: Distribui√ß√£o t√≠tulos - Originais
    axes[0,1].hist(orig_title_lengths, bins=30, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[0,1].set_title('T√≠tulos - Dados Originais')
    axes[0,1].set_xlabel('Comprimento (caracteres)')
    axes[0,1].set_ylabel('Frequ√™ncia')
    axes[0,1].grid(True, alpha=0.3)
    
    # Gr√°fico 3: Distribui√ß√£o t√≠tulos - Limpos
    axes[0,2].hist(clean_title_lengths, bins=30, alpha=0.7, color='lightgreen', edgecolor='black')
    axes[0,2].set_title('T√≠tulos - Dados Limpos')
    axes[0,2].set_xlabel('Comprimento (caracteres)')
    axes[0,2].set_ylabel('Frequ√™ncia')
    axes[0,2].grid(True, alpha=0.3)
    
    # Gr√°fico 4: Distribui√ß√£o conte√∫do - Originais
    axes[1,0].hist(orig_content_lengths, bins=30, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[1,0].set_title('Conte√∫do - Dados Originais')
    axes[1,0].set_xlabel('Comprimento (caracteres)')
    axes[1,0].set_ylabel('Frequ√™ncia')
    axes[1,0].grid(True, alpha=0.3)
    
    # Gr√°fico 5: Distribui√ß√£o conte√∫do - Limpos
    axes[1,1].hist(clean_content_lengths, bins=30, alpha=0.7, color='lightgreen', edgecolor='black')
    axes[1,1].set_title('Conte√∫do - Dados Limpos')
    axes[1,1].set_xlabel('Comprimento (caracteres)')
    axes[1,1].set_ylabel('Frequ√™ncia')
    axes[1,1].grid(True, alpha=0.3)
    
    # Gr√°fico 6: Boxplot comparativo
    data_to_plot = [orig_title_lengths, clean_title_lengths, orig_content_lengths, clean_content_lengths]
    labels = ['T√≠tulos\\nOriginais', 'T√≠tulos\\nLimpos', 'Conte√∫do\\nOriginais', 'Conte√∫do\\nLimpos']
    colors_box = ['lightcoral', 'lightgreen', 'lightcoral', 'lightgreen']
    
    bp = axes[1,2].boxplot(data_to_plot, labels=labels, patch_artist=True)
    for patch, color in zip(bp['boxes'], colors_box):
        patch.set_facecolor(color)
        patch.set_alpha(0.7)
    
    axes[1,2].set_title('Compara√ß√£o de Distribui√ß√µes')
    axes[1,2].set_ylabel('Comprimento (caracteres)')
    axes[1,2].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Estat√≠sticas comparativas em tabela
    print("\\nüìã ESTAT√çSTICAS COMPARATIVAS:")
    print("-" * 80)
    print(f"{'M√©trica':<25} {'Originais':<15} {'Limpos':<15} {'Varia√ß√£o':<15}")
    print("-" * 80)
    
    # Total de amostras
    original_count = len(raw_data)
    clean_count = len(cleaned_data)
    variation = ((clean_count - original_count) / original_count) * 100
    print(f"{'Total de amostras':<25} {original_count:<15} {clean_count:<15} {variation:+.1f}%")
    
    # Estat√≠sticas de t√≠tulos
    orig_title_mean = np.mean(orig_title_lengths)
    clean_title_mean = np.mean(clean_title_lengths)
    title_variation = ((clean_title_mean - orig_title_mean) / orig_title_mean) * 100
    print(f"{'T√≠tulo m√©dio (chars)':<25} {orig_title_mean:<15.1f} {clean_title_mean:<15.1f} {title_variation:+.1f}%")
    
    # Estat√≠sticas de conte√∫do
    orig_content_mean = np.mean(orig_content_lengths)
    clean_content_mean = np.mean(clean_content_lengths)
    content_variation = ((clean_content_mean - orig_content_mean) / orig_content_mean) * 100
    print(f"{'Conte√∫do m√©dio (chars)':<25} {orig_content_mean:<15.1f} {clean_content_mean:<15.1f} {content_variation:+.1f}%")
    
    print("-" * 80)
    
else:
    print("‚ùå Dados para compara√ß√£o n√£o dispon√≠veis.")

In [None]:
# Exemplos de dados problem√°ticos que foram removidos
if raw_data and cleaned_data:
    print("üîç EXEMPLOS DE DADOS PROBLEM√ÅTICOS REMOVIDOS")
    print("=" * 60)
    
    # Identifica dados que foram removidos
    original_titles = {item['title'] for item in raw_data}
    clean_titles = {item['title'] for item in cleaned_data}
    removed_titles = original_titles - clean_titles
    
    if removed_titles:
        print(f"üìä Total de t√≠tulos √∫nicos removidos: {len(removed_titles)}")
        
        # Encontra exemplos espec√≠ficos dos dados removidos
        removed_examples = []
        for item in raw_data:
            if item['title'] in removed_titles:
                removed_examples.append(item)
                if len(removed_examples) >= 5:  # Mostra at√© 5 exemplos
                    break
        
        print("\\n‚ùå EXEMPLOS DE DADOS REMOVIDOS:")
        print("-" * 60)
        
        for i, example in enumerate(removed_examples, 1):
            print(f"\\n{i}. EXEMPLO PROBLEM√ÅTICO:")
            print(f"   T√≠tulo: '{example['title']}'")
            print(f"   Conte√∫do: '{example['content']}'")
            
            # Identifica o problema
            problems = []
            if len(example['title']) < 3:
                problems.append(f"t√≠tulo muito curto ({len(example['title'])} chars)")
            if len(example['title']) > 200:
                problems.append(f"t√≠tulo muito longo ({len(example['title'])} chars)")
            if len(example['content']) < 5:
                problems.append(f"conte√∫do muito curto ({len(example['content'])} chars)")
            if len(example['content']) > 1000:
                problems.append(f"conte√∫do muito longo ({len(example['content'])} chars)")
            if not example['title'].strip():
                problems.append("t√≠tulo vazio")
            if not example['content'].strip():
                problems.append("conte√∫do vazio")
            
            print(f"   ‚ö†Ô∏è Problema(s): {', '.join(problems) if problems else 'duplicata'}")
    
    else:
        print("‚úÖ Nenhum dado foi removido - todos estavam dentro dos crit√©rios!")
    
    # Mostra exemplos de dados que PERMANECERAM ap√≥s limpeza
    print("\\n\\n‚úÖ EXEMPLOS DE DADOS LIMPOS (QUE PERMANECERAM):")
    print("=" * 60)
    
    for i in range(min(3, len(cleaned_data))):
        example = cleaned_data[i]
        print(f"\\n{i+1}. EXEMPLO LIMPO:")
        print(f"   T√≠tulo: '{example['title']}'")
        print(f"   Conte√∫do: '{example['content']}'")
        print(f"   üìè T√≠tulo: {len(example['title'])} chars, Conte√∫do: {len(example['content'])} chars")
        print(f"   ‚úÖ Status: Dados v√°lidos e dentro dos par√¢metros")

else:
    print("‚ùå Dados para an√°lise de exemplos n√£o dispon√≠veis.")

In [None]:
# Divis√£o dos dados limpos em treino e teste
if cleaned_data:
    print("? DIVIDINDO DADOS LIMPOS EM TREINO E TESTE")
    print("=" * 50)
    
    print(f"üìä Total de dados limpos dispon√≠veis: {len(cleaned_data)}")
    
    # Configura√ß√£o da divis√£o
    test_size = min(CONFIG['test_size'], len(cleaned_data) // 10)  # M√°ximo 10% para teste
    train_size = len(cleaned_data) - test_size
    
    # Embaralha os dados antes de dividir
    import random
    random.shuffle(cleaned_data)
    
    # Divis√£o dos dados
    train_data = cleaned_data[:train_size]
    test_data = cleaned_data[train_size:train_size + test_size]
    
    print(f"  üìö Dados de treinamento: {len(train_data)}")
    print(f"  üß™ Dados de teste: {len(test_data)}")
    print(f"  üìä Propor√ß√£o treino/teste: {len(train_data)/len(test_data):.1f}")
    
    # Estat√≠sticas dos conjuntos
    train_title_lengths = [len(item['title']) for item in train_data]
    train_content_lengths = [len(item['content']) for item in train_data]
    
    test_title_lengths = [len(item['title']) for item in test_data]
    test_content_lengths = [len(item['content']) for item in test_data]
    
    print(f"\nüìè ESTAT√çSTICAS DO CONJUNTO DE TREINAMENTO:")
    print(f"  T√≠tulos - M√©dia: {np.mean(train_title_lengths):.1f} caracteres")
    print(f"  Conte√∫do - M√©dia: {np.mean(train_content_lengths):.1f} caracteres")
    
    print(f"\nüìè ESTAT√çSTICAS DO CONJUNTO DE TESTE:")
    print(f"  T√≠tulos - M√©dia: {np.mean(test_title_lengths):.1f} caracteres")
    print(f"  Conte√∫do - M√©dia: {np.mean(test_content_lengths):.1f} caracteres")
    
    print(f"\n‚úÖ Divis√£o conclu√≠da com sucesso!")
    print(f"üéØ Dados prontos para formata√ß√£o e treinamento")
    
else:
    print("‚ùå Nenhum dado limpo dispon√≠vel para divis√£o.")
    train_data = []
    test_data = []

### 3.4 Cria√ß√£o do Dataset no Formato Hugging Face

Vamos criar datasets no formato esperado pela biblioteca Hugging Face para facilitar o treinamento.

In [None]:
# Prepara os dados formatados para treinamento
if 'train_data' in locals() and train_data:
    print("üîß CRIANDO DATASETS FORMATADOS")
    print("=" * 50)
    
    # Formata os dados de treinamento
    formatted_train_data = prepare_training_data(train_data)
    
    # Cria o dataset de treinamento no formato Hugging Face
    train_dataset_dict = {
        'text': formatted_train_data
    }
    
    train_dataset = Dataset.from_dict(train_dataset_dict)
    
    print(f"\n‚úÖ Dataset de treinamento criado:")
    print(f"   N√∫mero de exemplos: {len(train_dataset)}")
    print(f"   Colunas: {train_dataset.column_names}")
    
    # Salva algumas amostras dos dados de teste para avalia√ß√£o posterior
    test_samples = test_data[:10]  # Primeiras 10 amostras para teste
    
    print(f"\nüìã Amostras de teste separadas: {len(test_samples)}")
    
    # Mostra estat√≠sticas do dataset final
    text_lengths = [len(text) for text in formatted_train_data]
    print(f"\nüìä ESTAT√çSTICAS DO DATASET FORMATADO:")
    print(f"   Comprimento m√©dio do texto: {np.mean(text_lengths):.0f} caracteres")
    print(f"   Comprimento m√≠nimo: {min(text_lengths)} caracteres")
    print(f"   Comprimento m√°ximo: {max(text_lengths)} caracteres")
    
    # Verifica se os textos n√£o s√£o muito longos para o modelo
    max_length = CONFIG['max_seq_length']
    long_texts = [t for t in text_lengths if t > max_length * 4]  # Aproximadamente 4 chars por token
    
    if long_texts:
        print(f"   ‚ö†Ô∏è Textos muito longos: {len(long_texts)} ({len(long_texts)/len(text_lengths)*100:.1f}%)")
    else:
        print(f"   ‚úÖ Todos os textos est√£o dentro do limite esperado")
    
else:
    print("‚ùå Dados de treinamento n√£o dispon√≠veis.")

In [None]:
# Mostra exemplos do dataset formatado
if 'train_dataset' in locals() and train_dataset:
    print("üëÄ VISUALIZA√á√ÉO DOS DADOS FORMATADOS")
    print("=" * 60)
    
    # Mostra 2 exemplos completos
    for i in range(min(2, len(train_dataset))):
        print(f"\nüìù EXEMPLO {i+1}:")
        print("-" * 40)
        
        # Pega o texto formatado
        formatted_text = train_dataset[i]['text']
        
        # Extrai partes espec√≠ficas para visualiza√ß√£o
        lines = formatted_text.split('\n')
        
        # Encontra o t√≠tulo (depois de "Gere uma descri√ß√£o para o seguinte produto:")
        title_line = None
        content_start = None
        
        for j, line in enumerate(lines):
            if "Gere uma descri√ß√£o para o seguinte produto:" in line:
                if j + 1 < len(lines):
                    title_line = lines[j + 1].strip()
            elif "<|start_header_id|>assistant<|end_header_id|>" in line:
                content_start = j + 1
                break
        
        if title_line:
            print(f"üè∑Ô∏è  T√≠tulo: {title_line}")
        
        if content_start and content_start < len(lines):
            # Pega o conte√∫do (at√© encontrar <|eot_id|>)
            content_lines = []
            for k in range(content_start, len(lines)):
                if "<|eot_id|>" in lines[k]:
                    break
                if lines[k].strip():
                    content_lines.append(lines[k].strip())
            
            content = " ".join(content_lines)
            if content:
                print(f"üìÑ Descri√ß√£o: {content}")
        
        print(f"üìè Comprimento total: {len(formatted_text)} caracteres")
    
    print(f"\n‚úÖ Dataset pronto para treinamento!")
    print(f"üìä Resumo final: {len(train_dataset)} exemplos formatados")
    
else:
    print("‚ùå Dataset formatado n√£o dispon√≠vel.")