# Tech Challenge - Fine-tuning para Produtos Amazon

**Objetivo**: Executar fine-tuning de um foundation model usando o dataset AmazonTitles-1.3MM para gerar descri√ß√µes de produtos baseadas em t√≠tulos.

**Dataset**: Utilizaremos o arquivo `trn.json.gz` que cont√©m t√≠tulos e descri√ß√µes de produtos da Amazon.

**Modelo Escolhido**: Llama 3-8B com Unsloth para otimiza√ß√£o de treinamento.

---

## üìã √çndice
1. [Configura√ß√£o Inicial](#1-configuracao-inicial)
2. [Explora√ß√£o dos Dados](#2-exploracao-dos-dados)
3. [Prepara√ß√£o do Dataset](#3-preparacao-do-dataset)
4. [Teste do Modelo Base](#4-teste-do-modelo-base)
5. [Fine-tuning](#5-fine-tuning)
6. [Teste do Modelo Treinado](#6-teste-do-modelo-treinado)
7. [Demonstra√ß√£o Interativa](#7-demonstracao-interativa)

---

## 1. Configura√ß√£o Inicial

### 1.1 Montagem do Google Drive
Primeiro, vamos montar o Google Drive para acessar e salvar nossos arquivos.

In [None]:
from google.colab import drive
import os

# Monta o Google Drive
drive.mount('/content/drive')

# Define o diret√≥rio de trabalho (usando o mesmo diret√≥rio onde est√° o arquivo de dados)
WORK_DIR = '/content/drive/MyDrive/FineTunning/TechChallenge03'
os.makedirs(WORK_DIR, exist_ok=True)

print(f"‚úÖ Google Drive montado com sucesso!")
print(f"üìÅ Diret√≥rio de trabalho: {WORK_DIR}")

# Verifica se o diret√≥rio existe e lista os arquivos
if os.path.exists(WORK_DIR):
    files_in_dir = os.listdir(WORK_DIR)
    print(f"üìã Arquivos no diret√≥rio: {files_in_dir}")
else:
    print(f"‚ö†Ô∏è Diret√≥rio n√£o existe, ser√° criado: {WORK_DIR}")

### 1.2 Instala√ß√£o das Depend√™ncias

Instalamos as bibliotecas necess√°rias:
- **Unsloth**: Otimiza√ß√£o para fine-tuning eficiente
- **Transformers**: Biblioteca principal para modelos de linguagem
- **Datasets**: Para manipula√ß√£o de datasets
- **TRL**: Para treinamento de modelos de linguagem

In [None]:
# Instala√ß√£o das depend√™ncias principais
!pip install "unsloth[colab-new] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps xformers "trl<0.9.0" peft accelerate bitsandbytes
!pip install transformers datasets torch

print("‚úÖ Todas as depend√™ncias foram instaladas com sucesso!")

### 1.3 Importa√ß√£o das Bibliotecas e Configura√ß√µes Iniciais

In [None]:
# Imports necess√°rios
import json
import gzip
import pandas as pd
import numpy as np
from datasets import Dataset, load_dataset
import torch
from transformers import TrainingArguments, TextStreamer
from trl import SFTTrainer
from unsloth import FastLanguageModel, is_bfloat16_supported
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display, HTML
import warnings
warnings.filterwarnings('ignore')

print("‚úÖ Bibliotecas importadas com sucesso!")
print(f"üî• CUDA dispon√≠vel: {torch.cuda.is_available()}")
print(f"üíæ GPU: {torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N√£o dispon√≠vel'}")

### 1.4 Configura√ß√µes do Modelo e Treinamento

In [None]:
# Configura√ß√µes principais
CONFIG = {
    # Configura√ß√µes do modelo
    'model_name': "unsloth/llama-3-8b-bnb-4bit",
    'max_seq_length': 2048,
    'dtype': None,  # Ser√° determinado automaticamente
    'load_in_4bit': True,
    
    # Configura√ß√µes do dataset
    'data_file': '/content/drive/MyDrive/FineTunning/TechChallenge03/trn.json.gz',
    'sample_size': 10000,  # N√∫mero de amostras para treinamento (pode ajustar)
    'test_size': 100,  # N√∫mero de amostras para teste
    
    # Configura√ß√µes do fine-tuning
    'lora_r': 16,
    'lora_alpha': 16,
    'lora_dropout': 0,
    'max_steps': 100,  # Ajuste conforme necess√°rio
    'learning_rate': 2e-4,
    'batch_size': 2,
    'gradient_accumulation_steps': 4,
    
    # Caminhos - usando o mesmo diret√≥rio base
    'base_dir': '/content/drive/MyDrive/FineTunning/TechChallenge03',
    'output_dir': '/content/drive/MyDrive/FineTunning/TechChallenge03/outputs',
    'model_save_path': '/content/drive/MyDrive/FineTunning/TechChallenge03/amazon_model',
}

# Cria√ß√£o dos diret√≥rios
os.makedirs(CONFIG['base_dir'], exist_ok=True)
os.makedirs(CONFIG['output_dir'], exist_ok=True)
os.makedirs(CONFIG['model_save_path'], exist_ok=True)

print("‚öôÔ∏è Configura√ß√µes definidas:")
for key, value in CONFIG.items():
    print(f"  {key}: {value}")

## 2. Explora√ß√£o dos Dados

### 2.1 Upload do Arquivo de Dados

Primeiro, voc√™ precisa fazer upload do arquivo `trn.json.gz` para o Colab.
Execute a c√©lula abaixo e fa√ßa upload do arquivo quando solicitado.

In [None]:
import os

# Define o caminho para o arquivo no Google Drive
DATA_FILE_PATH = '/content/drive/MyDrive/FineTunning/TechChallenge03/trn.json.gz'

# Verifica se o arquivo existe
if os.path.exists(DATA_FILE_PATH):
    print("‚úÖ Arquivo trn.json.gz encontrado no Google Drive!")
    print(f"üìÅ Caminho: {DATA_FILE_PATH}")
    
    # Verifica o tamanho do arquivo
    file_size = os.path.getsize(DATA_FILE_PATH)
    print(f"üìä Tamanho do arquivo: {file_size / (1024*1024):.1f} MB")
else:
    print("‚ùå Arquivo n√£o encontrado no caminho especificado.")
    print(f"‚ùå Caminho verificado: {DATA_FILE_PATH}")
    print("üí° Certifique-se de que o arquivo trn.json.gz est√° no diret√≥rio correto do Google Drive.")
    DATA_FILE_PATH = None

### 2.2 Carregamento e An√°lise Inicial dos Dados

Vamos carregar o dataset e analisar sua estrutura para entender melhor os dados com que estamos trabalhando.

In [None]:
def load_amazon_data(file_path, sample_size=None):
    """
    Carrega os dados do arquivo JSON comprimido
    
    Args:
        file_path: Caminho para o arquivo trn.json.gz
        sample_size: N√∫mero de amostras a carregar (None para carregar tudo)
    
    Returns:
        Lista de dicion√°rios com os dados
    """
    data = []
    
    print(f"üìñ Carregando dados de {file_path}...")
    
    try:
        with gzip.open(file_path, 'rt', encoding='utf-8') as f:
            for i, line in enumerate(f):
                if sample_size and i >= sample_size:
                    break
                    
                try:
                    json_obj = json.loads(line.strip())
                    data.append(json_obj)
                except json.JSONDecodeError:
                    continue
                    
                # Progress update
                if (i + 1) % 1000 == 0:
                    print(f"  Carregadas {i + 1} amostras...")
    
    except Exception as e:
        print(f"‚ùå Erro ao carregar dados: {e}")
        return []
    
    print(f"‚úÖ Dados carregados com sucesso! Total: {len(data)} amostras")
    return data

# Carrega uma amostra dos dados para an√°lise inicial
if DATA_FILE_PATH:
    sample_data = load_amazon_data(DATA_FILE_PATH, sample_size=5000)
else:
    print("‚ùå Arquivo de dados n√£o dispon√≠vel. Execute a c√©lula de upload primeiro.")

In [None]:
# An√°lise da estrutura dos dados
if sample_data:
    print("üîç AN√ÅLISE DA ESTRUTURA DOS DADOS")
    print("=" * 50)
    
    # Exemplo de uma amostra
    print("üìù Exemplo de uma amostra:")
    sample_item = sample_data[0]
    for key, value in sample_item.items():
        print(f"  {key}: {value}")
    
    print("\n" + "=" * 50)
    
    # Estat√≠sticas gerais
    print(f"üìä ESTAT√çSTICAS GERAIS:")
    print(f"  Total de amostras carregadas: {len(sample_data)}")
    
    # Verifica campos obrigat√≥rios
    required_fields = ['title', 'content']
    valid_samples = []
    
    for item in sample_data:
        if all(field in item and item[field] for field in required_fields):
            valid_samples.append(item)
    
    print(f"  Amostras v√°lidas (com t√≠tulo e conte√∫do): {len(valid_samples)}")
    print(f"  Taxa de amostras v√°lidas: {len(valid_samples)/len(sample_data)*100:.1f}%")
    
    # Armazena as amostras v√°lidas
    sample_data = valid_samples
    
else:
    print("‚ùå Nenhum dado foi carregado.")

In [None]:
# An√°lise detalhada dos textos
if sample_data:
    print("üìè AN√ÅLISE DE COMPRIMENTO DOS TEXTOS")
    print("=" * 50)
    
    # Calcula estat√≠sticas de comprimento
    title_lengths = [len(item['title']) for item in sample_data]
    content_lengths = [len(item['content']) for item in sample_data]
    
    title_words = [len(item['title'].split()) for item in sample_data]
    content_words = [len(item['content'].split()) for item in sample_data]
    
    print("üìù Comprimento em caracteres:")
    print(f"  T√≠tulos - M√≠n: {min(title_lengths)}, M√°x: {max(title_lengths)}, M√©dia: {np.mean(title_lengths):.1f}")
    print(f"  Conte√∫do - M√≠n: {min(content_lengths)}, M√°x: {max(content_lengths)}, M√©dia: {np.mean(content_lengths):.1f}")
    
    print("\nüî§ Comprimento em palavras:")
    print(f"  T√≠tulos - M√≠n: {min(title_words)}, M√°x: {max(title_words)}, M√©dia: {np.mean(title_words):.1f}")
    print(f"  Conte√∫do - M√≠n: {min(content_words)}, M√°x: {max(content_words)}, M√©dia: {np.mean(content_words):.1f}")
    
    # Exemplos de diferentes tamanhos
    print("\nüìã EXEMPLOS DE PRODUTOS:")
    print("=" * 50)
    
    # T√≠tulo mais curto
    shortest_idx = title_lengths.index(min(title_lengths))
    print(f"üî∏ T√≠tulo mais curto ({len(sample_data[shortest_idx]['title'])} chars):")
    print(f"  T√≠tulo: {sample_data[shortest_idx]['title']}")
    print(f"  Conte√∫do: {sample_data[shortest_idx]['content']}")
    
    print("\n" + "-" * 30)
    
    # T√≠tulo mais longo
    longest_idx = title_lengths.index(max(title_lengths))
    print(f"üî∏ T√≠tulo mais longo ({len(sample_data[longest_idx]['title'])} chars):")
    print(f"  T√≠tulo: {sample_data[longest_idx]['title']}")
    print(f"  Conte√∫do: {sample_data[longest_idx]['content'][:200]}...")
    
    print("\n" + "-" * 30)
    
    # Exemplo aleat√≥rio
    import random
    random_idx = random.randint(0, len(sample_data)-1)
    print(f"üî∏ Exemplo aleat√≥rio:")
    print(f"  T√≠tulo: {sample_data[random_idx]['title']}")
    print(f"  Conte√∫do: {sample_data[random_idx]['content']}")
    
else:
    print("‚ùå Nenhum dado dispon√≠vel para an√°lise.")

In [None]:
# Visualiza√ß√µes
if sample_data:
    print("üìä CRIANDO VISUALIZA√á√ïES DOS DADOS")
    print("=" * 50)
    
    # Configura√ß√£o do matplotlib
    plt.style.use('default')
    fig, axes = plt.subplots(2, 2, figsize=(15, 10))
    fig.suptitle('An√°lise do Dataset Amazon Products', fontsize=16, fontweight='bold')
    
    # Gr√°fico 1: Distribui√ß√£o do comprimento dos t√≠tulos
    axes[0,0].hist(title_lengths, bins=30, alpha=0.7, color='skyblue', edgecolor='black')
    axes[0,0].set_title('Distribui√ß√£o - Comprimento dos T√≠tulos (caracteres)')
    axes[0,0].set_xlabel('N√∫mero de caracteres')
    axes[0,0].set_ylabel('Frequ√™ncia')
    axes[0,0].grid(True, alpha=0.3)
    
    # Gr√°fico 2: Distribui√ß√£o do comprimento do conte√∫do
    axes[0,1].hist(content_lengths, bins=30, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[0,1].set_title('Distribui√ß√£o - Comprimento do Conte√∫do (caracteres)')
    axes[0,1].set_xlabel('N√∫mero de caracteres')
    axes[0,1].set_ylabel('Frequ√™ncia')
    axes[0,1].grid(True, alpha=0.3)
    
    # Gr√°fico 3: Distribui√ß√£o de palavras nos t√≠tulos
    axes[1,0].hist(title_words, bins=20, alpha=0.7, color='lightgreen', edgecolor='black')
    axes[1,0].set_title('Distribui√ß√£o - Palavras nos T√≠tulos')
    axes[1,0].set_xlabel('N√∫mero de palavras')
    axes[1,0].set_ylabel('Frequ√™ncia')
    axes[1,0].grid(True, alpha=0.3)
    
    # Gr√°fico 4: Rela√ß√£o entre t√≠tulo e conte√∫do
    axes[1,1].scatter(title_lengths, content_lengths, alpha=0.5, color='purple', s=10)
    axes[1,1].set_title('Rela√ß√£o: T√≠tulo vs Conte√∫do (caracteres)')
    axes[1,1].set_xlabel('Comprimento do t√≠tulo')
    axes[1,1].set_ylabel('Comprimento do conte√∫do')
    axes[1,1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    print("‚úÖ Visualiza√ß√µes criadas com sucesso!")
    
else:
    print("‚ùå Nenhum dado dispon√≠vel para visualiza√ß√£o.")