# üöÄ **M√≥dulo 2: Preparando os dados como um chef prepara ingredientes**

## **Aula 2.1: Formatos de dados para fine tuning**

---

### **T√°, mas por que os dados s√£o importantes?**

Imagine que voc√™ √© um chef e vai fazer um prato especial. Voc√™ pode ter as melhores panelas, o fog√£o mais moderno, mas se os ingredientes estiverem estragados ou na quantidade errada, o prato vai sair uma merda! üòÖ

**Fine Tuning √© a mesma coisa!** Os dados s√£o os "ingredientes" que v√£o ensinar sua IA. Se os dados forem ruins, a IA vai aprender coisas erradas.

**Por que preparar dados √© crucial?**

√â como ensinar uma crian√ßa:
- **Dados bons**: A crian√ßa aprende a falar corretamente
- **Dados ruins**: A crian√ßa aprende g√≠rias e palavr√µes (ops!)

---

**üñºÔ∏è Sugest√£o de imagem**: Chef organizando ingredientes frescos vs ingredientes estragados

### **Setup Inicial - Preparando o Terreno**

In [None]:
# Importa√ß√µes necess√°rias
import pandas as pd
import numpy as np
import json
from datasets import Dataset
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import re

print("‚úÖ Bibliotecas importadas com sucesso!")

## **1. Formatos de dados para Fine Tuning**

Vamos ver os formatos mais comuns:

In [None]:
# Exemplos de formatos de dados
print("üìä FORMATOS DE DADOS PARA FINE TUNING\n")

# 1. Formato Conversacional (Chat)
dados_chat = [
    {
        "messages": [
            {"role": "user", "content": "Qual √© o melhor iPhone para fotografia?"},
            {"role": "assistant", "content": "O iPhone 15 Pro Max √© o melhor para fotografia, com c√¢mera de 48MP e zoom √≥ptico de 5x."}
        ]
    },
    {
        "messages": [
            {"role": "user", "content": "Quanto custa o iPhone 15?"},
            {"role": "assistant", "content": "O iPhone 15 custa R$ 6.999 no Brasil."}
        ]
    }
]

print("1Ô∏è‚É£ FORMATO CONVERSACIONAL (Chat):")
print(json.dumps(dados_chat[0], indent=2, ensure_ascii=False))
print()

# 2. Formato Instru√ß√£o-Resposta
dados_instrucao = [
    {
        "instruction": "Explique a diferen√ßa entre iPhone 15 e iPhone 15 Pro",
        "input": "",
        "output": "O iPhone 15 Pro tem chip A17 Pro, c√¢mera tripla, tela ProMotion e acabamento em tit√¢nio, enquanto o iPhone 15 tem chip A16, c√¢mera dupla, tela normal e acabamento em alum√≠nio."
    },
    {
        "instruction": "Calcule o pre√ßo com desconto",
        "input": "iPhone 15 custa R$ 6.999 com 10% de desconto",
        "output": "R$ 6.999 - 10% = R$ 6.299,10"
    }
]

print("2Ô∏è‚É£ FORMATO INSTRU√á√ÉO-RESPOSTA:")
print(json.dumps(dados_instrucao[0], indent=2, ensure_ascii=False))
print()

# 3. Formato Pergunta-Resposta
dados_qa = [
    {
        "question": "Qual √© a capacidade de armazenamento do iPhone 15?",
        "answer": "O iPhone 15 est√° dispon√≠vel em 128GB, 256GB e 512GB."
    },
    {
        "question": "O iPhone 15 tem carregamento sem fio?",
        "answer": "Sim, o iPhone 15 suporta carregamento sem fio MagSafe e Qi."
    }
]

print("3Ô∏è‚É£ FORMATO PERGUNTA-RESPOSTA:")
print(json.dumps(dados_qa[0], indent=2, ensure_ascii=False))
print()

print("üí° Cada formato tem seu uso espec√≠fico. Vamos ver qual usar quando!")

## **2. Quando usar cada formato**

√â como escolher o formato certo para cada tipo de comunica√ß√£o:

In [None]:
# Compara√ß√£o dos formatos
formatos_comparacao = {
    "Conversacional": {
        "melhor_para": "Assistentes de chat, atendimento ao cliente",
        "vantagens": "Natural, mant√©m contexto",
        "desvantagens": "Mais complexo de preparar",
        "exemplo": "Chatbot de vendas"
    },
    "Instru√ß√£o-Resposta": {
        "melhor_para": "Tarefas espec√≠ficas, instru√ß√µes claras",
        "vantagens": "Simples, direto",
        "desvantagens": "Menos natural",
        "exemplo": "Assistente de an√°lise de dados"
    },
    "Pergunta-Resposta": {
        "melhor_para": "FAQ, conhecimento espec√≠fico",
        "vantagens": "F√°cil de preparar, claro",
        "desvantagens": "Limitado a Q&A",
        "exemplo": "FAQ de produtos"
    }
}

print("üéØ QUANDO USAR CADA FORMATO\n")

for formato, info in formatos_comparacao.items():
    print(f"üîπ {formato}")
    print(f"   üéØ Melhor para: {info['melhor_para']}")
    print(f"   ‚úÖ Vantagens: {info['vantagens']}")
    print(f"   ‚ö†Ô∏è  Desvantagens: {info['desvantagens']}")
    print(f"   üí° Exemplo: {info['exemplo']}")
    print()

## **3. Exemplo Pr√°tico: Criando dataset de vendas**

Vamos criar um dataset real para um assistente de vendas:

In [None]:
# Criando dataset de vendas de iPhone
print("üõçÔ∏è CRIANDO DATASET DE VENDAS DE IPHONE\n")

# Dados dos produtos
produtos = {
    "iPhone 15": {
        "preco": "R$ 6.999",
        "cores": "Preto, Azul, Verde, Rosa, Amarelo",
        "capacidades": "128GB, 256GB, 512GB",
        "caracteristicas": "Chip A16, c√¢mera dupla 48MP, tela 6.1",
        "publico": "Uso b√°sico, fotografia casual"
    },
    "iPhone 15 Pro": {
        "preco": "R$ 8.999",
        "cores": "Tit√¢nio Natural, Tit√¢nio Azul, Tit√¢nio Branco, Tit√¢nio Preto",
        "capacidades": "128GB, 256GB, 512GB, 1TB",
        "caracteristicas": "Chip A17 Pro, c√¢mera tripla 48MP, tela 6.1 ProMotion",
        "publico": "Profissionais, fot√≥grafos, gamers"
    },
    "iPhone 15 Pro Max": {
        "preco": "R$ 9.999",
        "cores": "Tit√¢nio Natural, Tit√¢nio Azul, Tit√¢nio Branco, Tit√¢nio Preto",
        "capacidades": "256GB, 512GB, 1TB",
        "caracteristicas": "Chip A17 Pro, c√¢mera tripla 48MP, zoom 5x, tela 6.7 ProMotion",
        "publico": "Profissionais avan√ßados, fot√≥grafos, criadores de conte√∫do"
    }
}

# Criando dataset conversacional
dataset_vendas = []

# Perguntas sobre pre√ßos
perguntas_preco = [
    "Quanto custa o iPhone 15?",
    "Qual √© o pre√ßo do iPhone 15 Pro?",
    "Quanto sai o iPhone 15 Pro Max?",
    "Qual √© o iPhone mais barato?",
    "Qual √© o iPhone mais caro?"
]

respostas_preco = [
    "O iPhone 15 custa R$ 6.999.",
    "O iPhone 15 Pro custa R$ 8.999.",
    "O iPhone 15 Pro Max custa R$ 9.999.",
    "O iPhone 15 √© o mais barato, custando R$ 6.999.",
    "O iPhone 15 Pro Max √© o mais caro, custando R$ 9.999."
]

for pergunta, resposta in zip(perguntas_preco, respostas_preco):
    dataset_vendas.append({
        "messages": [
            {"role": "user", "content": pergunta},
            {"role": "assistant", "content": resposta}
        ]
    })

# Perguntas sobre caracter√≠sticas
perguntas_caracteristicas = [
    "Qual iPhone tem a melhor c√¢mera?",
    "Qual iPhone √© melhor para jogos?",
    "Qual iPhone tem a maior tela?",
    "Qual iPhone tem zoom √≥ptico?"
]

respostas_caracteristicas = [
    "O iPhone 15 Pro Max tem a melhor c√¢mera, com zoom √≥ptico de 5x e sensor de 48MP.",
    "O iPhone 15 Pro e Pro Max s√£o melhores para jogos, com chip A17 Pro e tela ProMotion.",
    "O iPhone 15 Pro Max tem a maior tela, com 6.7 polegadas.",
    "O iPhone 15 Pro Max tem zoom √≥ptico de 5x, o maior da linha."
]

for pergunta, resposta in zip(perguntas_caracteristicas, respostas_caracteristicas):
    dataset_vendas.append({
        "messages": [
            {"role": "user", "content": pergunta},
            {"role": "assistant", "content": resposta}
        ]
    })

print(f"‚úÖ Dataset criado com {len(dataset_vendas)} exemplos")
print("\nüìù Exemplos do dataset:")

for i, exemplo in enumerate(dataset_vendas[:3], 1):
    print(f"\n{i}. Pergunta: {exemplo['messages'][0]['content']}")
    print(f"   Resposta: {exemplo['messages'][1]['content']}")

## **4. Limpeza e prepara√ß√£o de dados**

Agora vamos limpar e preparar os dados:

In [None]:
# Fun√ß√µes de limpeza de dados
def limpar_texto(texto):
    """
    Limpa o texto removendo caracteres especiais e normalizando
    """
    # Remove caracteres especiais mas mant√©m acentos
    texto = re.sub(r'[^\w\s\-.,!?;:()]', '', texto)
    # Remove espa√ßos extras
    texto = re.sub(r'\s+', ' ', texto)
    # Remove espa√ßos no in√≠cio e fim
    texto = texto.strip()
    return texto

def validar_exemplo(exemplo):
    """
    Valida se um exemplo est√° correto
    """
    # Verifica se tem a estrutura correta
    if 'messages' not in exemplo:
        return False
    
    if len(exemplo['messages']) != 2:
        return False
    
    # Verifica se tem user e assistant
    if exemplo['messages'][0]['role'] != 'user' or exemplo['messages'][1]['role'] != 'assistant':
        return False
    
    # Verifica se os textos n√£o est√£o vazios
    if not exemplo['messages'][0]['content'].strip() or not exemplo['messages'][1]['content'].strip():
        return False
    
    return True

def preparar_dataset(dataset_bruto):
    """
    Prepara o dataset para treinamento
    """
    dataset_limpo = []
    
    for exemplo in dataset_bruto:
        if validar_exemplo(exemplo):
            # Limpa os textos
            exemplo_limpo = {
                "messages": [
                    {
                        "role": "user",
                        "content": limpar_texto(exemplo['messages'][0]['content'])
                    },
                    {
                        "role": "assistant",
                        "content": limpar_texto(exemplo['messages'][1]['content'])
                    }
                ]
            }
            dataset_limpo.append(exemplo_limpo)
    
    return dataset_limpo

# Aplicando limpeza
print("üßπ LIMPANDO E PREPARANDO DADOS\n")

dataset_limpo = preparar_dataset(dataset_vendas)

print(f"üìä Estat√≠sticas do dataset:")
print(f"   Total de exemplos: {len(dataset_vendas)}")
print(f"   Exemplos v√°lidos: {len(dataset_limpo)}")
print(f"   Taxa de valida√ß√£o: {len(dataset_limpo)/len(dataset_vendas)*100:.1f}%")

# An√°lise de comprimento dos textos
comprimentos_perguntas = [len(ex['messages'][0]['content']) for ex in dataset_limpo]
comprimentos_respostas = [len(ex['messages'][1]['content']) for ex in dataset_limpo]

print(f"\nüìè Comprimento dos textos:")
print(f"   Perguntas - M√©dia: {np.mean(comprimentos_perguntas):.1f}, Min: {min(comprimentos_perguntas)}, Max: {max(comprimentos_perguntas)}")
print(f"   Respostas - M√©dia: {np.mean(comprimentos_respostas):.1f}, Min: {min(comprimentos_respostas)}, Max: {max(comprimentos_respostas)}")

## **5. Visualizando a qualidade dos dados**

Vamos criar gr√°ficos para entender nossos dados:

In [None]:
# Criando visualiza√ß√µes
fig, ((ax1, ax2), (ax3, ax4)) = plt.subplots(2, 2, figsize=(15, 10))

# 1. Distribui√ß√£o de comprimento das perguntas
ax1.hist(comprimentos_perguntas, bins=10, alpha=0.7, color='skyblue')
ax1.set_title('üìè Comprimento das Perguntas')
ax1.set_xlabel('N√∫mero de caracteres')
ax1.set_ylabel('Frequ√™ncia')
ax1.axvline(np.mean(comprimentos_perguntas), color='red', linestyle='--', label=f'M√©dia: {np.mean(comprimentos_perguntas):.1f}')
ax1.legend()

# 2. Distribui√ß√£o de comprimento das respostas
ax2.hist(comprimentos_respostas, bins=10, alpha=0.7, color='lightgreen')
ax2.set_title('üìè Comprimento das Respostas')
ax2.set_xlabel('N√∫mero de caracteres')
ax2.set_ylabel('Frequ√™ncia')
ax2.axvline(np.mean(comprimentos_respostas), color='red', linestyle='--', label=f'M√©dia: {np.mean(comprimentos_respostas):.1f}')
ax2.legend()

# 3. Rela√ß√£o entre comprimento de pergunta e resposta
ax3.scatter(comprimentos_perguntas, comprimentos_respostas, alpha=0.6, color='orange')
ax3.set_title('üìä Pergunta vs Resposta')
ax3.set_xlabel('Comprimento da pergunta')
ax3.set_ylabel('Comprimento da resposta')

# 4. Palavras mais comuns nas perguntas
palavras_perguntas = []
for exemplo in dataset_limpo:
    palavras = exemplo['messages'][0]['content'].lower().split()
    palavras_perguntas.extend(palavras)

contador_palavras = Counter(palavras_perguntas)
palavras_comuns = contador_palavras.most_common(10)

palavras, contagens = zip(*palavras_comuns)
ax4.barh(range(len(palavras)), contagens, color='lightcoral')
ax4.set_yticks(range(len(palavras)))
ax4.set_yticklabels(palavras)
ax4.set_title('üî§ Palavras Mais Comuns nas Perguntas')
ax4.set_xlabel('Frequ√™ncia')

plt.tight_layout()
plt.show()

print("üí° Estes gr√°ficos nos ajudam a entender a qualidade e distribui√ß√£o dos nossos dados!")

## **6. Salvando o dataset**

Agora vamos salvar nosso dataset limpo:

In [None]:
# Salvando o dataset
print("üíæ SALVANDO O DATASET\n")

# Salvando em JSON
with open('datasets/iphone_vendas.json', 'w', encoding='utf-8') as f:
    json.dump(dataset_limpo, f, ensure_ascii=False, indent=2)

print("‚úÖ Dataset salvo em 'datasets/iphone_vendas.json'")

# Convertendo para formato Hugging Face Dataset
try:
    # Flattening o dataset para o formato do Hugging Face
    dataset_hf = []
    for exemplo in dataset_limpo:
        dataset_hf.append({
            'user': exemplo['messages'][0]['content'],
            'assistant': exemplo['messages'][1]['content']
        })
    
    # Criando Dataset do Hugging Face
    hf_dataset = Dataset.from_list(dataset_hf)
    
    # Salvando
    hf_dataset.save_to_disk('datasets/iphone_vendas_hf')
    
    print("‚úÖ Dataset salvo em formato Hugging Face")
    print(f"üìä Informa√ß√µes do dataset:")
    print(f"   N√∫mero de exemplos: {len(hf_dataset)}")
    print(f"   Colunas: {hf_dataset.column_names}")
    
except Exception as e:
    print(f"‚ö†Ô∏è  Erro ao salvar em formato Hugging Face: {e}")

print("\nüéâ Dataset preparado e salvo com sucesso!")

## **7. Teste R√°pido**

Vamos testar seu entendimento sobre prepara√ß√£o de dados:

In [None]:
# Teste r√°pido sobre prepara√ß√£o de dados
print("üß™ TESTE R√ÅPIDO - PREPARA√á√ÉO DE DADOS\n")

perguntas_teste = [
    {
        "pergunta": "Qual formato √© melhor para um chatbot de atendimento?",
        "opcoes": ["A) Pergunta-Resposta", "B) Conversacional", "C) Instru√ß√£o-Resposta"],
        "resposta": "B",
        "explicacao": "Formato conversacional √© mais natural para chatbots!"
    },
    {
        "pergunta": "Por que √© importante limpar os dados antes do fine tuning?",
        "opcoes": [
            "A) Para economizar espa√ßo", 
            "B) Para melhorar a qualidade do treinamento", 
            "C) Para acelerar o download"
        ],
        "resposta": "B",
        "explicacao": "Dados limpos resultam em melhor qualidade de treinamento!"
    },
    {
        "pergunta": "Quantos exemplos s√£o recomendados para fine tuning?",
        "opcoes": [
            "A) 10-50 exemplos", 
            "B) 100-1000 exemplos", 
            "C) 10.000+ exemplos"
        ],
        "resposta": "B",
        "explicacao": "100-1000 exemplos de qualidade s√£o suficientes para come√ßar!"
    }
]

for i, q in enumerate(perguntas_teste, 1):
    print(f"‚ùì {i}. {q['pergunta']}")
    for opcao in q['opcoes']:
        print(f"   {opcao}")
    print(f"üí° Resposta: {q['resposta']} - {q['explicacao']}")
    print()

print("üéâ Parab√©ns! Voc√™ j√° entende os fundamentos da prepara√ß√£o de dados!")

## **8. Desafio do M√≥dulo**

Agora √© sua vez de criar um dataset:

In [None]:
# Desafio do m√≥dulo
print("üéØ DESAFIO DO M√ìDULO\n")

print("Crie um dataset para um dos seguintes casos:")
print("\n1Ô∏è‚É£ Tutor de Matem√°tica")
print("   - Perguntas sobre √°lgebra, geometria, c√°lculo")
print("   - Explica√ß√µes passo a passo")
print("   - Exemplos pr√°ticos")

print("\n2Ô∏è‚É£ Analista de Sentimentos")
print("   - Coment√°rios de clientes")
print("   - Classifica√ß√£o positiva/negativa/neutra")
print("   - Explica√ß√£o do sentimento")

print("\n3Ô∏è‚É£ Assistente de Fitness")
print("   - Perguntas sobre exerc√≠cios")
print("   - Planos de treino")
print("   - Dicas de nutri√ß√£o")

print("\nüìù Escolha um tema e crie pelo menos 10 exemplos no formato conversacional!")

## **üéâ M√≥dulo 2 Conclu√≠do!**

### **O que aprendemos:**

‚úÖ **Formatos de dados para Fine Tuning** (Conversacional, Instru√ß√£o-Resposta, Pergunta-Resposta)  
‚úÖ **Quando usar cada formato**  
‚úÖ **Como limpar e preparar dados**  
‚úÖ **Valida√ß√£o de qualidade dos dados**  
‚úÖ **Visualiza√ß√£o e an√°lise de datasets**  
‚úÖ **Salvamento em diferentes formatos**

### **Pr√≥ximos Passos:**

üöÄ **M√≥dulo 3**: Escolhendo o modelo certo como escolher um carro  
üöÄ **M√≥dulo 4**: Treinando como um personal trainer  
üöÄ **M√≥dulo 5**: Avaliando como um professor corrige prova  
üöÄ **M√≥dulo 6**: Deploy como abrir um restaurante

---

**üí° Dica do Instrutor**: Dados s√£o como ingredientes - quanto melhor a qualidade, melhor o resultado final! Agora que temos os "ingredientes" prontos, vamos escolher o "fog√£o" (modelo) certo! üòÑ

**üöÄ Pr√≥ximo m√≥dulo**: Vamos escolher o modelo base ideal para o nosso Fine Tuning!