# üéØ M√≥dulo 4: Desvendando os Tokens - O DNA das LLMs!

**Curso: Introdu√ß√£o √† LLMs**

*By Pedro Nunes Guth*

---

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdu√ß√£o-√†-llms-modulo-04_img_01.png)

E a√≠, pessoal! Bora mergulhar no mundo dos **tokens**? üöÄ

Lembra quando falamos sobre a arquitetura Transformer no m√≥dulo anterior? Pois √©, chegou a hora de entender como as LLMs realmente "enxergam" o texto que voc√™ manda pra elas!

T√°, mas o que √© um token afinal? ü§î

## üß† O que s√£o Tokens?

**Token** √© basicamente a "moeda" que as LLMs usam pra processar texto. Imagina que voc√™ tem um sandu√≠che gigante e precisa cortar ele em peda√ßos menores pra conseguir comer. Os tokens s√£o esses peda√ßos!

### Por que n√£o processar palavra por palavra?

Pensa comigo:
- E se eu escrever "anti-inflamat√≥rio"? S√£o 2 palavras ou 1?
- E "Jo√£o"? Como a IA vai saber que √© um nome?
- E emojis? üòéüî•

Por isso a tokeniza√ß√£o √© **FUNDAMENTAL** pras LLMs!

### Tipos de Tokens:
1. **Subword tokens** - Peda√ßos de palavras
2. **Word tokens** - Palavras completas
3. **Character tokens** - Caracteres individuais
4. **Tokens especiais** - [CLS], [SEP], etc.

**Dica do Pedro:** A maioria das LLMs modernas usa subword tokenization. √â tipo cortar o sandu√≠che em peda√ßos que fazem sentido! ü•™

In [None]:
# Vamos come√ßar com os imports necess√°rios!
# Bora instalar e importar as bibliotecas que vamos usar

!pip install transformers tiktoken matplotlib seaborn wordcloud

import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import re
import json
from wordcloud import WordCloud

# Configura√ß√µes visuais
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("üìö Bibliotecas carregadas com sucesso!")
print("üöÄ Bora tokenizar!")

## üîÑ Processo de Tokeniza√ß√£o

A tokeniza√ß√£o acontece em algumas etapas. Vou explicar usando uma analogia bem brasileira:

```mermaid
graph TD
    A["Texto: 'Vai, Brasil! üáßüá∑'"] --> B[Pr√©-processamento]
    B --> C[Normaliza√ß√£o]
    C --> D[Aplicar Algoritmo]
    D --> E["Tokens: ['Vai', ',', 'Brasil', '!', 'üáßüá∑']"]
    E --> F[IDs Num√©ricos]
    F --> G["[1234, 45, 789, 23, 9876]"]
```

### Etapas da Tokeniza√ß√£o:

1. **Pr√©-processamento**: Limpar o texto
2. **Normaliza√ß√£o**: Converter mai√∫sculas, remover acentos (√†s vezes)
3. **Aplicar algoritmo**: BPE, WordPiece, SentencePiece
4. **Converter para IDs**: Cada token vira um n√∫mero

**Importante**: Cada modelo tem seu pr√≥prio vocabul√°rio de tokens!

In [None]:
# Vamos criar um tokenizador simples pra entender o conceito

class TokenizadorSimples:
    def __init__(self):
        self.vocab = {}
        self.token_to_id = {}
        self.id_to_token = {}
        
    def treinar(self, textos):
        """Treina o tokenizador com uma lista de textos"""
        print("üèãÔ∏è Treinando o tokenizador...")
        
        # Coleta todos os caracteres √∫nicos
        chars = set()
        for texto in textos:
            chars.update(list(texto.lower()))
        
        # Cria vocabul√°rio
        tokens_especiais = ['<pad>', '<unk>', '<start>', '<end>']
        self.vocab = tokens_especiais + sorted(list(chars))
        
        # Cria mapeamentos
        self.token_to_id = {token: i for i, token in enumerate(self.vocab)}
        self.id_to_token = {i: token for i, token in enumerate(self.vocab)}
        
        print(f"‚úÖ Vocabul√°rio criado com {len(self.vocab)} tokens!")
        print(f"üìã Primeiros 10 tokens: {self.vocab[:10]}")
        
    def tokenizar(self, texto):
        """Tokeniza um texto em caracteres"""
        tokens = []
        for char in texto.lower():
            if char in self.token_to_id:
                tokens.append(char)
            else:
                tokens.append('<unk>')  # Token desconhecido
        return tokens
    
    def encode(self, texto):
        """Converte texto em IDs"""
        tokens = self.tokenizar(texto)
        return [self.token_to_id[token] for token in tokens]
    
    def decode(self, ids):
        """Converte IDs de volta para texto"""
        tokens = [self.id_to_token[id] for id in ids]
        return ''.join(tokens)

# Teste do nosso tokenizador
textos_treino = [
    "Ol√°, mundo!",
    "Python √© incr√≠vel",
    "Intelig√™ncia Artificial",
    "Tokens s√£o importantes"
]

tokenizador = TokenizadorSimples()
tokenizador.treinar(textos_treino)

# Testando
texto_teste = "Ol√°, IA!"
print(f"\nüîç Texto original: '{texto_teste}'")
print(f"üéØ Tokens: {tokenizador.tokenizar(texto_teste)}")
print(f"üî¢ IDs: {tokenizador.encode(texto_teste)}")
print(f"üîÑ Decodificado: '{tokenizador.decode(tokenizador.encode(texto_teste))}'")

## üß¨ Algoritmos de Tokeniza√ß√£o

Agora vamos falar dos algoritmos que as LLMs de verdade usam! S√£o mais sofisticados que o nosso exemplo anterior.

### 1. **Byte Pair Encoding (BPE)**
Usado pelo GPT! Funciona assim:
- Come√ßa com caracteres individuais
- Vai juntando os pares mais frequentes
- Tipo montar palavras com Lego! üß±

### 2. **WordPiece**
Usado pelo BERT! Similar ao BPE, mas:
- Usa probabilidade pra decidir as jun√ß√µes
- Prefere subwords que maximizam a verossimilhan√ßa

### 3. **SentencePiece**
Usado pelo T5! O mais moderno:
- Trata o texto como sequ√™ncia de bytes
- N√£o precisa de pr√©-processamento
- Funciona com qualquer idioma!

**Dica do Pedro:** Cada algoritmo tem suas vantagens. O SentencePiece √© tipo o "canivete su√≠√ßo" da tokeniza√ß√£o! üîß

In [None]:
# Vamos implementar um BPE simplificado pra entender o conceito!

class BPESimplificado:
    def __init__(self, num_merges=100):
        self.num_merges = num_merges
        self.vocab = set()
        self.merges = []
        
    def get_stats(self, vocab):
        """Conta frequ√™ncia de pares consecutivos"""
        pairs = {}
        for word, freq in vocab.items():
            symbols = word.split()
            for i in range(len(symbols) - 1):
                pair = (symbols[i], symbols[i + 1])
                pairs[pair] = pairs.get(pair, 0) + freq
        return pairs
    
    def merge_vocab(self, pair, v_in):
        """Faz o merge de um par no vocabul√°rio"""
        v_out = {}
        bigram = ' '.join(pair)
        replacement = ''.join(pair)
        
        for word in v_in:
            new_word = word.replace(bigram, replacement)
            v_out[new_word] = v_in[word]
        return v_out
    
    def treinar(self, textos):
        """Treina o BPE"""
        print("üöÄ Iniciando treinamento BPE...")
        
        # Prepara vocabul√°rio inicial (palavras como caracteres separados)
        vocab = {}
        for texto in textos:
            palavras = texto.lower().split()
            for palavra in palavras:
                # Adiciona espa√ßo entre caracteres + </w> no final
                palavra_tokenizada = ' '.join(list(palavra)) + ' </w>'
                vocab[palavra_tokenizada] = vocab.get(palavra_tokenizada, 0) + 1
        
        print(f"üìä Vocabul√°rio inicial: {len(vocab)} palavras")
        
        # Executa merges
        for i in range(self.num_merges):
            pairs = self.get_stats(vocab)
            if not pairs:
                break
                
            # Pega o par mais frequente
            best_pair = max(pairs, key=pairs.get)
            vocab = self.merge_vocab(best_pair, vocab)
            self.merges.append(best_pair)
            
            if i % 20 == 0:
                print(f"üîÑ Merge {i}: {best_pair} (freq: {pairs[best_pair]})")
        
        # Extrai vocabul√°rio final
        self.vocab = set()
        for word in vocab:
            self.vocab.update(word.split())
            
        print(f"‚úÖ Treinamento conclu√≠do!")
        print(f"üìà Vocabul√°rio final: {len(self.vocab)} tokens")
        print(f"üîß Merges realizados: {len(self.merges)}")
        
        return self.vocab, self.merges

# Teste do BPE
textos_bpe = [
    "intelig√™ncia artificial √© incr√≠vel",
    "processamento de linguagem natural",
    "transformers revolucionaram a √°rea",
    "tokeniza√ß√£o √© fundamental",
    "artificial intelligence rocks"
]

bpe = BPESimplificado(num_merges=50)
vocab_final, merges = bpe.treinar(textos_bpe)

print(f"\nüéØ Alguns tokens aprendidos:")
for i, token in enumerate(sorted(list(vocab_final))[:15]):
    print(f"  {i+1}. '{token}'")

In [None]:
# Vamos visualizar como diferentes tokenizadores funcionam na pr√°tica!

from transformers import AutoTokenizer
import tiktoken

# Carrega diferentes tokenizadores
print("üì• Carregando tokenizadores famosos...")

# BERT (WordPiece)
bert_tokenizer = AutoTokenizer.from_pretrained('bert-base-uncased')

# GPT-2 (BPE)
gpt2_tokenizer = AutoTokenizer.from_pretrained('gpt2')

# GPT-4 (tiktoken)
try:
    gpt4_tokenizer = tiktoken.encoding_for_model("gpt-4")
except:
    gpt4_tokenizer = tiktoken.get_encoding("cl100k_base")  # Fallback

print("‚úÖ Tokenizadores carregados!")

# Texto de teste em portugu√™s
texto_br = "Intelig√™ncia artificial est√° revolucionando o Brasil! üáßüá∑"

print(f"\nüéØ Texto de teste: '{texto_br}'\n")

# Compara tokeniza√ß√µes
print("üîç BERT (WordPiece):")
bert_tokens = bert_tokenizer.tokenize(texto_br)
print(f"  Tokens: {bert_tokens}")
print(f"  Quantidade: {len(bert_tokens)} tokens")

print("\nüîç GPT-2 (BPE):")
gpt2_tokens = gpt2_tokenizer.tokenize(texto_br)
print(f"  Tokens: {gpt2_tokens}")
print(f"  Quantidade: {len(gpt2_tokens)} tokens")

print("\nüîç GPT-4 (tiktoken):")
gpt4_tokens = [gpt4_tokenizer.decode([token]) for token in gpt4_tokenizer.encode(texto_br)]
print(f"  Tokens: {gpt4_tokens}")
print(f"  Quantidade: {len(gpt4_tokens)} tokens")

# An√°lise dos resultados
print("\nüìä An√°lise:")
print(f"  BERT quebrou em {len(bert_tokens)} peda√ßos")
print(f"  GPT-2 quebrou em {len(gpt2_tokens)} peda√ßos")
print(f"  GPT-4 quebrou em {len(gpt4_tokens)} peda√ßos")
print("\nüí° Cada modelo 'v√™' o texto de forma diferente!")

## üìä Visualizando a Tokeniza√ß√£o

Vamos criar algumas visualiza√ß√µes massa pra entender melhor como funciona!

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdu√ß√£o-√†-llms-modulo-04_img_02.png)

**Dica do Pedro:** Visualizar dados √© sempre uma boa! Ajuda a "ver" o que t√° rolando nos algoritmos. üìà

In [None]:
# Vamos criar visualiza√ß√µes incr√≠veis sobre tokeniza√ß√£o!

# Preparando dados para compara√ß√£o
textos_teste = [
    "Ol√° mundo",
    "Intelig√™ncia artificial", 
    "Processamento de linguagem natural",
    "Transformers s√£o revolucion√°rios",
    "Machine learning √© incr√≠vel",
    "Deep learning mudou tudo"
]

# Coleta dados de tokeniza√ß√£o
resultados = []
for texto in textos_teste:
    bert_count = len(bert_tokenizer.tokenize(texto))
    gpt2_count = len(gpt2_tokenizer.tokenize(texto))
    gpt4_count = len(gpt4_tokenizer.encode(texto))
    
    resultados.append({
        'texto': texto,
        'BERT': bert_count,
        'GPT-2': gpt2_count,
        'GPT-4': gpt4_count
    })

# Gr√°fico de barras comparativo
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Subplot 1: Compara√ß√£o de tokenizadores
textos_curtos = [t[:15] + '...' if len(t) > 15 else t for t in textos_teste]
bert_counts = [r['BERT'] for r in resultados]
gpt2_counts = [r['GPT-2'] for r in resultados]
gpt4_counts = [r['GPT-4'] for r in resultados]

x = np.arange(len(textos_curtos))
width = 0.25

ax1.bar(x - width, bert_counts, width, label='BERT (WordPiece)', color='#FF6B6B', alpha=0.8)
ax1.bar(x, gpt2_counts, width, label='GPT-2 (BPE)', color='#4ECDC4', alpha=0.8)
ax1.bar(x + width, gpt4_counts, width, label='GPT-4 (tiktoken)', color='#45B7D1', alpha=0.8)

ax1.set_xlabel('Textos de Teste')
ax1.set_ylabel('N√∫mero de Tokens')
ax1.set_title('üîç Compara√ß√£o de Tokenizadores')
ax1.set_xticks(x)
ax1.set_xticklabels(textos_curtos, rotation=45, ha='right')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Subplot 2: Efici√™ncia por caractere
character_counts = [len(texto) for texto in textos_teste]
bert_efficiency = [bert_counts[i]/character_counts[i] for i in range(len(textos_teste))]
gpt2_efficiency = [gpt2_counts[i]/character_counts[i] for i in range(len(textos_teste))]
gpt4_efficiency = [gpt4_counts[i]/character_counts[i] for i in range(len(textos_teste))]

ax2.plot(character_counts, bert_efficiency, 'o-', label='BERT', linewidth=2, markersize=8)
ax2.plot(character_counts, gpt2_efficiency, 's-', label='GPT-2', linewidth=2, markersize=8)
ax2.plot(character_counts, gpt4_efficiency, '^-', label='GPT-4', linewidth=2, markersize=8)

ax2.set_xlabel('N√∫mero de Caracteres')
ax2.set_ylabel('Tokens por Caractere')
ax2.set_title('üìà Efici√™ncia da Tokeniza√ß√£o')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("üéØ Insights das visualiza√ß√µes:")
print("  ‚Ä¢ Cada tokenizador tem comportamento diferente")
print("  ‚Ä¢ Textos maiores geralmente s√£o mais eficientes")
print("  ‚Ä¢ GPT-4 tende a ser mais eficiente (menos tokens)")

In [None]:
# Vamos criar uma nuvem de palavras dos tokens mais comuns!

# Analisa vocabul√°rio do GPT-2
print("üîç Analisando vocabul√°rio do GPT-2...")

# Pega alguns tokens do vocabul√°rio
vocab_gpt2 = gpt2_tokenizer.get_vocab()
token_ids = list(range(0, min(1000, len(vocab_gpt2))))  # Primeiros 1000 tokens
tokens_sample = [gpt2_tokenizer.decode([id]) for id in token_ids]

# Remove tokens especiais e muito pequenos
tokens_limpos = []
for token in tokens_sample:
    token_clean = token.strip()
    if len(token_clean) > 1 and token_clean.isalpha():
        tokens_limpos.append(token_clean)

# Cria frequ√™ncias artificiais (em um caso real, usar√≠amos frequ√™ncias do corpus)
np.random.seed(42)
frequencias = {token: np.random.randint(10, 100) for token in tokens_limpos[:100]}

# Gera nuvem de palavras
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 8))

# Nuvem de palavras
wordcloud = WordCloud(width=400, height=400, 
                     background_color='white',
                     colormap='viridis',
                     max_words=50).generate_from_frequencies(frequencias)

ax1.imshow(wordcloud, interpolation='bilinear')
ax1.axis('off')
ax1.set_title('‚òÅÔ∏è Nuvem de Tokens GPT-2', fontsize=16, pad=20)

# Gr√°fico de barras dos mais frequentes
top_tokens = sorted(frequencias.items(), key=lambda x: x[1], reverse=True)[:15]
tokens_top = [item[0] for item in top_tokens]
freqs_top = [item[1] for item in top_tokens]

bars = ax2.barh(tokens_top, freqs_top, color=plt.cm.viridis(np.linspace(0, 1, len(tokens_top))))
ax2.set_xlabel('Frequ√™ncia (simulada)')
ax2.set_title('üìä Top 15 Tokens Mais Frequentes')
ax2.grid(True, alpha=0.3)

# Adiciona valores nas barras
for i, (bar, freq) in enumerate(zip(bars, freqs_top)):
    ax2.text(freq + 1, i, str(freq), va='center', fontweight='bold')

plt.tight_layout()
plt.show()

print(f"\nüìà Estat√≠sticas do vocabul√°rio GPT-2:")
print(f"  ‚Ä¢ Tamanho total: {len(vocab_gpt2):,} tokens")
print(f"  ‚Ä¢ Tokens analisados: {len(tokens_limpos)}")
print(f"  ‚Ä¢ Token mais 'frequente': {top_tokens[0][0]}")

## ‚ö° Tokens Especiais

T√°, mas al√©m das palavras normais, existem tokens especiais que s√£o **SUPER** importantes!

### Principais Tokens Especiais:

- **`<pad>`** - Padding (preenchimento)
- **`<unk>`** - Unknown (desconhecido) 
- **`<start>/<s>`** - In√≠cio de sequ√™ncia
- **`<end>/</s>`** - Fim de sequ√™ncia
- **`<mask>`** - Mascaramento (BERT)
- **`<cls>`** - Classifica√ß√£o
- **`<sep>`** - Separador

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdu√ß√£o-√†-llms-modulo-04_img_03.png)

### Por que s√£o importantes?

1. **Estrutura**: Definem in√≠cio/fim de textos
2. **Padding**: Fazem sequ√™ncias ficarem do mesmo tamanho
3. **Mascaramento**: Permitem o treinamento do BERT
4. **Separa√ß√£o**: Dividem diferentes partes do input

**Dica do Pedro:** Os tokens especiais s√£o tipo a "pontua√ß√£o" do mundo das LLMs. Sem eles, seria bagun√ßa total! üé≠

In [None]:
# Vamos explorar os tokens especiais dos diferentes modelos!

print("üé≠ Explorando tokens especiais...\n")

# BERT tokens especiais
print("üîç BERT (WordPiece):")
bert_especiais = {
    'PAD': bert_tokenizer.pad_token,
    'UNK': bert_tokenizer.unk_token, 
    'CLS': bert_tokenizer.cls_token,
    'SEP': bert_tokenizer.sep_token,
    'MASK': bert_tokenizer.mask_token
}

for nome, token in bert_especiais.items():
    if token:
        token_id = bert_tokenizer.convert_tokens_to_ids(token)
        print(f"  {nome}: '{token}' (ID: {token_id})")

# GPT-2 tokens especiais  
print("\nüîç GPT-2 (BPE):")
gpt2_especiais = {
    'PAD': gpt2_tokenizer.pad_token,
    'UNK': gpt2_tokenizer.unk_token,
    'BOS': gpt2_tokenizer.bos_token,
    'EOS': gpt2_tokenizer.eos_token
}

for nome, token in gpt2_especiais.items():
    if token:
        token_id = gpt2_tokenizer.convert_tokens_to_ids(token)
        print(f"  {nome}: '{token}' (ID: {token_id})")
    else:
        print(f"  {nome}: None (n√£o definido)")

# Exemplo pr√°tico: como o BERT processa uma frase
print("\nüõ†Ô∏è Exemplo pr√°tico - BERT processando:")
frase = "Ol√°! Como vai?"
print(f"\nTexto: '{frase}'")

# Tokeniza√ß√£o completa do BERT
tokens_bert = bert_tokenizer.tokenize(frase)
print(f"Tokens: {tokens_bert}")

# Com tokens especiais
input_ids = bert_tokenizer.encode(frase)
tokens_completos = bert_tokenizer.convert_ids_to_tokens(input_ids)
print(f"Com especiais: {tokens_completos}")
print(f"IDs: {input_ids}")

# Explica√ß√£o
print("\nüí° O que aconteceu:")
print(f"  ‚Ä¢ [CLS] foi adicionado no in√≠cio (ID: {input_ids[0]})")
print(f"  ‚Ä¢ [SEP] foi adicionado no final (ID: {input_ids[-1]})")
print(f"  ‚Ä¢ Total de tokens: {len(input_ids)}")

In [None]:
# Vamos simular como funciona o padding com tokens especiais!

print("üéØ Simulando padding com tokens especiais\n")

# V√°rias frases de tamanhos diferentes
frases = [
    "Oi!",
    "Como voc√™ est√° hoje?", 
    "Intelig√™ncia artificial √© incr√≠vel e est√° mudando o mundo",
    "Tokens"
]

# Tokeniza todas as frases
tokens_por_frase = []
ids_por_frase = []

for i, frase in enumerate(frases):
    tokens = bert_tokenizer.tokenize(frase)
    ids = bert_tokenizer.encode(frase, add_special_tokens=True)
    tokens_por_frase.append(tokens)
    ids_por_frase.append(ids)
    print(f"Frase {i+1}: '{frase}'")
    print(f"  Tokens: {tokens}")
    print(f"  IDs: {ids}")
    print(f"  Comprimento: {len(ids)} tokens\n")

# Encontra o tamanho m√°ximo
max_length = max(len(ids) for ids in ids_por_frase)
print(f"üìè Tamanho m√°ximo necess√°rio: {max_length} tokens")

# Aplica padding
print("\nüîß Aplicando padding:")
ids_padded = []
attention_masks = []

for i, ids in enumerate(ids_por_frase):
    # Padding
    padding_length = max_length - len(ids)
    ids_pad = ids + [bert_tokenizer.pad_token_id] * padding_length
    
    # Attention mask (1 para tokens reais, 0 para padding)
    attention_mask = [1] * len(ids) + [0] * padding_length
    
    ids_padded.append(ids_pad)
    attention_masks.append(attention_mask)
    
    print(f"\nFrase {i+1} (padded):")
    print(f"  IDs: {ids_pad}")
    print(f"  Mask: {attention_mask}")
    print(f"  Comprimento: {len(ids_pad)} tokens")

print("\n‚úÖ Agora todas as frases t√™m o mesmo tamanho!")
print("üí° O modelo usa a attention mask para ignorar os tokens de padding")

## üé® Visualizando o Processo Completo

Vamos criar um diagrama que mostra todo o pipeline de tokeniza√ß√£o!

```mermaid
graph TD
    A["üìù Texto Original<br/>Intelig√™ncia Artificial"] --> B["üßπ Pr√©-processamento<br/>Limpar, normalizar"]
    B --> C["‚ö° Tokeniza√ß√£o<br/>WordPiece/BPE/SentencePiece"]
    C --> D["üè∑Ô∏è Adicionar Tokens Especiais<br/>[CLS] + tokens + [SEP]"]
    D --> E["üî¢ Convers√£o para IDs<br/>[101, 1234, 5678, 102]"]
    E --> F["üìè Padding<br/>Mesmo tamanho"]
    F --> G["üé≠ Attention Masks<br/>1s e 0s"]
    G --> H["üöÄ Pronto para o Modelo!"]
```

**Dica do Pedro:** Esse pipeline √© o cora√ß√£o do processamento de texto nas LLMs! Cada etapa √© crucial. üíñ

In [None]:
# Vamos criar uma visualiza√ß√£o do pipeline completo!

def visualizar_pipeline_tokenizacao(texto, tokenizer, modelo_nome):
    """Visualiza todo o pipeline de tokeniza√ß√£o"""
    print(f"\nüé¨ Pipeline de Tokeniza√ß√£o - {modelo_nome}")
    print("=" * 50)
    
    # Etapa 1: Texto original
    print(f"\n1Ô∏è‚É£ Texto Original:")
    print(f"   '{texto}'")
    print(f"   üìä {len(texto)} caracteres")
    
    # Etapa 2: Tokeniza√ß√£o b√°sica
    print(f"\n2Ô∏è‚É£ Tokeniza√ß√£o:")
    tokens = tokenizer.tokenize(texto)
    print(f"   Tokens: {tokens}")
    print(f"   üìä {len(tokens)} tokens")
    
    # Etapa 3: Com tokens especiais
    print(f"\n3Ô∏è‚É£ Com Tokens Especiais:")
    input_ids = tokenizer.encode(texto, add_special_tokens=True)
    tokens_completos = tokenizer.convert_ids_to_tokens(input_ids)
    print(f"   Tokens: {tokens_completos}")
    print(f"   üìä {len(tokens_completos)} tokens")
    
    # Etapa 4: IDs num√©ricos
    print(f"\n4Ô∏è‚É£ IDs Num√©ricos:")
    print(f"   {input_ids}")
    
    # Etapa 5: Com padding (simulado para tamanho 15)
    print(f"\n5Ô∏è‚É£ Com Padding (max_length=15):")
    if len(input_ids) < 15:
        padded_ids = input_ids + [tokenizer.pad_token_id] * (15 - len(input_ids))
        attention_mask = [1] * len(input_ids) + [0] * (15 - len(input_ids))
    else:
        padded_ids = input_ids[:15]
        attention_mask = [1] * 15
    
    print(f"   IDs: {padded_ids}")
    print(f"   Mask: {attention_mask}")
    
    return {
        'tokens': tokens,
        'tokens_completos': tokens_completos,
        'input_ids': input_ids,
        'padded_ids': padded_ids,
        'attention_mask': attention_mask
    }

# Testa com diferentes modelos
texto_exemplo = "Transformers s√£o revolucion√°rios!"

# BERT
result_bert = visualizar_pipeline_tokenizacao(texto_exemplo, bert_tokenizer, "BERT")

# GPT-2 
result_gpt2 = visualizar_pipeline_tokenizacao(texto_exemplo, gpt2_tokenizer, "GPT-2")

print("\nüèÜ Resumo Comparativo:")
print(f"  BERT: {len(result_bert['input_ids'])} tokens")
print(f"  GPT-2: {len(result_gpt2['input_ids'])} tokens")
print("\nüí° Diferentes modelos = diferentes 'vis√µes' do mesmo texto!")

## üí∞ Impacto dos Tokens nos Custos

T√°, agora vem uma parte **MUITO** importante pra quem vai usar LLMs em produ√ß√£o: **CUSTOS**! üí∏

### Por que tokens importam financeiramente?

- **APIs cobram por token**: GPT-4, Claude, etc.
- **Modelos t√™m limites**: Context window (janela de contexto)
- **Processamento custa**: Mais tokens = mais compute

### Exemplo de Custos (aproximados):
- **GPT-4**: ~$0.03 por 1K tokens (input)
- **GPT-3.5**: ~$0.002 por 1K tokens (input)  
- **Claude**: Varia entre $0.008-0.024 por 1K tokens

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdu√ß√£o-√†-llms-modulo-04_img_04.png)

**Dica do Pedro:** Sempre otimize seus prompts! Um prompt mal feito pode custar 3x mais que um otimizado. √â tipo escolher entre Uber e √¥nibus! üöåüí∞

In [None]:
# Vamos criar uma calculadora de custos de tokens!

class CalculadoraCustoTokens:
    def __init__(self):
        # Pre√ßos aproximados por 1K tokens (USD) - Mar√ßo 2024
        self.precos = {
            'GPT-4': {'input': 0.03, 'output': 0.06},
            'GPT-3.5-turbo': {'input': 0.0015, 'output': 0.002}, 
            'Claude-3-Opus': {'input': 0.015, 'output': 0.075},
            'Claude-3-Sonnet': {'input': 0.003, 'output': 0.015}
        }
    
    def calcular_custo(self, modelo, tokens_input, tokens_output=0):
        """Calcula o custo baseado no n√∫mero de tokens"""
        if modelo not in self.precos:
            return None
            
        custo_input = (tokens_input / 1000) * self.precos[modelo]['input']
        custo_output = (tokens_output / 1000) * self.precos[modelo]['output']
        
        return {
            'custo_input': custo_input,
            'custo_output': custo_output,
            'custo_total': custo_input + custo_output
        }
    
    def comparar_modelos(self, tokens_input, tokens_output=0):
        """Compara custos entre diferentes modelos"""
        resultados = {}
        for modelo in self.precos.keys():
            resultados[modelo] = self.calcular_custo(modelo, tokens_input, tokens_output)
        return resultados

# Exemplo pr√°tico: analisando custos
calculadora = CalculadoraCustoTokens()

# Cen√°rios de uso
cearios = [
    {"nome": "Prompt simples", "input": 50, "output": 100},
    {"nome": "An√°lise de documento", "input": 2000, "output": 500},
    {"nome": "Processamento em lote", "input": 10000, "output": 3000},
    {"nome": "Chatbot di√°rio", "input": 50000, "output": 25000}
]

print("üí∞ Calculadora de Custos por Tokens\n")

for cenario in cearios:
    print(f"üéØ Cen√°rio: {cenario['nome']}")
    print(f"   Input: {cenario['input']:,} tokens")
    print(f"   Output: {cenario['output']:,} tokens")
    print("   Custos por modelo:")
    
    comparacao = calculadora.comparar_modelos(cenario['input'], cenario['output'])
    
    for modelo, custos in comparacao.items():
        total = custos['custo_total']
        print(f"     {modelo}: ${total:.4f}")
    
    # Mostra o mais barato e mais caro
    custos_ordenados = sorted(comparacao.items(), key=lambda x: x[1]['custo_total'])
    mais_barato = custos_ordenados[0]
    mais_caro = custos_ordenados[-1]
    
    diferenca = mais_caro[1]['custo_total'] / mais_barato[1]['custo_total']
    
    print(f"   üí° Mais barato: {mais_barato[0]} (${mais_barato[1]['custo_total']:.4f})")
    print(f"   üí∏ Diferen√ßa: {diferenca:.1f}x mais caro que o mais barato\n")

print("üìä Dicas para otimizar custos:")
print("  ‚Ä¢ Use prompts concisos")
print("  ‚Ä¢ Reutilize contexto quando poss√≠vel")
print("  ‚Ä¢ Escolha o modelo adequado para a tarefa")
print("  ‚Ä¢ Monitore uso de tokens em produ√ß√£o")

In [None]:
# Vamos criar um gr√°fico de custos por modelo!

# Preparando dados para visualiza√ß√£o
modelos = list(calculadora.precos.keys())
tokens_cenarios = [100, 500, 1000, 5000, 10000]

# Calcula custos para cada cen√°rio (assumindo output = 50% do input)
custos_por_modelo = {modelo: [] for modelo in modelos}

for tokens in tokens_cenarios:
    tokens_output = tokens // 2  # 50% do input
    for modelo in modelos:
        custo = calculadora.calcular_custo(modelo, tokens, tokens_output)
        custos_por_modelo[modelo].append(custo['custo_total'])

# Cria o gr√°fico
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(16, 6))

# Gr√°fico 1: Custos por n√∫mero de tokens
colors = ['#FF6B6B', '#4ECDC4', '#45B7D1', '#96CEB4']
for i, (modelo, custos) in enumerate(custos_por_modelo.items()):
    ax1.plot(tokens_cenarios, custos, marker='o', linewidth=2.5, 
            label=modelo, color=colors[i], markersize=8)

ax1.set_xlabel('N√∫mero de Tokens (Input)')
ax1.set_ylabel('Custo Total (USD)')
ax1.set_title('üí∞ Custos por Modelo vs N√∫mero de Tokens')
ax1.legend()
ax1.grid(True, alpha=0.3)
ax1.set_yscale('log')

# Gr√°fico 2: Compara√ß√£o de pre√ßos por 1K tokens
precos_input = [calculadora.precos[modelo]['input'] for modelo in modelos]
precos_output = [calculadora.precos[modelo]['output'] for modelo in modelos]

x_pos = np.arange(len(modelos))
width = 0.35

ax2.bar(x_pos - width/2, precos_input, width, label='Input', 
       color='lightblue', alpha=0.8)
ax2.bar(x_pos + width/2, precos_output, width, label='Output', 
       color='lightcoral', alpha=0.8)

ax2.set_xlabel('Modelos')
ax2.set_ylabel('Pre√ßo por 1K Tokens (USD)')
ax2.set_title('üìä Pre√ßos Input vs Output por Modelo')
ax2.set_xticks(x_pos)
ax2.set_xticklabels([modelo.replace('-', '\n') for modelo in modelos], rotation=45)
ax2.legend()
ax2.grid(True, alpha=0.3)

# Adiciona valores nas barras
for i, (inp, out) in enumerate(zip(precos_input, precos_output)):
    ax2.text(i - width/2, inp + 0.001, f'${inp:.3f}', 
            ha='center', va='bottom', fontweight='bold', fontsize=9)
    ax2.text(i + width/2, out + 0.001, f'${out:.3f}', 
            ha='center', va='bottom', fontweight='bold', fontsize=9)

plt.tight_layout()
plt.show()

# Insights
print("üéØ Insights dos gr√°ficos:")
print("  ‚Ä¢ Custos crescem linearmente com tokens")
print("  ‚Ä¢ Output geralmente custa 2-5x mais que input")
print("  ‚Ä¢ GPT-3.5 √© muito mais barato para tarefas simples")
print("  ‚Ä¢ Diferen√ßas ficam enormes em grande escala!")

## üöÄ Exerc√≠cio Pr√°tico 1: Analisador de Textos

**Desafio:** Crie um analisador que compara diferentes aspectos da tokeniza√ß√£o!

### Sua miss√£o:
1. Receber um texto qualquer
2. Analisar com 3 tokenizadores diferentes
3. Calcular estat√≠sticas comparativas
4. Gerar um relat√≥rio visual

**Dica do Pedro:** Use tudo que aprendemos at√© agora! Seja criativo! üé®

In [None]:
# üéØ EXERC√çCIO PR√ÅTICO 1: Analisador de Textos
# Complete o c√≥digo abaixo!

class AnalisadorTokenizacao:
    def __init__(self):
        # TODO: Inicializar tokenizadores
        # self.bert_tokenizer = ???
        # self.gpt2_tokenizer = ???
        # (Use os tokenizadores j√° carregados)
        pass
    
    def analisar_texto(self, texto):
        """Analisa um texto com m√∫ltiplos tokenizadores"""
        # TODO: Implementar an√°lise completa
        resultados = {
            'texto_original': texto,
            'caracteres': len(texto),
            'palavras': len(texto.split()),
            'bert': {
                # TODO: Preencher com an√°lise BERT
                'tokens': None,
                'num_tokens': None,
                'tokens_especiais': None
            },
            'gpt2': {
                # TODO: Preencher com an√°lise GPT-2
                'tokens': None,
                'num_tokens': None,
                'eficiencia': None  # tokens por palavra
            }
        }
        
        return resultados
    
    def gerar_relatorio(self, resultados):
        """Gera um relat√≥rio visual dos resultados"""
        # TODO: Criar visualiza√ß√µes
        # Dicas: gr√°fico de barras, estat√≠sticas, compara√ß√µes
        pass

# Seu c√≥digo aqui!
# analisador = AnalisadorTokenizacao()
# resultado = analisador.analisar_texto("Sua frase de teste aqui!")
# analisador.gerar_relatorio(resultado)

print("üéØ Complete o c√≥digo acima!")
print("üí° Dicas:")
print("  ‚Ä¢ Use os tokenizadores j√° carregados")
print("  ‚Ä¢ Calcule estat√≠sticas interessantes")
print("  ‚Ä¢ Crie gr√°ficos comparativos")
print("  ‚Ä¢ Seja criativo com as an√°lises!")

## üé≤ Exerc√≠cio Pr√°tico 2: Otimizador de Prompts

**Desafio Avan√ßado:** Crie uma ferramenta que otimiza prompts para reduzir custos!

### Objetivos:
1. Receber um prompt "verboso"
2. Sugerir otimiza√ß√µes
3. Comparar custos antes/depois
4. Manter a qualidade do prompt

**T√©cnicas para usar:**
- Remo√ß√£o de palavras desnecess√°rias
- Substitui√ß√£o por sin√¥nimos mais curtos
- Reorganiza√ß√£o da estrutura
- Uso de abrevia√ß√µes quando apropriado



In [None]:
# üéØ EXERC√çCIO PR√ÅTICO 2: Otimizador de Prompts
# Implemente as fun√ß√µes abaixo!

class OtimizadorPrompts:
    def __init__(self):
        # Dicion√°rio de substitui√ß√µes para otimiza√ß√£o
        self.substituicoes = {
            'por favor': 'pls',
            'voc√™ pode': 'pode',
            'muito obrigado': 'obrigado',
            'intelig√™ncia artificial': 'IA',
            'aprendizado de m√°quina': 'ML',
            'processamento de linguagem natural': 'NLP',
            # TODO: Adicione mais substitui√ß√µes!
        }
        
        # Palavras que podem ser removidas
        self.palavras_removiveis = [
            'realmente', 'absolutamente', 'definitivamente',
            'por favor', 'tipo', 'meio que'
            # TODO: Adicione mais palavras!
        ]
    
    def otimizar_prompt(self, prompt_original):
        """Otimiza um prompt para reduzir tokens"""
        # TODO: Implementar otimiza√ß√£o
        # 1. Aplicar substitui√ß√µes
        # 2. Remover palavras desnecess√°rias
        # 3. Simplificar estruturas
        
        prompt_otimizado = prompt_original  # Placeholder
        
        return prompt_otimizado
    
    def comparar_custos(self, prompt_original, prompt_otimizado, modelo='GPT-4'):
        """Compara custos entre prompts"""
        # TODO: Usar a calculadora de custos
        # Calcular tokens e custos para ambos os prompts
        pass
    
    def gerar_relatorio_otimizacao(self, prompt_original, prompt_otimizado):
        """Gera relat√≥rio da otimiza√ß√£o"""
        # TODO: Criar visualiza√ß√£o comparativa
        pass

# Exemplo de uso:
prompt_teste = """
Ol√°! Por favor, voc√™ pode me ajudar a criar um texto sobre intelig√™ncia artificial? 
Eu realmente preciso de algo muito detalhado e definitivamente completo sobre 
aprendizado de m√°quina e processamento de linguagem natural. Muito obrigado!
"""

# Seu c√≥digo aqui!
# otimizador = OtimizadorPrompts()
# prompt_otimizado = otimizador.otimizar_prompt(prompt_teste)
# otimizador.gerar_relatorio_otimizacao(prompt_teste, prompt_otimizado)

print("üéØ Implemente o otimizador de prompts!")
print("\nüí° Estrat√©gias de otimiza√ß√£o:")
print("  ‚Ä¢ Substituir termos longos por abrevia√ß√µes")
print("  ‚Ä¢ Remover palavras redundantes")
print("  ‚Ä¢ Usar estruturas mais concisas")
print("  ‚Ä¢ Manter o significado original")
print("\nüèÜ Meta: Reduzir 30-50% dos tokens!")

## üîó Conex√£o com Pr√≥ximos M√≥dulos

Agora que voc√™ domina tokens, vamos ver como eles se conectam com o resto do curso!

### üéØ M√≥dulo 5 - Embeddings e Representa√ß√µes:
- **Tokens ‚Üí Embeddings**: Como tokens viram vetores
- **Vocabulary embeddings**: Cada token tem sua representa√ß√£o
- **Dimensionalidade**: Geralmente 512, 768 ou 1024 dimens√µes

### üéØ M√≥dulo 6 - Tipos de Modelos:
- **Encoder-only** (BERT): Usa tokens especiais como [CLS], [SEP]
- **Decoder-only** (GPT): Gera tokens sequencialmente
- **Encoder-decoder** (T5): Combina ambos os approaches

### üéØ M√≥dulo 8 - Prompting:
- **Prompt engineering**: Otimizar tokens para melhores respostas
- **Context window**: Limite de tokens por intera√ß√£o
- **Token budgeting**: Gerenciar tokens em aplica√ß√µes

**Dica do Pedro:** Tokens s√£o a funda√ß√£o de tudo! Entender bem esse m√≥dulo vai te ajudar muito nos pr√≥ximos! üèóÔ∏è

In [None]:
# Vamos criar uma pr√©via do que vem por a√≠!

print("üîÆ Pr√©via dos Pr√≥ximos M√≥dulos\n")

# Simulando como tokens viram embeddings (M√≥dulo 5)
print("üéØ M√≥dulo 5 - De Tokens para Embeddings:")
texto_exemplo = "IA √© incr√≠vel"
tokens = bert_tokenizer.tokenize(texto_exemplo)
print(f"  Tokens: {tokens}")
print(f"  Cada token vai virar um vetor de 768 dimens√µes!")
print(f"  Exemplo: 'IA' ‚Üí [0.1, -0.3, 0.7, ..., 0.2] (768 n√∫meros)")

# Context window (importante para M√≥dulo 8)
print("\nüéØ M√≥dulo 8 - Context Window:")
modelos_limits = {
    'GPT-3.5': '4K tokens',
    'GPT-4': '8K-32K tokens', 
    'Claude-3': '200K tokens',
    'Gemini-Pro': '1M tokens'
}

for modelo, limite in modelos_limits.items():
    print(f"  {modelo}: {limite}")

print("\nüí° Quanto mais tokens, mais 'mem√≥ria' o modelo tem!")

# Tipos de modelos (M√≥dulo 6)
print("\nüéØ M√≥dulo 6 - Como diferentes arquiteturas usam tokens:")
print("  ‚Ä¢ BERT (Encoder): V√™ todos os tokens simultaneamente")
print("  ‚Ä¢ GPT (Decoder): Gera um token por vez")
print("  ‚Ä¢ T5 (Encoder-Decoder): Combina ambas estrat√©gias")

# Exemplo de gera√ß√£o sequencial
print("\nü§ñ Como o GPT geraria: 'A IA vai'")
steps = [
    "Input: 'A IA vai' ‚Üí Pr√≥ximo token: 'revolucionar' (prob: 0.7)",
    "Input: 'A IA vai revolucionar' ‚Üí Pr√≥ximo token: 'o' (prob: 0.8)", 
    "Input: 'A IA vai revolucionar o' ‚Üí Pr√≥ximo token: 'mundo' (prob: 0.6)"
]

for i, step in enumerate(steps, 1):
    print(f"  {i}. {step}")
    
print("\nüöÄ Muito mais vem por a√≠! Tokens s√£o s√≥ o come√ßo!")

## üéâ Resumo do M√≥dulo

**Liiindo! Voc√™ agora √© um expert em tokens!** üèÜ

### üß† O que aprendemos:

1. **Conceitos Fundamentais**:
   - O que s√£o tokens e por que existem
   - Diferen√ßa entre caracteres, palavras e subwords
   - Import√¢ncia da tokeniza√ß√£o para LLMs

2. **Algoritmos de Tokeniza√ß√£o**:
   - **BPE**: Usado pelo GPT
   - **WordPiece**: Usado pelo BERT
   - **SentencePiece**: Mais moderno e flex√≠vel

3. **Tokens Especiais**:
   - `<pad>`, `<unk>`, `<start>`, `<end>`
   - Como estruturam o processamento
   - Padding e attention masks

4. **Aspectos Pr√°ticos**:
   - **Custos**: Tokens = dinheiro em APIs
   - **Otimiza√ß√£o**: Como reduzir tokens
   - **Context window**: Limites dos modelos

5. **Pipeline Completo**:
   - Texto ‚Üí Tokens ‚Üí IDs ‚Üí Padding ‚Üí Modelo
   - Cada etapa √© crucial!

### üîë Pontos-chave para lembrar:

- **Diferentes modelos = diferentes tokeniza√ß√µes**
- **Mais tokens = mais custos**
- **Tokens especiais s√£o fundamentais**
- **Otimiza√ß√£o de prompts √© essencial**

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdu√ß√£o-√†-llms-modulo-04_img_06.png)

### üöÄ Pr√≥ximos passos:

No **M√≥dulo 5**, vamos ver como esses tokens viram **embeddings** - representa√ß√µes num√©ricas que os modelos realmente entendem!

**Dica final do Pedro:** Tokens s√£o a "linguagem" que voc√™ usa pra conversar com as LLMs. Dominar isso √© tipo aprender o "dialeto" da IA! ü§ñüí¨

---

**Parab√©ns por completar o M√≥dulo 4!** üéä

*Continue praticando com os exerc√≠cios e nos vemos no pr√≥ximo m√≥dulo!*