# üéØ Embeddings e Representa√ß√µes: Transformando Palavras em N√∫meros M√°gicos

**M√≥dulo 5 de 13 - Introdu√ß√£o √† LLMs**

Por: Pedro Nunes Guth üöÄ

---

Bora mergulhar no mundo dos embeddings! Se voc√™ chegou at√© aqui, j√° entendeu sobre tokens e tokeniza√ß√£o no m√≥dulo anterior. Agora vamos descobrir como transformar essas palavrinhas em n√∫meros que fazem sentido para os computadores!

**O que voc√™ vai aprender:**
- O que s√£o embeddings (spoiler: n√£o √© comida!)
- Como representar palavras em vetores
- Word2Vec, GloVe e embeddings contextuais
- Como os Transformers usam embeddings
- Na pr√°tica: implementando embeddings do zero!

In [None]:
# Bora come√ßar importando as bibliotecas que vamos usar!
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.decomposition import PCA
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes visuais
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")

print("üéâ Bibliotecas carregadas! Bora para os embeddings!")

## ü§î T√°, mas o que s√£o Embeddings?

Imagina que voc√™ √© um tradutor tentando explicar para um alien√≠gena o que significa "cachorro". Como voc√™ faria isso?

Voc√™ poderia dizer:
- "√â um animal que late"
- "Tem 4 patas"
- "√â peludo"
- "√â amigo dos humanos"

**Embeddings fazem exatamente isso!** Eles pegam uma palavra e a representam atrav√©s de n√∫meros que capturam suas caracter√≠sticas e significados.

### Por que precisamos disso?

Computadores n√£o entendem "cachorro" ou "gato". Eles s√≥ entendem n√∫meros! Ent√£o precisamos converter palavras em vetores num√©ricos que preservem o significado sem√¢ntico.

**Dica do Pedro:** Think of embeddings como o "DNA num√©rico" das palavras! üß¨

## üìä Visualizando o Conceito de Embeddings

Vamos come√ßar com um exemplo visual para entender como palavras podem ser representadas em um espa√ßo vetorial:

In [None]:
# Vamos criar embeddings simples para algumas palavras
# Imagine que temos apenas 2 dimens√µes: "animal" e "tamanho"

palavras = ['cachorro', 'gato', 'elefante', 'rato', 'le√£o', 'peixe']

# Embeddings 2D simples [dimens√£o_animal, dimens√£o_tamanho]
embeddings_2d = {
    'cachorro': [0.8, 0.6],   # Muito animal, tamanho m√©dio
    'gato': [0.9, 0.4],       # Muito animal, pequeno
    'elefante': [0.7, 0.9],   # Animal, muito grande
    'rato': [0.6, 0.1],       # Pouco animal, muito pequeno
    'le√£o': [0.85, 0.8],      # Muito animal, grande
    'peixe': [0.5, 0.3]       # Pouco animal (diferente), pequeno
}

# Plotando os embeddings
fig, ax = plt.subplots(figsize=(10, 8))

for palavra, (x, y) in embeddings_2d.items():
    ax.scatter(x, y, s=200, alpha=0.7)
    ax.annotate(palavra, (x, y), xytext=(5, 5), textcoords='offset points', 
                fontsize=12, fontweight='bold')

ax.set_xlabel('Dimens√£o: Animalidade', fontsize=14)
ax.set_ylabel('Dimens√£o: Tamanho', fontsize=14)
ax.set_title('Embeddings 2D Simplificados\n(Palavras no Espa√ßo Vetorial)', fontsize=16)
ax.grid(True, alpha=0.3)
ax.set_xlim(0, 1)
ax.set_ylim(0, 1)

plt.tight_layout()
plt.show()

print("üéØ Repare como palavras similares ficam pr√≥ximas no espa√ßo!")

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdu√ß√£o-√†-llms-modulo-05_img_01.png)

## üîÑ A Evolu√ß√£o dos Embeddings

Os embeddings evolu√≠ram muito ao longo do tempo. Vamos entender essa jornada:

```mermaid
graph TD
    A[One-Hot Encoding] --> B[Word2Vec]
    B --> C[GloVe]
    C --> D[FastText]
    D --> E[Embeddings Contextuais]
    E --> F[BERT/GPT Embeddings]
    
    A --> A1["Problema: Vetores enormes e esparsos"]
    B --> B1["Solu√ß√£o: Vetores densos e sem√¢nticos"]
    C --> C1["Melhoria: Considera estat√≠sticas globais"]
    D --> D1["Inova√ß√£o: Considera subpalavras"]
    E --> E1["Revolu√ß√£o: Contexto importa!"]
    F --> F1["Estado da arte: Transformers"]
```

### 1. One-Hot Encoding (O In√≠cio Ing√™nuo)

Era como dar um CPF √∫nico para cada palavra, mas sem nenhuma rela√ß√£o sem√¢ntica:
- Cachorro: [1, 0, 0, 0, 0]
- Gato: [0, 1, 0, 0, 0]

**Problema:** Vetores gigantes e sem significado sem√¢ntico!

In [None]:
# Exemplo de One-Hot Encoding
vocabulario = ['cachorro', 'gato', 'elefante', 'rato', 'le√£o']

def one_hot_encoding(palavra, vocab):
    """Cria one-hot encoding para uma palavra"""
    vector = [0] * len(vocab)
    if palavra in vocab:
        index = vocab.index(palavra)
        vector[index] = 1
    return vector

# Testando
print("One-Hot Encoding:")
for palavra in vocabulario[:3]:
    encoding = one_hot_encoding(palavra, vocabulario)
    print(f"{palavra}: {encoding}")

# Calculando similaridade (spoiler: sempre ser√° 0!)
cachorro_vec = one_hot_encoding('cachorro', vocabulario)
gato_vec = one_hot_encoding('gato', vocabulario)

similarity = cosine_similarity([cachorro_vec], [gato_vec])[0][0]
print(f"\nü§î Similaridade entre 'cachorro' e 'gato': {similarity}")
print("Isso n√£o faz sentido! Eles s√£o ambos animais dom√©sticos!")

## üöÄ Word2Vec: A Revolu√ß√£o dos Embeddings

Em 2013, o Google lan√ßou o Word2Vec e mudou tudo! A ideia genial foi:

**"Me diga com quem andas e te direi quem √©s"**

Palavras que aparecem em contextos similares t√™m significados similares!

### Como funciona?

Existem duas abordagens:
1. **CBOW (Continuous Bag of Words):** Prediz a palavra central dado o contexto
2. **Skip-gram:** Prediz o contexto dada a palavra central

**Dica do Pedro:** √â como aprender portugu√™s ouvindo conversas. Se voc√™ sempre ouve "cachorro" perto de "late", "peludo", "animal", voc√™ aprende que eles est√£o relacionados! üêï

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdu√ß√£o-√†-llms-modulo-05_img_02.png)

In [None]:
# Vamos implementar um Word2Vec simplificado do zero!
# (Vers√£o did√°tica para entender o conceito)

class SimpleWord2Vec:
    def __init__(self, vector_size=100, window=2, min_count=1):
        self.vector_size = vector_size
        self.window = window
        self.min_count = min_count
        self.vocab = {}
        self.word_vectors = {}
        
    def build_vocab(self, sentences):
        """Constr√≥i o vocabul√°rio a partir das senten√ßas"""
        word_count = {}
        
        # Conta frequ√™ncia das palavras
        for sentence in sentences:
            for word in sentence.split():
                word = word.lower().strip('.,!?')
                word_count[word] = word_count.get(word, 0) + 1
        
        # Filtra palavras por frequ√™ncia m√≠nima
        self.vocab = {word: idx for idx, (word, count) in enumerate(word_count.items()) 
                     if count >= self.min_count}
        
        # Inicializa vetores aleat√≥rios
        np.random.seed(42)
        for word in self.vocab:
            self.word_vectors[word] = np.random.normal(0, 0.1, self.vector_size)
            
        print(f"üìö Vocabul√°rio constru√≠do com {len(self.vocab)} palavras!")
        
    def get_vector(self, word):
        """Retorna o vetor de uma palavra"""
        return self.word_vectors.get(word.lower(), None)
    
    def similarity(self, word1, word2):
        """Calcula similaridade cosseno entre duas palavras"""
        vec1 = self.get_vector(word1)
        vec2 = self.get_vector(word2)
        
        if vec1 is None or vec2 is None:
            return 0
            
        return cosine_similarity([vec1], [vec2])[0][0]

# Testando nosso Word2Vec simples
sentences = [
    "o cachorro late muito alto",
    "o gato mia baixinho",
    "cachorros e gatos s√£o animais dom√©sticos",
    "animais dom√©sticos precisam de cuidados",
    "o elefante √© um animal gigante",
    "elefantes vivem na savana africana",
    "gatos gostam de pescar peixes",
    "cachorros adoram brincar no parque"
]

model = SimpleWord2Vec(vector_size=50)
model.build_vocab(sentences)

print(f"\nüîç Palavras no vocabul√°rio: {list(model.vocab.keys())[:10]}")

## üìà Visualizando Embeddings em A√ß√£o

Agora vamos ver como os embeddings capturam rela√ß√µes sem√¢nticas:

In [None]:
# Vamos criar embeddings mais realistas para demonstra√ß√£o
np.random.seed(42)

# Embeddings pr√©-definidos que capturam rela√ß√µes sem√¢nticas
embeddings_realistas = {
    # Animais dom√©sticos
    'cachorro': np.array([0.8, 0.6, 0.9, 0.7, 0.5]),
    'gato': np.array([0.9, 0.5, 0.8, 0.6, 0.4]),
    
    # Animais selvagens
    'le√£o': np.array([0.7, 0.9, 0.6, 0.8, 0.9]),
    'elefante': np.array([0.6, 0.8, 0.5, 0.9, 0.8]),
    
    # Objetos
    'carro': np.array([0.2, 0.1, 0.3, 0.2, 0.1]),
    'casa': np.array([0.1, 0.2, 0.1, 0.3, 0.2]),
    
    # Comidas
    'pizza': np.array([0.3, 0.2, 0.4, 0.1, 0.3]),
    'hamburguer': np.array([0.4, 0.3, 0.5, 0.2, 0.4])
}

# Calculando matriz de similaridades
palavras = list(embeddings_realistas.keys())
vectors = list(embeddings_realistas.values())

similarity_matrix = cosine_similarity(vectors)

# Criando heatmap de similaridades
fig, ax = plt.subplots(figsize=(10, 8))
im = ax.imshow(similarity_matrix, cmap='RdYlBu_r', aspect='auto')

# Configura√ß√µes do plot
ax.set_xticks(range(len(palavras)))
ax.set_yticks(range(len(palavras)))
ax.set_xticklabels(palavras, rotation=45, ha='right')
ax.set_yticklabels(palavras)

# Adicionando valores na matriz
for i in range(len(palavras)):
    for j in range(len(palavras)):
        text = ax.text(j, i, f'{similarity_matrix[i, j]:.2f}',
                      ha="center", va="center", color="black", fontweight='bold')

ax.set_title('Matriz de Similaridade dos Embeddings\n(Quanto mais vermelho, mais similar)', 
             fontsize=14, pad=20)

# Colorbar
cbar = plt.colorbar(im, ax=ax)
cbar.set_label('Similaridade Cosseno', rotation=270, labelpad=20)

plt.tight_layout()
plt.show()

print("üéØ Repare como:")
print("- Cachorro e gato t√™m alta similaridade (ambos animais dom√©sticos)")
print("- Le√£o e elefante tamb√©m s√£o similares (animais selvagens)")
print("- Pizza e hamb√∫rguer t√™m similaridade (ambos comidas)")
print("- Animais vs objetos t√™m baixa similaridade")

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdu√ß√£o-√†-llms-modulo-05_img_03.png)

## üß† Embeddings Contextuais: A Nova Era

Aqui vem a parada mais liiinda! Os embeddings contextuais (como os usados em BERT, GPT, etc.) n√£o d√£o apenas UM vetor por palavra. Eles criam vetores diferentes dependendo do CONTEXTO!

### Por que isso √© revolucion√°rio?

Pense na palavra "banco":
- "Vou ao **banco** sacar dinheiro" (institui√ß√£o financeira)
- "Sentei no **banco** da pra√ßa" (assento)

Embeddings tradicionais dariam o mesmo vetor para ambos. Embeddings contextuais d√£o vetores diferentes!

**Dica do Pedro:** √â como ter um tradutor que entende o contexto da conversa, n√£o s√≥ palavras isoladas! üéØ

In [None]:
# Simulando embeddings contextuais
# (Na pr√°tica, isso vem de modelos como BERT/GPT)

def gerar_embedding_contextual(palavra, contexto, dimensoes=5):
    """
    Simula como embeddings contextuais funcionam
    """
    np.random.seed(hash(contexto) % 1000)  # Seed baseada no contexto
    
    # Base embedding da palavra
    base_embedding = np.random.normal(0, 0.5, dimensoes)
    
    # Modifica√ß√£o contextual
    context_modification = np.random.normal(0, 0.3, dimensoes)
    
    return base_embedding + context_modification

# Testando com a palavra "banco" em contextos diferentes
contextos = {
    "financeiro": "Vou ao banco sacar dinheiro para pagar as contas",
    "assento": "Sentei no banco da pra√ßa para descansar um pouco",
    "dados": "O banco de dados do sistema est√° funcionando perfeitamente"
}

embeddings_contextuais = {}

print("üé≠ Diferentes embeddings para 'banco' conforme o contexto:\n")

for tipo, contexto in contextos.items():
    embedding = gerar_embedding_contextual("banco", contexto)
    embeddings_contextuais[tipo] = embedding
    print(f"{tipo.upper()}:")
    print(f"Contexto: {contexto}")
    print(f"Embedding: {embedding.round(3)}\n")

# Calculando similaridades
tipos = list(embeddings_contextuais.keys())
print("üîç Similaridades entre os diferentes contextos:")

for i, tipo1 in enumerate(tipos):
    for tipo2 in tipos[i+1:]:
        sim = cosine_similarity([embeddings_contextuais[tipo1]], 
                               [embeddings_contextuais[tipo2]])[0][0]
        print(f"{tipo1} vs {tipo2}: {sim:.3f}")

## üîß Como os Transformers Usam Embeddings

Lembra dos Transformers que estudamos no M√≥dulo 3? Eles usam tr√™s tipos de embeddings:

```mermaid
graph LR
    A[Token] --> B[Token Embedding]
    A --> C[Position Embedding] 
    A --> D[Segment Embedding]
    
    B --> E[Soma]
    C --> E
    D --> E
    
    E --> F[Input para Transformer]
    
    B --> B1["Significado da palavra"]
    C --> C1["Posi√ß√£o na sequ√™ncia"]
    D --> D1["Qual senten√ßa (BERT)"]
```

### 1. Token Embeddings
O significado sem√¢ntico da palavra/token

### 2. Position Embeddings  
A posi√ß√£o da palavra na sequ√™ncia (muito importante!)

### 3. Segment Embeddings
Usado em modelos como BERT para distinguir diferentes senten√ßas

In [None]:
# Implementando os tr√™s tipos de embeddings usados em Transformers

class TransformerEmbeddings:
    def __init__(self, vocab_size=1000, embed_dim=128, max_length=512):
        self.vocab_size = vocab_size
        self.embed_dim = embed_dim
        self.max_length = max_length
        
        # Inicializando embeddings aleat√≥rios (na pr√°tica, s√£o aprendidos)
        np.random.seed(42)
        self.token_embeddings = np.random.normal(0, 0.1, (vocab_size, embed_dim))
        self.position_embeddings = np.random.normal(0, 0.1, (max_length, embed_dim))
        self.segment_embeddings = np.random.normal(0, 0.1, (2, embed_dim))  # 2 segmentos
        
    def get_embeddings(self, token_ids, positions, segment_ids):
        """
        Combina os tr√™s tipos de embeddings
        """
        # Token embeddings
        token_emb = self.token_embeddings[token_ids]
        
        # Position embeddings
        pos_emb = self.position_embeddings[positions]
        
        # Segment embeddings
        seg_emb = self.segment_embeddings[segment_ids]
        
        # Soma tudo (como fazem os Transformers)
        final_embeddings = token_emb + pos_emb + seg_emb
        
        return {
            'token': token_emb,
            'position': pos_emb, 
            'segment': seg_emb,
            'final': final_embeddings
        }

# Testando
embedder = TransformerEmbeddings(embed_dim=8)  # Dimens√£o pequena para visualizar

# Exemplo: "O gato subiu no telhado"
token_ids = [1, 45, 234, 12, 567]  # IDs dos tokens
positions = [0, 1, 2, 3, 4]        # Posi√ß√µes
segment_ids = [0, 0, 0, 0, 0]      # Todos da mesma senten√ßa

embeddings = embedder.get_embeddings(token_ids, positions, segment_ids)

print("üîß Embeddings dos Transformers:")
print(f"\nToken embeddings shape: {embeddings['token'].shape}")
print(f"Position embeddings shape: {embeddings['position'].shape}")
print(f"Segment embeddings shape: {embeddings['segment'].shape}")
print(f"\nFinal embeddings (primeiro token): {embeddings['final'][0].round(3)}")

## üìè M√©tricas e Avalia√ß√£o de Embeddings

Como sabemos se nossos embeddings s√£o bons? Existem v√°rias m√©tricas:

### 1. Similaridade Cosseno
Mede o √¢ngulo entre dois vetores (0 = ortogonais, 1 = id√™nticos)

### 2. Analogias
"Rei" - "Homem" + "Mulher" ‚âà "Rainha"

### 3. Clustering
Palavras similares devem formar clusters

In [None]:
# Implementando avalia√ß√£o de embeddings

def avaliar_analogias(embeddings_dict):
    """
    Testa analogias do tipo: A - B + C ‚âà D
    """
    analogias = [
        ('rei', 'homem', 'mulher', 'rainha'),
        ('paris', 'fran√ßa', 'brasil', 'brasilia'),
        ('grande', 'maior', 'pequeno', 'menor')
    ]
    
    print("üßÆ Testando analogias (conceitual):")
    
    for a, b, c, d_esperado in analogias:
        if all(word in embeddings_dict for word in [a, b, c]):
            # Calcula: A - B + C
            resultado = (embeddings_dict[a] - embeddings_dict[b] + embeddings_dict[c])
            
            # Encontra a palavra mais pr√≥xima
            max_sim = -1
            palavra_mais_proxima = None
            
            for palavra, embedding in embeddings_dict.items():
                if palavra not in [a, b, c]:  # Exclui palavras da entrada
                    sim = cosine_similarity([resultado], [embedding])[0][0]
                    if sim > max_sim:
                        max_sim = sim
                        palavra_mais_proxima = palavra
            
            print(f"{a} - {b} + {c} = {palavra_mais_proxima} (esperado: {d_esperado})")
            print(f"Similaridade: {max_sim:.3f}\n")

# Criando embeddings de exemplo para teste
embeddings_teste = {
    'rei': np.array([0.8, 0.9, 0.7, 0.6]),
    'rainha': np.array([0.9, 0.8, 0.6, 0.7]), 
    'homem': np.array([0.7, 0.5, 0.8, 0.4]),
    'mulher': np.array([0.8, 0.4, 0.7, 0.5]),
    'paris': np.array([0.3, 0.8, 0.9, 0.2]),
    'brasilia': np.array([0.4, 0.7, 0.8, 0.3]),
    'fran√ßa': np.array([0.2, 0.9, 0.8, 0.1]),
    'brasil': np.array([0.3, 0.8, 0.7, 0.2])
}

avaliar_analogias(embeddings_teste)

## üé® Visualiza√ß√£o em 2D com PCA

Embeddings geralmente t√™m centenas de dimens√µes. Para visualizar, usamos PCA (An√°lise de Componentes Principais) para reduzir para 2D:

In [None]:
# Criando embeddings mais ricos para visualiza√ß√£o
np.random.seed(42)

# Categorias de palavras com embeddings similares dentro da categoria
categorias = {
    'animais': ['cachorro', 'gato', 'le√£o', 'tigre', 'elefante'],
    'comidas': ['pizza', 'hamburguer', 'sushi', 'lasanha', 'salada'],
    'veiculos': ['carro', 'moto', 'avi√£o', 'barco', 'bicicleta'],
    'cores': ['vermelho', 'azul', 'verde', 'amarelo', 'roxo']
}

# Gerando embeddings agrupados por categoria
embeddings_categorias = {}
cores_plot = ['red', 'blue', 'green', 'orange']
cores_mapa = {}

for i, (categoria, palavras) in enumerate(categorias.items()):
    # Centro da categoria
    centro = np.random.normal(i*3, 1, 10)  # 10 dimens√µes
    
    for palavra in palavras:
        # Adiciona ru√≠do ao centro para criar cluster
        embedding = centro + np.random.normal(0, 0.5, 10)
        embeddings_categorias[palavra] = embedding
        cores_mapa[palavra] = cores_plot[i]

# Aplicando PCA para reduzir para 2D
palavras = list(embeddings_categorias.keys())
vectors = list(embeddings_categorias.values())

pca = PCA(n_components=2)
embeddings_2d = pca.fit_transform(vectors)

# Plotando
fig, ax = plt.subplots(figsize=(12, 10))

# Plot por categoria
for i, (categoria, palavras_cat) in enumerate(categorias.items()):
    indices = [palavras.index(p) for p in palavras_cat]
    x_coords = [embeddings_2d[idx][0] for idx in indices]
    y_coords = [embeddings_2d[idx][1] for idx in indices]
    
    ax.scatter(x_coords, y_coords, c=cores_plot[i], label=categoria.title(), 
              s=200, alpha=0.7, edgecolors='black', linewidth=1)
    
    # Anota√ß√µes
    for idx, palavra in zip(indices, palavras_cat):
        ax.annotate(palavra, (embeddings_2d[idx][0], embeddings_2d[idx][1]), 
                   xytext=(5, 5), textcoords='offset points', 
                   fontsize=10, fontweight='bold')

ax.set_xlabel(f'PC1 ({pca.explained_variance_ratio_[0]:.2%} da vari√¢ncia)', fontsize=12)
ax.set_ylabel(f'PC2 ({pca.explained_variance_ratio_[1]:.2%} da vari√¢ncia)', fontsize=12)
ax.set_title('Visualiza√ß√£o de Embeddings em 2D\n(Redu√ß√£o dimensional com PCA)', fontsize=14)
ax.legend()
ax.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"üéØ PCA explica {sum(pca.explained_variance_ratio_):.2%} da vari√¢ncia total")
print("Repare como palavras da mesma categoria ficam agrupadas!")

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdu√ß√£o-√†-llms-modulo-05_img_04.png)

## üîó Conectando com os Pr√≥ximos M√≥dulos

Os embeddings que aprendemos hoje s√£o fundamentais para entender:

### M√≥dulo 6 - Tipos de Modelos
- Como diferentes arquiteturas (BERT, GPT, T5) usam embeddings
- Embeddings especializados para tarefas espec√≠ficas

### M√≥dulo 7 - Treinamento
- Como os embeddings s√£o aprendidos durante o treinamento
- T√©cnicas de fine-tuning de embeddings

### M√≥dulo 8 - Prompting
- Como prompts s√£o convertidos em embeddings
- Engenharia de prompts no espa√ßo vetorial

**Dica do Pedro:** Embeddings s√£o como o "sistema circulat√≥rio" dos LLMs - eles transportam significado por toda a rede! ü©∏

## üèãÔ∏è Exerc√≠cio Pr√°tico 1: Construindo seu Pr√≥prio Sistema de Embeddings

Agora √© sua vez! Vamos implementar um sistema completo de embeddings:

In [None]:
# EXERC√çCIO 1: Complete o c√≥digo abaixo

class MeuSistemaEmbeddings:
    def __init__(self, dimensoes=50):
        self.dimensoes = dimensoes
        self.vocab = {}
        self.embeddings = {}
        self.treinado = False
    
    def treinar(self, textos):
        """
        TODO: Implemente o treinamento dos embeddings
        
        Passos:
        1. Construa o vocabul√°rio a partir dos textos
        2. Inicialize embeddings aleat√≥rios para cada palavra
        3. (Bonus) Implemente uma vers√£o simples de co-ocorr√™ncia
        """
        pass  # Substitua por sua implementa√ß√£o
    
    def obter_embedding(self, palavra):
        """
        TODO: Retorne o embedding de uma palavra
        """
        pass  # Substitua por sua implementa√ß√£o
    
    def similaridade(self, palavra1, palavra2):
        """
        TODO: Calcule a similaridade cosseno entre duas palavras
        """
        pass  # Substitua por sua implementa√ß√£o
    
    def palavras_similares(self, palavra, top_k=3):
        """
        TODO: Encontre as k palavras mais similares
        """
        pass  # Substitua por sua implementa√ß√£o

# Dados para teste
textos_treino = [
    "cachorro late muito alto no quintal",
    "gato mia baixinho pela manh√£", 
    "carro vermelho anda na estrada",
    "bicicleta azul est√° na garagem",
    "pizza deliciosa com queijo",
    "hamburguer saboroso com batata"
]

# Teste seu sistema aqui
# meu_sistema = MeuSistemaEmbeddings()
# meu_sistema.treinar(textos_treino)
# print(meu_sistema.similaridade('cachorro', 'gato'))

print("üéØ Complete o c√≥digo acima e teste seu sistema de embeddings!")

## üß™ Exerc√≠cio Pr√°tico 2: An√°lise de Bias em Embeddings

Embeddings podem carregar preconceitos dos dados de treino. Vamos investigar isso:

In [None]:
# EXERC√çCIO 2: Detectando bias em embeddings

# Embeddings com bias simulado
embeddings_com_bias = {
    'm√©dico': np.array([0.8, 0.7, 0.9, 0.6]),
    'enfermeira': np.array([0.3, 0.8, 0.4, 0.9]),
    'engenheiro': np.array([0.9, 0.6, 0.8, 0.5]),
    'professor': np.array([0.5, 0.7, 0.6, 0.8]),
    'homem': np.array([0.9, 0.5, 0.8, 0.4]),
    'mulher': np.array([0.2, 0.9, 0.3, 0.8]),
    'forte': np.array([0.8, 0.4, 0.9, 0.3]),
    'delicada': np.array([0.2, 0.8, 0.3, 0.9])
}

def analisar_bias(embeddings_dict, profissoes, generos, adjetivos):
    """
    TODO: Analise associa√ß√µes entre profiss√µes, g√™neros e adjetivos
    
    Calcule:
    1. Similaridade entre profiss√µes e g√™neros
    2. Similaridade entre g√™neros e adjetivos
    3. Identifique poss√≠veis vieses
    """
    
    print("üîç AN√ÅLISE DE BIAS EM EMBEDDINGS")
    print("=" * 40)
    
    # TODO: Implemente sua an√°lise aqui
    
    # Exemplo de estrutura:
    # for profissao in profissoes:
    #     for genero in generos:
    #         sim = calcular_similaridade(profissao, genero)
    #         print(f"{profissao} <-> {genero}: {sim:.3f}")
    
    pass

# Teste sua an√°lise
profissoes = ['m√©dico', 'enfermeira', 'engenheiro', 'professor']
generos = ['homem', 'mulher']
adjetivos = ['forte', 'delicada']

# analisar_bias(embeddings_com_bias, profissoes, generos, adjetivos)

print("\nüí° Dicas para sua implementa√ß√£o:")
print("- Use similaridade cosseno")
print("- Procure por associa√ß√µes problem√°ticas")
print("- Pense em como mitigar esses vieses")

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdu√ß√£o-√†-llms-modulo-05_img_05.png)

## üìä Comparando Diferentes Tipos de Embeddings

Vamos fazer uma compara√ß√£o final entre os principais tipos de embeddings:

In [None]:
# Compara√ß√£o final entre tipos de embeddings

import pandas as pd

# Criando tabela comparativa
comparacao = {
    'Tipo': ['One-Hot', 'Word2Vec', 'GloVe', 'FastText', 'BERT/GPT'],
    'Ano': [1990, 2013, 2014, 2017, 2018],
    'Dimens√µes': ['Vocabul√°rio', '50-300', '50-300', '100-300', '768-1024'],
    'Contextual': ['N√£o', 'N√£o', 'N√£o', 'N√£o', 'Sim'],
    'Subpalavras': ['N√£o', 'N√£o', 'N√£o', 'Sim', 'Sim'],
    'Vantagem Principal': [
        'Simplicidade',
        'Sem√¢ntica capturada',
        'Estat√≠sticas globais',
        'Palavras raras/OOV',
        'Contexto din√¢mico'
    ],
    'Desvantagem': [
        'Sem sem√¢ntica',
        'Sem contexto',
        'Computacionalmente caro',
        'Treino complexo',
        'Muito pesado'
    ]
}

df_comparacao = pd.DataFrame(comparacao)
print("üìä EVOLU√á√ÉO DOS EMBEDDINGS")
print("=" * 50)
print(df_comparacao.to_string(index=False))

# Gr√°fico da evolu√ß√£o temporal
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))

# Timeline
anos = df_comparacao['Ano'].values
tipos = df_comparacao['Tipo'].values
cores = ['red', 'orange', 'yellow', 'lightgreen', 'darkgreen']

ax1.scatter(anos, range(len(tipos)), c=cores, s=200, alpha=0.7)
for i, (ano, tipo) in enumerate(zip(anos, tipos)):
    ax1.annotate(tipo, (ano, i), xytext=(10, 0), 
                textcoords='offset points', fontsize=10, fontweight='bold')

ax1.set_xlabel('Ano', fontsize=12)
ax1.set_ylabel('Evolu√ß√£o', fontsize=12)
ax1.set_title('Timeline dos Embeddings', fontsize=14)
ax1.grid(True, alpha=0.3)
ax1.set_yticks([])

# Complexidade vs Performance (conceitual)
complexidade = [1, 3, 4, 5, 8]
performance = [1, 6, 7, 8, 10]

ax2.scatter(complexidade, performance, c=cores, s=200, alpha=0.7)
for i, tipo in enumerate(tipos):
    ax2.annotate(tipo, (complexidade[i], performance[i]), 
                xytext=(5, 5), textcoords='offset points', 
                fontsize=10, fontweight='bold')

ax2.set_xlabel('Complexidade', fontsize=12)
ax2.set_ylabel('Performance', fontsize=12)
ax2.set_title('Complexidade vs Performance', fontsize=14)
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print("\nüéØ Li√ß√µes principais:")
print("‚Ä¢ Embeddings evolu√≠ram de simples para sofisticados")
print("‚Ä¢ Trade-off entre simplicidade e performance")
print("‚Ä¢ Contexto fez toda a diferen√ßa!")

![](/Users/pedroguth/Downloads/Projetos/Book Maker/5-Imagens/introdu√ß√£o-√†-llms-modulo-05_img_06.png)

## üéì Resumo do M√≥dulo: Embeddings Dominados!

Liiindo! Voc√™ chegou ao final do M√≥dulo 5! Vamos recapitular o que aprendemos:

### üß† Conceitos Principais
- **Embeddings**: Representa√ß√µes num√©ricas que capturam significado sem√¢ntico
- **Evolu√ß√£o**: De One-Hot ‚Üí Word2Vec ‚Üí Embeddings Contextuais
- **Dimensionalidade**: Como reduzir dimens√µes mantendo informa√ß√£o
- **Similaridade**: Medindo rela√ß√µes entre palavras no espa√ßo vetorial

### üîß T√©cnicas Aprendidas
- Implementa√ß√£o de embeddings simples
- Visualiza√ß√£o com PCA
- Avalia√ß√£o de qualidade (analogias, similaridade)
- Detec√ß√£o de bias

### üöÄ Pr√≥ximos Passos
No **M√≥dulo 6 - Tipos de Modelos**, veremos como diferentes arquiteturas (BERT, GPT, T5) implementam e utilizam embeddings de formas espec√≠ficas.

**Dica Final do Pedro:** Embeddings s√£o a base de tudo em NLP moderno. Dominar esse conceito √© como ter a chave do reino dos LLMs! üóùÔ∏è

### üìö Para Praticar Mais
- Experimente com datasets maiores
- Teste embeddings pr√©-treinados (Word2Vec do Google, GloVe)
- Explore bibliotecas como Gensim e Hugging Face
- Analise embeddings de diferentes dom√≠nios (m√©dico, jur√≠dico, etc.)

---

**Bora para o pr√≥ximo m√≥dulo! üöÄ**