# üß† **M√≥dulo 2: Fundamentos de Embeddings - A Linguagem dos Computadores**

> *Como transformar palavras em "coordenadas" que o computador entende*

---

## **Aula 2.1: Embeddings B√°sicos - Como Transformar Texto em N√∫meros**

---

### **T√°, mas o que s√£o embeddings?**

Embeddings s√£o como **tradutores universais** que transformam palavras em n√∫meros que o computador entende. √â tipo transformar "gato" em coordenadas como (0.2, -0.8, 0.5, ...).

**üñºÔ∏è Sugest√£o de imagem**: Palavras sendo transformadas em coordenadas no espa√ßo

**Por que embeddings s√£o importantes?**

Imagine que voc√™ quer encontrar roupas similares em uma loja:
- üëï **Sem embeddings**: "Procure por camisetas azuis" (muito espec√≠fico)
- üß† **Com embeddings**: "Encontre roupas com estilo similar" (inteligente)

### **Analogia do Dia a Dia**

Embeddings s√£o como um **sistema de coordenadas geogr√°ficas**:
- üåç **S√£o Paulo**: (-23.5505, -46.6333)
- üåç **Rio de Janeiro**: (-22.9068, -43.1729)
- ÔøΩÔøΩ **Gato**: (0.2, -0.8, 0.5, ...)
- ÔøΩÔøΩ **Cachorro**: (0.3, -0.7, 0.4, ...)

**Palavras similares ficam pr√≥ximas no espa√ßo!**

---

### **Setup Inicial - Preparando o Terreno**

**‚ö†Ô∏è IMPORTANTE**: Se voc√™ n√£o executou o notebook `00_setup_colab.ipynb` primeiro, execute a c√©lula abaixo para instalar as depend√™ncias.

In [None]:
# üöÄ SETUP GRATUITO PARA COLAB
# Execute esta c√©lula primeiro para configurar o ambiente!

# Instalando depend√™ncias (execute apenas se necess√°rio)
!pip install langchain>=0.1.0
!pip install langchain-community>=0.0.10
!pip install langchain-core>=0.1.0
!pip install python-dotenv>=1.0.0
!pip install huggingface_hub>=0.19.0
!pip install sentence-transformers>=2.2.0
!pip install chromadb>=0.4.0
!pip install faiss-cpu>=1.7.0
!pip install numpy>=1.24.0
!pip install pandas>=2.0.0
!pip install matplotlib>=3.5.0
!pip install scikit-learn>=1.3.0

print("‚úÖ Depend√™ncias instaladas com sucesso!")
print("üöÄ Ambiente configurado para Embeddings!")

In [None]:
# üß† IMPORTA√á√ïES PARA EMBEDDINGS
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
from sklearn.metrics.pairwise import cosine_similarity

# LangChain
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.embeddings import OpenAIEmbeddings

# Utilit√°rios
import os
from dotenv import load_dotenv

print("‚úÖ Bibliotecas importadas com sucesso!")
print("ÔøΩÔøΩ Pronto para explorar o mundo dos embeddings!")

### **Exemplo Pr√°tico - Embeddings Simples**

Vamos come√ßar com um exemplo simples para entender o conceito:

In [None]:
# üß™ EXEMPLO PR√ÅTICO: EMBEDDINGS SIMPLES

# Simulando embeddings simples (para demonstra√ß√£o)
def criar_embeddings_simples(palavras):
    """Cria embeddings simples para demonstra√ß√£o"""
    
    # Dicion√°rio de embeddings simulados
    embeddings_simples = {
        "gato": [0.8, 0.2, 0.1],
        "cachorro": [0.7, 0.3, 0.1],
        "peixe": [0.1, 0.9, 0.2],
        "p√°ssaro": [0.2, 0.8, 0.3],
        "carro": [0.9, 0.1, 0.8],
        "moto": [0.8, 0.1, 0.9],
        "feliz": [0.1, 0.1, 0.9],
        "triste": [0.1, 0.1, 0.1],
        "grande": [0.5, 0.5, 0.5],
        "pequeno": [0.2, 0.2, 0.2]
    }
    
    return {palavra: embeddings_simples.get(palavra, [0, 0, 0]) for palavra in palavras}

# Testando embeddings simples
palavras_teste = ["gato", "cachorro", "peixe", "carro", "feliz"]
embeddings_simples = criar_embeddings_simples(palavras_teste)

print("ÔøΩÔøΩ EMBEDDINGS SIMPLES (demonstra√ß√£o):")
print("=" * 50)

for palavra, embedding in embeddings_simples.items():
    print(f"üìù '{palavra}' ‚Üí {embedding}")

print(f"\nüìä Dimens√£o dos embeddings: {len(embeddings_simples['gato'])}")

### **Calculando Similaridade**

Agora vamos ver como calcular similaridade entre embeddings:

In [None]:
# ÔøΩÔøΩ CALCULANDO SIMILARIDADE ENTRE EMBEDDINGS

def calcular_similaridade(embedding1, embedding2):
    """Calcula similaridade cosseno entre dois embeddings"""
    
    # Convertendo para arrays numpy
    vec1 = np.array(embedding1)
    vec2 = np.array(embedding2)
    
    # Similaridade cosseno
    dot_product = np.dot(vec1, vec2)
    norm1 = np.linalg.norm(vec1)
    norm2 = np.linalg.norm(vec2)
    
    if norm1 == 0 or norm2 == 0:
        return 0
    
    return dot_product / (norm1 * norm2)

# Testando similaridades
print("ÔøΩÔøΩ SIMILARIDADE ENTRE PALAVRAS:")
print("=" * 50)

comparacoes = [
    ("gato", "cachorro"),
    ("gato", "peixe"),
    ("carro", "moto"),
    ("feliz", "triste"),
    ("gato", "carro")
]

for palavra1, palavra2 in comparacoes:
    sim = calcular_similaridade(
        embeddings_simples[palavra1], 
        embeddings_simples[palavra2]
    )
    
    print(f"ÔøΩÔøΩ '{palavra1}' vs '{palavra2}': {sim:.3f}")
    
    # Interpreta√ß√£o
    if sim > 0.8:
        print(f"   ‚úÖ Muito similares!")
    elif sim > 0.5:
        print(f"   ü§ù Similares")
    elif sim > 0.2:
        print(f"   ü§î Pouco similares")
    else:
        print(f"   ‚ùå Muito diferentes")
    print()

### **Visualizando Embeddings**

Vamos criar uma visualiza√ß√£o para entender melhor como os embeddings se relacionam:

In [None]:
# ÔøΩÔøΩ VISUALIZANDO EMBEDDINGS

def visualizar_embeddings(embeddings_dict):
    """Cria visualiza√ß√£o 2D dos embeddings"""
    
    # Preparando dados
    palavras = list(embeddings_dict.keys())
    embeddings = list(embeddings_dict.values())
    
    # Reduzindo para 2D (se necess√°rio)
    if len(embeddings[0]) > 2:
        tsne = TSNE(n_components=2, random_state=42)
        embeddings_2d = tsne.fit_transform(embeddings)
    else:
        embeddings_2d = embeddings
    
    # Criando gr√°fico
    plt.figure(figsize=(12, 8))
    
    # Plotando pontos
    x_coords = [coord[0] for coord in embeddings_2d]
    y_coords = [coord[1] for coord in embeddings_2d]
    
    plt.scatter(x_coords, y_coords, s=100, alpha=0.7)
    
    # Adicionando labels
    for i, palavra in enumerate(palavras):
        plt.annotate(palavra, (x_coords[i], y_coords[i]), 
                    xytext=(5, 5), textcoords='offset points',
                    fontsize=12, fontweight='bold')
    
    plt.title('üß† Visualiza√ß√£o dos Embeddings', fontsize=16, fontweight='bold')
    plt.xlabel('Dimens√£o 1')
    plt.ylabel('Dimens√£o 2')
    plt.grid(True, alpha=0.3)
    
    # Adicionando legenda
    plt.figtext(0.02, 0.02, 
                'ÔøΩÔøΩ Palavras similares ficam pr√≥ximas no espa√ßo!', 
                fontsize=10, style='italic')
    
    plt.tight_layout()
    plt.show()

# Visualizando nossos embeddings simples
print("üìà Criando visualiza√ß√£o dos embeddings...")
visualizar_embeddings(embeddings_simples)

print("‚úÖ Visualiza√ß√£o criada! Observe como palavras similares ficam pr√≥ximas!")

## **Aula 2.2: Embeddings Avan√ßados - Otimizando a Qualidade**

---

### **T√°, mas como funcionam embeddings reais?**

Embeddings reais s√£o criados por **redes neurais** que aprendem a representar palavras baseado no contexto. √â como um tradutor que entende nuances e significados.

**üñºÔ∏è Sugest√£o de imagem**: Rede neural processando texto

### **Setup Inicial - Preparando o Terreno**

Vamos configurar embeddings reais:

In [None]:
# ÔøΩÔøΩ CONFIGURANDO EMBEDDINGS REAIS

def configurar_embeddings():
    """Configura modelo de embeddings real"""
    
    try:
        print("üöÄ Carregando Sentence Transformers...")
        
        # Modelo pequeno e r√°pido para demonstra√ß√£o
        embeddings = HuggingFaceEmbeddings(
            model_name="sentence-transformers/all-MiniLM-L6-v2",
            model_kwargs={'device': 'cpu'}
        )
        
        print("‚úÖ Embeddings configurados com sucesso!")
        return embeddings
        
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao carregar embeddings: {e}")
        print("üí° Vamos usar embeddings simulados para continuar")
        return None

# Configurando embeddings
embeddings_real = configurar_embeddings()

if embeddings_real:
    print(f"üìä Dimens√£o dos embeddings: {embeddings_real.client.get_sentence_embedding_dimension()}")
else:
    print("‚ö†Ô∏è Usando embeddings simulados para demonstra√ß√£o")

### **Exemplo Pr√°tico - Embeddings Reais**

Agora vamos testar embeddings reais:

In [None]:
# üß™ EXEMPLO PR√ÅTICO: EMBEDDINGS REAIS

def testar_embeddings_reais():
    """Testa embeddings reais com frases"""
    
    # Frases para teste
    frases_teste = [
        "O gato est√° dormindo no sof√°",
        "O cachorro est√° brincando no jardim",
        "O peixe est√° nadando no aqu√°rio",
        "O carro est√° estacionado na garagem",
        "A pessoa est√° feliz com a not√≠cia",
        "A pessoa est√° triste com a perda"
    ]
    
    if embeddings_real:
        print("üß™ TESTANDO EMBEDDINGS REAIS:")
        print("=" * 50)
        
        # Gerando embeddings
        embeddings_gerados = embeddings_real.embed_documents(frases_teste)
        
        print(f"‚úÖ Gerados {len(embeddings_gerados)} embeddings")
        print(f"üìä Dimens√£o de cada embedding: {len(embeddings_gerados[0])}")
        
        # Calculando similaridades
        print("\nüìä SIMILARIDADES ENTRE FRASES:")
        
        comparacoes_frases = [
            (0, 1, "Gato vs Cachorro"),
            (0, 2, "Gato vs Peixe"),
            (3, 3, "Carro vs Carro (mesmo)"),
            (4, 5, "Feliz vs Triste")
        ]
        
        for i, j, descricao in comparacoes_frases:
            sim = cosine_similarity(
                [embeddings_gerados[i]], 
                [embeddings_gerados[j]]
            )[0][0]
            
            print(f"üîç {descricao}: {sim:.3f}")
            
            if sim > 0.8:
                print(f"   ‚úÖ Muito similares!")
            elif sim > 0.5:
                print(f"   ü§ù Similares")
            elif sim > 0.2:
                print(f"   ü§î Pouco similares")
            else:
                print(f"   ‚ùå Muito diferentes")
            print()
        
        return embeddings_gerados, frases_teste
        
    else:
        print("‚ö†Ô∏è Embeddings reais n√£o dispon√≠veis")
        return None, None

# Testando embeddings reais
embeddings_reais, frases = testar_embeddings_reais()

### **Visualizando Embeddings Reais**

Vamos criar uma visualiza√ß√£o dos embeddings reais:

In [None]:
# ÔøΩÔøΩ VISUALIZANDO EMBEDDINGS REAIS

if embeddings_reais is not None:
    print("üìà Criando visualiza√ß√£o dos embeddings reais...")
    
    # Reduzindo para 2D
    tsne = TSNE(n_components=2, random_state=42, perplexity=min(5, len(embeddings_reais)-1))
    embeddings_2d = tsne.fit_transform(embeddings_reais)
    
    # Criando gr√°fico
    plt.figure(figsize=(14, 10))
    
    # Plotando pontos
    x_coords = embeddings_2d[:, 0]
    y_coords = embeddings_2d[:, 1]
    
    plt.scatter(x_coords, y_coords, s=150, alpha=0.7, c='skyblue', edgecolors='navy')
    
    # Adicionando labels
    for i, frase in enumerate(frases):
        # Abreviando frase para melhor visualiza√ß√£o
        label = frase[:20] + "..." if len(frase) > 20 else frase
        plt.annotate(label, (x_coords[i], y_coords[i]), 
                    xytext=(5, 5), textcoords='offset points',
                    fontsize=10, fontweight='bold',
                    bbox=dict(boxstyle="round,pad=0.3", facecolor="white", alpha=0.8))
    
    plt.title('üß† Visualiza√ß√£o dos Embeddings Reais', fontsize=16, fontweight='bold')
    plt.xlabel('Dimens√£o 1 (TSNE)')
    plt.ylabel('Dimens√£o 2 (TSNE)')
    plt.grid(True, alpha=0.3)
    
    # Adicionando legenda
    plt.figtext(0.02, 0.02, 
                'üí° Frases com significado similar ficam pr√≥ximas!', 
                fontsize=10, style='italic')
    
    plt.tight_layout()
    plt.show()
    
    print("‚úÖ Visualiza√ß√£o criada! Observe como frases similares se agrupam!")

### **Teste R√°pido**

Vamos fazer um teste r√°pido para encontrar frases similares:

In [None]:
# üß™ TESTE R√ÅPIDO: ENCONTRANDO FRASES SIMILARES

def encontrar_frases_similares(frase_consulta, frases, embeddings, top_k=3):
    """Encontra as frases mais similares a uma consulta"""
    
    if embeddings_real:
        # Gerando embedding da consulta
        embedding_consulta = embeddings_real.embed_query(frase_consulta)
        
        # Calculando similaridades
        similaridades = []
        for i, embedding in enumerate(embeddings):
            sim = cosine_similarity([embedding_consulta], [embedding])[0][0]
            similaridades.append((i, sim))
        
        # Ordenando por similaridade
        similaridades.sort(key=lambda x: x[1], reverse=True)
        
        print(f"ÔøΩÔøΩ Consulta: '{frase_consulta}'")
        print(f"ÔøΩÔøΩ Top {top_k} frases mais similares:")
        print("=" * 50)
        
        for rank, (idx, sim) in enumerate(similaridades[:top_k], 1):
            print(f"{rank}. {frases[idx]}")
            print(f"   Similaridade: {sim:.3f}")
            print()
        
    else:
        print("‚ö†Ô∏è Embeddings reais n√£o dispon√≠veis para este teste")

# Testando busca por similaridade
if embeddings_reais is not None:
    print("ÔøΩÔøΩ TESTE DE BUSCA POR SIMILARIDADE:")
    print("=" * 50)
    
    consultas_teste = [
        "Um animal dom√©stico",
        "Um ve√≠culo motorizado",
        "Uma emo√ß√£o positiva"
    ]
    
    for consulta in consultas_teste:
        encontrar_frases_similares(consulta, frases, embeddings_reais)
        print("-" * 30)

### **Desafio do M√≥dulo**

Agora √© sua vez! Crie seus pr√≥prios embeddings:

In [None]:
# üéØ DESAFIO DO M√ìDULO

print("ÔøΩÔøΩ DESAFIO: Crie seus pr√≥prios embeddings!")
print("=" * 40)
print("1. Adicione suas pr√≥prias frases na lista abaixo")
print("2. Execute o c√≥digo para gerar embeddings")
print("3. Teste similaridades entre suas frases")
print("=" * 40)

# Suas frases personalizadas
minhas_frases = [
    # Adicione aqui frases sobre um tema que voc√™ gosta
    # Exemplo: filmes, m√∫sica, esportes, tecnologia, etc.
    "",
    "",
    "",
    "",
    ""
]

# Descomente e execute quando tiver suas frases:
# if embeddings_real and any(minhas_frases):
#     print("\nÔøΩÔøΩ GERANDO EMBEDDINGS PARA SUAS FRASES:")
#     meus_embeddings = embeddings_real.embed_documents(minhas_frases)
#     print(f"‚úÖ Gerados {len(meus_embeddings)} embeddings")
#     
#     # Teste de similaridade
#     consulta_pessoal = "Sua consulta aqui"
#     encontrar_frases_similares(consulta_pessoal, minhas_frases, meus_embeddings)

## **ÔøΩÔøΩ M√≥dulo 2 Conclu√≠do!**

### **‚úÖ O que aprendemos:**

1. **üß† O que s√£o embeddings**: Transforma√ß√£o de texto em n√∫meros
2. **üìä Similaridade**: Como calcular proximidade entre textos
3. **üìà Visualiza√ß√£o**: Como entender rela√ß√µes entre embeddings
4. **üöÄ Embeddings reais**: Usando modelos profissionais
5. **üîç Busca por similaridade**: Encontrando textos relacionados

### **ÔøΩÔøΩ Pr√≥ximos Passos:**

No pr√≥ximo m√≥dulo vamos aprender sobre **Vector Stores** - onde guardar todos esses embeddings de forma eficiente!

### **üí° Dicas Importantes:**

- **Embeddings capturam significado** - n√£o apenas palavras
- **Similaridade cosseno** √© a m√©trica mais usada
- **Dimens√µes maiores** = mais precis√£o (mas mais lento)
- **Modelos pr√©-treinados** s√£o melhores que treinar do zero

---

**üéØ Desafio do M√≥dulo**: Crie embeddings para suas pr√≥prias frases!

**üí° Dica do Pedro**: Embeddings s√£o como GPS para palavras - cada palavra tem suas coordenadas no espa√ßo!

**üöÄ Pr√≥ximo m√≥dulo**: Vector Stores - A mem√≥ria inteligente!