<a href="https://colab.research.google.com/github/pathbit/pathbit-academy-ai/blob/master/0002_embeddings_vetorizacao/notebooks/embeddings_vetorizacao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# ✨ **Pathbit Academy AI**
---

## 🎯 **Artigo 0002: Embeddings e Vetorização - Como a IA Entende Texto**

🚨 **IMPORTANTE:**

*💥 QUALQUER PESSOA QUE CONSIGA RESOLVER A EQUAÇÃO `2 + 2 = ?` PODE CONTINUAR OS PASSOS ABAIXO*

**Artigo de referência:** [https://github.com/pathbit/pathbit-academy-ai/blob/master/0002_embeddings_vetorizacao/article/ARTICLE.md](https://github.com/pathbit/pathbit-academy-ai/blob/master/0002_embeddings_vetorizacao/article/ARTICLE.md)

**Artigo anterior:** [https://github.com/pathbit/pathbit-academy-ai/blob/master/0001_llm_x_lrm/article/ARTICLE.md](https://github.com/pathbit/pathbit-academy-ai/blob/master/0001_llm_x_lrm/article/ARTICLE.md)

---

## 🎯 **Este notebook contém TUDO que você precisa:**
- ✅ **Instalação automática** de dependências
- ✅ **Configuração** de modelos
- ✅ **9 exemplos práticos** de embeddings
- ✅ **Código pronto para usar** - sem arquivos externos
- ✅ **Funciona no Google Colab** e localmente


### 🔧 **Correção automática para Google Colab**

🚨 **IMPORTANTE:** Se você estiver executando no Google Colab, esta célula corrige automaticamente problemas de compatibilidade do `tqdm`.


In [1]:
# 🔧 CORREÇÃO AUTOMÁTICA PARA GOOGLE COLAB
# ==========================================
# Esta célula resolve automaticamente conflitos de dependências do tqdm

# Detectar se estamos no Google Colab
try:
    import google.colab
    IN_COLAB = True
    print("🌐 Detectado: Google Colab")
    print("🔧 Aplicando correção para conflito de tqdm...")
    
    # CORREÇÃO: Atualizar tqdm para resolver conflitos de dependências
    get_ipython().run_line_magic('pip', 'install --upgrade tqdm>=4.67 --force-reinstall --quiet')
    print("✅ tqdm atualizado com sucesso!")
    print("📦 Versão do tqdm corrigida para resolver conflitos com datasets e dataproc-spark-connect")
    
except ImportError:
    IN_COLAB = False
    print("💻 Detectado: Ambiente Local")
    print("ℹ️  Correção do tqdm não necessária no ambiente local")

print("\n🎯 Ambiente configurado! Continue com a próxima célula.")


💻 Detectado: Ambiente Local
ℹ️  Correção do tqdm não necessária no ambiente local

🎯 Ambiente configurado! Continue com a próxima célula.


In [2]:
# 🔧 CONFIGURAÇÃO INICIAL DO AMBIENTE
# ======================================

# 🔇 Suprimir avisos ANTES de qualquer importação
import warnings
import os
import sys

# Suprimir avisos específicos
warnings.filterwarnings('ignore')
warnings.filterwarnings('ignore', category=UserWarning)
warnings.filterwarnings('ignore', category=FutureWarning)

# Tentar suprimir aviso do tqdm (se disponível)
try:
    from tqdm import TqdmExperimentalWarning
    warnings.filterwarnings("ignore", category=TqdmExperimentalWarning)
except ImportError:
    pass

# Configurar ambiente para evitar problemas de importação
os.environ['TOKENIZERS_PARALLELISM'] = 'false'

print("🔧 Ambiente configurado com sucesso!")

🔧 Ambiente configurado com sucesso!


### ֎ **O que são Embeddings?**

**Embeddings** são representações numéricas de texto que capturam o significado semântico. É como transformar "cachorro" e "animal de estimação" em números que ficam próximos no espaço matemático, mesmo sendo palavras diferentes.

![Conceito de Embeddings](https://raw.githubusercontent.com/pathbit/pathbit-academy-ai/refs/heads/master/0002_embeddings_vetorizacao/assets/01.png)

**Vetorização** é o processo de converter texto em esses números. Não é mágica, é matemática aplicada com muito texto e poder computacional.

![Processo de Vetorização](https://raw.githubusercontent.com/pathbit/pathbit-academy-ai/refs/heads/master/0002_embeddings_vetorizacao/assets/02.png)

#### ⁉️ Por que são importantes?

- **Busca Semântica:** Encontrar documentos similares baseado no significado
- **Classificação:** Categorizar documentos automaticamente  
- **Recomendação:** Sugerir conteúdo similar ao que o usuário gosta
- **RAG:** Base para sistemas de Retrieval Augmented Generation


In [3]:
# 📦 INSTALAÇÃO DAS DEPENDÊNCIAS
# ================================
# Instalação das bibliotecas necessárias para trabalhar com embeddings

# Instalar dependências (Colab precisa do %pip)
if IN_COLAB:
    print("📦 Instalando dependências no Google Colab...")
    get_ipython().run_line_magic('pip', 'install -q sentence-transformers scikit-learn matplotlib seaborn pandas plotly tqdm>=4.67')
else:
    print("📦 Verificando dependências no ambiente local...")
    try:
        import numpy as np
        import pandas as pd
        import matplotlib.pyplot as plt
        import seaborn as sns
        from sentence_transformers import SentenceTransformer
        from sklearn.metrics.pairwise import cosine_similarity
        from sklearn.cluster import KMeans
        from sklearn.decomposition import PCA
        print("✅ Todas as dependências já estão instaladas!")
    except ImportError as e:
        print(f"⚠️ Instalando dependências faltantes: {e}")
        import subprocess
        import sys
        
        subprocess.check_call([
            sys.executable, "-m", "pip", "install", "-q",
            "sentence-transformers", "scikit-learn", "matplotlib", 
            "seaborn", "pandas", "plotly", "tqdm>=4.67"
        ])

# Importações principais
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

# Configurações adicionais
plt.style.use('default')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

print("🎯 Notebook pronto para usar!")
print("📊 Dependências carregadas com sucesso!")


📦 Verificando dependências no ambiente local...
✅ Todas as dependências já estão instaladas!
🎯 Notebook pronto para usar!
📊 Dependências carregadas com sucesso!


### 🛠️ **Classes e Funções Utilitárias**

Aqui estão todas as funções que você precisa para trabalhar com embeddings. **Não precisa baixar arquivos externos!**


In [4]:
# 🛠️ Classes e Funções para Embeddings
# ======================================

class EmbeddingsHelper:
    """
    Classe helper para trabalhar com embeddings de forma simples.
    Contém todas as funções necessárias para os exemplos.
    """
    
    def __init__(self, model_name='all-MiniLM-L6-v2'):
        """Inicializa o helper com um modelo de embeddings."""
        self.model_name = model_name
        self.model = None
        self._load_model()
    
    def _load_model(self):
        """Carrega o modelo de embeddings."""
        try:
            print(f"🔄 Carregando modelo {self.model_name}...")
            self.model = SentenceTransformer(self.model_name)
            print(f"✅ Modelo {self.model_name} carregado com sucesso!")
            print(f"📊 Dimensões do embedding: {self.model.get_sentence_embedding_dimension()}")
        except Exception as e:
            print(f"❌ Erro ao carregar modelo: {e}")
            self.model = None
    
    def get_embedding(self, text):
        """Gera embedding para um texto."""
        if self.model is None:
            return None
        try:
            return self.model.encode([text])[0]
        except Exception as e:
            print(f"❌ Erro ao gerar embedding: {e}")
            return None
    
    def get_embeddings(self, texts):
        """Gera embeddings para uma lista de textos."""
        if self.model is None:
            return None
        try:
            return self.model.encode(texts)
        except Exception as e:
            print(f"❌ Erro ao gerar embeddings: {e}")
            return None
    
    def calculate_similarity(self, text1, text2):
        """Calcula similaridade coseno entre dois textos."""
        emb1 = self.get_embedding(text1)
        emb2 = self.get_embedding(text2)
        
        if emb1 is None or emb2 is None:
            return None
        
        similarity = cosine_similarity([emb1], [emb2])[0][0]
        return similarity
    
    def search_documents(self, query, documents, top_k=5):
        """Busca documentos mais similares a uma consulta."""
        if self.model is None:
            return []
        
        try:
            # Gerar embedding da consulta
            query_embedding = self.get_embedding(query)
            if query_embedding is None:
                return []
            
            # Gerar embeddings dos documentos
            doc_embeddings = self.get_embeddings(documents)
            if doc_embeddings is None:
                return []
            
            # Calcular similaridades
            similarities = cosine_similarity([query_embedding], doc_embeddings)[0]
            
            # Ordenar por similaridade
            indices_ordenados = np.argsort(similarities)[::-1]
            
            # Retornar top_k resultados
            results = []
            for i in range(min(top_k, len(documents))):
                idx = indices_ordenados[i]
                results.append({
                    'documento': documents[idx],
                    'similaridade': similarities[idx],
                    'posicao': i + 1
                })
            
            return results
        except Exception as e:
            print(f"❌ Erro na busca: {e}")
            return []
    
    def cluster_documents(self, documents, n_clusters=3):
        """Agrupa documentos em clusters baseado em similaridade."""
        if self.model is None:
            return {}
        
        try:
            # Gerar embeddings
            embeddings = self.get_embeddings(documents)
            if embeddings is None:
                return {}
            
            # Aplicar K-Means
            kmeans = KMeans(n_clusters=n_clusters, random_state=42)
            cluster_labels = kmeans.fit_predict(embeddings)
            
            # Organizar por clusters
            clusters = {}
            for i, label in enumerate(cluster_labels):
                if label not in clusters:
                    clusters[label] = []
                clusters[label].append({
                    'documento': documents[i],
                    'indice': i
                })
            
            return clusters
        except Exception as e:
            print(f"❌ Erro no clustering: {e}")
            return {}
    
    def detect_duplicates(self, documents, threshold=0.8):
        """Detecta documentos duplicados baseado em similaridade."""
        if self.model is None:
            return []
        
        try:
            # Gerar embeddings
            embeddings = self.get_embeddings(documents)
            if embeddings is None:
                return []
            
            # Calcular matriz de similaridade
            similarity_matrix = cosine_similarity(embeddings)
            
            # Encontrar pares duplicados
            duplicates = []
            for i in range(len(documents)):
                for j in range(i + 1, len(documents)):
                    similarity = similarity_matrix[i][j]
                    if similarity >= threshold:
                        duplicates.append({
                            'doc1': documents[i],
                            'doc2': documents[j],
                            'similarity': similarity,
                            'index1': i,
                            'index2': j
                        })
            
            return duplicates
        except Exception as e:
            print(f"❌ Erro na detecção de duplicatas: {e}")
            return []
    
    def visualize_embeddings(self, texts, title="Visualização de Embeddings"):
        """Visualiza embeddings em 2D usando PCA."""
        if self.model is None:
            return
        
        try:
            # Gerar embeddings
            embeddings = self.get_embeddings(texts)
            if embeddings is None:
                return
            
            # Reduzir dimensionalidade para 2D
            pca = PCA(n_components=2)
            embeddings_2d = pca.fit_transform(embeddings)
            
            # Criar gráfico
            plt.figure(figsize=(12, 8))
            
            # Plotar pontos
            plt.scatter(embeddings_2d[:, 0], embeddings_2d[:, 1], 
                       alpha=0.7, s=100, c=range(len(texts)), cmap='viridis')
            
            # Adicionar labels
            for i, text in enumerate(texts):
                plt.annotate(f"{i+1}. {text[:30]}...", 
                            (embeddings_2d[i, 0], embeddings_2d[i, 1]),
                            fontsize=9, alpha=0.8,
                            xytext=(5, 5), textcoords='offset points')
            
            plt.title(title, fontsize=14, fontweight='bold')
            plt.xlabel("Componente Principal 1", fontsize=12)
            plt.ylabel("Componente Principal 2", fontsize=12)
            plt.grid(True, alpha=0.3)
            plt.tight_layout()
            plt.show()
            
            # Mostrar variância explicada
            var_explicada = pca.explained_variance_ratio_
            print(f"📊 Variância explicada:")
            print(f"   PC1: {var_explicada[0]:.1%}")
            print(f"   PC2: {var_explicada[1]:.1%}")
            print(f"   Total: {sum(var_explicada):.1%}")
            
        except Exception as e:
            print(f"❌ Erro na visualização: {e}")

# 🎯 Inicializar o helper
print("🚀 Inicializando EmbeddingsHelper...")
helper = EmbeddingsHelper('all-MiniLM-L6-v2')
print("✅ Helper pronto para uso!")


🚀 Inicializando EmbeddingsHelper...
🔄 Carregando modelo all-MiniLM-L6-v2...
✅ Modelo all-MiniLM-L6-v2 carregado com sucesso!
📊 Dimensões do embedding: 384
✅ Helper pronto para uso!


### 🎯 **Exemplo 1: Geração de Embeddings Básica**

![Transformação Texto para Números](https://raw.githubusercontent.com/pathbit/pathbit-academy-ai/refs/heads/master/0002_embeddings_vetorizacao/assets/03.png)


In [5]:
# 📝 Textos de exemplo
textos = [
    "O cachorro está brincando no parque",
    "O gato dorme no sofá", 
    "O carro está na garagem",
    "O animal de estimação está feliz",
    "O veículo precisa de gasolina"
]

print("📝 Textos de exemplo:")
for i, texto in enumerate(textos, 1):
    print(f"{i}. {texto}")

# 🔄 Gerar embeddings usando o helper
print("\n🔄 Gerando embeddings...")
embeddings = helper.get_embeddings(textos)

if embeddings is not None:
    print(f"✅ Embeddings gerados!")
    print(f"📊 Forma dos embeddings: {embeddings.shape}")
    print(f"📊 Dimensões: {embeddings.shape[1]} por texto")
else:
    print("❌ Erro ao gerar embeddings")


📝 Textos de exemplo:
1. O cachorro está brincando no parque
2. O gato dorme no sofá
3. O carro está na garagem
4. O animal de estimação está feliz
5. O veículo precisa de gasolina

🔄 Gerando embeddings...
✅ Embeddings gerados!
📊 Forma dos embeddings: (5, 384)
📊 Dimensões: 384 por texto


### 🎯 **Exemplo 2: Cálculo de Similaridade**

![Cálculo de Similaridade](https://raw.githubusercontent.com/pathbit/pathbit-academy-ai/refs/heads/master/0002_embeddings_vetorizacao/assets/04.png)


In [6]:
# 🔍 Calcular similaridade entre textos
texto1 = "O cachorro está brincando no parque"
texto2 = "O animal de estimação está feliz"
texto3 = "O carro está na garagem"

print("🔍 Teste de Similaridade:")
print(f"Texto 1: {texto1}")
print(f"Texto 2: {texto2}")
print(f"Texto 3: {texto3}")

sim_1_2 = helper.calculate_similarity(texto1, texto2)
sim_1_3 = helper.calculate_similarity(texto1, texto3)
sim_2_3 = helper.calculate_similarity(texto2, texto3)

print(f"\n📊 Resultados:")
print(f"Similaridade 1-2: {sim_1_2:.3f}")
print(f"Similaridade 1-3: {sim_1_3:.3f}")
print(f"Similaridade 2-3: {sim_2_3:.3f}")

# Interpretação
print(f"\n💡 Interpretação:")
if sim_1_2 > 0.7:
    print("✅ Textos 1 e 2 são muito similares (mesmo tema)")
elif sim_1_2 > 0.5:
    print("⚠️  Textos 1 e 2 são moderadamente similares")
else:
    print("❌ Textos 1 e 2 são pouco similares")


🔍 Teste de Similaridade:
Texto 1: O cachorro está brincando no parque
Texto 2: O animal de estimação está feliz
Texto 3: O carro está na garagem

📊 Resultados:
Similaridade 1-2: 0.290
Similaridade 1-3: 0.517
Similaridade 2-3: 0.349

💡 Interpretação:
❌ Textos 1 e 2 são pouco similares


### 🎯 **Exemplo 3: Busca Semântica**

![Busca Semântica](https://raw.githubusercontent.com/pathbit/pathbit-academy-ai/refs/heads/master/0002_embeddings_vetorizacao/assets/05.png)


In [7]:
# 🔍 Busca semântica em documentos
documentos = [
    "Python é uma linguagem de programação versátil e fácil de aprender",
    "Machine learning é uma área da inteligência artificial",
    "Data science combina estatística, programação e conhecimento de domínio",
    "Deep learning usa redes neurais para resolver problemas complexos",
    "Pandas é uma biblioteca Python para análise de dados",
    "Scikit-learn oferece ferramentas para machine learning",
    "Jupyter Notebook é ideal para análise exploratória de dados",
    "NumPy fornece arrays multidimensionais eficientes"
]

consulta = "ferramentas para análise de dados"

print("🔍 Busca Semântica:")
print(f"Consulta: '{consulta}'")
print("\n📚 Documentos disponíveis:")
for i, doc in enumerate(documentos, 1):
    print(f"{i}. {doc}")

print(f"\n🔄 Buscando documentos similares...")
resultados = helper.search_documents(consulta, documentos, top_k=3)

print(f"\n📊 Top 3 resultados:")
for resultado in resultados:
    print(f"{resultado['posicao']}. Similaridade: {resultado['similaridade']:.3f}")
    print(f"   {resultado['documento']}")
    print()


🔍 Busca Semântica:
Consulta: 'ferramentas para análise de dados'

📚 Documentos disponíveis:
1. Python é uma linguagem de programação versátil e fácil de aprender
2. Machine learning é uma área da inteligência artificial
3. Data science combina estatística, programação e conhecimento de domínio
4. Deep learning usa redes neurais para resolver problemas complexos
5. Pandas é uma biblioteca Python para análise de dados
6. Scikit-learn oferece ferramentas para machine learning
7. Jupyter Notebook é ideal para análise exploratória de dados
8. NumPy fornece arrays multidimensionais eficientes

🔄 Buscando documentos similares...

📊 Top 3 resultados:
1. Similaridade: 0.576
   Jupyter Notebook é ideal para análise exploratória de dados

2. Similaridade: 0.494
   Pandas é uma biblioteca Python para análise de dados

3. Similaridade: 0.321
   Data science combina estatística, programação e conhecimento de domínio



### 🎯 **Exemplo 4: Sistema de Recomendação**

![Sistema de Recomendação](https://raw.githubusercontent.com/pathbit/pathbit-academy-ai/refs/heads/master/0002_embeddings_vetorizacao/assets/08.png)


In [8]:
# 🎯 Sistema de recomendação baseado em embeddings
artigos = [
    "Como aprender Python do zero",
    "Introdução ao machine learning",
    "Data science com pandas",
    "Tutorial de deep learning",
    "Como fazer análise de dados",
    "Programação orientada a objetos",
    "Estatística para data science",
    "Visualização de dados com matplotlib"
]

# Simular histórico do usuário
historico_usuario = [
    "Como aprender Python do zero",
    "Data science com pandas"
]

print("🎯 Sistema de Recomendação:")
print("\n📚 Histórico do usuário:")
for i, artigo in enumerate(historico_usuario, 1):
    print(f"{i}. {artigo}")

print("\n🔄 Gerando recomendações...")

# Gerar embedding do histórico (média dos embeddings)
embeddings_historico = helper.get_embeddings(historico_usuario)
embedding_medio = np.mean(embeddings_historico, axis=0)

# Buscar artigos similares
embeddings_artigos = helper.get_embeddings(artigos)
similaridades = cosine_similarity([embedding_medio], embeddings_artigos)[0]

# Ordenar por similaridade
indices_ordenados = np.argsort(similaridades)[::-1]

print("\n📊 Top 5 Recomendações:")
for i in range(5):
    idx = indices_ordenados[i]
    artigo = artigos[idx]
    similaridade = similaridades[idx]
    
    # Não recomendar artigos já vistos
    if artigo not in historico_usuario:
        print(f"{i+1}. {similaridade:.3f} - {artigo}")


🎯 Sistema de Recomendação:

📚 Histórico do usuário:
1. Como aprender Python do zero
2. Data science com pandas

🔄 Gerando recomendações...

📊 Top 5 Recomendações:
3. 0.406 - Visualização de dados com matplotlib
4. 0.303 - Programação orientada a objetos
5. 0.285 - Estatística para data science


### 🎯 **Exemplo 5: Clustering de Documentos**

![Classificação de Documentos](https://raw.githubusercontent.com/pathbit/pathbit-academy-ai/refs/heads/master/0002_embeddings_vetorizacao/assets/09.png)


In [9]:
# 🎯 Clustering de documentos por similaridade
documentos_cluster = [
    "Como fazer um bolo de chocolate",
    "Receita de bolo de cenoura",
    "Como programar em Python",
    "Tutorial de machine learning",
    "Como dirigir um carro",
    "Dicas para dirigir na estrada",
    "Como cuidar de plantas",
    "Jardinagem para iniciantes"
]

print("🎯 Clustering de Documentos:")
print("\n📚 Documentos:")
for i, doc in enumerate(documentos_cluster, 1):
    print(f"{i}. {doc}")

print("\n🔄 Agrupando documentos em clusters...")
clusters = helper.cluster_documents(documentos_cluster, n_clusters=3)

print("\n📊 Resultados do Clustering:")
for cluster_id, docs in clusters.items():
    print(f"\n🔹 Cluster {cluster_id + 1}:")
    for doc_info in docs:
        print(f"   • {doc_info['documento']}")


🎯 Clustering de Documentos:

📚 Documentos:
1. Como fazer um bolo de chocolate
2. Receita de bolo de cenoura
3. Como programar em Python
4. Tutorial de machine learning
5. Como dirigir um carro
6. Dicas para dirigir na estrada
7. Como cuidar de plantas
8. Jardinagem para iniciantes

🔄 Agrupando documentos em clusters...

📊 Resultados do Clustering:

🔹 Cluster 3:
   • Como fazer um bolo de chocolate
   • Receita de bolo de cenoura
   • Como dirigir um carro

🔹 Cluster 1:
   • Como programar em Python
   • Tutorial de machine learning

🔹 Cluster 2:
   • Dicas para dirigir na estrada
   • Como cuidar de plantas
   • Jardinagem para iniciantes


### 🎯 **Exemplo 6: RAG com Embeddings**

![RAG com Embeddings](https://raw.githubusercontent.com/pathbit/pathbit-academy-ai/refs/heads/master/0002_embeddings_vetorizacao/assets/10.png)


In [10]:
# 🔍 Simulação de RAG (Retrieval Augmented Generation)
# Este exemplo mostra como embeddings são usados para encontrar contexto relevante

# Base de conhecimento (simulando documentos)
base_conhecimento = [
    "Python é uma linguagem de programação interpretada, de alto nível e de propósito geral.",
    "Machine learning é um subcampo da inteligência artificial que se concentra em algoritmos que podem aprender com dados.",
    "Data science é um campo interdisciplinar que usa métodos científicos para extrair conhecimento de dados.",
    "Pandas é uma biblioteca Python para manipulação e análise de dados estruturados.",
    "NumPy é uma biblioteca Python fundamental para computação científica com arrays multidimensionais.",
    "Scikit-learn é uma biblioteca Python para machine learning que fornece ferramentas para classificação, regressão e clustering.",
    "Jupyter Notebook é um ambiente de desenvolvimento interativo que permite criar e compartilhar documentos com código, visualizações e texto."
]

# Pergunta do usuário
pergunta = "Como posso começar com análise de dados em Python?"

print("🔍 Sistema RAG - Retrieval Augmented Generation:")
print(f"Pergunta: '{pergunta}'")

print("\n📚 Base de Conhecimento:")
for i, doc in enumerate(base_conhecimento, 1):
    print(f"{i}. {doc}")

print(f"\n🔄 Buscando contexto relevante...")
resultados_rag = helper.search_documents(pergunta, base_conhecimento, top_k=3)

print(f"\n📊 Contexto Relevante Encontrado:")
for resultado in resultados_rag:
    print(f"\n{resultado['posicao']}. Similaridade: {resultado['similaridade']:.3f}")
    print(f"   {resultado['documento']}")

print(f"\n💡 Com este contexto, um LLM poderia gerar uma resposta mais precisa!")
print("   Este é o princípio básico do RAG - encontrar informações relevantes primeiro.")


🔍 Sistema RAG - Retrieval Augmented Generation:
Pergunta: 'Como posso começar com análise de dados em Python?'

📚 Base de Conhecimento:
1. Python é uma linguagem de programação interpretada, de alto nível e de propósito geral.
2. Machine learning é um subcampo da inteligência artificial que se concentra em algoritmos que podem aprender com dados.
3. Data science é um campo interdisciplinar que usa métodos científicos para extrair conhecimento de dados.
4. Pandas é uma biblioteca Python para manipulação e análise de dados estruturados.
5. NumPy é uma biblioteca Python fundamental para computação científica com arrays multidimensionais.
6. Scikit-learn é uma biblioteca Python para machine learning que fornece ferramentas para classificação, regressão e clustering.
7. Jupyter Notebook é um ambiente de desenvolvimento interativo que permite criar e compartilhar documentos com código, visualizações e texto.

🔄 Buscando contexto relevante...

📊 Contexto Relevante Encontrado:

1. Similaridade

## 🎉 **Conclusão**

Parabéns! Você acabou de explorar os conceitos fundamentais de **embeddings e vetorização**. 

### 📚 **O que você aprendeu:**

1. **Conceitos Básicos** - Como texto é convertido em números
2. **Geração de Embeddings** - Usando modelos pré-treinados
3. **Cálculo de Similaridade** - Medindo semelhança entre textos
4. **Busca Semântica** - Encontrando documentos relevantes
5. **Sistema de Recomendação** - Aplicação prática
6. **Clustering** - Agrupando textos por similaridade
7. **RAG** - Base para sistemas inteligentes

### 🚀 **Próximos Passos:**

- Explore o [Artigo 0003: RAG](../0003_rag/README.md) para combinar embeddings com LLMs
- Experimente com seus próprios dados e textos
- Teste diferentes modelos de embeddings
- Implemente sistemas de busca semântica reais

### 💡 **Dica Final:**

> Embeddings são a base para muitos sistemas de IA modernos. Dominar este conceito é fundamental para construir soluções inteligentes que realmente entendem o significado do texto.

**Continue explorando e construindo! 🚀**
