# üîπ Se√ß√£o 5.1 ‚Äì Parte 2: Embeddings Locais

**Objetivo:** Gerar e analisar embeddings cl√°ssicos e modernos (TF-IDF, Word2Vec, BERT, Sentence-BERT) usando o dataset preparado no Notebook 1.

## üìã Conte√∫do deste Notebook

1. **Carregamento de Dados**: Obter dataset diretamente do Elasticsearch
2. **TF-IDF**: Embeddings baseados em frequ√™ncia de termos
3. **Word2Vec**: Embeddings contextuais cl√°ssicos
4. **BERT**: Embeddings bidirecionais modernos
5. **Sentence-BERT**: Otimizado para similaridade de senten√ßas
6. **An√°lise Detalhada**: Compara√ß√£o de caracter√≠sticas de cada tipo

## üîó Sequ√™ncia dos Notebooks

- **Notebook 1**: Prepara√ß√£o e Dataset ‚úÖ
- **Notebook 2** (atual): Embeddings Locais üîÑ
- **Notebook 3**: Embeddings OpenAI
- **Notebook 4**: An√°lise Comparativa dos Embeddings
- **Notebook 5**: Clustering e Machine Learning

## ‚ö†Ô∏è IMPORTANTE: Carregamento de Dados

Este notebook **SEMPRE carrega os dados do Elasticsearch** (preparados no Notebook 1), garantindo:
- ‚úÖ Consist√™ncia entre notebooks
- ‚úÖ Mesmos IDs √∫nicos (doc_0000, doc_0001, ...)
- ‚úÖ Rastreabilidade completa
- ‚úÖ Integridade dos dados


## ‚öôÔ∏è Configura√ß√£o do Ambiente

Este notebook carrega as configura√ß√µes do arquivo `setup/.env` e conecta ao Elasticsearch.


In [1]:
# üîß Configura√ß√£o de Vari√°veis de Ambiente
import os
from pathlib import Path

# Carregar python-dotenv
try:
    from dotenv import load_dotenv
    print("‚úÖ python-dotenv dispon√≠vel")
    
    env_paths = [
        Path.cwd() / 'setup' / '.env',
        Path.cwd() / '.env',
        Path.cwd() / 'setup' / 'config_example.env'
    ]
    
    env_loaded = False
    for env_path in env_paths:
        if env_path.exists():
            load_dotenv(env_path)
            print(f"‚úÖ Arquivo .env carregado: {env_path}")
            env_loaded = True
            break
    
    if not env_loaded:
        print("‚ö†Ô∏è  Nenhum arquivo .env encontrado")
        
except ImportError:
    print("‚ö†Ô∏è  python-dotenv n√£o instalado")

# Carregar configura√ß√µes (otimizadas para 20 classes)
MAX_CHARS_PER_REQUEST = int(os.getenv('MAX_CHARS_PER_REQUEST', 32000))
BATCH_SIZE_SMALL_TEXTS = int(os.getenv('BATCH_SIZE_SMALL_TEXTS', 4))
BATCH_SIZE_MEDIUM_TEXTS = int(os.getenv('BATCH_SIZE_MEDIUM_TEXTS', 2))
BATCH_SIZE_LARGE_TEXTS = int(os.getenv('BATCH_SIZE_LARGE_TEXTS', 1))
DATASET_SIZE = int(os.getenv('DATASET_SIZE', 20000))
TEXT_MIN_LENGTH = int(os.getenv('TEXT_MIN_LENGTH', 20))
MAX_CLUSTERS = int(os.getenv('MAX_CLUSTERS', 20))
CLUSTERING_RANDOM_STATE = int(os.getenv('CLUSTERING_RANDOM_STATE', 42))
ELASTICSEARCH_HOST = os.getenv('ELASTICSEARCH_HOST', 'localhost')
ELASTICSEARCH_PORT = int(os.getenv('ELASTICSEARCH_PORT', 9200))

print(f"\nüîß Configura√ß√µes carregadas!")
print(f"   ELASTICSEARCH: {ELASTICSEARCH_HOST}:{ELASTICSEARCH_PORT}")
print(f"   CLUSTERING_RANDOM_STATE: {CLUSTERING_RANDOM_STATE}")


‚úÖ python-dotenv dispon√≠vel
‚úÖ Arquivo .env carregado: /Users/ivanvarella/Documents/Dados/9 - Mestrado/1 - Disciplinas 2025/2025.2/PPGEP9002 - INTELIGEÃÇNCIA COMPUTACIONAL PARA ENGENHARIA DE PRODUCÃßAÃÉO - T01/1 - Extra - Professor/Projetos/Embeddings_5.1/src/setup/.env

üîß Configura√ß√µes carregadas!
   ELASTICSEARCH: localhost:9200
   CLUSTERING_RANDOM_STATE: 42


In [2]:
# üöÄ Imports Essenciais
print("üöÄ CARREGANDO IMPORTS")
print("=" * 40)

import re
import json
import warnings
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
from typing import List, Dict, Tuple, Optional
from sklearn.feature_extraction.text import TfidfVectorizer

print("‚úÖ Imports b√°sicos carregados")

# Configura√ß√µes
warnings.filterwarnings('ignore')
pd.set_option('display.max_colwidth', 200)
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (10, 6)

print("‚úÖ Configura√ß√µes aplicadas")


üöÄ CARREGANDO IMPORTS
‚úÖ Imports b√°sicos carregados
‚úÖ Configura√ß√µes aplicadas


## üóÑÔ∏è Carregamento de Dados

Este notebook carrega o dataset do Elasticsearch (salvo no Notebook 1) para garantir consist√™ncia.


In [3]:
# üóÑÔ∏è Inicializar Elasticsearch e Carregar Dataset
print("üóÑÔ∏è INICIALIZANDO ELASTICSEARCH")
print("=" * 60)

# Importar m√≥dulo de cache
try:
    from elasticsearch_manager import (
        init_elasticsearch_cache, get_cache_status,
        save_embeddings_to_cache, load_embeddings_from_cache, 
        check_embeddings_in_cache
    )
    print("‚úÖ M√≥dulo de cache carregado")
    CACHE_AVAILABLE = True
except ImportError as e:
    print(f"‚ùå Erro ao carregar m√≥dulo: {e}")
    CACHE_AVAILABLE = False

# Conectar ao Elasticsearch
if CACHE_AVAILABLE:
    print("\nüîå Conectando...")
    cache_connected = init_elasticsearch_cache(
        host=ELASTICSEARCH_HOST,
        port=ELASTICSEARCH_PORT
    )
    
    if cache_connected:
        print("‚úÖ Conectado ao Elasticsearch!")
        status = get_cache_status()
        if status.get("connected"):
            print(f"üìä Total de documentos no cache: {status.get('total_docs', 0):,}")
    else:
        print("‚ùå Falha na conex√£o")
        CACHE_AVAILABLE = False
else:
    print("‚ö†Ô∏è  Cache n√£o dispon√≠vel")
    cache_connected = False

print(f"\nüéØ STATUS: {'‚úÖ Cache ativo' if CACHE_AVAILABLE and cache_connected else '‚ùå Cache inativo'}")


üóÑÔ∏è INICIALIZANDO ELASTICSEARCH
‚úÖ M√≥dulo de cache carregado

üîå Conectando...
‚úÖ Conectado ao Elasticsearch (localhost:9200)
‚úÖ Conectado ao Elasticsearch!
üìä Total de documentos no cache: 109,266

üéØ STATUS: ‚úÖ Cache ativo


In [4]:
# üìä CARREGAR DATASET DO ELASTICSEARCH
print("üìä CARREGANDO DATASET DO ELASTICSEARCH")
print("=" * 60)
print("‚ö†Ô∏è  IMPORTANTE: Carregando dados salvos no Notebook 1")
print("             N√ÉO recriando o dataset!")

# Executar carregamento
if CACHE_AVAILABLE and cache_connected:
    try:
        from elasticsearch import Elasticsearch
        from elasticsearch_helpers import load_all_documents_from_elasticsearch, print_dataframe_summary
        
        # Conectar ao Elasticsearch
        es = Elasticsearch([{
            'host': ELASTICSEARCH_HOST, 
            'port': ELASTICSEARCH_PORT, 
            'scheme': 'http'
        }])
        
        # Carregar TODOS os documentos usando Scroll API
        # Esta fun√ß√£o est√° em elasticsearch_helpers.py e usa Scroll API
        # para buscar TODOS os documentos, mesmo que sejam >10.000
        df = load_all_documents_from_elasticsearch(
            es_client=es,
            index_name="documents_dataset",
            batch_size=1000,      # Docs por lote
            scroll_timeout='2m',  # Tempo de contexto
            verbose=True          # Mostrar progresso
        )
        
        # Gerar lista de doc_ids para uso posterior
        doc_ids = df['doc_id'].tolist()
        
        # Exibir resumo detalhado
        print_dataframe_summary(df, expected_docs=18000)
        
    except Exception as e:
        print(f"\n‚ùå ERRO CR√çTICO ao carregar dataset: {e}")
        print("üí° Poss√≠veis causas:")
        print("   1. Notebook 1 n√£o foi executado")
        print("   2. Elasticsearch n√£o est√° rodando")
        print("   3. √çndice 'documents_dataset' n√£o existe")
        raise
else:
    print("\n‚ùå ERRO: Elasticsearch n√£o dispon√≠vel!")
    print("üí° Verifique:")
    print("   1. Docker est√° rodando: docker ps")
    print("   2. Elasticsearch ativo: http://localhost:9200")
    print("   3. Execute o Notebook 1 primeiro")
    raise RuntimeError("Elasticsearch n√£o dispon√≠vel")

üìä CARREGANDO DATASET DO ELASTICSEARCH
‚ö†Ô∏è  IMPORTANTE: Carregando dados salvos no Notebook 1
             N√ÉO recriando o dataset!
üîÑ Buscando documentos do √≠ndice 'documents_dataset'
   M√©todo: Scroll API (recomendado para >10k docs)
   Tamanho do lote: 1,000 documentos
   Timeout do scroll: 2m

üìä Total de documentos dispon√≠veis: 18,211
üîÑ Iniciando busca em lotes...
   Lote 1: 1,000 docs | Total acumulado: 1,000/18,211
   Lote 2: 1,000 docs | Total acumulado: 2,000/18,211
   Lote 3: 1,000 docs | Total acumulado: 3,000/18,211
   Lote 4: 1,000 docs | Total acumulado: 4,000/18,211
   Lote 5: 1,000 docs | Total acumulado: 5,000/18,211
   Lote 6: 1,000 docs | Total acumulado: 6,000/18,211
   Lote 7: 1,000 docs | Total acumulado: 7,000/18,211
   Lote 8: 1,000 docs | Total acumulado: 8,000/18,211
   Lote 9: 1,000 docs | Total acumulado: 9,000/18,211
   Lote 10: 1,000 docs | Total acumulado: 10,000/18,211
   Lote 11: 1,000 docs | Total acumulado: 11,000/18,211
   Lote 12: 1,

## üèõÔ∏è Embeddings Cl√°ssicos: TF-IDF

### **O que √© TF-IDF?**

**TF-IDF** (Term Frequency-Inverse Document Frequency) √© um m√©todo cl√°ssico que pondera a import√¢ncia de palavras:

- **TF (Term Frequency)**: Frequ√™ncia do termo no documento
- **IDF (Inverse Document Frequency)**: Raridade do termo no corpus
- **F√≥rmula**: TF-IDF = TF √ó log(N/DF)
  - N = n√∫mero total de documentos
  - DF = n√∫mero de documentos contendo o termo

### **Caracter√≠sticas**

- ‚úÖ Simples e interpret√°vel
- ‚úÖ R√°pido para calcular
- ‚úÖ Baseline s√≥lido
- ‚ùå Matriz esparsa (muitos zeros)
- ‚ùå N√£o captura contexto sem√¢ntico


In [5]:
# from elasticsearch import Elasticsearch
# es = Elasticsearch([{'host': 'localhost', 'port': 9200, 'scheme': 'http'}])
# if es.indices.exists(index='embeddings_tfidf'):
#     es.indices.delete(index='embeddings_tfidf')
#     print('‚úÖ √çndice embeddings_tfidf deletado')
# else:
#     print('‚ÑπÔ∏è  √çndice n√£o existe')

In [6]:
# üßÆ Gerar Embeddings TF-IDF
print("üßÆ GERANDO EMBEDDINGS TF-IDF")
print("=" * 60)

# Verificar se j√° existe no cache
use_cache = os.getenv('USE_ELASTICSEARCH_CACHE', 'true').lower() == 'true'
force_regenerate = os.getenv('FORCE_REGENERATE_EMBEDDINGS', 'false').lower() == 'true'

if use_cache and not force_regenerate and CACHE_AVAILABLE:
    all_exist, existing, missing = check_embeddings_in_cache('embeddings_tfidf', doc_ids)
    
    if all_exist:
        print("‚úÖ TF-IDF j√° existe no cache, carregando...")
        tfidf_embeddings = load_embeddings_from_cache('embeddings_tfidf', doc_ids)
        if tfidf_embeddings is not None:
            print(f"‚úÖ TF-IDF carregado: {tfidf_embeddings.shape}")
            # Criar vectorizer vazio (ser√° usado para an√°lise)
            tfidf_vectorizer = TfidfVectorizer(max_features=4096, max_df=0.95, min_df=2)
            tfidf_vectorizer.fit(df['text'])
        else:
            print("‚ùå Falha ao carregar, regenerando...")
            force_regenerate = True

if not use_cache or force_regenerate or not all_exist or tfidf_embeddings is None:
    print("üîÑ Gerando TF-IDF...")
    
    # Criar vectorizer
    tfidf_vectorizer = TfidfVectorizer(
        max_features=4096,  # Limitar a 4096 features (m√°ximo do Elasticsearch)
        max_df=0.95,        # Ignorar termos muito frequentes
        min_df=2,           # Ignorar termos muito raros
        ngram_range=(1, 2)  # Unigramas e bigramas
    )
    
    # Gerar embeddings
    tfidf_matrix = tfidf_vectorizer.fit_transform(df['text'])
    tfidf_embeddings = tfidf_matrix.toarray()
    
    print(f"‚úÖ TF-IDF gerado: {tfidf_embeddings.shape}")
    print(f"   Vocabul√°rio: {len(tfidf_vectorizer.vocabulary_):,} termos")
    print(f"   Densidade: {(tfidf_embeddings != 0).mean():.3f}")
    
    # Salvar no cache
    if use_cache and CACHE_AVAILABLE:
        print("üíæ Salvando no Elasticsearch...")
        save_embeddings_to_cache(
            'embeddings_tfidf', 
            tfidf_embeddings, 
            doc_ids, 
            df['text'].tolist(), 
            'tfidf'
        )

print(f"\nüìä TF-IDF pronto: {tfidf_embeddings.shape}")


üßÆ GERANDO EMBEDDINGS TF-IDF
‚úÖ TF-IDF j√° existe no cache, carregando...
‚úÖ Embeddings carregados: (18211, 4096) de 'embeddings_tfidf'
‚úÖ TF-IDF carregado: (18211, 4096)

üìä TF-IDF pronto: (18211, 4096)


## üî§ Word2Vec: Embeddings Contextuais

### **O que √© Word2Vec?**

**Word2Vec** (2013) foi revolucion√°rio ao capturar similaridade sem√¢ntica atrav√©s de contexto:

- **Skip-gram**: Prediz palavras vizinhas dado uma palavra central
- **CBOW**: Prediz palavra central dado contexto
- **Janela deslizante**: Considera palavras pr√≥ximas
- **Resultado**: Palavras similares ficam pr√≥ximas no espa√ßo vetorial

### **Caracter√≠sticas**

- ‚úÖ Captura similaridade sem√¢ntica
- ‚úÖ Embeddings densos
- ‚úÖ R√°pido ap√≥s treinamento
- ‚ùå Palavras isoladas (n√£o considera ordem global)
- ‚ùå Requer treinamento no corpus


In [7]:
# üìö Carregar bibliotecas para Word2Vec, BERT e SBERT
print("üìö CARREGANDO BIBLIOTECAS DE EMBEDDINGS")
print("=" * 60)

# Gensim para Word2Vec
try:
    from gensim.models import Word2Vec
    print("‚úÖ Gensim carregado")
    GENSIM_OK = True
except:
    print("‚ùå Gensim n√£o dispon√≠vel")
    GENSIM_OK = False

# Sentence Transformers para BERT e SBERT
try:
    from sentence_transformers import SentenceTransformer
    print("‚úÖ Sentence Transformers carregado")
    TRANSFORMERS_OK = True
except:
    print("‚ùå Sentence Transformers n√£o dispon√≠vel")
    TRANSFORMERS_OK = False

print(f"\nStatus: Gensim={'‚úÖ' if GENSIM_OK else '‚ùå'}, Transformers={'‚úÖ' if TRANSFORMERS_OK else '‚ùå'}")


üìö CARREGANDO BIBLIOTECAS DE EMBEDDINGS
‚úÖ Gensim carregado
‚úÖ Sentence Transformers carregado

Status: Gensim=‚úÖ, Transformers=‚úÖ


In [8]:
# üßÆ Gerar Embeddings Word2Vec
print("üßÆ GERANDO EMBEDDINGS WORD2VEC")
print("=" * 60)

if not GENSIM_OK:
    print("‚ùå Gensim n√£o dispon√≠vel, pulando Word2Vec")
    word2vec_embeddings = None
else:
    # Verificar cache
    if use_cache and not force_regenerate and CACHE_AVAILABLE:
        all_exist, _, _ = check_embeddings_in_cache('embeddings_word2vec', doc_ids)
        if all_exist:
            print("‚úÖ Word2Vec j√° existe, carregando...")
            word2vec_embeddings = load_embeddings_from_cache('embeddings_word2vec', doc_ids)
            if word2vec_embeddings is not None:
                print(f"‚úÖ Word2Vec carregado: {word2vec_embeddings.shape}")
            else:
                force_regenerate = True
    
    if not use_cache or force_regenerate or not all_exist or word2vec_embeddings is None:
        print("üîÑ Treinando Word2Vec...")
        
        # Tokenizar textos
        tokenized_texts = [text.lower().split() for text in df['text']]
        
        # Treinar Word2Vec
        w2v_model = Word2Vec(
            sentences=tokenized_texts,
            vector_size=100,
            window=5,
            min_count=2,
            workers=4,
            epochs=10,
            seed=CLUSTERING_RANDOM_STATE
        )
        
        # Gerar embeddings por documento (m√©dia dos vetores de palavras)
        word2vec_embeddings = []
        for tokens in tokenized_texts:
            valid_vectors = [w2v_model.wv[word] for word in tokens if word in w2v_model.wv]
            if valid_vectors:
                word2vec_embeddings.append(np.mean(valid_vectors, axis=0))
            else:
                word2vec_embeddings.append(np.zeros(100))
        
        word2vec_embeddings = np.array(word2vec_embeddings)
        
        print(f"‚úÖ Word2Vec gerado: {word2vec_embeddings.shape}")
        print(f"   Vocabul√°rio: {len(w2v_model.wv):,} palavras")
        
        # Salvar no cache
        if use_cache and CACHE_AVAILABLE:
            print("üíæ Salvando no Elasticsearch...")
            save_embeddings_to_cache(
                'embeddings_word2vec',
                word2vec_embeddings,
                doc_ids,
                df['text'].tolist(),
                'word2vec'
            )

if word2vec_embeddings is not None:
    print(f"\nüìä Word2Vec pronto: {word2vec_embeddings.shape}")


üßÆ GERANDO EMBEDDINGS WORD2VEC
‚úÖ Word2Vec j√° existe, carregando...
‚úÖ Embeddings carregados: (18211, 100) de 'embeddings_word2vec'
‚úÖ Word2Vec carregado: (18211, 100)

üìä Word2Vec pronto: (18211, 100)


## ü§ñ Embeddings Modernos: BERT e Sentence-BERT

### **BERT (2018) - Contextualiza√ß√£o Bidirecional**

**Caracter√≠sticas:**
- L√™ texto em ambas as dire√ß√µes simultaneamente
- Attention mechanism
- 768 dimens√µes (bert-base-uncased)
- Contextualizado: mesma palavra, contextos diferentes

### **Sentence-BERT (2019) - Otimizado para Similaridade**

**Caracter√≠sticas:**
- Baseado em BERT mas otimizado para similaridade
- 384 dimens√µes (all-MiniLM-L6-v2)
- Ideal para clustering e busca sem√¢ntica
- Normalizado por padr√£o


In [9]:
# üßÆ Gerar Embeddings BERT e Sentence-BERT
print("üßÆ GERANDO EMBEDDINGS BERT E SENTENCE-BERT")
print("=" * 60)

if not TRANSFORMERS_OK:
    print("‚ùå Sentence Transformers n√£o dispon√≠vel")
    bert_embeddings = None
    sbert_embeddings = None
else:
    # BERT
    print("\nüìñ BERT (bert-base-uncased)...")
    if use_cache and not force_regenerate and CACHE_AVAILABLE:
        all_exist, _, _ = check_embeddings_in_cache('embeddings_bert', doc_ids)
        if all_exist:
            print("‚úÖ BERT j√° existe, carregando...")
            bert_embeddings = load_embeddings_from_cache('embeddings_bert', doc_ids)
            if bert_embeddings is None:
                force_regenerate = True
    
    if not use_cache or force_regenerate or not all_exist or bert_embeddings is None:
        print("üîÑ Gerando BERT...")
        bert_model = SentenceTransformer('bert-base-uncased')
        bert_embeddings = bert_model.encode(
            df['text'].tolist(),
            show_progress_bar=True,
            batch_size=32
        )
        print(f"‚úÖ BERT gerado: {bert_embeddings.shape}")
        
        if use_cache and CACHE_AVAILABLE:
            save_embeddings_to_cache(
                'embeddings_bert',
                bert_embeddings,
                doc_ids,
                df['text'].tolist(),
                'bert'
            )
    
    # Sentence-BERT
    print("\nüìñ Sentence-BERT (all-MiniLM-L6-v2)...")
    if use_cache and not force_regenerate and CACHE_AVAILABLE:
        all_exist, _, _ = check_embeddings_in_cache('embeddings_sbert', doc_ids)
        if all_exist:
            print("‚úÖ Sentence-BERT j√° existe, carregando...")
            sbert_embeddings = load_embeddings_from_cache('embeddings_sbert', doc_ids)
            if sbert_embeddings is None:
                force_regenerate = True
    
    if not use_cache or force_regenerate or not all_exist or sbert_embeddings is None:
        print("üîÑ Gerando Sentence-BERT...")
        sbert_model = SentenceTransformer('all-MiniLM-L6-v2')
        sbert_embeddings = sbert_model.encode(
            df['text'].tolist(),
            show_progress_bar=True,
            batch_size=32
        )
        print(f"‚úÖ Sentence-BERT gerado: {sbert_embeddings.shape}")
        
        if use_cache and CACHE_AVAILABLE:
            save_embeddings_to_cache(
                'embeddings_sbert',
                sbert_embeddings,
                doc_ids,
                df['text'].tolist(),
                'sbert'
            )

print(f"\nüìä RESUMO DOS EMBEDDINGS LOCAIS:")
print(f"   TF-IDF: {tfidf_embeddings.shape if tfidf_embeddings is not None else 'N/A'}")
print(f"   Word2Vec: {word2vec_embeddings.shape if word2vec_embeddings is not None else 'N/A'}")
print(f"   BERT: {bert_embeddings.shape if bert_embeddings is not None else 'N/A'}")
print(f"   Sentence-BERT: {sbert_embeddings.shape if sbert_embeddings is not None else 'N/A'}")


üßÆ GERANDO EMBEDDINGS BERT E SENTENCE-BERT

üìñ BERT (bert-base-uncased)...
‚úÖ BERT j√° existe, carregando...
‚úÖ Embeddings carregados: (18211, 768) de 'embeddings_bert'

üìñ Sentence-BERT (all-MiniLM-L6-v2)...
‚úÖ Sentence-BERT j√° existe, carregando...
‚úÖ Embeddings carregados: (18211, 384) de 'embeddings_sbert'

üìä RESUMO DOS EMBEDDINGS LOCAIS:
   TF-IDF: (18211, 4096)
   Word2Vec: (18211, 100)
   BERT: (18211, 768)
   Sentence-BERT: (18211, 384)


## ‚úÖ Resumo e Pr√≥ximos Passos

### **O que foi realizado neste notebook:**

1. ‚úÖ **Dados carregados do Elasticsearch** - Consist√™ncia garantida
2. ‚úÖ **TF-IDF** - Embeddings cl√°ssicos baseados em frequ√™ncia
3. ‚úÖ **Word2Vec** - Embeddings contextuais treinados
4. ‚úÖ **BERT** - Embeddings bidirecionais modernos
5. ‚úÖ **Sentence-BERT** - Otimizado para similaridade

### **Pr√≥ximo Notebook: Parte 3 - Embeddings OpenAI**

No pr√≥ximo notebook:
- Embeddings da API OpenAI (text-embedding-3-small)
- Tratamento de textos longos (sem truncamento)
- Economia de custos com cache inteligente


In [10]:
# üìä Resumo Final
print("üìä RESUMO FINAL - NOTEBOOK 2 COMPLETO")
print("=" * 60)
print(f"‚úÖ Dataset: {len(df):,} documentos (carregados do Elasticsearch)")
print(f"‚úÖ Embeddings gerados:")
print(f"   ‚Ä¢ TF-IDF: {tfidf_embeddings.shape if tfidf_embeddings is not None else 'N/A'}")
print(f"   ‚Ä¢ Word2Vec: {word2vec_embeddings.shape if word2vec_embeddings is not None else 'N/A'}")
print(f"   ‚Ä¢ BERT: {bert_embeddings.shape if bert_embeddings is not None else 'N/A'}")
print(f"   ‚Ä¢ Sentence-BERT: {sbert_embeddings.shape if sbert_embeddings is not None else 'N/A'}")
print(f"\nüöÄ Pronto para o Notebook 3: Embeddings OpenAI!")


üìä RESUMO FINAL - NOTEBOOK 2 COMPLETO
‚úÖ Dataset: 18,211 documentos (carregados do Elasticsearch)
‚úÖ Embeddings gerados:
   ‚Ä¢ TF-IDF: (18211, 4096)
   ‚Ä¢ Word2Vec: (18211, 100)
   ‚Ä¢ BERT: (18211, 768)
   ‚Ä¢ Sentence-BERT: (18211, 384)

üöÄ Pronto para o Notebook 3: Embeddings OpenAI!
