# Aula 3: Embeddings de Alta Performance

## O que vamos aprender:
- Comparar modelos de API (Gemini) vs. modelos locais (Hugging Face) em custo, velocidade e qualidade.
- Aumentar a efici√™ncia do processamento em 10x com **Batch Processing**.
- Economizar custos e reduzir a lat√™ncia com **Cache de Embeddings**.

### Por que a performance dos embeddings √© crucial?
- **Qualidade da Busca**: A precis√£o do seu RAG depende diretamente da qualidade dos embeddings.
- **Custo Operacional**: Modelos locais podem reduzir drasticamente os custos de API em larga escala.
- **Velocidade (Lat√™ncia)**: O tempo para gerar embeddings impacta a velocidade de indexa√ß√£o e a resposta ao usu√°rio.
- **Privacidade**: Modelos locais garantem que dados sens√≠veis permane√ßam na sua infraestrutura.

## 0. Configura√ß√£o

Instalamos as bibliotecas e configuramos a chave de API do Google.

In [1]:
!pip install langchain langchain-google-genai sentence-transformers scikit-learn langchain-community

Defaulting to user installation because normal site-packages is not writeable


In [2]:
import os
import time
import numpy as np

os.environ['GOOGLE_API_KEY'] = 'AIzaSyAUx0wPEDlS-2NNVh9TGaWMvJ_HTUtiMGw'

## 1. Comparativo de Modelos: Gemini (API) vs. Hugging Face (Local)

Vamos comparar um modelo de ponta via API (Google Gemini) com modelos open-source populares que rodam localmente.

- **Google Gemini (`embedding-001`)**: Modelo de alta qualidade, acessado via API.
- **`all-MiniLM-L6-v2`**: Um modelo local muito popular, leve e r√°pido. √ìtimo para tarefas gerais onde a velocidade √© importante.
- **`BAAI/bge-large-en-v1.5`**: Um dos melhores modelos open-source no MTEB Leaderboard. Mais pesado, mas com qualidade sem√¢ntica superior.

In [3]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain_community.embeddings import HuggingFaceEmbeddings
from sklearn.metrics.pairwise import cosine_similarity
import time

In [4]:
# Textos de exemplo para nosso teste
textos_teste = [
    "Qual √© a pol√≠tica de f√©rias da nossa empresa?",
    "Preciso de um relat√≥rio de despesas de viagem.",
    "Como configuro o acesso √† rede privada virtual (VPN)?",
    "Onde encontro o c√≥digo de conduta da organiza√ß√£o?",
    "Quero entender o processo de avalia√ß√£o de performance."
]

In [5]:
## Google Gemnin Embeddings

gemini_embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

start_time = time.time()
embeddings_gemini = gemini_embeddings.embed_documents(textos_teste)
end_time = time.time()

print(f"Tempo de processamento: {end_time - start_time} segundos")
print(f"  - Dimens√µes do vetor: {len(embeddings_gemini[0])}")

Tempo de processamento: 0.6878089904785156 segundos
  - Dimens√µes do vetor: 768


In [6]:
#embeddings_gemini

[GoogleGenerativeAIEmbeddings](https://python.langchain.com/docs/integrations/text_embedding/google_generative_ai/)

In [6]:
## all-MiniLM-L6-v2

minilm_embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
start_time = time.time()
embeddings_minilm = minilm_embeddings.embed_documents(textos_teste)
end_time = time.time()

print(f"Tempo de processamento: {end_time - start_time} segundos")
print(f"  - Dimens√µes do vetor: {len(embeddings_minilm[0])}")

  minilm_embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
  from .autonotebook import tqdm as notebook_tqdm


Tempo de processamento: 0.19417881965637207 segundos
  - Dimens√µes do vetor: 384


In [7]:
print(f"  - Dimens√µes do vetor: {len(embeddings_minilm[0])}")

  - Dimens√µes do vetor: 384


[HuggingFaceEmbeddings](https://python.langchain.com/api_reference/huggingface/embeddings/langchain_huggingface.embeddings.huggingface.HuggingFaceEmbeddings.html)

[all-MiniLM-L6-v2](https://huggingface.co/sentence-transformers/all-MiniLM-L6-v2
)

In [9]:
#embeddings_minilm

In [10]:
# BGE-Large

bge_embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-large-en-v1.5")

start_time = time.time()
embeddings_bge = bge_embeddings.embed_documents(textos_teste)
end_time = time.time()

print(f"Tempo de processamento: {end_time - start_time} segundos")
print(f"  - Dimens√µes do vetor: {len(embeddings_bge[0])}")

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Error while downloading from https://cdn-lfs.hf.co/repos/7c/ec/7cecfbbb1e5b2627468d5949100139a60d432b5f80aaae3359c693d3dfb99766/45e1954914e29bd74080e6c1510165274ff5279421c89f76c418878732f64ae7?response-content-disposition=inline%3B+filename*%3DUTF-8%27%27model.safetensors%3B+filename%3D%22model.safetensors%22%3B&Expires=1755278641&Policy=eyJTdGF0ZW1lbnQiOlt7IkNvbmRpdGlvbiI6eyJEYXRlTGVzc1RoYW4iOnsiQVdTOkVwb2NoVGltZSI6MTc1NTI3ODY0MX19LCJSZXNvdXJjZSI6Imh0dHBzOi8vY2RuLWxmcy5oZi5jby9yZXBvcy83Yy9lYy83Y2VjZmJiYjFlNWIyNjI3NDY4ZDU5NDkxMDAxMzlhNjBkNDMyYjVmODBhYWFlMzM1OWM2OTNkM2RmYjk5NzY2LzQ1ZTE5NTQ5MTRlMjliZDc0MDgwZTZjMTUxMDE2NTI3NGZmNTI3OTQyMWM4OWY3NmM0MTg4Nzg3MzJmNjRhZTc%7EcmVzcG9uc2UtY29udGVudC1kaXNwb3NpdGlvbj0qIn1dfQ__&Signature=dfP7hy

Tempo de processamento: 0.49217724800109863 segundos
  - Dimens√µes do vetor: 1024


[bge-large-en-v1.5](https://huggingface.co/BAAI/bge-large-en-v1.5)

### An√°lise de Qualidade Sem√¢ntica

Agora, vamos ver qual modelo entende melhor uma pergunta semanticamente similar, mas com palavras diferentes.

In [11]:
pergunta = "Quero tirar uns dias de folga do trabalho."

emb_pergunta_gemini = gemini_embeddings.embed_query(pergunta)
emb_pergunta_minilm = minilm_embeddings.embed_query(pergunta)
emb_pergunta_bge = bge_embeddings.embed_query(pergunta)

In [12]:
modelos = {
    "Gemini": (emb_pergunta_gemini, embeddings_gemini),
    "MiniLM": (emb_pergunta_minilm, embeddings_minilm),
    "BGE-large": (emb_pergunta_bge, embeddings_bge)
}

print(pergunta)

Quero tirar uns dias de folga do trabalho.


In [17]:
for nome, (emb_q, emb_docs) in modelos.items():
  similaridades = cosine_similarity([emb_q], emb_docs)[0]
  doc_e_similaridade = sorted(
      zip(textos_teste, similaridades), key=lambda x: x[1], reverse=True
  )
  print(f"--- Ranking para o modelo {nome} ---")
  for i, (doc, sim) in enumerate(doc_e_similaridade[:3], 1):
    print(f"  {i}. (Score: {sim:.3f}) {doc}")
  print()

--- Ranking para o modelo Gemini ---
  1. (Score: 0.824) Quero entender o processo de avalia√ß√£o de performance.
  2. (Score: 0.811) Preciso de um relat√≥rio de despesas de viagem.
  3. (Score: 0.761) Qual √© a pol√≠tica de f√©rias da nossa empresa?

--- Ranking para o modelo MiniLM ---
  1. (Score: 0.496) Quero entender o processo de avalia√ß√£o de performance.
  2. (Score: 0.469) Onde encontro o c√≥digo de conduta da organiza√ß√£o?
  3. (Score: 0.465) Qual √© a pol√≠tica de f√©rias da nossa empresa?

--- Ranking para o modelo BGE-large ---
  1. (Score: 0.646) Qual √© a pol√≠tica de f√©rias da nossa empresa?
  2. (Score: 0.645) Preciso de um relat√≥rio de despesas de viagem.
  3. (Score: 0.621) Onde encontro o c√≥digo de conduta da organiza√ß√£o?



 **o BGE-large foi o √∫nico modelo que colocou a frase sobre f√©rias (‚ÄúQual √© a pol√≠tica de f√©rias‚Ä¶‚Äù) em 1.¬∫ lugar**, exatamente o que esperamos quando a consulta √© ‚ÄúQuero tirar uns dias de folga do trabalho.‚Äù

| Modelo        | Top-1 retornado                                            | Por que n√£o/por que sim?                                                                 |
| ------------- | ---------------------------------------------------------- | ---------------------------------------------------------------------------------------- |
| **Gemini**    | *‚ÄúQuero entender o processo de avalia√ß√£o de performance.‚Äù* | O modelo pareceu priorizar a parte ‚ÄúQuero ‚Ä¶‚Äù e ignorou o tema ‚Äúfolga/f√©rias‚Äù.            |
| **MiniLM**    | *‚ÄúQuero entender o processo de avalia√ß√£o de performance.‚Äù* | Patinou de forma parecida com o Gemini; scores baixos (\~0.49) indicam incerteza.        |
| **BGE-large** | *‚ÄúQual √© a pol√≠tica de f√©rias da nossa empresa?‚Äù*          | Captou corretamente o conceito ‚Äúfolga/f√©rias‚Äù e trouxe o item mais relevante como Top-1. |

### Por que isso acontece?

* **Treinamento/Foco lingu√≠stico**

  * *BGE-large* (BAAI) foi ajustado para ‚Äúembedding for retrieval‚Äù e costuma ser forte em captar sem√¢ntica, mesmo fora do ingl√™s.
  * *Gemini embeddings* ainda est√£o em pr√©-lan√ßamento e podem favorecer estruturas de frase (‚ÄúQuero‚Ä¶‚Äù) mais do que o tema.
  * *MiniLM* √© leve e r√°pido, mas perde profundidade sem√¢ntica em queries curtas e fora do dom√≠nio do treinamento.

* **Tamanho e capacidade**
  Modelos maiores (BGE-large ‚âà 1 B par√¢metros) t√™m mais ‚Äúespa√ßo‚Äù para nuances sem√¢nticas em compara√ß√£o ao MiniLM-L6-v2 (\~33 M).

* **Idioma misto (PT) e dados de treino**
  Nem todos os modelos foram igualmente expostos a portugu√™s. BGE-large costuma lidar melhor com multil√≠ngue que MiniLM; Gemini ainda pode variar.

### Cuidado ao tirar conclus√µes

* **Uma √∫nica query n√£o faz estat√≠stica** ‚Äì para bater o martelo, rode um conjunto maior de perguntas e compute m√©tricas como *Top-k accuracy* ou *Mean Reciprocal Rank*.
* **Scores n√£o s√£o compar√°veis entre modelos** ‚Äì 0.82 do Gemini ‚â† 0.64 do BGE; vale apenas a *ordem* dentro do pr√≥prio modelo.
* **Combine com filtros/feedback** ‚Äì se a qualidade for cr√≠tica, voc√™ pode usar rerankers (e.g. Cohere Rerank, bge-reranker) sobre o Top-k retornado.

### O que fazer na pr√°tica?

1. **Teste com v√°rias consultas reais** do seu dom√≠nio.
2. **Avalie recall\@k** (quantas vezes o documento correto aparece no Top-k).
3. Se BGE-large mantiver o desempenho, ele √© um √≥timo candidato como modelo de embeddings ‚Äì ainda mais rodando localmente, sem custo de API.

Assim, para esta consulta espec√≠fica, o BGE-large realmente se saiu melhor, mas fa√ßa um benchmark mais amplo antes de decidir pelo modelo definitivo.




---



---



## 2. Caching de Embeddings: Economia e Velocidade

Gerar embeddings, especialmente via API, tem custos de tempo e dinheiro. O cache armazena os embeddings j√° calculados para evitar retrabalho. Usaremos o `CacheBackedEmbeddings` do LangChain.

In [18]:
from langchain.storage import LocalFileStore
from langchain.embeddings import CacheBackedEmbeddings

store = LocalFileStore("./cache/")

embedder_principal = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

cache_embeddings = CacheBackedEmbeddings.from_bytes_store(
    embedder_principal,
    store,
    namespace='gemini_cache'
)

  _warn_about_sha1_encoder()


In [28]:
textos_para_cache = ["Ol√°, mundo!", "Testando o cache de embeddings.", "Ol√°, mundo!"]

start_time = time.time()
embeddings_result_1 = cache_embeddings.embed_documents(textos_para_cache)
end_time = time.time()

print(f"  - Tempo de execu√ß√£o: {end_time - start_time:.4f} segundos.")

  - Tempo de execu√ß√£o: 0.0000 segundos.


## 3. Batch Processing para Indexa√ß√£o em Larga Escala

Ao indexar milhares de documentos, process√°-los em lotes (batches) √© fundamental. Modelos locais, especialmente, se beneficiam enormemente disso.

In [29]:
documentos_grandes = [f"Este √© o documento de teste n√∫mero {i}." for i in range(1000)]

bge_embedder = HuggingFaceEmbeddings(
    model_name="BAAI/bge-large-en-v1.5",
    model_kwargs={"device": "cpu"},
    encode_kwargs={"normalize_embeddings": True}
)

batch_sizes = [1, 32, 64, 128]

In [30]:
for batch_size in batch_sizes:
    start_time = time.time()
    num_batches = len(documentos_grandes) // batch_size
    tempo_estimado = num_batches * (0.1 * batch_size) + (len(documentos_grandes) % batch_size) * 0.1
    tempo_real = bge_embedder.client.encode(documentos_grandes, batch_size=batch_size)
    end_time = time.time()

    print(f"  - Batch Size: {batch_size:<4} -> Tempo: {end_time - start_time:.2f}s")

  - Batch Size: 1    -> Tempo: 91.23s
  - Batch Size: 32   -> Tempo: 31.14s
  - Batch Size: 64   -> Tempo: 29.06s
  - Batch Size: 128  -> Tempo: 27.29s


## üìö Resumo Pr√°tico da Aula 3

- **Qualidade vs. Custo**: Modelos de API como o Gemini oferecem alta qualidade com zero setup, mas a um custo por chamada. Modelos locais como o `BGE-large` oferecem qualidade compar√°vel com custo de infraestrutura, al√©m de privacidade.
- **Efici√™ncia √© Chave**: `CacheBackedEmbeddings` √© uma ferramenta poderosa para economizar dinheiro e tempo, eliminando chamadas redundantes.
- **Escalabilidade**: Para indexar grandes volumes, o processamento em lote (batch processing) n√£o √© opcional, √© uma necessidade.
