# Aula 2: Armazenamento Vetorial com FAISS, Chroma e Pinecone

## O que vamos aprender:
- Como armazenar e buscar embeddings eficientemente com FAISS e Chroma (locais) e Pinecone (nuvem).
- A import√¢ncia dos metadados para filtros precisos.
- As diferen√ßas pr√°ticas entre √çndices Flat e HNSW.
- Como migrar de uma solu√ß√£o local para uma solu√ß√£o gerenciada na nuvem.

### Por que armazenamento vetorial √© crucial?
- **Escala**: Buscar em milh√µes de documentos em milissegundos.
- **Persist√™ncia**: N√£o recalcular embeddings a cada execu√ß√£o.
- **Filtros**: Combinar busca sem√¢ntica com regras de neg√≥cio.
- **Produ√ß√£o**: Solu√ß√µes em nuvem como Pinecone oferecem escalabilidade e gerenciamento simplificado.

## 0. Configura√ß√£o do Ambiente

Vamos instalar as bibliotecas e configurar nossa chave de API do Gemini.

**Importante:** Para a se√ß√£o do Pinecone, voc√™ precisar√° de uma conta e uma chave de API.
1. Crie uma conta em [pinecone.io](https://www.pinecone.io/).
2. Crie um √≠ndice (por exemplo, `langchain-rag`) com a dimens√£o correta para o modelo de embedding que estamos usando (Gemini: 768).
3. Na se√ß√£o "API Keys", crie uma chave.

Adicione suas chaves ao arquivo `.env`:
```
GOOGLE_API_KEY="sua-chave-do-google-aqui"
PINECONE_API_KEY="sua-chave-do-pinecone-aqui"
```

In [None]:
!pip install langchain langchain-google-genai faiss-cpu chromadb langchain-pinecone pinecone-client

!pip install langchain-community



Defaulting to user installation because normal site-packages is not writeable
Defaulting to user installation because normal site-packages is not writeable


In [9]:
import os

os.environ['GOOGLE_API_KEY'] = 'AIzaSyCzAuz0ruD-CrZFLBxvpVF_YpSEIzi3n78'

In [7]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain.schema import Document
from langchain_community.chat_models import ChatOllama
from langchain_community.embeddings import OllamaEmbeddings
llm = ChatOllama(model="mistral", temperature=0)
# embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

embeddings = OllamaEmbeddings(model="nomic-embed-text")  # ou "all-minilm"


  embeddings = OllamaEmbeddings(model="nomic-embed-text")  # ou "all-minilm"


------
## OBS:

Vamos destrinchar a √∫ltima linha com mais detalhes:

```python
embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
```

### ‚úÖ O que essa linha faz?

Ela **instancia** um **modelo de embeddings** do **Google Gemini** (via LangChain), permitindo transformar textos em **vetores num√©ricos de alta dimens√£o**.

---

### üîç Conceitos importantes:

#### üîπ `GoogleGenerativeAIEmbeddings`

* √â uma **classe do LangChain** que conecta com o **servi√ßo de embeddings do Gemini (Google AI)**.
* Ela transforma **textos** em **vetores num√©ricos**, que podem ser usados para **buscas sem√¢nticas**, **similaridade textual**, ou **indexa√ß√£o vetorial** (em FAISS, Pinecone, ChromaDB etc).

#### üîπ `model="models/embedding-001"`

* Especifica qual **modelo de embedding** ser√° usado.
* `"models/embedding-001"` √© o **modelo oficial do Google Gemini** para embeddings (lan√ßado com a API do PaLM/Gemini).
* Ele gera vetores de **768 dimens√µes**, otimizados para **tarefas de similaridade sem√¢ntica**.

---

-----


### üß† Exemplo pr√°tico:


In [11]:
embeddings.embed_query("Pol√≠tica de home office da empresa")

[0.4945719242095947,
 1.911015510559082,
 -3.0225448608398438,
 -0.19155508279800415,
 0.9211956262588501,
 -0.26807740330696106,
 -0.3077172040939331,
 0.4780725836753845,
 0.4851575493812561,
 0.1338804066181183,
 -0.3361971080303192,
 -0.23674604296684265,
 1.3426034450531006,
 0.2680644094944,
 0.43944573402404785,
 0.04269556701183319,
 -0.49050331115722656,
 -0.7528285384178162,
 -1.8066527843475342,
 0.19034576416015625,
 0.305203378200531,
 -0.11802151799201965,
 -0.7660828828811646,
 -0.21130332350730896,
 1.9658066034317017,
 1.5306918621063232,
 0.7834734320640564,
 -0.13619133830070496,
 0.5788449645042419,
 -0.63514244556427,
 -1.4516634941101074,
 1.5349071025848389,
 0.526006281375885,
 -0.996399998664856,
 0.10228516161441803,
 -1.0079939365386963,
 1.1830551624298096,
 0.014988496899604797,
 0.02069801837205887,
 -0.6593447923660278,
 -0.36376646161079407,
 -0.8095259070396423,
 -0.6883504986763,
 -0.7989990711212158,
 1.9156975746154785,
 0.25387921929359436,
 -0.0414

## 1. Preparando Documentos com Metadados

Metadados s√£o a chave para buscas filtradas e contextuais. Vamos criar documentos ricos em metadados.

Vamos **criar uma lista de documentos estruturados**, cada um com:

* Um **conte√∫do textual** (chamado `page_content`)
* Um **conjunto de metadados** (como tipo, departamento, ano, etc.)

Esses documentos s√£o do tipo `Document`, uma **classe do LangChain** que √© usada para armazenar **textos e seus metadados** de forma padronizada ‚Äî ideal para RAG, busca sem√¢ntica, indexa√ß√£o vetorial, etc.

---

### üß† **Para que serve isso?**

Esse tipo de estrutura √© **base** em pipelines de RAG (Retrieval-Augmented Generation), onde:

* O **texto** ser√° transformado em **vetores** (com embeddings)
* Os **metadados** ajudam a:

  * Filtrar por √°rea (ex: RH, TI)
  * Saber a data do conte√∫do
  * Rastrear qual documento gerou a resposta

---

### üß© **Exemplo pr√°tico:**

Voc√™ poderia usar essa lista em um mecanismo de busca inteligente, assim:

* üîé ‚ÄúQual o prazo para pedir f√©rias?‚Äù

  * O sistema encontra o `Document` cujo conte√∫do fala de f√©rias
  * E retorna a resposta com base naquele texto (ex: via RAG)

---

### üîç Estrutura de um `Document`:

```python
Document(
    page_content="Texto que descreve o conte√∫do informativo",
    metadata={
        "chave1": "valor",
        "chave2": "valor",
        ...
    }
)
```

---

### ‚úÖ Utilidade em projetos reais:

* üîç Sistemas de perguntas e respostas (ex: chatbot interno)
* üìÅ Busca em documentos corporativos
* ü§ñ Aplica√ß√µes com RAG e IA generativa
* üóÇÔ∏è Organiza√ß√£o e recupera√ß√£o de conhecimento



In [12]:
documentos_empresa = [
    Document(
        page_content="Pol√≠tica de f√©rias: Funcion√°rios t√™m direito a 30 dias de f√©rias ap√≥s 12 meses. A solicita√ß√£o deve ser feita com 30 dias de anteced√™ncia.",
        metadata={"tipo": "pol√≠tica", "departamento": "RH", "ano": 2024, "id_doc": "doc001"}
    ),

    Document(
        page_content="Processo de reembolso de despesas: Envie a nota fiscal pelo portal financeiro. O reembolso ocorre em at√© 5 dias √∫teis.",
        metadata={"tipo": "processo", "departamento": "Financeiro", "ano": 2023, "id_doc": "doc002"}
    ),

    Document(
        page_content="Guia de TI: Para configurar a VPN, acesse vpn.nossaempresa.com e siga as instru√ß√µes para seu sistema operacional.",
        metadata={"tipo": "tutorial", "departamento": "TI", "ano": 2024, "id_doc": "doc003"}
    ),

    Document(
        page_content="C√≥digo de √âtica e Conduta: Valorizamos o respeito, a integridade e a colabora√ß√£o. Casos de ass√©dio n√£o ser√£o tolerados.",
        metadata={"tipo": "pol√≠tica", "departamento": "RH", "ano": 2022, "id_doc": "doc004"}
    )

]

OBS:Em um ambiente real, voc√™ n√£o escreveria os documentos manualmente como no exemplo anterior, eles viriam, por exemplo, de um PDF, de uma base de dados, de uma pasta com arquivos, de planilhas, sites internos, etc.


-------

## 2. FAISS - Performance Local

**O que √© o FAISS?**
√â uma biblioteca de c√≥digo para fazer buscas de similaridade muito r√°pidas. Dado um item, ela encontra os mais parecidos dentro de um grande volume de dados.

O FAISS oferece principalmente duas estrat√©gias de busca:

#### 1. √çndice Flat (Busca Exata)

* **Como funciona:** Compara o seu item de busca com **todos** os outros itens no banco de dados, um por um.
* **Vantagem:** Precis√£o de 100%. Voc√™ tem a garantia de encontrar os resultados exatos.
* **Desvantagem:** Lento para muitos dados, pois o n√∫mero de compara√ß√µes √© enorme.

#### 2. √çndice HNSW (Busca Aproximada)

* **Como funciona:** Cria uma estrutura de dados otimizada (um grafo) que permite pular compara√ß√µes desnecess√°rias. A busca √© guiada de forma inteligente para a √°rea mais prov√°vel dos resultados.
* **Vantagem:** Extremamente mais r√°pido, ideal para aplica√ß√µes em tempo real com grandes volumes de dados.
* **Desvantagem:** A precis√£o n√£o √© 100%. A busca √© muito boa, mas pode, raramente, deixar de fora o resultado mais exato. Essa perda √© geralmente aceit√°vel em troca da velocidade.

**Conclus√£o sobre o LangChain:**
Por padr√£o, o LangChain usa o m√©todo **Flat**. Ele escolhe a seguran√ßa (100% de precis√£o) em vez da velocidade, pois √© mais simples e confi√°vel para projetos iniciais ou pequenos.

O LangChain usa `IndexFlatL2` por padr√£o no FAISS.


### `IndexFlatL2`

* **O que √©:** Busca **Exata** (For√ßa Bruta).
* **Como funciona:** Compara seu item de busca com **todos** os outros.
* **Pr√≥:** Garante **100% de precis√£o**.
* **Contra:** **Lento** para grandes volumes de dados.
* **Use para:** Datasets pequenos ou para garantir o resultado perfeito sem se preocupar com a velocidade.

### `IndexHNSWFlat`

* **O que √©:** Busca **Aproximada** (Inteligente e R√°pida).
* **Como funciona:** Usa um grafo (um "mapa") para navegar de forma eficiente e encontrar os resultados mais prov√°veis sem olhar tudo.
* **Pr√≥:** **Extremamente r√°pido**, mesmo com milh√µes de itens.
* **Contra:** A precis√£o n√£o √© 100% (mas geralmente acima de 99%) e consome mais mem√≥ria.
* **Use para:** A maioria das aplica√ß√µes em produ√ß√£o, onde **velocidade** √© mais importante que uma precis√£o perfeita.

In [13]:
from langchain_community.vectorstores import FAISS
import faiss

d = 768
index_hnsw = faiss.IndexHNSWFlat(d, 32)

In [14]:
faiss_db = FAISS.from_documents(documentos_empresa, embeddings)

pergunta = "Como pe√ßo minhas f√©rias?"
resultados = faiss_db.similarity_search(pergunta, k=2)

In [15]:
print(f"\nüîç Pergunta: '{pergunta}'")
print("\n Documentos mais relevantes (FAISS):")
for doc in resultados:
    print(f"- {doc.page_content}")
    print(f" (Metadados: {doc.metadata})")


üîç Pergunta: 'Como pe√ßo minhas f√©rias?'

 Documentos mais relevantes (FAISS):
- Pol√≠tica de f√©rias: Funcion√°rios t√™m direito a 30 dias de f√©rias ap√≥s 12 meses. A solicita√ß√£o deve ser feita com 30 dias de anteced√™ncia.
 (Metadados: {'tipo': 'pol√≠tica', 'departamento': 'RH', 'ano': 2024, 'id_doc': 'doc001'})
- C√≥digo de √âtica e Conduta: Valorizamos o respeito, a integridade e a colabora√ß√£o. Casos de ass√©dio n√£o ser√£o tolerados.
 (Metadados: {'tipo': 'pol√≠tica', 'departamento': 'RH', 'ano': 2022, 'id_doc': 'doc004'})


## 3. ChromaDB - Filtros Poderosos

[Chroma](https://www.trychroma.com/)

**Chroma DB: O Banco de Dados Vetorial Simples e Poderoso para IA**

Chroma √© um banco de dados vetorial open-source, criado especialmente para ser intuitivo e f√°cil de usar em aplica√ß√µes de Intelig√™ncia Artificial.

Seu grande diferencial √© a combina√ß√£o de duas fun√ß√µes essenciais:

* **Busca por Similaridade:** Armazena e busca vetores (a representa√ß√£o num√©rica de textos, imagens, etc.) para encontrar itens parecidos com base em seu significado ou conte√∫do.
* **Filtros por Metadados:** Permite associar informa√ß√µes adicionais (como datas, categorias, fontes, IDs de usu√°rio) a cada vetor. Com isso, voc√™ pode refinar suas buscas de forma precisa.

**Na pr√°tica,** isso permite consultas complexas como: "Encontre documentos *parecidos com este texto sobre finan√ßas*, mas que foram publicados *apenas no √∫ltimo m√™s* e que pertencem √† *categoria 'not√≠cias'*".

---

In [16]:
from langchain_community.vectorstores import Chroma

chroma_db = Chroma.from_documents(
    documents=documentos_empresa,
    embedding=embeddings
)

In [17]:
resultados = chroma_db.similarity_search(pergunta, k=2)

for doc in resultados:
  print(f"- {doc.page_content}")

- Pol√≠tica de f√©rias: Funcion√°rios t√™m direito a 30 dias de f√©rias ap√≥s 12 meses. A solicita√ß√£o deve ser feita com 30 dias de anteced√™ncia.
- C√≥digo de √âtica e Conduta: Valorizamos o respeito, a integridade e a colabora√ß√£o. Casos de ass√©dio n√£o ser√£o tolerados.


In [18]:
pergunta_rh = "Quais s√£o as regras da empresa?"

resultados_filtrados = chroma_db.similarity_search(
    pergunta_rh,
    k=2,
    filter={"$and": [{"departamento": "RH"}, {"tipo": "pol√≠tica"}]}
)

In [19]:
print(f"\n Pergunta: '{pergunta_rh}' com filtro para pol√≠ticas de RH")
print("\n Documentos relevantes e filtrados (Chroma):")

for doc in resultados_filtrados:
  print(f"- {doc.page_content}")
  print(f"  (Departamento: {doc.metadata['departamento']}, Tipo: {doc.metadata['tipo']})")


 Pergunta: 'Quais s√£o as regras da empresa?' com filtro para pol√≠ticas de RH

 Documentos relevantes e filtrados (Chroma):
- C√≥digo de √âtica e Conduta: Valorizamos o respeito, a integridade e a colabora√ß√£o. Casos de ass√©dio n√£o ser√£o tolerados.
  (Departamento: RH, Tipo: pol√≠tica)
- Pol√≠tica de f√©rias: Funcion√°rios t√™m direito a 30 dias de f√©rias ap√≥s 12 meses. A solicita√ß√£o deve ser feita com 30 dias de anteced√™ncia.
  (Departamento: RH, Tipo: pol√≠tica)


## 4. Pinecone - Escalabilidade na Nuvem


O [Pinecone](https://www.pinecone.io/) √© um banco de dados vetorial de n√≠vel profissional, oferecido como um servi√ßo na nuvem (**SaaS**) totalmente gerenciado. Sua proposta √© eliminar toda a complexidade de infraestrutura, permitindo que as equipes foquem exclusivamente no desenvolvimento da aplica√ß√£o.

√â a escolha ideal para cen√°rios que exigem:
* **Alta Escalabilidade:** Projetado para crescer junto com sua aplica√ß√£o, suportando bilh√µes de vetores e um alto volume de buscas sem degrada√ß√£o de performance.
* **Disponibilidade e Confian√ßa:** Garante que o banco de dados esteja sempre online, otimizado e seguro, algo cr√≠tico para produtos em produ√ß√£o.
* **Zero Manuten√ß√£o:** Voc√™ n√£o precisa se preocupar com servidores, atualiza√ß√µes, backups ou otimiza√ß√µes. O Pinecone cuida de tudo.

Em resumo, voc√™ obt√©m a pot√™ncia de um banco vetorial de ponta atrav√©s de uma simples API, sem os custos e o trabalho de gerenci√°-lo.

**Pr√©-requisitos para Conectar:**
Para usar o Pinecone neste c√≥digo, voc√™ precisa:
1.  **Configurar sua Chave de API:** Garantir que a `PINECONE_API_KEY` esteja definida no seu arquivo `.env`.
2.  **Criar um √çndice na Plataforma:** Ter um √≠ndice ativo criado previamente no seu painel de controle do Pinecone.


In [21]:
os.environ['PINECONE_API_KEY'] = 'pcsk_32tPgV_EuvPve4DgzDtDdq6VCoR6vCWkiBFxQVQ2XqosaXDKqYqVmTM3cfBW3MCmBcjnoT'

In [22]:
from langchain_pinecone import Pinecone
from pinecone import Pinecone as PineconeClient
from pinecone import ServerlessSpec

index_name = "langchain-rag"

pinecone_client = PineconeClient(api_key=os.environ["PINECONE_API_KEY"])

spec = ServerlessSpec(cloud='aws', region='us-east-1')

In [23]:
# Verificando se o √≠ndice existe. Se n√£o, ele ser√° criado.
# Nome do seu √≠ndice no Pinecone
index_name = "langchain-rag"
if index_name not in pinecone_client.list_indexes().names():
    pinecone_client.create_index(
        name=index_name,
        dimension=d,
        metric="cosine",
        spec=spec
    )
    print(f"√çndice '{index_name}' criado no Pinecone.")


    pinecone_db = Pinecone.from_documents(
        documentos_empresa,
        embeddings,
        index_name=index_name
    )
    print(f"Documentos adicionados ao √≠ndice '{index_name}'.")

else:
    print(f"Conectando ao √≠ndice existente '{index_name}'.")
    # Se o √≠ndice j√° existe, apenas carregamos
    pinecone_db = Pinecone.from_existing_index(
        index_name,
        embeddings
    )

Conectando ao √≠ndice existente 'langchain-rag'.


In [24]:
if pinecone_db:
    # Busca por similaridade
    pergunta_ti = "Como configuro a VPN?"
    resultados_pinecone = pinecone_db.similarity_search(pergunta_ti, k=2)

    print(f"\nüîç Pergunta: '{pergunta_ti}'")
    print("\nüìÑ Documentos mais relevantes (Pinecone):")
    for doc in resultados_pinecone:
        print(f"- {doc.page_content}")
        print(f"  (Metadados: {doc.metadata})")

    # Busca com filtro (Pinecone tamb√©m suporta!)
    resultados_pinecone_filtrados = pinecone_db.similarity_search(
        "informa√ß√µes sobre regras",
        k=2,
        filter={"tipo": "pol√≠tica"}
    )
    print(f"\nüîç Pergunta: 'informa√ß√µes sobre regras' com filtro para tipo='pol√≠tica'")
    print("\nüìÑ Documentos relevantes e filtrados (Pinecone):")
    for doc in resultados_pinecone_filtrados:
        print(f"- {doc.page_content}")
        print(f"  (Tipo: {doc.metadata['tipo']})")


üîç Pergunta: 'Como configuro a VPN?'

üìÑ Documentos mais relevantes (Pinecone):
- Pol√≠tica de f√©rias: Funcion√°rios t√™m direito a 30 dias de f√©rias ap√≥s 12 meses. A solicita√ß√£o deve ser feita com 30 dias de anteced√™ncia.
  (Metadados: {'ano': 2024.0, 'departamento': 'RH', 'id_doc': 'doc001', 'tipo': 'pol√≠tica'})
- C√≥digo de √âtica e Conduta: Valorizamos o respeito, a integridade e a colabora√ß√£o. Casos de ass√©dio n√£o ser√£o tolerados.
  (Metadados: {'ano': 2022.0, 'departamento': 'RH', 'id_doc': 'doc004', 'tipo': 'pol√≠tica'})

üîç Pergunta: 'informa√ß√µes sobre regras' com filtro para tipo='pol√≠tica'

üìÑ Documentos relevantes e filtrados (Pinecone):
- Pol√≠tica de f√©rias: Funcion√°rios t√™m direito a 30 dias de f√©rias ap√≥s 12 meses. A solicita√ß√£o deve ser feita com 30 dias de anteced√™ncia.
  (Tipo: pol√≠tica)
- C√≥digo de √âtica e Conduta: Valorizamos o respeito, a integridade e a colabora√ß√£o. Casos de ass√©dio n√£o ser√£o tolerados.
  (Tipo: pol√≠tica)


## üìö Resumo Pr√°tico da Aula 2

### O que aprendemos:
1.  **FAISS**: √ìtimo para performance local, especialmente com √≠ndices como HNSW, mas carece de filtros f√°ceis.
2.  **Chroma**: A escolha ideal para desenvolvimento r√°pido e prototipagem, gra√ßas √† sua API simples e ao poderoso sistema de filtros por metadados.
3.  **Pinecone**: A solu√ß√£o para produ√ß√£o. Oferece escalabilidade, gerenciamento e recursos avan√ßados (como filtros) sem a dor de cabe√ßa de manter a infraestrutura.
4.  **Metadados**: S√£o fundamentais. Enriquecer seus documentos com metadados de qualidade √© o que permite criar aplica√ß√µes de RAG verdadeiramente inteligentes e √∫teis.

### Migra√ß√£o: Local -> Nuvem
- O fluxo de trabalho de um projeto RAG geralmente come√ßa com **Chroma** ou **FAISS** para validar a ideia.
- √Ä medida que a necessidade de escala, confiabilidade e colabora√ß√£o aumenta, a migra√ß√£o para **Pinecone** se torna um passo natural e necess√°rio.
- O LangChain simplifica essa migra√ß√£o, permitindo trocar o `VectorStore` com poucas altera√ß√µes no c√≥digo.