# Aula 2: Armazenamento Vetorial com FAISS, Chroma e Pinecone

## O que vamos aprender:
- Como armazenar e buscar embeddings eficientemente com FAISS e Chroma (locais) e Pinecone (nuvem).
- A importância dos metadados para filtros precisos.
- As diferenças práticas entre Índices Flat e HNSW.
- Como migrar de uma solução local para uma solução gerenciada na nuvem.

### Por que armazenamento vetorial é crucial?
- **Escala**: Buscar em milhões de documentos em milissegundos.
- **Persistência**: Não recalcular embeddings a cada execução.
- **Filtros**: Combinar busca semântica com regras de negócio.
- **Produção**: Soluções em nuvem como Pinecone oferecem escalabilidade e gerenciamento simplificado.

## 0. Configuração do Ambiente

Vamos instalar as bibliotecas e configurar nossa chave de API do Gemini.

**Importante:** Para a seção do Pinecone, você precisará de uma conta e uma chave de API.
1. Crie uma conta em [pinecone.io](https://www.pinecone.io/).
2. Crie um índice (por exemplo, `langchain-rag`) com a dimensão correta para o modelo de embedding que estamos usando (Gemini: 768).
3. Na seção "API Keys", crie uma chave.

Adicione suas chaves ao arquivo `.env`:
```
GOOGLE_API_KEY="sua-chave-do-google-aqui"
PINECONE_API_KEY="sua-chave-do-pinecone-aqui"
```

In [1]:
!pip install langchain langchain-google-genai faiss-cpu chromadb langchain-pinecone pinecone-client

!pip install langchain-community



In [2]:
import os

os.environ['GOOGLE_API_KEY'] = 'AIzaSyBDc4dXCuYxVb9bXWERnXNX95qmHtXaVxg'

In [3]:
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain.schema import Document

embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")

------
## OBS:

Vamos destrinchar a última linha com mais detalhes:

```python
embeddings = GoogleGenerativeAIEmbeddings(model="models/embedding-001")
```

### ✅ O que essa linha faz?

Ela **instancia** um **modelo de embeddings** do **Google Gemini** (via LangChain), permitindo transformar textos em **vetores numéricos de alta dimensão**.

---

### 🔍 Conceitos importantes:

#### 🔹 `GoogleGenerativeAIEmbeddings`

* É uma **classe do LangChain** que conecta com o **serviço de embeddings do Gemini (Google AI)**.
* Ela transforma **textos** em **vetores numéricos**, que podem ser usados para **buscas semânticas**, **similaridade textual**, ou **indexação vetorial** (em FAISS, Pinecone, ChromaDB etc).

#### 🔹 `model="models/embedding-001"`

* Especifica qual **modelo de embedding** será usado.
* `"models/embedding-001"` é o **modelo oficial do Google Gemini** para embeddings (lançado com a API do PaLM/Gemini).
* Ele gera vetores de **768 dimensões**, otimizados para **tarefas de similaridade semântica**.

---

-----


### 🧠 Exemplo prático:


In [4]:
embeddings.embed_query("Política de home office da empresa")

[0.06417398899793625,
 -0.01762194000184536,
 -0.06427328288555145,
 0.02658555656671524,
 0.060529351234436035,
 0.030340494588017464,
 0.0029144815634936094,
 -0.0354776494204998,
 -0.012707725167274475,
 0.05717604607343674,
 -0.01755794882774353,
 0.006505637429654598,
 -0.03459867835044861,
 0.005386482924222946,
 0.0018029307248070836,
 -0.02684132754802704,
 0.022470351308584213,
 0.014389364048838615,
 0.0030616712756454945,
 -0.04295593500137329,
 0.03674696013331413,
 0.0097909951582551,
 -0.028526276350021362,
 0.010601318441331387,
 0.02377132698893547,
 -0.016931399703025818,
 0.012199308723211288,
 -0.055948205292224884,
 -0.033063553273677826,
 0.0170906912535429,
 -0.03612414747476578,
 0.03503110259771347,
 -0.06779661029577255,
 0.03357503190636635,
 -0.011242709122598171,
 -0.012224187143146992,
 -0.02246846817433834,
 -0.006236195098608732,
 -0.004482307471334934,
 0.0063132173381745815,
 0.0396149680018425,
 -0.015136351808905602,
 -0.05227455869317055,
 0.02534984

## 1. Preparando Documentos com Metadados

Metadados são a chave para buscas filtradas e contextuais. Vamos criar documentos ricos em metadados.

Vamos **criar uma lista de documentos estruturados**, cada um com:

* Um **conteúdo textual** (chamado `page_content`)
* Um **conjunto de metadados** (como tipo, departamento, ano, etc.)

Esses documentos são do tipo `Document`, uma **classe do LangChain** que é usada para armazenar **textos e seus metadados** de forma padronizada — ideal para RAG, busca semântica, indexação vetorial, etc.

---

### 🧠 **Para que serve isso?**

Esse tipo de estrutura é **base** em pipelines de RAG (Retrieval-Augmented Generation), onde:

* O **texto** será transformado em **vetores** (com embeddings)
* Os **metadados** ajudam a:

  * Filtrar por área (ex: RH, TI)
  * Saber a data do conteúdo
  * Rastrear qual documento gerou a resposta

---

### 🧩 **Exemplo prático:**

Você poderia usar essa lista em um mecanismo de busca inteligente, assim:

* 🔎 “Qual o prazo para pedir férias?”

  * O sistema encontra o `Document` cujo conteúdo fala de férias
  * E retorna a resposta com base naquele texto (ex: via RAG)

---

### 🔍 Estrutura de um `Document`:

```python
Document(
    page_content="Texto que descreve o conteúdo informativo",
    metadata={
        "chave1": "valor",
        "chave2": "valor",
        ...
    }
)
```

---

### ✅ Utilidade em projetos reais:

* 🔍 Sistemas de perguntas e respostas (ex: chatbot interno)
* 📁 Busca em documentos corporativos
* 🤖 Aplicações com RAG e IA generativa
* 🗂️ Organização e recuperação de conhecimento



In [5]:
documentos_empresa = [
    Document(
        page_content="Política de férias: Funcionários têm direito a 30 dias de férias após 12 meses. A solicitação deve ser feita com 30 dias de antecedência.",
        metadata={"tipo": "política", "departamento": "RH", "ano": 2024, "id_doc": "doc001"}
    ),

    Document(
        page_content="Processo de reembolso de despesas: Envie a nota fiscal pelo portal financeiro. O reembolso ocorre em até 5 dias úteis.",
        metadata={"tipo": "processo", "departamento": "Financeiro", "ano": 2023, "id_doc": "doc002"}
    ),

    Document(
        page_content="Guia de TI: Para configurar a VPN, acesse vpn.nossaempresa.com e siga as instruções para seu sistema operacional.",
        metadata={"tipo": "tutorial", "departamento": "TI", "ano": 2024, "id_doc": "doc003"}
    ),

    Document(
        page_content="Código de Ética e Conduta: Valorizamos o respeito, a integridade e a colaboração. Casos de assédio não serão tolerados.",
        metadata={"tipo": "política", "departamento": "RH", "ano": 2022, "id_doc": "doc004"}
    )

]

OBS:Em um ambiente real, você não escreveria os documentos manualmente como no exemplo anterior, eles viriam, por exemplo, de um PDF, de uma base de dados, de uma pasta com arquivos, de planilhas, sites internos, etc.


-------

## 2. FAISS - Performance Local

**O que é o FAISS?**
É uma biblioteca de código para fazer buscas de similaridade muito rápidas. Dado um item, ela encontra os mais parecidos dentro de um grande volume de dados.

O FAISS oferece principalmente duas estratégias de busca:

#### 1. Índice Flat (Busca Exata)

* **Como funciona:** Compara o seu item de busca com **todos** os outros itens no banco de dados, um por um.
* **Vantagem:** Precisão de 100%. Você tem a garantia de encontrar os resultados exatos.
* **Desvantagem:** Lento para muitos dados, pois o número de comparações é enorme.

#### 2. Índice HNSW (Busca Aproximada)

* **Como funciona:** Cria uma estrutura de dados otimizada (um grafo) que permite pular comparações desnecessárias. A busca é guiada de forma inteligente para a área mais provável dos resultados.
* **Vantagem:** Extremamente mais rápido, ideal para aplicações em tempo real com grandes volumes de dados.
* **Desvantagem:** A precisão não é 100%. A busca é muito boa, mas pode, raramente, deixar de fora o resultado mais exato. Essa perda é geralmente aceitável em troca da velocidade.

**Conclusão sobre o LangChain:**
Por padrão, o LangChain usa o método **Flat**. Ele escolhe a segurança (100% de precisão) em vez da velocidade, pois é mais simples e confiável para projetos iniciais ou pequenos.

O LangChain usa `IndexFlatL2` por padrão no FAISS.


### `IndexFlatL2`

* **O que é:** Busca **Exata** (Força Bruta).
* **Como funciona:** Compara seu item de busca com **todos** os outros.
* **Pró:** Garante **100% de precisão**.
* **Contra:** **Lento** para grandes volumes de dados.
* **Use para:** Datasets pequenos ou para garantir o resultado perfeito sem se preocupar com a velocidade.

### `IndexHNSWFlat`

* **O que é:** Busca **Aproximada** (Inteligente e Rápida).
* **Como funciona:** Usa um grafo (um "mapa") para navegar de forma eficiente e encontrar os resultados mais prováveis sem olhar tudo.
* **Pró:** **Extremamente rápido**, mesmo com milhões de itens.
* **Contra:** A precisão não é 100% (mas geralmente acima de 99%) e consome mais memória.
* **Use para:** A maioria das aplicações em produção, onde **velocidade** é mais importante que uma precisão perfeita.

In [6]:
from langchain_community.vectorstores import FAISS
import faiss

d = 768
index_hnsw = faiss.IndexHNSWFlat(d, 32)

In [7]:
faiss_db = FAISS.from_documents(documentos_empresa, embeddings)

pergunta = "Como peço minhas férias?"
resultados = faiss_db.similarity_search(pergunta, k=2)

In [8]:
print(f"\n🔍 Pergunta: '{pergunta}'")
print("\n Documentos mais relevantes (FAISS):")
for doc in resultados:
    print(f"- {doc.page_content}")
    print(f" (Metadados: {doc.metadata})")


🔍 Pergunta: 'Como peço minhas férias?'

 Documentos mais relevantes (FAISS):
- Política de férias: Funcionários têm direito a 30 dias de férias após 12 meses. A solicitação deve ser feita com 30 dias de antecedência.
 (Metadados: {'tipo': 'política', 'departamento': 'RH', 'ano': 2024, 'id_doc': 'doc001'})
- Processo de reembolso de despesas: Envie a nota fiscal pelo portal financeiro. O reembolso ocorre em até 5 dias úteis.
 (Metadados: {'tipo': 'processo', 'departamento': 'Financeiro', 'ano': 2023, 'id_doc': 'doc002'})


## 3. ChromaDB - Filtros Poderosos

[Chroma](https://www.trychroma.com/)

**Chroma DB: O Banco de Dados Vetorial Simples e Poderoso para IA**

Chroma é um banco de dados vetorial open-source, criado especialmente para ser intuitivo e fácil de usar em aplicações de Inteligência Artificial.

Seu grande diferencial é a combinação de duas funções essenciais:

* **Busca por Similaridade:** Armazena e busca vetores (a representação numérica de textos, imagens, etc.) para encontrar itens parecidos com base em seu significado ou conteúdo.
* **Filtros por Metadados:** Permite associar informações adicionais (como datas, categorias, fontes, IDs de usuário) a cada vetor. Com isso, você pode refinar suas buscas de forma precisa.

**Na prática,** isso permite consultas complexas como: "Encontre documentos *parecidos com este texto sobre finanças*, mas que foram publicados *apenas no último mês* e que pertencem à *categoria 'notícias'*".

---

In [11]:
from langchain_community.vectorstores import Chroma

chroma_db = Chroma.from_documents(
    documents=documentos_empresa,
    embedding=embeddings
)

In [12]:
resultados = chroma_db.similarity_search(pergunta, k=2)

for doc in resultados:
  print(f"- {doc.page_content}")

- Política de férias: Funcionários têm direito a 30 dias de férias após 12 meses. A solicitação deve ser feita com 30 dias de antecedência.
- Processo de reembolso de despesas: Envie a nota fiscal pelo portal financeiro. O reembolso ocorre em até 5 dias úteis.


In [13]:
pergunta_rh = "Quais são as regras da empresa?"

resultados_filtrados = chroma_db.similarity_search(
    pergunta_rh,
    k=2,
    filter={"$and": [{"departamento": "RH"}, {"tipo": "política"}]}
)

In [14]:
print(f"\n Pergunta: '{pergunta_rh}' com filtro para políticas de RH")
print("\n Documentos relevantes e filtrados (Chroma):")

for doc in resultados_filtrados:
  print(f"- {doc.page_content}")
  print(f"  (Departamento: {doc.metadata['departamento']}, Tipo: {doc.metadata['tipo']})")


 Pergunta: 'Quais são as regras da empresa?' com filtro para políticas de RH

 Documentos relevantes e filtrados (Chroma):
- Código de Ética e Conduta: Valorizamos o respeito, a integridade e a colaboração. Casos de assédio não serão tolerados.
  (Departamento: RH, Tipo: política)
- Política de férias: Funcionários têm direito a 30 dias de férias após 12 meses. A solicitação deve ser feita com 30 dias de antecedência.
  (Departamento: RH, Tipo: política)


## 4. Pinecone - Escalabilidade na Nuvem


O [Pinecone](https://www.pinecone.io/) é um banco de dados vetorial de nível profissional, oferecido como um serviço na nuvem (**SaaS**) totalmente gerenciado. Sua proposta é eliminar toda a complexidade de infraestrutura, permitindo que as equipes foquem exclusivamente no desenvolvimento da aplicação.

É a escolha ideal para cenários que exigem:
* **Alta Escalabilidade:** Projetado para crescer junto com sua aplicação, suportando bilhões de vetores e um alto volume de buscas sem degradação de performance.
* **Disponibilidade e Confiança:** Garante que o banco de dados esteja sempre online, otimizado e seguro, algo crítico para produtos em produção.
* **Zero Manutenção:** Você não precisa se preocupar com servidores, atualizações, backups ou otimizações. O Pinecone cuida de tudo.

Em resumo, você obtém a potência de um banco vetorial de ponta através de uma simples API, sem os custos e o trabalho de gerenciá-lo.

**Pré-requisitos para Conectar:**
Para usar o Pinecone neste código, você precisa:
1.  **Configurar sua Chave de API:** Garantir que a `PINECONE_API_KEY` esteja definida no seu arquivo `.env`.
2.  **Criar um Índice na Plataforma:** Ter um índice ativo criado previamente no seu painel de controle do Pinecone.


In [15]:
os.environ['PINECONE_API_KEY'] = 'pcsk_32tPgV_EuvPve4DgzDtDdq6VCoR6vCWkiBFxQVQ2XqosaXDKqYqVmTM3cfBW3MCmBcjnoT'

In [16]:
from langchain_pinecone import Pinecone
from pinecone import Pinecone as PineconeClient
from pinecone import ServerlessSpec

index_name = "langchain-rag"

pinecone_client = PineconeClient(api_key=os.environ["PINECONE_API_KEY"])

spec = ServerlessSpec(cloud='aws', region='us-east-1')

In [17]:
# Verificando se o índice existe. Se não, ele será criado.
# Nome do seu índice no Pinecone
index_name = "langchain-rag"
if index_name not in pinecone_client.list_indexes().names():
    pinecone_client.create_index(
        name=index_name,
        dimension=d,
        metric="cosine",
        spec=spec
    )
    print(f"Índice '{index_name}' criado no Pinecone.")


    pinecone_db = Pinecone.from_documents(
        documentos_empresa,
        embeddings,
        index_name=index_name
    )
    print(f"Documentos adicionados ao índice '{index_name}'.")

else:
    print(f"Conectando ao índice existente '{index_name}'.")
    # Se o índice já existe, apenas carregamos
    pinecone_db = Pinecone.from_existing_index(
        index_name,
        embeddings
    )

Conectando ao índice existente 'langchain-rag'.


In [18]:
if pinecone_db:
    # Busca por similaridade
    pergunta_ti = "Como configuro a VPN?"
    resultados_pinecone = pinecone_db.similarity_search(pergunta_ti, k=2)

    print(f"\n🔍 Pergunta: '{pergunta_ti}'")
    print("\n📄 Documentos mais relevantes (Pinecone):")
    for doc in resultados_pinecone:
        print(f"- {doc.page_content}")
        print(f"  (Metadados: {doc.metadata})")

    # Busca com filtro (Pinecone também suporta!)
    resultados_pinecone_filtrados = pinecone_db.similarity_search(
        "informações sobre regras",
        k=2,
        filter={"tipo": "política"}
    )
    print(f"\n🔍 Pergunta: 'informações sobre regras' com filtro para tipo='política'")
    print("\n📄 Documentos relevantes e filtrados (Pinecone):")
    for doc in resultados_pinecone_filtrados:
        print(f"- {doc.page_content}")
        print(f"  (Tipo: {doc.metadata['tipo']})")


🔍 Pergunta: 'Como configuro a VPN?'

📄 Documentos mais relevantes (Pinecone):
- Guia de TI: Para configurar a VPN, acesse vpn.nossaempresa.com e siga as instruções para seu sistema operacional.
  (Metadados: {'ano': 2024.0, 'departamento': 'TI', 'id_doc': 'doc003', 'tipo': 'tutorial'})
- Processo de reembolso de despesas: Envie a nota fiscal pelo portal financeiro. O reembolso ocorre em até 5 dias úteis.
  (Metadados: {'ano': 2023.0, 'departamento': 'Financeiro', 'id_doc': 'doc002', 'tipo': 'processo'})

🔍 Pergunta: 'informações sobre regras' com filtro para tipo='política'

📄 Documentos relevantes e filtrados (Pinecone):
- Código de Ética e Conduta: Valorizamos o respeito, a integridade e a colaboração. Casos de assédio não serão tolerados.
  (Tipo: política)
- Política de férias: Funcionários têm direito a 30 dias de férias após 12 meses. A solicitação deve ser feita com 30 dias de antecedência.
  (Tipo: política)


## 📚 Resumo Prático da Aula 2

### O que aprendemos:
1.  **FAISS**: Ótimo para performance local, especialmente com índices como HNSW, mas carece de filtros fáceis.
2.  **Chroma**: A escolha ideal para desenvolvimento rápido e prototipagem, graças à sua API simples e ao poderoso sistema de filtros por metadados.
3.  **Pinecone**: A solução para produção. Oferece escalabilidade, gerenciamento e recursos avançados (como filtros) sem a dor de cabeça de manter a infraestrutura.
4.  **Metadados**: São fundamentais. Enriquecer seus documentos com metadados de qualidade é o que permite criar aplicações de RAG verdadeiramente inteligentes e úteis.

### Migração: Local -> Nuvem
- O fluxo de trabalho de um projeto RAG geralmente começa com **Chroma** ou **FAISS** para validar a ideia.
- À medida que a necessidade de escala, confiabilidade e colaboração aumenta, a migração para **Pinecone** se torna um passo natural e necessário.
- O LangChain simplifica essa migração, permitindo trocar o `VectorStore` com poucas alterações no código.