# üéØ Mini RAG: Persistindo e Reutilizando √çndices Vetoriais

## O que vamos aprender?

Neste notebook, voc√™ vai aprender a **salvar e carregar** √≠ndices vetoriais do FAISS, um passo essencial para construir aplica√ß√µes **RAG (Retrieval Augmented Generation)** em produ√ß√£o.

### O que √© RAG?

**RAG = Retrieval Augmented Generation**

√â uma t√©cnica que combina:
1. üîç **Busca vetorial** (o que fizemos nos labs anteriores)
2. ü§ñ **LLM** (ChatGPT, Gemini, etc.) para gerar respostas

**Fluxo RAG completo:**

```text
Pergunta do usu√°rio
    ‚Üì
Busca vetorial (FAISS) ‚Üí Encontra documentos relevantes
    ‚Üì
Contexto + Pergunta ‚Üí Enviado para LLM
    ‚Üì
LLM gera resposta baseada no contexto
    ‚Üì
Resposta final ao usu√°rio
```

### Por que persistir √≠ndices?

**Problema sem persist√™ncia:**
```python
# Toda vez que voc√™ reinicia o programa:
vector_store = FAISS.from_texts(meus_textos, embeddings)
# ‚Üë Precisa recalcular TODOS os embeddings (caro e lento!)
```

**Solu√ß√£o com persist√™ncia:**
```python
# Uma vez:
vector_store.save_local("meu_indice")

# Depois, sempre que precisar:
vector_store = FAISS.load_local("meu_indice", embeddings)
# ‚Üë Instant√¢neo! N√£o recalcula nada
```

### Benef√≠cios

‚úÖ **Economia:** N√£o paga API repetidamente  
‚úÖ **Velocidade:** Carrega em milissegundos  
‚úÖ **Escalabilidade:** √çndices podem ter milh√µes de documentos  
‚úÖ **Produ√ß√£o:** Essencial para apps reais

### O que faremos

1. Criar um √≠ndice vetorial (como antes)
2. **Salvar no disco** (novidade!)
3. **Carregar do disco** (novidade!)
4. Usar normalmente para buscas

üí° **Analogia:** √â como salvar um jogo - voc√™ n√£o quer recome√ßar do zero toda vez!

In [1]:
import os
import requests
from pathlib import Path
from dotenv import load_dotenv
from langchain_community.vectorstores import FAISS

from langchain_google_genai import GoogleGenerativeAIEmbeddings



## üì¶ Imports e Configura√ß√£o

Bibliotecas necess√°rias:
- `os`, `Path`, `load_dotenv`: Gerenciamento de arquivos e vari√°veis de ambiente
- `FAISS`: Banco de dados vetorial (com suporte a salvar/carregar!)
- `GoogleGenerativeAIEmbeddings`: API do Google para embeddings (gratuita!)

### Por que Google Generative AI?

Neste lab usamos Google em vez de OpenAI porque:
- ‚úÖ **Tier gratuito generoso** (1500 requests/dia)
- ‚úÖ **Qualidade excelente** (768 dimens√µes)
- ‚úÖ **Sem cart√£o de cr√©dito** para come√ßar

**Como obter API key:**
1. Acesse [aistudio.google.com/app/apikey](https://aistudio.google.com/app/apikey)
2. Clique "Create API Key"
3. Adicione no `.env`: `GOOGLE_API_KEY=AIza...`

In [2]:
# 2) Configura√ß√£o e carregamento do .env (simplificado)
env_path = Path.cwd().joinpath('..', '..', '.env').resolve()
if env_path.exists():
    load_dotenv(env_path)
    print(f'üîé .env carregado -> {env_path.resolve()}')
else:
    print('‚ö†Ô∏è  .env n√£o encontrado. Defina as vari√°veis de ambiente manualmente.')


üîé .env carregado -> E:\01-projetos\11-work\11.34-engenharia-vetorial\.env


## üîê Carregando Vari√°veis de Ambiente

Carrega a `GOOGLE_API_KEY` do arquivo `.env`.

**Estrutura do `.env`:**
```bash
GOOGLE_API_KEY=AIzaSy...
```

Se voc√™ vir ‚ö†Ô∏è, crie o arquivo `.env` na raiz do projeto com sua API key do Google.

In [3]:

meus_textos = [
    "O novo iPhone 15 tem uma lente perisc√≥pica incr√≠vel.",    # Tecnologia
    "Para fazer um bolo macio, bata as claras em neve.",       # Culin√°ria
    "O atacante chutou a bola no √¢ngulo e foi gol.",           # Esporte
    "A placa de v√≠deo RTX 4090 roda jogos em 4K.",             # Tecnologia
    "Receita de lasanha √† bolonhesa com muito queijo."         # Culin√°ria
]

## üìÑ Passo 1: Preparando os Documentos

Nosso dataset de teste com 5 documentos de categorias diferentes.

**Importante:** Em uma aplica√ß√£o RAG real, esses textos viriam de:
- üìë PDFs de documenta√ß√£o
- üåê Base de conhecimento da empresa
- üí¨ FAQs e tickets de suporte
- üìä Manuais t√©cnicos

üí° **Conceito RAG:** Quanto mais documentos relevantes voc√™ indexar, melhor o LLM conseguir√° responder perguntas espec√≠ficas do seu dom√≠nio!

In [4]:
embeddings = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")


## üß† Passo 2: Inicializando o Modelo de Embeddings

Criamos uma inst√¢ncia do modelo de embeddings do Google.

**Modelo:** `text-embedding-004`
- **Dimens√µes:** 768 (menor que OpenAI, mas ainda excelente)
- **Qualidade:** ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê Estado da arte
- **Custo:** Gratuito at√© 1500 requests/dia
- **Velocidade:** ~100-200ms por request

### Como funciona?

```
Texto ‚Üí üåê API Google ‚Üí Vetor [768 n√∫meros]
```

Cada texto ser√° transformado em um vetor de 768 dimens√µes que captura seu significado sem√¢ntico.

In [5]:
vector_store = FAISS.from_texts(meus_textos, embeddings)

## üóÑÔ∏è Passo 3: Criando o √çndice Vetorial

Transformamos os textos em vetores e criamos o √≠ndice FAISS **em mem√≥ria**.

### O que acontece internamente?

```text
Para cada texto em meus_textos:
  1. Envia para API do Google
  2. Recebe vetor de 768 dimens√µes
  3. FAISS armazena o vetor em RAM

Resultado:
  vector_store = √çndice FAISS com 5 vetores em mem√≥ria
```

**Importante:** Neste ponto, o √≠ndice existe **apenas na RAM**! Se voc√™ fechar o programa, perde tudo.

‚è±Ô∏è **Tempo:** ~1-2 segundos (5 chamadas √† API do Google)

In [11]:
FAISS_PATH = Path.cwd().joinpath('..', '..', 'data', 'meu_indice_faiss')

vector_store.save_local(str(FAISS_PATH))
print("Banco vetorial salvo com sucesso!")

Banco vetorial salvo com sucesso!


## üíæ Passo 4: Salvando o √çndice no Disco (PERSIST√äNCIA!)

Esta √© a **parte mais importante** para aplica√ß√µes RAG em produ√ß√£o!

### O que acontece aqui?

```python
vector_store.save_local(str(FAISS_PATH))
```

**Internamente:**
1. FAISS cria uma pasta: `data/meu_indice_faiss/`
2. Salva 2 arquivos:
   - `index.faiss` ‚Üí Os vetores e estrutura de √≠ndice
   - `index.pkl` ‚Üí Metadados (textos originais, etc.)

### Estrutura de arquivos criada:

```text
data/
‚îî‚îÄ‚îÄ meu_indice_faiss/
    ‚îú‚îÄ‚îÄ index.faiss  ‚Üê ~50KB (5 vetores √ó 768 dims √ó 4 bytes)
    ‚îî‚îÄ‚îÄ index.pkl    ‚Üê ~2KB (textos originais)
```

### Por que isso √© importante?

**Sem persist√™ncia:**
```python
# Toda execu√ß√£o:
vector_store = FAISS.from_texts(textos, embeddings)
# ‚Üë 5 chamadas √† API + 1-2 segundos
```

**Com persist√™ncia:**
```python
# Apenas uma vez:
vector_store.save_local("path")

# Depois, sempre:
vector_store = FAISS.load_local("path", embeddings)
# ‚Üë 0 chamadas √† API + ~10ms
```

### Benef√≠cios em produ√ß√£o

| M√©trica | Sem Persist√™ncia | Com Persist√™ncia |
|---------|------------------|------------------|
| **Tempo de startup** | Minutos (muitos docs) | Milissegundos |
| **Custo de API** | Toda vez | Uma vez (na cria√ß√£o) |
| **Escalabilidade** | Limitada | Milh√µes de docs |
| **Confiabilidade** | Dependente de API | Funciona offline |

üí° **Analogia:** √â como salvar um documento do Word - voc√™ n√£o quer redigitar tudo cada vez que abrir!

In [13]:
# CARREGAR do disco
# O par√¢metro 'allow_dangerous_deserialization' √© necess√°rio em vers√µes recentes
# para confirmar que voc√™ confia no arquivo que est√° carregando.
novo_db = FAISS.load_local(
    str(FAISS_PATH), 
    embeddings, 
    allow_dangerous_deserialization=True
)

## üìÇ Passo 5: Carregando o √çndice do Disco

Agora vamos **carregar** o √≠ndice que salvamos anteriormente!

### O que acontece aqui?

```python
novo_db = FAISS.load_local(str(FAISS_PATH), embeddings, allow_dangerous_deserialization=True)
```

**Internamente:**
1. FAISS l√™ os arquivos da pasta `data/meu_indice_faiss/`
2. Reconstr√≥i o √≠ndice em mem√≥ria (~10ms)
3. Pronto para uso instant√¢neo!

### Par√¢metros importantes

**`embeddings`**: Necess√°rio para futuras queries
- N√£o recalcula nada dos documentos existentes
- S√≥ ser√° usado quando voc√™ buscar algo novo

**`allow_dangerous_deserialization=True`**: Confirma√ß√£o de seguran√ßa
- FAISS usa pickle para serializar
- Pickle pode executar c√≥digo malicioso se vier de fonte n√£o confi√°vel
- Como voc√™ mesmo criou o √≠ndice, √© seguro ‚úÖ

### Fluxo completo de uma aplica√ß√£o RAG

```text
Primeira execu√ß√£o (setup):
  1. Carregar documentos
  2. Criar embeddings (via API)
  3. Criar √≠ndice FAISS
  4. Salvar no disco ‚Üê Voc√™ est√° aqui!

Execu√ß√µes subsequentes (produ√ß√£o):
  5. Carregar √≠ndice do disco ‚Üê Estamos fazendo isso agora!
  6. Receber query do usu√°rio
  7. Buscar documentos relevantes
  8. Enviar contexto + query para LLM
  9. Retornar resposta
```

### Performance

| Opera√ß√£o | Tempo (5 docs) | Tempo (10k docs) | Tempo (1M docs) |
|----------|----------------|------------------|-----------------|
| **Criar √≠ndice** | ~2s | ~30s | ~30min |
| **Salvar** | ~50ms | ~200ms | ~5s |
| **Carregar** | ~10ms | ~100ms | ~2s |
| **Buscar** | <1ms | ~5ms | ~50ms |

üí° **Observe:** Carregar √© **muito mais r√°pido** que criar!

In [16]:
# 3. Usar normalmente
consulta = "Sugest√£o de celular"
resultados = novo_db.similarity_search(consulta, k=2)

## üîç Passo 6: Usando o √çndice Carregado

Agora vamos fazer uma busca usando o √≠ndice que **carregamos do disco**!

### A Query

```python
consulta = "Sugest√£o de celular"
```

**Desafio sem√¢ntico:**
- A palavra "iPhone" n√£o aparece na query
- A palavra "celular" sim
- O modelo precisa entender que iPhone √© um celular

### O que acontece internamente?

1. **Query vira vetor (via API Google):**
   ```text
   "Sugest√£o de celular" ‚Üí üåê API call ‚Üí [0.15, -0.32, ..., 0.47]
   ```

2. **FAISS busca (local, sem API):**
   ```text
   Compara o vetor da query com os 5 vetores armazenados
   Calcula dist√¢ncias:
     - iPhone: 0.3 ‚Üê Mais pr√≥ximo!
     - RTX 4090: 1.2
     - Bolo: 2.5
     - Gol: 2.8
     - Lasanha: 2.6
   ```

3. **Retorna top-k (k=2):**
   ```
   [iPhone, RTX 4090]
   ```

### Par√¢metro k

- `k=1`: Retorna apenas o mais similar
- `k=2`: Retorna os 2 mais similares
- `k=5`: Retorna todos (nosso dataset tem 5)

üí° **Dica:** Em RAG, geralmente usa-se `k=3` ou `k=5` para dar contexto suficiente ao LLM sem sobrecarregar.

In [17]:
print(resultados[0].page_content)

O novo iPhone 15 tem uma lente perisc√≥pica incr√≠vel.


## üìä Passo 7: Visualizando o Resultado

Vamos ver o documento mais relevante (√≠ndice 0 = primeiro resultado).

**Esperado:** Deve retornar algo sobre iPhone, pois √© o documento sobre celular!

### Interpretando o resultado

Se voc√™ ver:
- ‚úÖ `"O novo iPhone 15..."` ‚Üí Perfeito! A busca funcionou
- ‚ùå Qualquer outro texto ‚Üí Algo deu errado (improv√°vel com Google)

### Pr√≥ximo passo: RAG completo

Em um RAG de verdade, voc√™ faria:

```python
# 1. Buscar documentos relevantes (j√° fizemos!)
resultados = novo_db.similarity_search(consulta, k=3)

# 2. Montar o contexto
contexto = "\n".join([doc.page_content for doc in resultados])

# 3. Criar prompt para LLM
prompt = f"""
Baseado no seguinte contexto:
{contexto}

Responda a pergunta: {consulta}
"""

# 4. Enviar para LLM (Gemini, GPT, etc.)
from langchain_google_genai import ChatGoogleGenerativeAI
llm = ChatGoogleGenerativeAI(model="gemini-pro")
resposta = llm.invoke(prompt)

print(resposta.content)
# ‚Üí "Eu recomendo o iPhone 15, que possui uma lente perisc√≥pica incr√≠vel..."
```

üí° **Esse √© o poder do RAG:** O LLM responde com base nos **seus** documentos, n√£o apenas no conhecimento geral!

## üéì Resumo e Conceitos-Chave

### O que aprendemos

‚úÖ **Persist√™ncia de √≠ndices** - Salvar e carregar FAISS do disco  
‚úÖ **Economia de API** - N√£o recalcular embeddings toda vez  
‚úÖ **Performance** - Carregar √© 100x mais r√°pido que criar  
‚úÖ **Fundamentos de RAG** - Base para aplica√ß√µes com LLM

### Fluxo completo que implementamos

```text
1. Criar embeddings (via API Google)
   ‚Üì
2. Criar √≠ndice FAISS (em RAM)
   ‚Üì
3. Salvar no disco (.save_local) ‚Üê PERSIST√äNCIA!
   ‚Üì
4. Carregar do disco (.load_local) ‚Üê REUTILIZA√á√ÉO!
   ‚Üì
5. Fazer buscas normalmente
```

### Diferen√ßas: Labs anteriores vs. Este

| Aspecto | Labs 1.4-1.6 | Este Lab (1.7) |
|---------|--------------|----------------|
| **√çndice** | S√≥ em RAM | Salvo em disco |
| **Reiniciar programa** | Perde tudo | Mant√©m tudo |
| **Startup** | Lento (recria) | R√°pido (carrega) |
| **Produ√ß√£o** | ‚ùå Invi√°vel | ‚úÖ Pronto |

### Aplica√ß√µes reais de RAG

ü§ñ **Chatbots corporativos**
- Indexa documenta√ß√£o interna
- LLM responde baseado nos docs da empresa

üìö **Assistentes de estudo**
- Indexa livros, apostilas, anota√ß√µes
- LLM explica conceitos baseado no material

üîß **Suporte t√©cnico**
- Indexa manuais, FAQs, tickets antigos
- LLM sugere solu√ß√µes baseadas em casos similares

üè• **Assist√™ncia m√©dica**
- Indexa prontu√°rios, estudos cient√≠ficos
- LLM auxilia diagn√≥sticos (com supervis√£o humana!)



### üß™ Experimentos para tentar

#### Experimento 1: Adicionar mais documentos
```python
novos_textos = [
    "Samsung Galaxy S23 tem c√¢mera de 200MP",
    "Xiaomi Redmi Note 12 √© um bom custo-benef√≠cio",
]

# Criar novo √≠ndice com todos os documentos
todos_textos = meus_textos + novos_textos
vector_store = FAISS.from_texts(todos_textos, embeddings)
vector_store.save_local(str(FAISS_PATH))

# Agora tem 7 documentos!
```



#### Experimento 2: Atualizar √≠ndice existente
```python
# Carregar √≠ndice existente
db = FAISS.load_local(str(FAISS_PATH), embeddings, allow_dangerous_deserialization=True)

# Adicionar novos documentos
novos_docs = ["Novo documento..."]
db.add_texts(novos_docs)

# Salvar novamente (agora com os novos docs)
db.save_local(str(FAISS_PATH))
```



#### Experimento 3: M√∫ltiplos √≠ndices
```python
# √çndice para tecnologia
tech_db = FAISS.from_texts(textos_tech, embeddings)
tech_db.save_local("indices/tecnologia")

# √çndice para culin√°ria
food_db = FAISS.from_texts(textos_culinaria, embeddings)
food_db.save_local("indices/culinaria")

# Carregar conforme necess√°rio
tech = FAISS.load_local("indices/tecnologia", embeddings, allow_dangerous_deserialization=True)
```



#### Experimento 4: RAG completo (desafio!)
```python
# Combine tudo que aprendeu:
# 1. Carregar √≠ndice
# 2. Fazer busca
# 3. Enviar contexto para LLM (Gemini)
# 4. Retornar resposta gerada

from langchain_google_genai import ChatGoogleGenerativeAI

def rag_query(pergunta, k=3):
    # Buscar documentos relevantes
    db = FAISS.load_local(str(FAISS_PATH), embeddings, allow_dangerous_deserialization=True)
    docs = db.similarity_search(pergunta, k=k)
    
    # Montar contexto
    contexto = "\n".join([d.page_content for d in docs])
    
    # Prompt para LLM
    prompt = f"Contexto:\n{contexto}\n\nPergunta: {pergunta}\nResposta:"
    
    # Gerar resposta
    llm = ChatGoogleGenerativeAI(model="gemini-pro")
    resposta = llm.invoke(prompt)
    
    return resposta.content

# Testar
print(rag_query("Qual √© o melhor celular?"))
```



### üí° Boas pr√°ticas em produ√ß√£o

1. **Versionamento de √≠ndices**
   ```python
   vector_store.save_local("indices/v1.0.0")
   vector_store.save_local("indices/v1.1.0")  # Ap√≥s adicionar docs
   ```

2. **Backup autom√°tico**
   ```python
   import shutil
   from datetime import datetime
   
   backup_path = f"backups/index_{datetime.now().strftime('%Y%m%d')}"
   shutil.copytree(FAISS_PATH, backup_path)
   ```

3. **Metadados**
   ```python
   # Salvar informa√ß√µes sobre o √≠ndice
   metadata = {
       "created_at": datetime.now(),
       "num_docs": len(meus_textos),
       "model": "text-embedding-004",
       "dimensions": 768
   }
   
   import json
   with open(FAISS_PATH / "metadata.json", "w") as f:
       json.dump(metadata, f)
   ```

4. **Monitoramento**
   ```python
   import os
   
   # Verificar tamanho do √≠ndice
   index_size = os.path.getsize(FAISS_PATH / "index.faiss")
   print(f"Tamanho do √≠ndice: {index_size / 1024:.2f} KB")
   ```

üí° **Dica final:** O RAG √© a t√©cnica mais popular para fazer LLMs responderem com informa√ß√µes espec√≠ficas do seu neg√≥cio. Domine isso e voc√™ ter√° um skill muito valorizado no mercado!