# üåê Laborat√≥rio: Busca Sem√¢ntica com APIs em Nuvem

## O que vamos aprender?

Neste notebook, voc√™ vai construir um **sistema de busca inteligente** usando modelos de embeddings hospedados na **nuvem** (OpenAI ou Google).

### Diferen√ßa entre Busca Tradicional vs. Busca Sem√¢ntica

**Busca Tradicional (palavras-chave):**

```text
Query: "hardware celular"
Resultado: S√≥ encontra documentos com as palavras exatas "hardware" e "celular"
```

**Busca Sem√¢ntica (significado):**

```text
Query: "hardware celular"
Resultado: Encontra "iPhone", "smartphone", "processador mobile" 
           mesmo sem as palavras exatas!
```

### Por que usar APIs em Nuvem?

‚úÖ **Qualidade superior** - Modelos treinados com bilh√µes de documentos  
‚úÖ **Sem instala√ß√£o** - N√£o precisa configurar nada localmente  
‚úÖ **Sempre atualizado** - Melhorias autom√°ticas pela empresa  
‚ö†Ô∏è **Custo** - Paga por uso (mas h√° tiers gratuitos)  
‚ö†Ô∏è **Privacidade** - Dados trafegam pela internet

üí° **Compara√ß√£o:** Se voc√™ precisa de m√°xima qualidade e tem or√ßamento, use nuvem. Se precisa de privacidade/gratuidade, use Ollama local (veja `lab_1.5`).

## üõ†Ô∏è Ferramentas que Vamos Usar

### 1. LangChain ü¶úüîó
**O que √©:** Framework Python que simplifica a integra√ß√£o com APIs de IA  
**Por que usar:** C√≥digo padronizado que funciona com OpenAI, Google, Anthropic, etc.  
**Analogia:** √â como usar um adaptador universal - voc√™ troca de API mudando 1 linha de c√≥digo

### 2. OpenAI Embeddings ‚òÅÔ∏è
**O que √©:** API da empresa criadora do ChatGPT para gerar embeddings  
**Modelo:** `text-embedding-3-small` - 1536 dimens√µes  
**Qualidade:** ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê Estado da arte (SOTA)  
**Custo:** ~$0.02 por 1 milh√£o de tokens (muito barato)

**Alternativa:** Google Generative AI Embeddings
- Modelo: `text-embedding-004` - 768 dimens√µes
- Tamb√©m de alta qualidade e com tier gratuito generoso

### 3. FAISS üöÄ
**O que √©:** Biblioteca do Facebook/Meta para busca vetorial ultrarr√°pida  
**Por que usar:** Milh√µes de buscas por segundo, roda em mem√≥ria  
**Ideal para:** Prot√≥tipos, aplica√ß√µes com poucos documentos (< 100k)

**Fluxo completo:**
```
Texto ‚Üí OpenAI API ‚Üí Vetor [1536 n√∫meros] ‚Üí FAISS ‚Üí Busca instant√¢nea
```

### Compara√ß√£o: Nuvem vs. Local

| Aspecto | OpenAI (Nuvem) | Ollama (Local) |
|---------|----------------|----------------|
| **Qualidade** | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê | ‚≠ê‚≠ê‚≠ê |
| **Velocidade** | ~100ms (lat√™ncia rede) | ~10ms |
| **Custo** | $0.02/1M tokens | Gratuito |
| **Privacidade** | Dados na nuvem | 100% local |
| **Setup** | S√≥ precisa API key | Instalar Ollama |

## üéØ Cen√°rio do Experimento

Vamos criar um **"mini Google"** com documentos de 3 categorias completamente diferentes:

| Categoria | Documentos |
|-----------|------------|
| üñ•Ô∏è **Tecnologia** | iPhone 15, RTX 4090 |
| üç∞ **Culin√°ria** | Receita de bolo, Lasanha |
| ‚öΩ **Esportes** | Gol de futebol |

### O Desafio

Faremos uma pergunta que **n√£o cont√©m palavras exatas** dos documentos:

**Pergunta:** "Quero sugest√µes de hardware para computador ou celular"

**Expectativa:**
- ‚úÖ Deve retornar: iPhone e RTX 4090 (s√£o hardware!)
- ‚ùå N√ÉO deve retornar: Bolo, Lasanha, Gol (n√£o s√£o hardware)

### Por que isso √© dif√≠cil?

Um sistema de busca tradicional (Ctrl+F) falharia porque:
- A palavra "iPhone" n√£o aparece na pergunta
- A palavra "RTX 4090" n√£o aparece na pergunta
- Mas a API da OpenAI **entende** que ambos s√£o hardware!

üí° **Isso √© Intelig√™ncia Artificial em a√ß√£o!** O modelo GPT aprendeu que "iPhone = celular = hardware" e "RTX 4090 = placa de v√≠deo = hardware" durante seu treinamento massivo.

In [9]:
import os
import requests
from pathlib import Path
from dotenv import load_dotenv
from langchain_community.vectorstores import FAISS

# Se for usar OpenAI
from langchain_openai import OpenAIEmbeddings

# Se for usar Google Generative AI
# from langchain_google_genai import GoogleGenerativeAIEmbeddings

## üîå Imports e Configura√ß√£o

Bibliotecas que vamos usar:
- `os`: Para ler vari√°veis de ambiente (API keys)
- `Path` e `load_dotenv`: Para carregar configura√ß√µes do `.env`
- `FAISS`: Banco de dados vetorial
- `OpenAIEmbeddings`: Modelo de embeddings da OpenAI

‚ö†Ô∏è **Importante:** Voc√™ precisa ter uma API key da OpenAI no arquivo `.env`:
```
OPENAI_API_KEY=sk-proj-...
```

**Como obter API key:**
1. Crie conta em [platform.openai.com](https://platform.openai.com)
2. V√° em "API Keys" e clique "Create new secret key"
3. Copie e cole no arquivo `.env`

In [10]:
# 2) Configura√ß√£o e carregamento do .env (simplificado)
env_path = Path.cwd().joinpath('..', '..', '.env').resolve()
if env_path.exists():
    load_dotenv(env_path)
    print(f'üîé .env carregado -> {env_path.resolve()}')
else:
    print('‚ö†Ô∏è  .env n√£o encontrado. Defina as vari√°veis de ambiente manualmente.')


‚ö†Ô∏è  .env n√£o encontrado. Defina as vari√°veis de ambiente manualmente.


## üîê Carregando Vari√°veis de Ambiente

O arquivo `.env` cont√©m informa√ß√µes sens√≠veis:
- `OPENAI_API_KEY`: Sua chave de API da OpenAI
- `GOOGLE_API_KEY`: (Opcional) Sua chave do Google AI

**Por que usar `.env`?**
- ‚úÖ Seguran√ßa: N√£o expor chaves no c√≥digo
- ‚úÖ Portabilidade: Funciona em dev e produ√ß√£o
- ‚úÖ Controle: F√°cil trocar entre contas

**Estrutura do `.env`:**
```bash
OPENAI_API_KEY=sk-proj-abc123...
# GOOGLE_API_KEY=AIza...  # Descomente se usar Google
```

## üìÑ Passo 1: Preparando os Documentos

Aqui temos nosso **dataset de teste** ‚Äî 5 documentos de categorias bem distintas.

**Por que categorias diferentes?**
Queremos testar se a IA consegue distinguir contextos. Um bom modelo de embedding deve:
- Colocar "iPhone" e "RTX 4090" pr√≥ximos (ambos s√£o tecnologia/hardware)
- Colocar "bolo" e "lasanha" pr√≥ximos (ambos s√£o culin√°ria)
- Manter "gol" distante de receitas e hardware (esporte √© outro contexto)

### Estrutura dos Dados

```python
meus_textos = [
    "Documento sobre tecnologia...",  # Categoria: Tech
    "Documento sobre culin√°ria...",   # Categoria: Food
    "Documento sobre esporte...",     # Categoria: Sport
]
```

üí° **Conceito importante:** Esses textos s√£o chamados de **corpus** (conjunto de documentos que queremos buscar).

### Em Produ√ß√£o

Em uma aplica√ß√£o real, esses textos viriam de:
- üìÑ PDFs extra√≠dos
- üåê P√°ginas web (scraping)
- üí¨ Hist√≥rico de conversas
- üìä Documenta√ß√£o t√©cnica

In [11]:

meus_textos = [
    "O novo iPhone 15 tem uma lente perisc√≥pica incr√≠vel.",    # Tecnologia
    "Para fazer um bolo macio, bata as claras em neve.",       # Culin√°ria
    "O atacante chutou a bola no √¢ngulo e foi gol.",           # Esporte
    "A placa de v√≠deo RTX 4090 roda jogos em 4K.",             # Tecnologia
    "Receita de lasanha √† bolonhesa com muito queijo."         # Culin√°ria
]

## üß† Passo 2: Inicializando o Modelo de Embeddings

Este √© o **"c√©rebro"** que transforma texto em vetores num√©ricos via API!

### O que s√£o Embeddings?

**Embedding** = Representa√ß√£o num√©rica de um texto

Exemplo com OpenAI:

```text
Texto: "gato"
‚Üì (envia para API da OpenAI)
Embedding: [0.12, -0.34, 0.56, 0.89, ..., 0.23]
           ‚Üë vetor com 1536 n√∫meros!
```

### Como funciona a magia?

1. Seu texto √© enviado para os servidores da OpenAI
2. O modelo GPT (treinado em trilh√µes de palavras) processa
3. Retorna um vetor que "captura" o significado
4. Textos similares t√™m vetores pr√≥ximos

**Visualiza√ß√£o conceitual:**

```text
Espa√ßo vetorial (imagine em 3D, mas √© 1536D!)

  gato ‚Ä¢ ‚Üê pr√≥ximo de ‚Üí ‚Ä¢ felino
  
  carro ‚Ä¢ ‚Üê DISTANTE de ‚Üí ‚Ä¢ felino
```

### Modelos Dispon√≠veis

**OpenAI:**
| Modelo | Dimens√µes | Custo/1M tokens | Qualidade |
|--------|-----------|-----------------|-----------|
| `text-embedding-3-small` | 1536 | $0.02 | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |
| `text-embedding-3-large` | 3072 | $0.13 | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |
| `text-embedding-ada-002` | 1536 | $0.10 | ‚≠ê‚≠ê‚≠ê‚≠ê (legado) |

**Google AI:**
| Modelo | Dimens√µes | Custo/1M tokens | Qualidade |
|--------|-----------|-------|-----------|
| `text-embedding-004` | 768 | Gr√°tis (limite) | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |
| `gemini-embedding-001` | 3072 | $0.15  | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê |

### Qual escolher?

- **Prot√≥tipo/teste:** `text-embedding-3-small` (OpenAI) - barato e excelente
- **M√°xima qualidade:** `text-embedding-3-large` (OpenAI)
- **Gr√°tis:** `text-embedding-004` (Google) - tier gratuito generoso

üí° **Dica:** O modelo `-small` da OpenAI j√° √© melhor que a maioria dos modelos open-source!

In [12]:
# Se for usar OpenAI
embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# Se for usar Google Generative AI
# embeddings = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004")


## üóÑÔ∏è Passo 3: Criando o Banco de Dados Vetorial (Indexa√ß√£o)

Aqui acontece a **m√°gica**! Vamos transformar todos os textos em vetores e armazen√°-los no FAISS.

### O que acontece nesta linha de c√≥digo?

```python
vector_store = FAISS.from_texts(meus_textos, embeddings)
```

**Passo a passo interno:**

1. **Para cada texto**, LangChain faz uma chamada √† API:
   ```text
   "O novo iPhone 15..." 
   ‚Üí üåê API OpenAI 
   ‚Üí [0.2, -0.5, 0.8, ..., 0.15] (1536 n√∫meros)
   
   "Para fazer um bolo..." 
   ‚Üí üåê API OpenAI 
   ‚Üí [0.1, 0.3, -0.4, ..., -0.22] (1536 n√∫meros)
   ```

2. **FAISS armazena** todos esses vetores em mem√≥ria:
   ```text
   √çndice FAISS (RAM):
   [0] ‚Üí [0.2, -0.5, ...] (iPhone)
   [1] ‚Üí [0.1, 0.3, ...] (bolo)
   [2] ‚Üí [-0.3, 0.7, ...] (gol)
   [3] ‚Üí [0.25, -0.48, ...] (RTX 4090)
   [4] ‚Üí [0.12, 0.28, ...] (lasanha)
   ```

3. **Pronto!** Agora podemos fazer buscas instant√¢neas

### Custo desta opera√ß√£o

Com OpenAI `text-embedding-3-small`:
```text
5 documentos √ó ~20 tokens cada = 100 tokens
Custo: 100 / 1.000.000 √ó $0.02 = $0.000002 (neglig√≠vel!)
```

### Por que FAISS √© r√°pido?

FAISS usa algoritmos avan√ßados:
- **Busca por aproxima√ß√£o** (ANN - Approximate Nearest Neighbors)
- **√çndices especializados** (Flat, IVF, HNSW)
- **Otimiza√ß√µes SIMD** (Single Instruction Multiple Data)

**Resultado:** Milh√µes de buscas por segundo! ‚ö°

### Analogia

Imagine uma biblioteca com milh√µes de livros:
- **Sem √≠ndice:** Ler cada livro at√© achar o certo üò∞
- **Com FAISS:** Sistema Dewey Decimal turbinado que te leva direto ao livro! üìö‚ú®

### FAISS vs. Outros Bancos Vetoriais

| Caracter√≠stica | FAISS | Qdrant | Pinecone |
|----------------|-------|--------|----------|
| **Onde roda** | Mem√≥ria local | Server/Cloud | Cloud |
| **Persist√™ncia** | ‚ùå (s√≥ RAM) | ‚úÖ Disco | ‚úÖ Cloud |
| **Escalabilidade** | At√© ~1M docs | Milh√µes | Bilh√µes |
| **Custo** | Gr√°tis | Gr√°tis (self-host) | Pago |
| **Ideal para** | Prot√≥tipos | Produ√ß√£o | Enterprise |

In [13]:
vector_store = FAISS.from_texts(meus_textos, embeddings)

---

## üöÄ Hora de Testar! Vamos Fazer Buscas

Configura√ß√£o conclu√≠da! ‚úÖ  
Agora vamos usar nosso sistema de busca sem√¢ntica com a qualidade da OpenAI.

**O que fizemos at√© agora:**
1. ‚úÖ Carregamos a API key da OpenAI
2. ‚úÖ Criamos um modelo de embeddings (1536 dimens√µes)
3. ‚úÖ Indexamos 5 documentos no FAISS (~100 tokens enviados √† API)
4. ‚úÖ FAISS est√° pronto para buscas instant√¢neas

**Pr√≥ximo passo:** Fazer perguntas e ver a IA encontrar as respostas! üéØ

üí∞ **Custo at√© agora:** ~$0.000002 (menos que um centavo de centavo!)

## üîç Passo 4: Definindo a Pergunta (Query)

Aqui est√° o **teste de fogo** para a API da OpenAI!

### A Pergunta

```python
"Quero sugest√µes de hardware para computador ou celular"
```

### Por que esta pergunta √© desafiadora?

**Palavras que N√ÉO aparecem na pergunta:**
- ‚ùå "iPhone"
- ‚ùå "RTX"
- ‚ùå "4090"
- ‚ùå "placa de v√≠deo"
- ‚ùå "lente perisc√≥pica"

**Palavras que SIM aparecem:**
- ‚úÖ "hardware"
- ‚úÖ "computador"
- ‚úÖ "celular"

### O Desafio

Um sistema de busca tradicional (Ctrl+F) **falharia** porque:
```
Busca por "hardware" ‚Üí N√£o encontra nada (palavra n√£o est√° nos docs)
Busca por "celular" ‚Üí N√£o encontra "iPhone" (palavra diferente)
Busca por "computador" ‚Üí N√£o encontra "RTX 4090" (palavra diferente)
```

### A Intelig√™ncia da OpenAI

A API vai **entender** que:
```
"celular" ‚âà "iPhone" ‚âà "smartphone" ‚âà "telefone m√≥vel"
"computador" ‚âà "PC" ‚âà "placa de v√≠deo" ‚âà "hardware desktop"
"hardware" ‚âà "equipamento" ‚âà "dispositivo eletr√¥nico"
```

üí° **Isso √© aprendizado sem√¢ntico!** O modelo GPT foi treinado em uma quantidade massiva de texto da internet e aprendeu rela√ß√µes complexas entre conceitos.

### O que acontece nos bastidores?

1. Sua pergunta √© enviada para a API da OpenAI
2. GPT transforma em vetor: `[0.22, -0.48, 0.79, ..., 0.31]`
3. FAISS compara com todos os vetores armazenados
4. Retorna os mais pr√≥ximos (mesmo sem palavras iguais!)

üí∞ **Custo desta query:** ~$0.000001 (um milion√©simo de d√≥lar)

In [14]:
pergunta = "Quero sugest√µes de hardware para computador ou celular"

## üéØ Passo 5: Executando a Busca Sem√¢ntica

Agora vamos **executar a busca** e ver os resultados!

### O que significa `k=2`?

```python
vector_store.similarity_search(pergunta, k=2)
```

O par√¢metro `k` define quantos resultados queremos:
- `k=1` ‚Üí Retorna apenas o documento mais similar
- `k=2` ‚Üí Retorna os 2 documentos mais similares
- `k=5` ‚Üí Retorna os 5 documentos mais similares

### Como funciona internamente?

1. **Sua pergunta vira um vetor (via API OpenAI):**
   ```
   "Quero sugest√µes de hardware..." 
   ‚Üí üåê API call
   ‚Üí [0.22, -0.48, 0.79, ..., 0.31] (1536 n√∫meros)
   ```

2. **FAISS calcula dist√¢ncias (local, sem API):**
   ```
   Dist√¢ncia(query, iPhone) = 0.45      ‚Üê Pr√≥ximo!
   Dist√¢ncia(query, bolo) = 2.89        ‚Üê Distante
   Dist√¢ncia(query, gol) = 3.12         ‚Üê Muito distante
   Dist√¢ncia(query, RTX 4090) = 0.52    ‚Üê Pr√≥ximo!
   Dist√¢ncia(query, lasanha) = 2.76     ‚Üê Distante
   ```

3. **Ordena por proximidade:**
   ```
   1¬∫ lugar: iPhone (0.45) ‚Üê Mais pr√≥ximo!
   2¬∫ lugar: RTX 4090 (0.52)
   3¬∫ lugar: lasanha (2.76)
   4¬∫ lugar: bolo (2.89)
   5¬∫ lugar: gol (3.12)
   ```

4. **Retorna os top-k:**
   ```
   Como k=2, retorna: [iPhone, RTX 4090] ‚úÖ
   ```

### M√©trica de Similaridade

FAISS usa **dist√¢ncia L2** (Euclidiana) por padr√£o:
- Mede a "dist√¢ncia em linha reta" entre dois vetores
- Quanto menor a dist√¢ncia, mais similares s√£o os textos
- F√≥rmula: $\sqrt{\sum_{i=1}^{n}(a_i - b_i)^2}$

**Alternativas:**
- **Similaridade Cosseno:** Mede o √¢ngulo entre vetores
- **Produto Interno:** Multiplica√ß√£o direta dos vetores

**Visualiza√ß√£o conceitual (2D, mas √© 1536D!):**

![Dist√¢ncia Euclidiana](distancia_euclidiana.png)

### O que esperar?
'
‚úÖ **Esperado:** iPhone e RTX 4090 (s√£o hardware!)  
‚ùå **N√£o esperado:** Bolo, Lasanha, Gol (n√£o s√£o hardware)

**Qualidade OpenAI:** Com `text-embedding-3-small`, a precis√£o √© tipicamente >95% em buscas simples como esta.

Vamos ver se a IA acerta! üëá

üí∞ **Custo total (indexa√ß√£o + busca):** ~$0.000003

In [15]:
resultados = vector_store.similarity_search(pergunta, k=2)

print(f"Pergunta: '{pergunta}'\n")
print("--- Documentos Encontrados ---")
for i, doc in enumerate(resultados):
    print(f"{i+1}. {doc.page_content}")

Pergunta: 'Quero sugest√µes de hardware para computador ou celular'

--- Documentos Encontrados ---
1. A placa de v√≠deo RTX 4090 roda jogos em 4K.
2. O novo iPhone 15 tem uma lente perisc√≥pica incr√≠vel.


## üìä An√°lise dos Resultados

### O que observar?

Quando voc√™ executar a c√©lula acima, observe:

1. **Os documentos retornados s√£o relevantes?**
   - ‚úÖ Se retornou iPhone e RTX 4090: OpenAI entendeu perfeitamente!
   - ‚ùå Se retornou receitas ou gol: Algo deu errado (improv√°vel com OpenAI)

2. **A ordem faz sentido?**
   - O primeiro resultado deve ser o mais relevante
   - O segundo resultado deve ser um pouco menos relevante

### Por que OpenAI √© t√£o bom?

**Treinamento massivo:**
- Trilh√µes de tokens de texto
- Diversidade de dom√≠nios (tech, culin√°ria, esporte, etc.)
- Fine-tuning para embeddings de qualidade

**Resultado:** Precis√£o de >95% em tarefas de busca sem√¢ntica!



### üß™ Experimentos para Tentar

#### Experimento 1: Testar outras queries
```python
# Query espec√≠fica
pergunta = "receitas de massas italianas"
resultados = vector_store.similarity_search(pergunta, k=2)
# Deve retornar: lasanha (e talvez bolo como 2¬∫)

# Query amb√≠gua
pergunta = "como melhorar performance"
# Vai retornar hardware ou esporte? ü§î

# Query fora do dom√≠nio
pergunta = "viagens para a Europa"
# Vai retornar o que est√° "menos distante" (mas nada relevante)
```



#### Experimento 2: Ajustar k (Top-K)
```python
# Ver todos os resultados
resultados = vector_store.similarity_search(pergunta, k=5)
# Agora voc√™ v√™ TODOS os 5 documentos ordenados por relev√¢ncia
```



#### Experimento 3: Ver os scores de similaridade
```python
# Usar similarity_search_with_score para ver as dist√¢ncias
resultados = vector_store.similarity_search_with_score(pergunta, k=2)
for doc, score in resultados:
    print(f"Dist√¢ncia: {score:.4f} | Texto: {doc.page_content}")

# Score menor = mais similar!
# T√≠pico: <0.5 = muito relevante, >2.0 = pouco relevante
```



#### Experimento 4: Comparar com Google Embeddings
```python
# Descomente as linhas de GoogleGenerativeAIEmbeddings
# Crie um novo vector_store com Google
# Compare os resultados!

# Perguntas para reflex√£o:
# - Os resultados s√£o iguais?
# - Um modelo √© mais r√°pido?
# - Qual voc√™ prefere?
```



### üí° Conceitos-chave para lembrar

1. **Embedding transforma texto em vetor** via API na nuvem
2. **OpenAI = qualidade m√°xima** mas paga por uso
3. **FAISS armazena vetores** e faz buscas instant√¢neas localmente
4. **Similaridade = proximidade no espa√ßo vetorial** (1536D)
5. **k define quantos resultados** voc√™ quer ver
6. **Scores menores = mais similares**



### üí∞ Gest√£o de Custos

**Boas pr√°ticas:**
- Cache embeddings j√° calculados (n√£o recalcular)
- Use batch processing para m√∫ltiplos textos
- Monitore uso com `openai.api_requestor`
- Considere rate limits (3,000 RPM tier gratuito)

**Exemplo de custo real:**
```
Aplica√ß√£o com 10k documentos:
- Indexa√ß√£o inicial: 10k docs √ó 50 tokens = 500k tokens
- Custo: 500k / 1M √ó $0.02 = $0.01 (um centavo!)
- Queries: praticamente gr√°tis (<$0.001 por 1000 queries)
```




### üéì Parab√©ns!

Voc√™ acabou de construir um sistema de busca sem√¢ntica com **qualidade**! üéâ

Este √© o mesmo princ√≠pio usado em:
- üîç Buscadores avan√ßados (Elasticsearch)
- ü§ñ Chatbots empresariais (RAG - Retrieval Augmented Generation)
- üìö Sistemas de recomenda√ß√£o (Netflix, Spotify)
- üî¨ Ferramentas de pesquisa acad√™mica