# üîç Laborat√≥rio: Busca Sem√¢ntica Local com Ollama

## O que vamos aprender?

Neste notebook, voc√™ vai construir um **sistema de busca inteligente** que entende o **significado** das palavras, n√£o apenas correspond√™ncias exatas de texto.

### Diferen√ßa entre Busca Tradicional vs. Busca Sem√¢ntica

**Busca Tradicional (palavras-chave):**
```text
Query: "hardware celular"
Resultado: S√≥ encontra documentos com as palavras exatas "hardware" e "celular"
```

**Busca Sem√¢ntica (significado):**
```text
Query: "hardware celular"
Resultado: Encontra "iPhone", "smartphone", "processador mobile" 
           mesmo sem as palavras exatas!
```

### Como isso funciona?

Usando **bibliotecas reais** de produ√ß√£o que empresas usam no dia a dia:
- **LangChain** ‚Üí Framework para construir apps com IA
- **Ollama** ‚Üí Roda modelos de IA localmente (gr√°tis!)
- **FAISS** ‚Üí Banco de dados vetorial ultrarr√°pido

## üõ†Ô∏è Ferramentas que Vamos Usar

### 1. LangChain ü¶úüîó
**O que √©:** Framework Python que simplifica a cria√ß√£o de aplica√ß√µes com IA  
**Por que usar:** Em vez de escrever centenas de linhas de c√≥digo, usamos algumas linhas  
**Analogia:** √â como usar um framework web (Django/Flask) em vez de programar HTTP do zero

### 2. Ollama ü¶ô
**O que √©:** Plataforma para rodar modelos de IA **localmente** no seu computador  
**Por que usar:** 
- ‚úÖ Gratuito (sem pagar por API)
- ‚úÖ Privado (seus dados n√£o v√£o para a nuvem)
- ‚úÖ R√°pido (sem lat√™ncia de internet)

**Modelos de embedding dispon√≠veis:**
- `all-minilm`: 384 dimens√µes, r√°pido e leve
- `nomic-embed-text`: 768 dimens√µes, balanceado
- `mxbai-embed-large`: 1024 dimens√µes, mais preciso

### 3. FAISS üöÄ
**O que √©:** Biblioteca do Facebook/Meta para busca vetorial eficiente  
**Por que usar:** Consegue buscar em **milh√µes de vetores** em milissegundos  
**Analogia:** √â como um √≠ndice de banco de dados, mas para vetores matem√°ticos

**Como funciona:**
```text
Texto ‚Üí [0.2, -0.5, 0.8, ...] ‚Üê Vetor com 384/768/1024 n√∫meros
         ‚Üì
      Armazenado no FAISS
         ‚Üì
Query ‚Üí [0.3, -0.4, 0.7, ...] ‚Üê Tamb√©m vira vetor
         ‚Üì
      FAISS compara dist√¢ncias
         ‚Üì
    Retorna os mais pr√≥ximos!
```

## üéØ Cen√°rio do Experimento

Vamos criar um **"mini Google"** com documentos de 3 categorias completamente diferentes:

| Categoria | Documentos |
|-----------|------------|
| üñ•Ô∏è **Tecnologia** | iPhone 15, RTX 4090 |
| üç∞ **Culin√°ria** | Receita de bolo, Lasanha |
| ‚öΩ **Esportes** | Gol de futebol |

### O Desafio

Faremos uma pergunta que **n√£o cont√©m palavras exatas** dos documentos:

**Pergunta:** "Quero sugest√µes de hardware para computador ou celular"

**Expectativa:**
- ‚úÖ Deve retornar: iPhone e RTX 4090 (s√£o hardware!)
- ‚ùå N√ÉO deve retornar: Bolo, Lasanha, Gol (n√£o s√£o hardware)

### Por que isso √© dif√≠cil?

Um sistema de busca tradicional (Ctrl+F) falharia porque:
- A palavra "iPhone" n√£o aparece na pergunta
- A palavra "RTX 4090" n√£o aparece na pergunta
- Mas nossa IA precisa **entender** que ambos s√£o hardware!

üí° **Isso √© Intelig√™ncia Artificial em a√ß√£o!** O modelo aprendeu que "iPhone = celular = hardware" e "RTX 4090 = placa de v√≠deo = hardware" durante seu treinamento.

In [1]:
%pip install faiss-cpu>=1.13.1 langchain-openai==1.1.0  langchain-ollama==1.0.0 ollama==0.6.1 langchain-community>=0.4.1

Note: you may need to restart the kernel to use updated packages.


## üì¶ Instala√ß√£o de Depend√™ncias

Antes de come√ßar, precisamos instalar as bibliotecas necess√°rias:

- `faiss-cpu`: Busca vetorial (vers√£o CPU)
- `langchain-ollama`: Integra√ß√£o Ollama + LangChain
- `langchain-community`: Utilit√°rios do LangChain
- `ollama`: Cliente Python do Ollama

‚ö†Ô∏è **Nota:** Se voc√™ j√° instalou essas bibliotecas, pode pular esta c√©lula.

In [2]:
import os
import requests
from pathlib import Path
from dotenv import load_dotenv
from langchain_community.vectorstores import FAISS

# Se preferir usar Ollama Embeddings
from langchain_ollama import OllamaEmbeddings


## üîå Imports e Configura√ß√£o Inicial

Importando as bibliotecas que vamos usar:

- `os`: Para ler vari√°veis de ambiente
- `requests`: Para verificar se o Ollama est√° rodando
- `Path` e `load_dotenv`: Para carregar configura√ß√µes do arquivo `.env`
- `FAISS`: O banco de dados vetorial
- `OllamaEmbeddings`: O modelo que transforma texto em vetores

In [3]:
# 2) Configura√ß√£o e carregamento do .env (simplificado)
env_path = Path.cwd().joinpath('..', '..', '.env').resolve()
if env_path.exists():
    load_dotenv(env_path)
    print(f'üîé .env carregado -> {env_path.resolve()}')
else:
    print('‚ö†Ô∏è  .env n√£o encontrado. Defina as vari√°veis de ambiente manualmente.')


‚ö†Ô∏è  .env n√£o encontrado. Defina as vari√°veis de ambiente manualmente.


## üîê Carregando Vari√°veis de Ambiente

O arquivo `.env` cont√©m configura√ß√µes como:
- URL do Ollama (`OLLAMA_API_URL`)
- Chaves de API (se necess√°rio)

**Por que usar `.env`?**
- ‚úÖ N√£o expor senhas no c√≥digo
- ‚úÖ F√°cil mudar entre ambientes (dev/prod)
- ‚úÖ Compartilhar c√≥digo sem vazar credenciais

In [4]:
# Configura√ß√£o do Ollama (ajuste conforme necess√°rio)
# - Dentro do Docker: http://ollama:11434
# - Fora do Docker: http://localhost:11434
OLLAMA_API_URL = os.getenv('OLLAMA_API_URL', 'http://localhost:11434')

# Verificar se Ollama est√° online
def check_ollama_health() -> bool:
    try:
        response = requests.get(f'{OLLAMA_API_URL}/api/tags', timeout=5)
        if response.status_code == 200:
            models = response.json().get('models', [])
            print(f'‚úÖ Ollama est√° online! Modelos dispon√≠veis: {len(models)}')
            for model in models:
                name = model.get('name', 'unknown')
                size = model.get('size', 0) / (1024**3)  # Convert to GB
                print(f'   - {name} ({size:.2f} GB)')
            return True
        else:
            print(f'‚ùå Ollama retornou status {response.status_code}')
            return False
    except Exception as e:
        print(f'‚ùå Erro ao conectar com Ollama: {e}')
        return False

# Testar conex√£o
check_ollama_health()

‚úÖ Ollama est√° online! Modelos dispon√≠veis: 3
   - all-minilm:latest (0.04 GB)
   - mxbai-embed-large:latest (0.62 GB)
   - nomic-embed-text:latest (0.26 GB)


True

## üè• Health Check do Ollama

Antes de usar o Ollama, precisamos verificar se ele est√° rodando corretamente.

**O que esta c√©lula faz:**
1. Tenta conectar na URL do Ollama (padr√£o: `http://localhost:11434`)
2. Lista todos os modelos dispon√≠veis
3. Mostra o tamanho de cada modelo em GB

**Poss√≠veis URLs:**
- `http://localhost:11434` ‚Üí Se Ollama est√° rodando no seu computador
- `http://ollama:11434` ‚Üí Se Ollama est√° rodando em Docker Compose

üí° **Dica:** Se voc√™ ver ‚ùå, o Ollama n√£o est√° rodando. Inicie-o com `ollama serve` no terminal.

## üìÑ Passo 1: Preparando os Documentos

Aqui temos nosso **dataset de teste** ‚Äî 5 documentos de categorias bem distintas.

**Por que categorias diferentes?**
Queremos testar se a IA consegue distinguir contextos. Um bom modelo de embedding deve:
- Colocar "iPhone" e "RTX 4090" pr√≥ximos (ambos s√£o tecnologia/hardware)
- Colocar "bolo" e "lasanha" pr√≥ximos (ambos s√£o culin√°ria)
- Manter "gol" distante de receitas e hardware (esporte √© outro contexto)

### Estrutura dos Dados

```python
meus_textos = [
    "Documento sobre tecnologia...",  # Categoria: Tech
    "Documento sobre culin√°ria...",   # Categoria: Food
    "Documento sobre esporte...",     # Categoria: Sport
]
```

üí° **Conceito importante:** Esses textos s√£o chamados de **corpus** (conjunto de documentos que queremos buscar).

In [5]:

meus_textos = [
    "O novo iPhone 15 tem uma lente perisc√≥pica incr√≠vel.",    # Tecnologia
    "Para fazer um bolo macio, bata as claras em neve.",       # Culin√°ria
    "O atacante chutou a bola no √¢ngulo e foi gol.",           # Esporte
    "A placa de v√≠deo RTX 4090 roda jogos em 4K.",             # Tecnologia
    "Receita de lasanha √† bolonhesa com muito queijo."         # Culin√°ria
]

## üß† Passo 2: Inicializando o Modelo de Embeddings

Este √© o **"c√©rebro"** que transforma texto em vetores num√©ricos!

### O que s√£o Embeddings?

**Embedding** = Representa√ß√£o num√©rica de um texto

Exemplo:
```text
Texto: "gato"
Embedding: [0.12, -0.34, 0.56, 0.89, ..., 0.23]
           ‚Üë vetor com 384 n√∫meros (all-minilm)
```

### Como funciona a magia?

1. O modelo foi **treinado** em milh√µes de textos
2. Aprendeu que "gato" e "felino" t√™m significados parecidos
3. Ent√£o gera vetores **pr√≥ximos** para palavras com significados similares

**Visualiza√ß√£o conceitual:**
```text
Espa√ßo vetorial (imagine em 3D, mas √© 384D!)

  gato ‚Ä¢ ‚Üê pr√≥ximo de ‚Üí ‚Ä¢ felino
  
  carro ‚Ä¢ ‚Üê DISTANTE de ‚Üí ‚Ä¢ felino
```

### Modelos Dispon√≠veis

| Modelo | Dimens√µes | Velocidade | Qualidade |
|--------|-----------|------------|-----------|
| `all-minilm` | 384 | ‚ö°‚ö°‚ö° | ‚≠ê‚≠ê |
| `nomic-embed-text` | 768 | ‚ö°‚ö° | ‚≠ê‚≠ê‚≠ê |
| `mxbai-embed-large` | 1024 | ‚ö° | ‚≠ê‚≠ê‚≠ê‚≠ê |

**Qual escolher?**
- Teste r√°pido/prot√≥tipo: `all-minilm`
- Produ√ß√£o balanceada: `nomic-embed-text`
- M√°xima precis√£o: `mxbai-embed-large`

üí° **Nota:** Todos esses modelos rodam **localmente** e s√£o **gratuitos**!

In [6]:
# Se preferir usar Ollama Embeddings
embeddings = OllamaEmbeddings(
    # model="mxbai-embed-large",
    # model="nomic-embed-text",
    model="all-minilm",
    base_url=OLLAMA_API_URL,
    # Em vez de headers, use client kwargs (se necess√°rio para auth)
    client_kwargs={"headers": {"Authorization": "Bearer YOUR_TOKEN"}} if os.getenv("OLLAMA_API_KEY") else {},
    # opcional: validar se o modelo existe localmente
    validate_model_on_init=False,
    # opcional: tempo de keep-alive
    keep_alive=5 * 60,
)

## üóÑÔ∏è Passo 3: Criando o Banco de Dados Vetorial (Indexa√ß√£o)

Aqui acontece a **m√°gica**! Vamos transformar todos os textos em vetores e armazen√°-los no FAISS.

### O que acontece nesta linha de c√≥digo?

```python
vector_store = FAISS.from_texts(meus_textos, embeddings)
```

**Passo a passo interno:**

1. **Para cada texto** em `meus_textos`:
   ```text
   "O novo iPhone 15..." ‚Üí embeddings.embed_query() ‚Üí [0.2, -0.5, 0.8, ...]
   "Para fazer um bolo..." ‚Üí embeddings.embed_query() ‚Üí [0.1, 0.3, -0.4, ...]
   ...
   ```

2. **FAISS armazena** todos esses vetores em uma estrutura otimizada:
   ```text
   √çndice FAISS:
   [0] ‚Üí [0.2, -0.5, 0.8, ...] (iPhone)
   [1] ‚Üí [0.1, 0.3, -0.4, ...] (bolo)
   [2] ‚Üí [-0.3, 0.7, 0.2, ...] (gol)
   [3] ‚Üí [0.25, -0.48, 0.82, ...] (RTX 4090)
   [4] ‚Üí [0.12, 0.28, -0.38, ...] (lasanha)
   ```

3. **Pronto!** Agora podemos fazer buscas ultrarr√°pidas

### Por que FAISS √© r√°pido?

FAISS usa algoritmos avan√ßados como:
- **IVF** (Inverted File Index): Agrupa vetores similares
- **HNSW** (Hierarchical Navigable Small World): Grafo para busca eficiente

**Resultado:** Consegue buscar em milh√µes de vetores em milissegundos! ‚ö°

### Analogia

Imagine que voc√™ tem uma biblioteca com milh√µes de livros:
- **Sem √≠ndice:** Voc√™ precisa ler cada livro para achar o que quer üò∞
- **Com FAISS:** √â como ter um sistema Dewey Decimal que te leva direto ao livro certo! üìö‚ú®

In [7]:
vector_store = FAISS.from_texts(meus_textos, embeddings)

---

## üöÄ Hora de Testar! Vamos Fazer Buscas

Configura√ß√£o conclu√≠da! ‚úÖ  
Agora vamos usar nosso sistema de busca sem√¢ntica.

**O que fizemos at√© agora:**
1. ‚úÖ Instalamos as bibliotecas
2. ‚úÖ Conectamos ao Ollama
3. ‚úÖ Criamos um modelo de embeddings
4. ‚úÖ Indexamos nossos documentos no FAISS

**Pr√≥ximo passo:** Fazer perguntas e ver a IA encontrar as respostas! üéØ

## üîç Passo 4: Definindo a Pergunta (Query)

Aqui est√° o **teste de fogo** para nosso sistema!

### A Pergunta

```python
"Quero sugest√µes de hardware para computador ou celular"
```

### Por que esta pergunta √© desafiadora?

**Palavras que N√ÉO aparecem na pergunta:**
- ‚ùå "iPhone"
- ‚ùå "RTX"
- ‚ùå "4090"
- ‚ùå "placa de v√≠deo"
- ‚ùå "lente perisc√≥pica"

**Palavras que SIM aparecem:**
- ‚úÖ "hardware"
- ‚úÖ "computador"
- ‚úÖ "celular"

### O Desafio

Um sistema de busca tradicional (Ctrl+F) **falharia** porque:
```text
Busca por "hardware" ‚Üí N√£o encontra nada (palavra n√£o est√° nos docs)
Busca por "celular" ‚Üí N√£o encontra "iPhone" (palavra diferente)
Busca por "computador" ‚Üí N√£o encontra "RTX 4090" (palavra diferente)
```

### A Intelig√™ncia Artificial

Nossa IA vai **entender** que:
```text
"celular" ‚âà "iPhone" ‚âà "smartphone"
"computador" ‚âà "PC" ‚âà "placa de v√≠deo"
"hardware" ‚âà "equipamento" ‚âà "dispositivo"
```

üí° **Isso √© aprendizado sem√¢ntico!** O modelo foi treinado para entender rela√ß√µes entre conceitos, n√£o apenas correspond√™ncia exata de strings.

In [8]:
pergunta = "Quero sugest√µes de hardware para computador ou celular"

## üéØ Passo 5: Executando a Busca Sem√¢ntica

Agora vamos **executar a busca** e ver os resultados!

### O que significa `k=2`?

```python
vector_store.similarity_search(pergunta, k=2)
```

O par√¢metro `k` define quantos resultados queremos:
- `k=1` ‚Üí Retorna apenas o documento mais similar
- `k=2` ‚Üí Retorna os 2 documentos mais similares
- `k=5` ‚Üí Retorna os 5 documentos mais similares

### Como funciona internamente?

1. **Sua pergunta vira um vetor:**
   ```text
   "Quero sugest√µes de hardware..." ‚Üí embeddings.embed_query() 
   ‚Üí [0.22, -0.48, 0.79, ...]
   ```

2. **FAISS calcula dist√¢ncias:**
   ```text
   Dist√¢ncia(query, iPhone) = 0.85
   Dist√¢ncia(query, bolo) = 2.34
   Dist√¢ncia(query, gol) = 2.67
   Dist√¢ncia(query, RTX 4090) = 0.92
   Dist√¢ncia(query, lasanha) = 2.41
   ```

3. **Ordena por proximidade:**
   ```text
   1¬∫ lugar: iPhone (0.85) ‚Üê Mais pr√≥ximo!
   2¬∫ lugar: RTX 4090 (0.92)
   3¬∫ lugar: lasanha (2.41)
   ...
   ```

4. **Retorna os top-k:**
   ```text
   Como k=2, retorna: [iPhone, RTX 4090]
   ```

### M√©trica de Similaridade

FAISS usa **similaridade cosseno** por padr√£o:
- Mede o **√¢ngulo** entre dois vetores
- Quanto menor o √¢ngulo, mais similares s√£o os textos
- Funciona bem mesmo com vetores de dimens√µes diferentes

**Visualiza√ß√£o conceitual (2D, mas √© 384D!):**

![Dist√¢ncia Euclidiana](distancia_euclidiana.png)

### O que esperar?

‚úÖ **Esperado:** iPhone e RTX 4090 (hardware!)  
‚ùå **N√£o esperado:** Bolo, Lasanha, Gol (n√£o s√£o hardware)

Vamos ver se a IA acerta! üëá

In [9]:
resultados = vector_store.similarity_search(pergunta, k=2)

print(f"Pergunta: '{pergunta}'\n")
print("--- Documentos Encontrados ---")
for i, doc in enumerate(resultados):
    print(f"{i+1}. {doc.page_content}")

Pergunta: 'Quero sugest√µes de hardware para computador ou celular'

--- Documentos Encontrados ---
1. A placa de v√≠deo RTX 4090 roda jogos em 4K.
2. Receita de lasanha √† bolonhesa com muito queijo.


## üìä An√°lise dos Resultados

### O que observar?

Quando voc√™ executar a c√©lula acima, observe:

1. **Os documentos retornados s√£o relevantes?**
   - ‚úÖ Se retornou iPhone e RTX 4090: O modelo entendeu!
   - ‚ùå Se retornou receitas ou gol: O modelo falhou

2. **A ordem faz sentido?**
   - O primeiro resultado deve ser o mais relevante
   - O segundo resultado deve ser um pouco menos relevante

### Por que pode falhar?

Modelos diferentes podem interpretar de formas diferentes:
- `all-minilm` √© mais r√°pido, mas menos preciso
- `nomic-embed-text` pode ter vi√©s de treinamento
- `mxbai-embed-large` geralmente √© mais confi√°vel



### üß™ Experimentos para Tentar

#### Experimento 1: Mudar o modelo
```python
# Tente trocar na c√©lula de inicializa√ß√£o:
model="nomic-embed-text"  # ou "mxbai-embed-large"

# E recriar o vector_store:
vector_store = FAISS.from_texts(meus_textos, embeddings)

# E refazer a busca
```



#### Experimento 2: Testar outras queries
```python
# Query espec√≠fica
pergunta = "receitas de massas italianas"
# Deve retornar: lasanha

# Query amb√≠gua
pergunta = "como melhorar performance"
# Vai retornar hardware ou esporte? ü§î

# Query fora do dom√≠nio
pergunta = "viagens para a Europa"
# Vai retornar o que est√° "menos distante" (mas nada relevante)
```



#### Experimento 3: Ajustar k
```python
# Ver mais resultados
resultados = vector_store.similarity_search(pergunta, k=5)
# Agora voc√™ v√™ TODOS os 5 documentos ordenados por relev√¢ncia
```



#### Experimento 4: Ver os scores
```python
# Usar similarity_search_with_score para ver as dist√¢ncias
resultados = vector_store.similarity_search_with_score(pergunta, k=2)
for doc, score in resultados:
    print(f"Score: {score:.4f} | Texto: {doc.page_content}")

# Score menor = mais similar!
```



### üí° Conceitos-chave para lembrar

1. **Embedding transforma texto em vetor** (lista de n√∫meros)
2. **FAISS armazena vetores** e faz buscas r√°pidas
3. **Similaridade = proximidade no espa√ßo vetorial**
4. **Modelos diferentes = interpreta√ß√µes diferentes**
5. **Sempre teste com dados do SEU dom√≠nio!**