In [1]:
import os
import requests
from pathlib import Path
from dotenv import load_dotenv
from langchain_community.vectorstores import FAISS

from langchain_community.embeddings import OllamaEmbeddings

## üì¶ Imports e Configura√ß√£o

Bibliotecas necess√°rias:
- `os`, `Path`, `load_dotenv`: Gerenciamento de arquivos e vari√°veis de ambiente
- `FAISS`: Banco de dados vetorial (com suporte a salvar/carregar!)
- `OllamaEmbeddings`: Embeddings locais via Ollama

### Por que Ollama?

Neste lab usamos Ollama porque:
- ‚úÖ **100% Gratuito** - Nenhum custo de API
- ‚úÖ **Privacidade Total** - Dados n√£o saem da sua m√°quina
- ‚úÖ **Offline** - Funciona sem internet
- ‚úÖ **Performance** - Roda local, sem lat√™ncia de rede
- ‚úÖ **Modelos variados** - all-minilm, nomic-embed-text, mxbai-embed-large

### Pr√©-requisitos

1. **Docker Compose** deve estar rodando:
   ```bash
   docker-compose up -d
   ```

2. **Modelos instalados** (j√° inclu√≠dos no `Dockerfile.ollama`):
   - `all-minilm` (embeddings - 384 dims)
   - `nomic-embed-text` (embeddings - 768 dims)
   - `llama3.2:1b` (LLM para gera√ß√£o)

3. **Ollama acess√≠vel** em `http://ollama:11434` (dentro do Docker) ou `http://localhost:11434`

In [2]:
# Configura√ß√£o do endpoint Ollama
# Se estiver rodando fora do Docker, use: http://localhost:11434
# Se estiver dentro do Docker (Jupyter no compose), use: http://ollama:11434
OLLAMA_BASE_URL = 'http://localhost:11434'
# OLLAMA_BASE_URL = os.getenv('OLLAMA_BASE_URL', 'http://localhost:11434')

print(f'üîó Ollama endpoint: {OLLAMA_BASE_URL}')

# Testar conex√£o
try:
    response = requests.get(f'{OLLAMA_BASE_URL}/api/tags')
    if response.status_code == 200:
        models = response.json().get('models', [])
        print(f'‚úÖ Ollama conectado! Modelos dispon√≠veis: {len(models)}')
        for model in models:
            print(f"   - {model['name']}")
    else:
        print('‚ö†Ô∏è  Ollama respondeu, mas com erro')
except Exception as e:
    print(f'‚ùå Erro ao conectar com Ollama: {e}')
    print('   Certifique-se que o Docker Compose est√° rodando!')

üîó Ollama endpoint: http://localhost:11434
‚úÖ Ollama conectado! Modelos dispon√≠veis: 6
   - embeddinggemma:latest
   - gpt-oss:latest
   - llama3.2:1b
   - all-minilm:latest
   - mxbai-embed-large:latest
   - nomic-embed-text:latest


## üîê Verificando Conex√£o com Ollama

Antes de come√ßar, precisamos garantir que o Ollama est√° acess√≠vel.

**Troubleshooting:**

Se voc√™ ver ‚ùå, verifique:
1. Docker Compose est√° rodando? `docker-compose ps`
2. Container Ollama est√° UP? `docker-compose logs ollama`
3. Porta 11434 est√° exposta? Verifique o `docker-compose.yaml`

**Endpoints:**
- Dentro do Docker: `http://ollama:11434`
- Fora do Docker: `http://localhost:11434`

In [4]:
meus_textos = [
    "O novo iPhone 15 tem uma lente perisc√≥pica incr√≠vel.",    # Tecnologia
    "Para fazer um bolo macio, bata as claras em neve.",       # Culin√°ria
    "O atacante chutou a bola no √¢ngulo e foi gol.",           # Esporte
    "A placa de v√≠deo RTX 4090 roda jogos em 4K.",             # Tecnologia
    "Receita de lasanha √† bolonhesa com muito queijo."         # Culin√°ria
]

## üìÑ Passo 1: Preparando os Documentos

Nosso dataset de teste com 5 documentos de categorias diferentes.

**Importante:** Em uma aplica√ß√£o RAG real, esses textos viriam de:
- üìë PDFs de documenta√ß√£o
- üåê Base de conhecimento da empresa
- üí¨ FAQs e tickets de suporte
- üìä Manuais t√©cnicos

üí° **Conceito RAG:** Quanto mais documentos relevantes voc√™ indexar, melhor o LLM conseguir√° responder perguntas espec√≠ficas do seu dom√≠nio!

In [5]:
# Escolha o modelo de embeddings
# Op√ß√µes: 'all-minilm' (384 dims, r√°pido), 'nomic-embed-text' (768 dims, balanceado), 'mxbai-embed-large' (1024 dims, preciso)
EMBEDDING_MODEL = 'mxbai-embed-large'

embeddings = OllamaEmbeddings(
    model=EMBEDDING_MODEL,
    base_url=OLLAMA_BASE_URL
)

print(f'‚úÖ Modelo de embeddings inicializado: {EMBEDDING_MODEL}')

‚úÖ Modelo de embeddings inicializado: mxbai-embed-large


  embeddings = OllamaEmbeddings(


## üß† Passo 2: Inicializando o Modelo de Embeddings

Criamos uma inst√¢ncia do modelo de embeddings via Ollama local.

**Modelo:** `nomic-embed-text` (recomendado)
- **Dimens√µes:** 768 (excelente qualidade sem√¢ntica)
- **Qualidade:** ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê Estado da arte open-source
- **Custo:** $0.00 (totalmente gratuito!)
- **Velocidade:** ~50-100ms por request (local)
- **Privacidade:** üîí 100% local, dados n√£o saem da m√°quina

**Alternativas:**
- `all-minilm`: 384 dims, mais r√°pido, menor qualidade
- `mxbai-embed-large`: 1024 dims, melhor qualidade, mais lento

### Como funciona?

```
Texto ‚Üí üè† Ollama Local ‚Üí Vetor [768 n√∫meros]
```

Cada texto ser√° transformado em um vetor de 768 dimens√µes que captura seu significado sem√¢ntico, **sem enviar dados para nuvem**!

In [6]:
print('‚è≥ Criando √≠ndice FAISS... (pode levar alguns segundos)')
vector_store = FAISS.from_texts(meus_textos, embeddings)
print('‚úÖ √çndice criado com sucesso!')

‚è≥ Criando √≠ndice FAISS... (pode levar alguns segundos)
‚úÖ √çndice criado com sucesso!
‚úÖ √çndice criado com sucesso!


## üóÑÔ∏è Passo 3: Criando o √çndice Vetorial

Transformamos os textos em vetores e criamos o √≠ndice FAISS **em mem√≥ria**.

### O que acontece internamente?

```text
Para cada texto em meus_textos:
  1. Envia para Ollama local (http://localhost:11434)
  2. Recebe vetor de 768 dimens√µes
  3. FAISS armazena o vetor em RAM

Resultado:
  vector_store = √çndice FAISS com 5 vetores em mem√≥ria
```

**Importante:** Neste ponto, o √≠ndice existe **apenas na RAM**! Se voc√™ fechar o programa, perde tudo.

‚è±Ô∏è **Tempo:** ~0.5-1 segundo (5 requests locais ao Ollama)

üí° **Vantagem Ollama:** Como √© local, √© **muito mais r√°pido** que APIs de nuvem (sem lat√™ncia de rede)!

In [7]:
FAISS_PATH = Path.cwd().joinpath('..', '..', 'data', 'meu_indice_faiss_ollama')

vector_store.save_local(str(FAISS_PATH))
print(f"‚úÖ Banco vetorial salvo com sucesso em: {FAISS_PATH}")

‚úÖ Banco vetorial salvo com sucesso em: e:\01-projetos\11-work\11.34-engenharia-vetorial\src\1_fundamentos\..\..\data\meu_indice_faiss_ollama


## üíæ Passo 4: Salvando o √çndice no Disco (PERSIST√äNCIA!)

Esta √© a **parte mais importante** para aplica√ß√µes RAG em produ√ß√£o!

### O que acontece aqui?

```python
vector_store.save_local(str(FAISS_PATH))
```

**Internamente:**
1. FAISS cria uma pasta: `data/meu_indice_faiss_ollama/`
2. Salva 2 arquivos:
   - `index.faiss` ‚Üí Os vetores e estrutura de √≠ndice
   - `index.pkl` ‚Üí Metadados (textos originais, etc.)

### Estrutura de arquivos criada:

```text
data/
‚îî‚îÄ‚îÄ meu_indice_faiss_ollama/
    ‚îú‚îÄ‚îÄ index.faiss  ‚Üê ~60KB (5 vetores √ó 768 dims √ó 4 bytes)
    ‚îî‚îÄ‚îÄ index.pkl    ‚Üê ~2KB (textos originais)
```

### Por que isso √© importante?

**Sem persist√™ncia:**
```python
# Toda execu√ß√£o:
vector_store = FAISS.from_texts(textos, embeddings)
# ‚Üë 5 requests ao Ollama + 0.5-1 segundo
```

**Com persist√™ncia:**
```python
# Apenas uma vez:
vector_store.save_local("path")

# Depois, sempre:
vector_store = FAISS.load_local("path", embeddings)
# ‚Üë 0 requests ao Ollama + ~10ms
```

### Benef√≠cios em produ√ß√£o

| M√©trica | Sem Persist√™ncia | Com Persist√™ncia |
|---------|------------------|------------------|
| **Tempo de startup** | Segundos/Minutos | Milissegundos |
| **Carga no Ollama** | Toda vez | Uma vez (na cria√ß√£o) |
| **Escalabilidade** | Limitada | Milh√µes de docs |
| **Confiabilidade** | Dependente do Ollama | Funciona offline |

üí° **Analogia:** √â como salvar um documento do Word - voc√™ n√£o quer redigitar tudo cada vez que abrir!

In [8]:
# CARREGAR do disco
# O par√¢metro 'allow_dangerous_deserialization' √© necess√°rio em vers√µes recentes
# para confirmar que voc√™ confia no arquivo que est√° carregando.
print('‚è≥ Carregando √≠ndice do disco...')
novo_db = FAISS.load_local(
    str(FAISS_PATH), 
    embeddings, 
    allow_dangerous_deserialization=True
)
print('‚úÖ √çndice carregado com sucesso!')

‚è≥ Carregando √≠ndice do disco...
‚úÖ √çndice carregado com sucesso!


In [9]:
# Visualizar os textos carregados
print('üìö Documentos no √≠ndice:')
for doc_id in novo_db.index_to_docstore_id.values():
    documento = novo_db.docstore.search(doc_id)
    print(f'  ‚Ä¢ {documento.page_content}')

üìö Documentos no √≠ndice:
  ‚Ä¢ O novo iPhone 15 tem uma lente perisc√≥pica incr√≠vel.
  ‚Ä¢ Para fazer um bolo macio, bata as claras em neve.
  ‚Ä¢ O atacante chutou a bola no √¢ngulo e foi gol.
  ‚Ä¢ A placa de v√≠deo RTX 4090 roda jogos em 4K.
  ‚Ä¢ Receita de lasanha √† bolonhesa com muito queijo.


## üìÇ Passo 5: Carregando o √çndice do Disco

Agora vamos **carregar** o √≠ndice que salvamos anteriormente!

### O que acontece aqui?

```python
novo_db = FAISS.load_local(str(FAISS_PATH), embeddings, allow_dangerous_deserialization=True)
```

**Internamente:**
1. FAISS l√™ os arquivos da pasta `data/meu_indice_faiss_ollama/`
2. Reconstr√≥i o √≠ndice em mem√≥ria (~10ms)
3. Pronto para uso instant√¢neo!

### Par√¢metros importantes

**`embeddings`**: Necess√°rio para futuras queries
- N√£o recalcula nada dos documentos existentes
- S√≥ ser√° usado quando voc√™ buscar algo novo

**`allow_dangerous_deserialization=True`**: Confirma√ß√£o de seguran√ßa
- FAISS usa pickle para serializar
- Pickle pode executar c√≥digo malicioso se vier de fonte n√£o confi√°vel
- Como voc√™ mesmo criou o √≠ndice, √© seguro ‚úÖ

### Fluxo completo de uma aplica√ß√£o RAG

```text
Primeira execu√ß√£o (setup):
  1. Carregar documentos
  2. Criar embeddings (via Ollama)
  3. Criar √≠ndice FAISS
  4. Salvar no disco ‚Üê Voc√™ est√° aqui!

Execu√ß√µes subsequentes (produ√ß√£o):
  5. Carregar √≠ndice do disco ‚Üê Estamos fazendo isso agora!
  6. Receber query do usu√°rio
  7. Buscar documentos relevantes
  8. Enviar contexto + query para LLM
  9. Retornar resposta
```

### Performance com Ollama

| Opera√ß√£o | Tempo (5 docs) | Tempo (10k docs) | Tempo (1M docs) |
|----------|----------------|------------------|------------------|
| **Criar √≠ndice** | ~1s | ~15s | ~15min |
| **Salvar** | ~50ms | ~200ms | ~5s |
| **Carregar** | ~10ms | ~100ms | ~2s |
| **Buscar** | <1ms | ~5ms | ~50ms |

üí° **Observe:** Carregar √© **muito mais r√°pido** que criar! E com Ollama local, √© ainda mais r√°pido que APIs de nuvem!

In [10]:
# Usar normalmente
consulta = "Sugest√£o de celular"
print(f'üîç Buscando por: "{consulta}"')
resultados = novo_db.similarity_search(consulta, k=2)
print(f'‚úÖ Encontrados {len(resultados)} documentos relevantes')

üîç Buscando por: "Sugest√£o de celular"
‚úÖ Encontrados 2 documentos relevantes
‚úÖ Encontrados 2 documentos relevantes


## üîç Passo 6: Usando o √çndice Carregado

Agora vamos fazer uma busca usando o √≠ndice que **carregamos do disco**!

### A Query

```python
consulta = "Sugest√£o de celular"
```

**Desafio sem√¢ntico:**
- A palavra "iPhone" n√£o aparece na query
- A palavra "celular" sim
- O modelo precisa entender que iPhone √© um celular

### O que acontece internamente?

1. **Query vira vetor (via Ollama local):**
   ```text
   "Sugest√£o de celular" ‚Üí üè† Ollama ‚Üí [0.15, -0.32, ..., 0.47]
   ```

2. **FAISS busca (local, instant√¢neo):**
   ```text
   Compara o vetor da query com os 5 vetores armazenados
   Calcula dist√¢ncias:
     - iPhone: 0.3 ‚Üê Mais pr√≥ximo!
     - RTX 4090: 1.2
     - Bolo: 2.5
     - Gol: 2.8
     - Lasanha: 2.6
   ```

3. **Retorna top-k (k=2):**
   ```
   [iPhone, RTX 4090]
   ```

### Par√¢metro k

- `k=1`: Retorna apenas o mais similar
- `k=2`: Retorna os 2 mais similares
- `k=5`: Retorna todos (nosso dataset tem 5)

üí° **Dica:** Em RAG, geralmente usa-se `k=3` ou `k=5` para dar contexto suficiente ao LLM sem sobrecarregar.

In [11]:
print('üìÑ Documento mais relevante:')
print(f'   "{resultados[0].page_content}"')

üìÑ Documento mais relevante:
   "O novo iPhone 15 tem uma lente perisc√≥pica incr√≠vel."


## üìä Passo 7: Visualizando o Resultado

Vamos ver o documento mais relevante (√≠ndice 0 = primeiro resultado).

**Esperado:** Deve retornar algo sobre iPhone, pois √© o documento sobre celular!

### Interpretando o resultado

Se voc√™ ver:
- ‚úÖ `"O novo iPhone 15..."` ‚Üí Perfeito! A busca funcionou
- ‚ùå Qualquer outro texto ‚Üí Algo deu errado (improv√°vel com nomic-embed-text)

### Qualidade do modelo nomic-embed-text

O modelo `nomic-embed-text` √© treinado especificamente para busca sem√¢ntica e tem **excelente desempenho** em tarefas de similaridade, compar√°vel a modelos comerciais!

### Pr√≥ximo passo: RAG completo com Ollama

Em um RAG de verdade com Ollama, voc√™ faria:

```python
# 1. Buscar documentos relevantes (j√° fizemos!)
resultados = novo_db.similarity_search(consulta, k=3)

# 2. Montar o contexto
contexto = "\n".join([doc.page_content for doc in resultados])

# 3. Criar prompt para LLM
prompt = f"""
Baseado no seguinte contexto:
{contexto}

Responda a pergunta: {consulta}
"""

# 4. Enviar para LLM Ollama (Llama, Mistral, etc.)
from langchain_community.llms import Ollama
llm = Ollama(model="llama3.2:1b", base_url=OLLAMA_BASE_URL)
resposta = llm.invoke(prompt)

print(resposta)
# ‚Üí "Eu recomendo o iPhone 15, que possui uma lente perisc√≥pica incr√≠vel..."
```

üí° **Esse √© o poder do RAG:** O LLM responde com base nos **seus** documentos, n√£o apenas no conhecimento geral! E tudo **100% local e gratuito**!

In [15]:
from langchain_community.llms import Ollama

def rag_query(pergunta, k=2, modelo='llama3.2:1b'):
    """
    Realiza uma busca RAG completa com Ollama local:
    1. Carrega o √≠ndice do disco
    2. Busca documentos relevantes
    3. Envia para o LLM local gerar a resposta
    """
    
    # 1. Carregar √≠ndice do disco (garantindo que usamos a vers√£o persistida)
    db = FAISS.load_local(str(FAISS_PATH), embeddings, allow_dangerous_deserialization=True)
    
    # 2. Buscar documentos relevantes (Retrieval)
    docs = db.similarity_search(pergunta, k=k)
    
    # 3. Montar o contexto (Augmentation)
    contexto = "\n".join([f"- {doc.page_content}" for doc in docs])
    
    # 4. Criar prompt
    prompt = f"""
Voc√™ √© um assistente inteligente. Use APENAS o contexto abaixo para responder a pergunta do usu√°rio.
Se a resposta n√£o estiver no contexto, diga educadamente que n√£o possui essa informa√ß√£o.

Contexto:
{contexto}

Pergunta: {pergunta}

Resposta:"""
    
    # 5. Gerar resposta (Generation) - usando Llama local
    llm = Ollama(
        model=modelo,  # Modelo leve e r√°pido
        base_url=OLLAMA_BASE_URL,
        temperature=0.1
    )
    resposta = llm.invoke(prompt)
    
    # Retorna a resposta (texto) e os documentos usados (fonte)
    return resposta, docs

print('‚úÖ Fun√ß√£o RAG completa criada!')

‚úÖ Fun√ß√£o RAG completa criada!


In [17]:
# Vamos testar nosso sistema RAG!
pergunta = "Qual celular tem uma c√¢mera boa?"

print(f"ü§ñ Pergunta: {pergunta}\n")
print("‚è≥ Processando RAG local...\n")

resposta_final, docs_usados = rag_query(pergunta, modelo='gpt-oss:latest')

print("üìù Resposta do Llama (local):")
print("-" * 40)
print(resposta_final)
print("-" * 40)

print("\n\nüìö Documentos usados no contexto:")
for i, doc in enumerate(docs_usados):
    print(f"   {i+1}. {doc.page_content}")

ü§ñ Pergunta: Qual celular tem uma c√¢mera boa?

‚è≥ Processando RAG local...

üìù Resposta do Llama (local):
----------------------------------------
O iPhone‚ÄØ15 tem uma c√¢mera excelente, gra√ßas √† sua lente perisc√≥pica incr√≠vel.
----------------------------------------


üìö Documentos usados no contexto:
   1. O novo iPhone 15 tem uma lente perisc√≥pica incr√≠vel.
   2. O atacante chutou a bola no √¢ngulo e foi gol.
üìù Resposta do Llama (local):
----------------------------------------
O iPhone‚ÄØ15 tem uma c√¢mera excelente, gra√ßas √† sua lente perisc√≥pica incr√≠vel.
----------------------------------------


üìö Documentos usados no contexto:
   1. O novo iPhone 15 tem uma lente perisc√≥pica incr√≠vel.
   2. O atacante chutou a bola no √¢ngulo e foi gol.


### üß† Entendendo a "M√°gica"

Observe o que aconteceu acima:

1.  **Recupera√ß√£o (Retrieval):** O sistema buscou no FAISS os trechos mais parecidos com "c√¢mera boa". Ele encontrou reviews de celulares (ex: "O iPhone 15 tem uma lente perisc√≥pica incr√≠vel...").
2.  **Augmenta√ß√£o (Augmentation):** Pegamos esses trechos e colamos no prompt do Llama.
3.  **Gera√ß√£o (Generation):** O Llama leu os trechos e respondeu a pergunta **baseado apenas neles**.

√â como se voc√™ desse um livro para algu√©m e dissesse: "Responda a pergunta usando APENAS este livro".

### üöÄ Vantagens do RAG com Ollama

‚úÖ **100% Gratuito** - Sem custos de API  
‚úÖ **Privacidade Total** - Dados n√£o saem da m√°quina  
‚úÖ **Offline** - Funciona sem internet  
‚úÖ **R√°pido** - Sem lat√™ncia de rede  
‚úÖ **Escal√°vel** - Pode rodar em servidores pr√≥prios  

### üß™ Experimento: Perguntas fora do contexto

O que acontece se perguntarmos algo que **n√£o** est√° nos documentos que indexamos?
Vamos testar com uma pergunta sobre futebol (nossos documentos s√£o sobre tecnologia/celulares).

In [19]:
pergunta_fora = "Quem ganhou a copa de 1994?"

print(f"ü§ñ Pergunta: {pergunta_fora}\n")
resposta_fora, docs_fora = rag_query(pergunta_fora, modelo='gpt-oss:latest')

print("üìù Resposta do Llama:")
print("-" * 40)
print(resposta_fora)
print("-" * 40)

print("\nüìö Documentos recuperados (provavelmente irrelevantes):")
for i, doc in enumerate(docs_fora):
    print(f"   {i+1}. {doc.page_content}")

ü§ñ Pergunta: Quem ganhou a copa de 1994?

üìù Resposta do Llama:
----------------------------------------
Desculpe, mas n√£o tenho essa informa√ß√£o no contexto fornecido.
----------------------------------------

üìö Documentos recuperados (provavelmente irrelevantes):
   1. O atacante chutou a bola no √¢ngulo e foi gol.
   2. Receita de lasanha √† bolonhesa com muito queijo.
üìù Resposta do Llama:
----------------------------------------
Desculpe, mas n√£o tenho essa informa√ß√£o no contexto fornecido.
----------------------------------------

üìö Documentos recuperados (provavelmente irrelevantes):
   1. O atacante chutou a bola no √¢ngulo e foi gol.
   2. Receita de lasanha √† bolonhesa com muito queijo.


### üí° An√°lise do Erro (ou Sucesso)

Se o modelo respondeu "N√£o sei" ou deu uma resposta estranha, isso √© **bom**!
Significa que ele est√° respeitando o contexto. Como n√£o indexamos nada sobre futebol, ele n√£o encontrou informa√ß√µes para responder.

**Li√ß√£o:** O RAG depende 100% da qualidade da busca.
*   **Busca Ruim** (Garbage In) ‚Üí **Resposta Ruim** (Garbage Out).

Por isso, gastamos tanto tempo nos labs anteriores aprendendo sobre Embeddings e Busca Vetorial! üöÄ

### üîç Analisando o Resultado

Observe que o modelo n√£o apenas "copiou" o texto, mas **interpretou** a informa√ß√£o.

- Voc√™ perguntou sobre "c√¢mera boa"
- O documento falava sobre "lente perisc√≥pica incr√≠vel"
- O LLM conectou os pontos e recomendou o iPhone 15!

Isso √© muito mais poderoso que uma busca simples por palavras-chave.

## üéì Resumo e Conceitos-Chave

### O que aprendemos

‚úÖ **Persist√™ncia de √≠ndices** - Salvar e carregar FAISS do disco  
‚úÖ **Ollama local** - Embeddings e LLM 100% gratuitos e privados  
‚úÖ **Performance** - Carregar √© 100x mais r√°pido que criar  
‚úÖ **RAG completo** - Retrieval + Augmentation + Generation  
‚úÖ **Privacidade** - Dados nunca saem da sua m√°quina

### Fluxo completo que implementamos

```text
1. Criar embeddings (via Ollama local)
   ‚Üì
2. Criar √≠ndice FAISS (em RAM)
   ‚Üì
3. Salvar no disco (.save_local) ‚Üê PERSIST√äNCIA!
   ‚Üì
4. Carregar do disco (.load_local) ‚Üê REUTILIZA√á√ÉO!
   ‚Üì
5. Fazer buscas normalmente
   ‚Üì
6. Gerar respostas com Llama local
```

### Compara√ß√£o: Ollama vs APIs de Nuvem

| Aspecto | Ollama Local | APIs Nuvem |
|---------|--------------|------------|
| **Custo** | $0.00 | $0.02-0.10 por 1M tokens |
| **Privacidade** | ‚úÖ 100% local | ‚ùå Dados v√£o para nuvem |
| **Lat√™ncia** | ~50-100ms | ~200-500ms |
| **Offline** | ‚úÖ Funciona | ‚ùå Precisa internet |
| **Escalabilidade** | Limitada por hardware | Ilimitada |
| **Qualidade** | ‚≠ê‚≠ê‚≠ê‚≠ê Excelente | ‚≠ê‚≠ê‚≠ê‚≠ê‚≠ê Melhor |

### Aplica√ß√µes reais de RAG com Ollama

ü§ñ **Chatbots corporativos privados**
- Indexa documenta√ß√£o interna sens√≠vel
- LLM responde baseado nos docs da empresa
- Dados nunca saem do servidor

üìö **Assistentes de estudo offline**
- Indexa livros, apostilas, anota√ß√µes
- Funciona sem internet
- Totalmente gratuito

üîß **Suporte t√©cnico local**
- Indexa manuais, FAQs, tickets antigos
- Resposta instant√¢nea
- Sem custos de API

üè• **Assist√™ncia m√©dica privada**
- Indexa prontu√°rios, estudos cient√≠ficos
- 100% privado (LGPD/HIPAA compliant)
- LLM auxilia diagn√≥sticos localmente

### üß™ Experimentos para tentar

#### Experimento 1: Testar modelos diferentes
```python
# Embeddings menores (mais r√°pido)
embeddings_small = OllamaEmbeddings(
    model='all-minilm',  # 384 dims
    base_url=OLLAMA_BASE_URL
)

# Embeddings maiores (mais qualidade)
embeddings_large = OllamaEmbeddings(
    model='mxbai-embed-large',  # 1024 dims
    base_url=OLLAMA_BASE_URL
)

# Compare a qualidade das buscas!
```

In [None]:
# C√≥digo aqui


#### Experimento 2: LLMs diferentes

```python
# Llama menor (mais r√°pido)
llm_fast = Ollama(model="llama3.2:1b", base_url=OLLAMA_BASE_URL)

# Llama maior (melhor qualidade)
llm_quality = Ollama(model="llama3.2:3b", base_url=OLLAMA_BASE_URL)

# Mistral (alternativa)
llm_mistral = Ollama(model="mistral:7b", base_url=OLLAMA_BASE_URL)

# Compare as respostas!
```

In [None]:
# C√≥digo aqui


#### Experimento 3: Adicionar mais documentos
```python

novos_textos = [
    "Samsung Galaxy S23 tem c√¢mera de 200MP",
    "Xiaomi Redmi Note 12 √© um bom custo-benef√≠cio",
    "Google Pixel 8 Pro tem excelente fotografia noturna"
]

# Criar novo √≠ndice com todos os documentos
todos_textos = meus_textos + novos_textos
vector_store = FAISS.from_texts(todos_textos, embeddings)
vector_store.save_local(str(FAISS_PATH))

# Agora tem 8 documentos!
```

In [None]:
# C√≥digo aqui


#### Experimento 4: RAG com streaming
```python
from langchain_community.llms import Ollama

def rag_stream(pergunta, k=2):
    """RAG com resposta em streaming (efeito ChatGPT)"""
    db = FAISS.load_local(str(FAISS_PATH), embeddings, allow_dangerous_deserialization=True)
    docs = db.similarity_search(pergunta, k=k)
    contexto = "\n".join([f"- {doc.page_content}" for doc in docs])
    
    prompt = f"""Contexto:\n{contexto}\n\nPergunta: {pergunta}\n\nResposta:"""
    
    llm = Ollama(model="llama3.2:1b", base_url=OLLAMA_BASE_URL)
    
    # Streaming!
    for chunk in llm.stream(prompt):
        print(chunk, end='', flush=True)

# Testar
rag_stream("Qual √© o melhor celular?")
```

In [None]:
# C√≥digo aqui


### üí° Boas pr√°ticas em produ√ß√£o com Ollama

1. **Versionamento de √≠ndices**
   ```python
   vector_store.save_local("indices/v1.0.0")
   vector_store.save_local("indices/v1.1.0")  # Ap√≥s adicionar docs
   ```

2. **Monitoramento de recursos**
   ```python
   import psutil
   
   # CPU
   cpu_percent = psutil.cpu_percent(interval=1)
   print(f"CPU: {cpu_percent}%")
   
   # Mem√≥ria
   mem = psutil.virtual_memory()
   print(f"RAM: {mem.percent}%")
   ```

3. **Metadados do √≠ndice**
   ```python
   import json
   from datetime import datetime
   
   metadata = {
       "created_at": datetime.now().isoformat(),
       "num_docs": len(meus_textos),
       "embedding_model": EMBEDDING_MODEL,
       "dimensions": 768,
       "llm_model": "llama3.2:1b"
   }
   
   with open(FAISS_PATH / "metadata.json", "w") as f:
       json.dump(metadata, f, indent=2)
   ```

4. **Cache de respostas**
   ```python
   from functools import lru_cache
   
   @lru_cache(maxsize=100)
   def rag_query_cached(pergunta, k=2):
       return rag_query(pergunta, k)
   
   # Perguntas repetidas s√£o instant√¢neas!
   ```

5. **Health check do Ollama**
   ```python
   def check_ollama_health():
       try:
           response = requests.get(f'{OLLAMA_BASE_URL}/api/tags', timeout=5)
           return response.status_code == 200
       except:
           return False
   
   if not check_ollama_health():
       print("‚ö†Ô∏è  Ollama n√£o est√° respondendo!")
   ```

üí° **Dica final:** O RAG com Ollama √© **ideal** para aplica√ß√µes que precisam de **privacidade**, **controle de custos** e **funcionamento offline**. √â a escolha perfeita para ambientes corporativos sens√≠veis ou aplica√ß√µes que precisam rodar em edge devices!