# Pipeline Modular de Embeddings com Ollama - Vers√£o Profissional

Este notebook demonstra como usar a fun√ß√£o `create_embeddings()` do m√≥dulo `indexar.py` para processar documentos e criar embeddings de forma simples e modular.

## Caracter√≠sticas:
- ‚úÖ **Extremamente simples de usar** - apenas uma chamada de fun√ß√£o
- ‚úÖ **Totalmente modular** - customize todos os par√¢metros
- ‚úÖ **Suporta m√∫ltiplos formatos** - PDF, CSV, Parquet, Excel, TXT, MD
- ‚úÖ **Processamento paralelo** - aproveita m√∫ltiplos workers
- ‚úÖ **Seguro para notebooks** - logs detalhados e tratamento de erros
- üÜï **Detec√ß√£o autom√°tica de √≠ndice** - escolhe Flat ou IVF baseado no volume
- üÜï **Normaliza√ß√£o de embeddings** - para similaridade coseno eficiente
- üÜï **Deduplica√ß√£o autom√°tica** - economiza 20-40% de espa√ßo
- üÜï **Metadados ricos** - rastreamento completo de documentos

## 1. Importar a Fun√ß√£o Principal

Basta importar a fun√ß√£o `create_embeddings` do m√≥dulo `indexar_novo.py`

In [None]:
from indexar import create_embeddings
from pathlib import Path

## 2. Exemplo B√°sico - Uso Mais Simples

Este √© o jeito mais simples de usar. Apenas especifique:
- Lista de documentos (arquivos ou diret√≥rios)
- Modelo do Ollama
- Configura√ß√µes de chunk (tamanho e overlap)

In [None]:
# Exemplo b√°sico - processar um diret√≥rio
result = create_embeddings(
    documents=["./documentos"],           # Diret√≥rio ou lista de arquivos
    model_name="qwen3-embedding:4b",      # Modelo do Ollama
    chunk_size=1000,                      # Tamanho de cada chunk
    chunk_overlap=150,                    # Sobreposi√ß√£o entre chunks
    output_prefix="meu_indice"            # Nome dos arquivos de sa√≠da
)

# Resultado cont√©m informa√ß√µes sobre o processamento
print(f"\n{'='*60}")
print(f"‚úì Processamento conclu√≠do!")
print(f"{'='*60}")
print(f"Total de chunks: {result['total_chunks']}")
print(f"Tempo: {result['time_seconds']}s")
print(f"√çndice FAISS: {result['faiss_path']}")
print(f"Metadados: {result['metadata_path']}")

## 3. Exemplo com Arquivos Espec√≠ficos

Voc√™ pode especificar arquivos individuais em vez de diret√≥rios:

In [None]:
# Processar arquivos espec√≠ficos
result = create_embeddings(
    documents=[
        "artigo1.pdf",
        "dados.csv",
        "relatorio.parquet",
        "planilha.xlsx"
    ],
    model_name="qwen3-embedding:4b",
    chunk_size=800,           # Chunks menores
    chunk_overlap=100,        # Menos overlap
    output_prefix="arquivos_especificos"
)

print(f"‚úì {result['total_chunks']} chunks processados")

## 4. Customizando Todos os Par√¢metros

Voc√™ tem controle total sobre todos os aspectos do processamento:

In [None]:
result = create_embeddings(
    # Documentos a processar
    documents=["./docs_tecnicos", "./relatorios"],
    
    # Modelo de embedding do Ollama
    model_name="llama2",  # ou "qwen3-embedding:4b", "nomic-embed-text", etc.
    
    # Configura√ß√£o de chunking
    chunk_size=1200,       # Tamanho m√°ximo de cada chunk (caracteres)
    chunk_overlap=200,     # Sobreposi√ß√£o entre chunks (caracteres)
    
    # Performance
    batch_size=256,        # Quantos chunks processar por vez (menor = menos RAM)
    num_workers=8,         # Threads paralelas (mais = mais r√°pido, mas usa mais CPU)
    
    # Sa√≠da
    output_prefix="indice_completo"  # Gera indice_completo.faiss e indice_completo.jsonl
)

print(f"\nüìä Estat√≠sticas:")
print(f"   Chunks: {result['total_chunks']}")
print(f"   Tempo: {result['time_seconds']}s")
print(f"   Velocidade: {result['total_chunks'] / result['time_seconds']:.1f} chunks/s")

## 5. Usando Diferentes Modelos de IA

Voc√™ pode trocar o modelo facilmente. Exemplos de modelos Ollama para embeddings:

In [None]:
# Usando modelo Qwen (recomendado para portugu√™s)
result_qwen = create_embeddings(
    documents=["./docs"],
    model_name="qwen3-embedding:4b",
    chunk_size=1000,
    chunk_overlap=150,
    output_prefix="embeddings_qwen"
)

# Usando modelo Llama2
result_llama = create_embeddings(
    documents=["./docs"],
    model_name="llama2",
    chunk_size=1000,
    chunk_overlap=150,
    output_prefix="embeddings_llama"
)

# Usando Nomic Embed (√≥timo para embeddings)
result_nomic = create_embeddings(
    documents=["./docs"],
    model_name="nomic-embed-text",
    chunk_size=1000,
    chunk_overlap=150,
    output_prefix="embeddings_nomic"
)

print(f"Qwen: {result_qwen['total_chunks']} chunks")
print(f"Llama: {result_llama['total_chunks']} chunks")
print(f"Nomic: {result_nomic['total_chunks']} chunks")

## 6. Ajustando Chunks para Diferentes Tipos de Documento

Diferentes tipos de documentos podem precisar de configura√ß√µes diferentes:

In [None]:
# Para artigos t√©cnicos/cient√≠ficos - chunks maiores para preservar contexto
tech_docs = create_embeddings(
    documents=["./artigos_cientificos"],
    model_name="qwen3-embedding:4b",
    chunk_size=1500,      # Chunks grandes
    chunk_overlap=250,    # Overlap maior para n√£o perder contexto
    output_prefix="indice_tecnico"
)

# Para dados tabulares (CSV/Excel) - chunks menores
tabular_data = create_embeddings(
    documents=["./planilhas"],
    model_name="qwen3-embedding:4b",
    chunk_size=500,       # Chunks pequenos
    chunk_overlap=50,     # Overlap m√≠nimo
    output_prefix="indice_dados"
)

# Para documentos mistos - configura√ß√£o balanceada
mixed_docs = create_embeddings(
    documents=["./documentos_variados"],
    model_name="qwen3-embedding:4b",
    chunk_size=1000,      # Tamanho m√©dio
    chunk_overlap=150,    # Overlap m√©dio
    output_prefix="indice_geral"
)

print(f"T√©cnicos: {tech_docs['total_chunks']} chunks")
print(f"Tabulares: {tabular_data['total_chunks']} chunks")
print(f"Mistos: {mixed_docs['total_chunks']} chunks")

## 7. Otimizando Performance

Ajuste `batch_size` e `num_workers` conforme seus recursos:

In [None]:
# Configura√ß√£o para M√ÅXIMA VELOCIDADE (usa mais recursos)
fast_config = create_embeddings(
    documents=["./docs"],
    model_name="qwen3-embedding:4b",
    chunk_size=1000,
    chunk_overlap=150,
    batch_size=1024,      # Lotes grandes (usa mais RAM)
    num_workers=16,       # Muitas threads (usa mais CPU)
    output_prefix="fast_index"
)

# Configura√ß√£o para M√çNIMO USO DE RECURSOS (mais lento, mas seguro)
safe_config = create_embeddings(
    documents=["./docs"],
    model_name="qwen3-embedding:4b",
    chunk_size=1000,
    chunk_overlap=150,
    batch_size=128,       # Lotes pequenos (menos RAM)
    num_workers=2,        # Poucas threads (menos CPU)
    output_prefix="safe_index"
)

# Configura√ß√£o BALANCEADA (recomendado)
balanced_config = create_embeddings(
    documents=["./docs"],
    model_name="qwen3-embedding:4b",
    chunk_size=1000,
    chunk_overlap=150,
    batch_size=512,       # Lotes m√©dios
    num_workers=4,        # Threads moderadas
    output_prefix="balanced_index"
)

print("Configura√ß√µes testadas com sucesso!")

## 8. Resumo dos Par√¢metros

Refer√™ncia r√°pida de todos os par√¢metros dispon√≠veis:

| Par√¢metro | Tipo | Padr√£o | Descri√ß√£o |
|-----------|------|--------|-----------|
| `documents` | Lista[str] | **Obrigat√≥rio** | Arquivos ou diret√≥rios para processar |
| `model_name` | str | "qwen3-embedding:4b" | Modelo Ollama para embeddings |
| `chunk_size` | int | 1000 | Tamanho m√°ximo de cada chunk (caracteres) |
| `chunk_overlap` | int | 150 | Sobreposi√ß√£o entre chunks (caracteres) |
| `batch_size` | int | 512 | Chunks a processar por vez |
| `num_workers` | int | 4 | N√∫mero de threads paralelas |
| `output_prefix` | str | "vector_index" | Prefixo dos arquivos de sa√≠da |

### Formatos Suportados:
- üìÑ **PDF** - Documentos de texto
- üìä **CSV** - Planilhas de dados
- üì¶ **Parquet** - Dados colunares
- üìà **Excel** (.xlsx, .xls) - Planilhas do Microsoft Excel

## 9. Exemplo Pr√°tico Completo

Use este exemplo como template para seus projetos:

In [None]:
"""
EXEMPLO PR√ÅTICO: Criar embeddings de uma base de conhecimento
"""

# Passo 1: Definir configura√ß√µes
MODELO = "qwen3-embedding:4b"  # Escolha seu modelo
DOCUMENTOS = [
    "./base_conhecimento/pdfs",
    "./base_conhecimento/dados.csv",
    "./base_conhecimento/relatorio.xlsx"
]
TAMANHO_CHUNK = 1000
OVERLAP_CHUNK = 150
NOME_INDICE = "base_conhecimento_index"

# Passo 2: Criar embeddings
print("üöÄ Iniciando processamento...")
print(f"üìÅ Documentos: {DOCUMENTOS}")
print(f"ü§ñ Modelo: {MODELO}")
print(f"üìè Chunk size: {TAMANHO_CHUNK} | Overlap: {OVERLAP_CHUNK}")
print("-" * 60)

resultado = create_embeddings(
    documents=DOCUMENTOS,
    model_name=MODELO,
    chunk_size=TAMANHO_CHUNK,
    chunk_overlap=OVERLAP_CHUNK,
    batch_size=512,
    num_workers=4,
    output_prefix=NOME_INDICE
)

# Passo 3: Exibir resultados
print("\n" + "="*60)
print("‚úÖ PROCESSAMENTO CONCLU√çDO!")
print("="*60)
print(f"üìä Total de chunks criados: {resultado['total_chunks']}")
print(f"‚è±Ô∏è  Tempo de processamento: {resultado['time_seconds']}s")
print(f"‚ö° Velocidade m√©dia: {resultado['total_chunks']/resultado['time_seconds']:.1f} chunks/s")
print(f"\nüìÇ Arquivos gerados:")
print(f"   ‚Ä¢ √çndice FAISS: {resultado['faiss_path']}")
print(f"   ‚Ä¢ Metadados: {resultado['metadata_path']}")
print("="*60)

# Passo 4: Os arquivos est√£o prontos para uso em um sistema RAG!
print("\nüí° Pr√≥ximos passos:")
print("   1. Use o arquivo .faiss para busca vetorial")
print("   2. Use o arquivo .jsonl para recuperar metadados")
print("   3. Integre com seu sistema de chat/RAG")

## 10. Recursos Profissionais de Alta Qualidade

O sistema agora inclui **melhores pr√°ticas da ind√∫stria** para RAG:

In [None]:
# ‚úÖ CONFIGURA√á√ÉO PROFISSIONAL COMPLETA COM DETEC√á√ÉO AUTOM√ÅTICA
result = create_embeddings(
    documents=["./docs"],
    model_name="qwen3-embedding:4b",
    
    # Chunking
    chunk_size=1000,
    chunk_overlap=150,
    min_chunk_size=50,  # ‚úÖ Ignora chunks muito pequenos
    
    # Qualidade RAG
    normalize_embeddings=True,  # ‚úÖ CR√çTICO para similaridade coseno
    deduplicate=True,  # ‚úÖ Remove chunks duplicados
    add_document_context=True,  # ‚úÖ Adiciona contexto do documento pai
    
    # üÜï DETEC√á√ÉO AUTOM√ÅTICA DE √çNDICE (RECOMENDADO)
    # use_ivf_index=None (padr√£o)  - Sistema decide automaticamente
    # use_ivf_index=True           - For√ßa IVF (grande escala)
    # use_ivf_index=False          - For√ßa Flat (pequena escala)
    
    # Se omitir use_ivf_index, o sistema decide automaticamente:
    # - < 10.000 chunks ‚Üí IndexFlatL2 (busca exata, r√°pida)
    # - ‚â• 10.000 chunks ‚Üí IndexIVFFlat (busca aproximada, escal√°vel)
    
    ivf_threshold=10000,  # Threshold para ativar IVF (padr√£o: 10k)
    ivf_nlist=100,  # Clusters IVF (s√≥ usado se IVF for ativado)
    
    # Metadados customizados
    custom_metadata={
        "project": "Sistema RAG",
        "version": "2.0",
        "team": "IA",
        "environment": "production"
    },
    
    # Performance
    batch_size=512,
    num_workers=4,
    output_prefix="rag_profissional"
)

# ‚úÖ Estat√≠sticas detalhadas dispon√≠veis
print(f"\n{'='*70}")
print("ESTAT√çSTICAS PROFISSIONAIS")
print(f"{'='*70}")
print(f"‚úÖ Chunks √∫nicos indexados: {result['total_chunks']}")
print(f"üóëÔ∏è  Duplicados removidos: {result['duplicates_removed']}")
print(f"üìÅ Arquivos processados: {result['files_processed']}")
print(f"‚è±Ô∏è  Tempo total: {result['time_seconds']}s")
print(f"‚ö° Velocidade: {result['chunks_per_second']} chunks/s")
print(f"üìä Dimens√£o embedding: {result['embedding_dimension']}")
print(f"üîß Tipo de √≠ndice: {result['index_type']}")
print(f"ü§ñ Sele√ß√£o autom√°tica: {'Sim' if result['index_auto_selected'] else 'N√£o (for√ßado pelo usu√°rio)'}")
print(f"\nüìÇ Arquivos gerados:")
print(f"   ‚Ä¢ FAISS: {result['faiss_path']}")
print(f"   ‚Ä¢ Metadados: {result['metadata_path']}")
print(f"   ‚Ä¢ Estat√≠sticas: {result['stats_path']}")
print(f"{'='*70}")

# üí° EXPLICA√á√ÉO DA SELE√á√ÉO AUTOM√ÅTICA
if result['index_auto_selected']:
    if result['index_type'] == 'IVF':
        print("\nüí° Sistema detectou GRANDE VOLUME (‚â•10k chunks)")
        print("   ‚Üí IndexIVFFlat selecionado automaticamente")
        print("   ‚Üí Busca aproximada, mas 10-100x mais r√°pida")
    else:
        print("\nüí° Sistema detectou VOLUME MODERADO (<10k chunks)")
        print("   ‚Üí IndexFlatL2 selecionado automaticamente")
        print("   ‚Üí Busca exata e r√°pida")

## 11. üÜï Detec√ß√£o Autom√°tica de √çndice FAISS

**NOVIDADE PROFISSIONAL:** O sistema agora escolhe automaticamente o melhor tipo de √≠ndice baseado no volume de documentos!

### Como Funciona:

| Volume de Chunks | √çndice Selecionado | Caracter√≠sticas |
|------------------|-------------------|-----------------|
| **< 10.000** | IndexFlatL2 | Busca exata, muito r√°pida |
| **‚â• 10.000** | IndexIVFFlat | Busca aproximada, escal√°vel |

### Por que isso √© importante?

- ‚úÖ **Voc√™ n√£o precisa decidir** - o sistema otimiza automaticamente
- ‚úÖ **Performance ideal** - sempre usa o √≠ndice mais apropriado
- ‚úÖ **Escalabilidade** - funciona bem de 100 a 1 milh√£o de chunks
- ‚úÖ **Padr√£o da ind√∫stria** - mesmo comportamento do LlamaIndex/LangChain

### Voc√™ ainda tem controle (se quiser):

```python
# Detec√ß√£o autom√°tica (RECOMENDADO - deixe vazio ou omita)
result = create_embeddings(documents=["./docs"])

# For√ßar Flat (busca exata)
result = create_embeddings(documents=["./docs"], use_ivf_index=False)

# For√ßar IVF (grande escala)
result = create_embeddings(documents=["./docs"], use_ivf_index=True)

# Ajustar threshold (padr√£o: 10.000)
result = create_embeddings(documents=["./docs"], ivf_threshold=15000)
```

In [None]:
# Exemplo 1: Detec√ß√£o autom√°tica com documentos pequenos
pequeno = create_embeddings(
    documents=["./pequeno_dataset"],  # < 10k chunks
    model_name="qwen3-embedding:4b",
    output_prefix="indice_pequeno"
)
print(f"Dataset pequeno ‚Üí √çndice: {pequeno['index_type']}")
print(f"Sele√ß√£o autom√°tica: {pequeno['index_auto_selected']}")

# Exemplo 2: Detec√ß√£o autom√°tica com documentos grandes
grande = create_embeddings(
    documents=["./grande_dataset"],  # ‚â• 10k chunks
    model_name="qwen3-embedding:4b",
    output_prefix="indice_grande"
)
print(f"\nDataset grande ‚Üí √çndice: {grande['index_type']}")
print(f"Sele√ß√£o autom√°tica: {grande['index_auto_selected']}")

# Exemplo 3: Ajustando o threshold
custom = create_embeddings(
    documents=["./meus_docs"],
    model_name="qwen3-embedding:4b",
    ivf_threshold=15000,  # S√≥ usa IVF se tiver 15k+ chunks
    output_prefix="indice_custom"
)
print(f"\nThreshold customizado (15k) ‚Üí √çndice: {custom['index_type']}")