# Notebook 03: Embeddings e Ingest√£o no Pinecone

Este notebook realiza a ingest√£o dos dados processados no Pinecone. Aqui vamos:

1. **Conectar** com o √≠ndice Pinecone (biobyia)
2. **Configurar** o gerenciador de embeddings (Gemini ou Ollama)
3. **Gerar** embeddings para todos os chunks
4. **Ingerir** dados no Pinecone em lotes
5. **Verificar** ingest√£o bem-sucedida

## üìã Pr√©-requisitos

- Notebook 02 executado com sucesso (chunks processados)
- Vari√°veis de ambiente configuradas (PINECONE_API_KEY, GEMINI_API_KEY, etc.)
- √çndice Pinecone criado (biobyia)

## ‚ö†Ô∏è IMPORTANTE

- Este processo pode levar v√°rios minutos dependendo do tamanho do dataset
- Certifique-se de ter cr√©ditos suficientes no Pinecone
- A ingest√£o √© feita em lotes para otimizar performance

## üîÑ Ordem de Execu√ß√£o

Execute as c√©lulas **sequencialmente** (de cima para baixo).


In [None]:
# ============================================================================
# ETAPA 0: IMPORTA√á√ÉO DE BIBLIOTECAS E CONFIGURA√á√ïES
# ============================================================================

import sys
from pathlib import Path

# Adiciona o diret√≥rio raiz ao path
root_dir = Path.cwd().parent
sys.path.insert(0, str(root_dir))

# Importa m√≥dulos do pipeline RAG
from scripts.embeddings_manager import EmbeddingsManager
from scripts.pinecone_ingester import PineconeIngester
from config.settings import get_settings

# Carrega configura√ß√µes
settings = get_settings()

# Valida configura√ß√µes
is_valid, errors = settings.validate()
if not is_valid:
    print("‚ùå ERROS DE CONFIGURA√á√ÉO:")
    for error in errors:
        print(f"   - {error}")
    raise ValueError("Configura√ß√µes inv√°lidas")

print("‚úÖ Bibliotecas importadas com sucesso!")
settings.print_config()


In [None]:
# ============================================================================
# ETAPA 1: VERIFICA√á√ÉO DE CHUNKS (SE N√ÉO J√Å CARREGADOS)
# ============================================================================
# Se voc√™ executou o notebook 02, os chunks j√° est√£o na vari√°vel all_chunks
# Caso contr√°rio, voc√™ precisar√° carreg√°-los

# Verifica se all_chunks existe
try:
    print(f"‚úÖ Chunks j√° carregados: {len(all_chunks)} chunks prontos para ingest√£o")
except NameError:
    print("‚ö†Ô∏è  Vari√°vel 'all_chunks' n√£o encontrada!")
    print("   Execute o notebook 02 primeiro ou carregue os chunks processados")
    raise


In [None]:
# ============================================================================
# ETAPA 2: INICIALIZA√á√ÉO DO GERENCIADOR DE EMBEDDINGS
# ============================================================================
# Configura o provider de embeddings (Gemini ou Ollama)
# Gemini √© recomendado por ser mais r√°pido e confi√°vel

print("=" * 80)
print("üîß CONFIGURANDO EMBEDDINGS")
print("=" * 80)

# Cria gerenciador de embeddings
# Se n√£o especificar provider, detecta automaticamente das configura√ß√µes
embeddings_manager = EmbeddingsManager()

# Exibe informa√ß√µes sobre o provider
embedding_dim = embeddings_manager.get_embedding_dimension()
print(f"\nDimens√£o dos embeddings: {embedding_dim}")
print(f"Provider: {embeddings_manager.provider}")
print(f"Model: {embeddings_manager.model_name}")

print("=" * 80)


In [None]:
# ============================================================================
# ETAPA 3: INICIALIZA√á√ÉO DO INGESTER DO PINECONE
# ============================================================================
# Conecta com o √≠ndice Pinecone e prepara para ingest√£o

print("=" * 80)
print("üîå CONECTANDO COM PINECONE")
print("=" * 80)

# Cria ingester do Pinecone
ingester = PineconeIngester(
    embeddings_manager=embeddings_manager,
    index_name=settings.PINECONE_INDEX_NAME,
    namespace=settings.PINECONE_NAMESPACE,
    api_key=settings.PINECONE_API_KEY
)

print("=" * 80)


In [None]:
# ============================================================================
# ETAPA 4: INGEST√ÉO NO PINECONE
# ============================================================================
# Esta √© a etapa principal: gera embeddings e ingere todos os chunks
# no Pinecone em lotes otimizados
#
# ‚ö†Ô∏è ATEN√á√ÉO: Este processo pode levar v√°rios minutos!
# - Para ~10.000 chunks: ~10-15 minutos
# - Para ~100.000 chunks: ~2-3 horas
#
# O processo √© feito em lotes para:
# - Otimizar uso de API
# - Evitar rate limiting
# - Permitir retry em caso de erro

print("=" * 80)
print("üöÄ INICIANDO INGEST√ÉO NO PINECONE")
print("=" * 80)
print(f"Total de chunks a ingerir: {len(all_chunks)}")
print(f"Tamanho do lote: {settings.BATCH_SIZE}")
print(f"Total de lotes estimados: {(len(all_chunks) + settings.BATCH_SIZE - 1) // settings.BATCH_SIZE}")
print("\n‚è≥ Este processo pode levar v√°rios minutos...")
print("=" * 80)

# Realiza a ingest√£o
ingestion_stats = ingester.ingest_chunks(
    all_chunks,
    batch_size=settings.BATCH_SIZE,
    show_progress=True
)

print("\n" + "=" * 80)
print("üìä ESTAT√çSTICAS DA INGEST√ÉO")
print("=" * 80)
print(f"Total de chunks processados: {ingestion_stats['total_chunks']}")
print(f"Total de vetores inseridos: {ingestion_stats['total_vectors']}")
print(f"Total de lotes: {ingestion_stats['batches']}")
if ingestion_stats['errors']:
    print(f"Erros encontrados: {len(ingestion_stats['errors'])}")
    for error in ingestion_stats['errors'][:5]:  # Mostra apenas os 5 primeiros
        print(f"   - {error}")
print("=" * 80)


In [None]:
# ============================================================================
# ETAPA 5: VERIFICA√á√ÉO DA INGEST√ÉO
# ============================================================================
# Verifica se os dados foram ingeridos corretamente fazendo uma query de teste

print("=" * 80)
print("üîç VERIFICANDO INGEST√ÉO")
print("=" * 80)

# Importa fun√ß√£o de query
from scripts.rag_query import query_medical_rag

# Faz uma query de teste
test_query = "mitochondria apoptosis"
print(f"Query de teste: '{test_query}'")
print("-" * 80)

try:
    results = query_medical_rag(
        test_query,
        embeddings_manager=embeddings_manager,
        top_k=3
    )
    
    print(f"‚úÖ Query executada com sucesso!")
    print(f"   Resultados encontrados: {len(results)}")
    
    if results:
        print("\nüìÑ Primeiro resultado:")
        print(f"   Article ID: {results[0]['article_id']}")
        print(f"   Score: {results[0]['score']:.3f}")
        print(f"   Texto (primeiros 200 caracteres):")
        print(f"   {results[0]['text'][:200]}...")
    else:
        print("‚ö†Ô∏è  Nenhum resultado encontrado. Verifique se a ingest√£o foi bem-sucedida.")
        
except Exception as e:
    print(f"‚ùå Erro ao executar query de teste: {e}")

print("=" * 80)


## ‚úÖ Conclus√£o da Etapa 3

Neste notebook voc√™:
- ‚úÖ Configurou o gerenciador de embeddings
- ‚úÖ Conectou com o √≠ndice Pinecone
- ‚úÖ Gerou embeddings para todos os chunks
- ‚úÖ Ingeriu dados no Pinecone em lotes
- ‚úÖ Verificou a ingest√£o bem-sucedida

## üìå Pr√≥ximos Passos

Agora voc√™ est√° pronto para o pr√≥ximo notebook:
- **Notebook 04**: Testes de queries RAG
- Valida√ß√£o de recupera√ß√£o de contexto
- Exemplos pr√°ticos de uso
