# Notebook 03: Embeddings e Ingest√£o no Pinecone

Este notebook realiza a ingest√£o dos dados processados no Pinecone. Aqui vamos:

1. **Conectar** com o √≠ndice Pinecone (biobyia)
2. **Configurar** o gerenciador de embeddings (Gemini ou Ollama)
3. **Gerar** embeddings para todos os chunks
4. **Ingerir** dados no Pinecone em lotes
5. **Verificar** ingest√£o bem-sucedida

## üìã Pr√©-requisitos

- Notebook 02 executado com sucesso (chunks processados)
- Vari√°veis de ambiente configuradas (PINECONE_API_KEY, GEMINI_API_KEY, etc.)
- √çndice Pinecone criado (biobyia)

## ‚ö†Ô∏è IMPORTANTE

- Este processo pode levar v√°rios minutos dependendo do tamanho do dataset
- Certifique-se de ter cr√©ditos suficientes no Pinecone
- A ingest√£o √© feita em lotes para otimizar performance

## üîÑ Ordem de Execu√ß√£o

Execute as c√©lulas **sequencialmente** (de cima para baixo).


In [2]:
%pip install python-dotenv tenacity pinecone langchain langchain-community langchain-google-genai google-generativeai tiktoken sentence-transformers tqdm

Defaulting to user installation because normal site-packages is not writeable
You should consider upgrading via the '/Library/Developer/CommandLineTools/usr/bin/python3 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [None]:
%pip install python-dotenv tenacity pinecone langchain langchain-community langchain-google-genai google-generativeai tiktoken sentence-transformers tqdm

In [8]:
# ============================================================================
# ETAPA 0: IMPORTA√á√ÉO DE BIBLIOTECAS E CONFIGURA√á√ïES
# ============================================================================
# Esta c√©lula importa todas as bibliotecas necess√°rias e configura o ambiente
# Execute esta c√©lula PRIMEIRO antes de qualquer outra opera√ß√£o

import sys
import importlib
import os
from pathlib import Path

# Adiciona o diret√≥rio raiz ao path para importar m√≥dulos
# Quando executado do diret√≥rio notebooks/, o parent √© rag_medical/
root_dir = Path.cwd().parent
if str(root_dir) not in sys.path:
    sys.path.insert(0, str(root_dir))

# ============================================================================
# CARREGA VARI√ÅVEIS DE AMBIENTE DO ARQUIVO .env
# ============================================================================
# Garante que o .env seja carregado do diret√≥rio raiz do projeto (rag_medical/)
try:
    from dotenv import load_dotenv
    
    # Caminho para o arquivo .env no diret√≥rio raiz do projeto
    env_path = root_dir / '.env'
    
    if env_path.exists():
        load_dotenv(dotenv_path=str(env_path))
        print(f"‚úÖ Arquivo .env carregado: {env_path}")
    else:
        print(f"‚ö†Ô∏è  Arquivo .env n√£o encontrado em: {env_path}")
        print(f"   Crie o arquivo .env baseado em env.example")
        print(f"   Localiza√ß√£o esperada: {env_path}")
        
except ImportError:
    print("‚ö†Ô∏è  python-dotenv n√£o instalado. Vari√°veis de ambiente do sistema ser√£o usadas.")
    print("   Instale com: pip install python-dotenv")

# Recarrega m√≥dulos se j√° foram importados (√∫til durante desenvolvimento)
# IMPORTANTE: Recarrega na ordem correta (depend√™ncias primeiro)
modules_to_reload = [
    'config.settings',
    'config',
    'scripts.embeddings_manager',
    'scripts.pinecone_ingester'
]

for module_name in modules_to_reload:
    if module_name in sys.modules:
        try:
            importlib.reload(sys.modules[module_name])
            print(f"üîÑ M√≥dulo recarregado: {module_name}")
        except Exception as e:
            print(f"‚ö†Ô∏è  Aviso ao recarregar {module_name}: {e}")

# Importa configura√ß√µes
from config.settings import get_settings

# Carrega configura√ß√µes
settings = get_settings()

# Tenta importar m√≥dulos do pipeline RAG (podem falhar se depend√™ncias n√£o estiverem instaladas)
try:
    from scripts.embeddings_manager import EmbeddingsManager
except ImportError as e:
    print(f"‚ùå Erro ao importar EmbeddingsManager: {e}")
    print(f"   Instale as depend√™ncias no ambiente virtual:")
    print(f"   cd {root_dir}")
    print(f"   pip install -r requirements.txt")
    EmbeddingsManager = None

try:
    from scripts.pinecone_ingester import PineconeIngester
except ImportError as e:
    print(f"‚ùå Erro ao importar PineconeIngester: {e}")
    print(f"   Instale as depend√™ncias no ambiente virtual:")
    print(f"   cd {root_dir}")
    print(f"   pip install -r requirements.txt")
    print(f"   Especificamente: pip install tenacity pinecone")
    PineconeIngester = None

# Verifica se os m√≥dulos foram importados com sucesso ANTES de validar configura√ß√µes
if EmbeddingsManager is None or PineconeIngester is None:
    print("\n" + "=" * 80)
    print("‚ùå M√ìDULOS NECESS√ÅRIOS N√ÉO FORAM IMPORTADOS!")
    print("=" * 80)
    print(f"üì¶ Instale as depend√™ncias no ambiente virtual:")
    print(f"   1. Ative o ambiente virtual")
    print(f"   2. cd {root_dir}")
    print(f"   3. pip install -r requirements.txt")
    print("=" * 80)
    raise ImportError("Depend√™ncias n√£o instaladas")

# Valida configura√ß√µes (strict=True porque este notebook precisa de Pinecone e Embeddings)
is_valid, errors = settings.validate(strict=True)
if not is_valid:
    print("\n" + "=" * 80)
    print("‚ùå ERROS DE CONFIGURA√á√ÉO:")
    print("=" * 80)
    for error in errors:
        print(f"   - {error}")
    print("\nüí° SOLU√á√ÉO:")
    print(f"   1. Crie o arquivo .env em: {root_dir / '.env'}")
    print(f"   2. Copie de: {root_dir / 'env.example'}")
    print(f"   3. Preencha com suas credenciais reais")
    print("=" * 80)
    raise ValueError("Configura√ß√µes inv√°lidas")

print("\n‚úÖ Bibliotecas importadas com sucesso!")
settings.print_config()


‚úÖ Arquivo .env carregado: /Users/vitorteixeira/Developer/projects/tech_challenge_fase_3_v2/rag_medical/.env
üîÑ M√≥dulo recarregado: config.settings
üîÑ M√≥dulo recarregado: config
üîÑ M√≥dulo recarregado: scripts.embeddings_manager
üîÑ M√≥dulo recarregado: scripts.pinecone_ingester

‚úÖ Bibliotecas importadas com sucesso!
‚öôÔ∏è  CONFIGURA√á√ÉO DO PIPELINE RAG
Pinecone Index: biobyia
Pinecone Namespace: medical_qa
Embedding Provider: gemini
Embedding Model: text-embedding-004
Data Path: /Users/vitorteixeira/Developer/projects/tech_challenge_fase_3_v2/rag_medical/ori_pqal.json
Chunk Size: 512
Chunk Overlap: 50
Batch Size: 100
Top K Results: 5


In [9]:
# ============================================================================
# ETAPA 1: VERIFICA√á√ÉO E CARREGAMENTO DE CHUNKS
# ============================================================================
# Tenta carregar chunks de m√∫ltiplas fontes:
# 1. Vari√°vel all_chunks na mem√≥ria (se notebook 02 foi executado)
# 2. Arquivo JSON salvo (se chunks foram salvos anteriormente)
# 3. Reprocessamento dos dados (se necess√°rio)

import json

# Verifica se all_chunks j√° existe na mem√≥ria
try:
    chunks_count = len(all_chunks)
    print(f"‚úÖ Chunks j√° carregados na mem√≥ria: {chunks_count} chunks prontos para ingest√£o")
except NameError:
    print("‚ö†Ô∏è  Vari√°vel 'all_chunks' n√£o encontrada na mem√≥ria")
    print("   Tentando carregar de arquivo salvo...")
    
    # Tenta carregar de arquivo JSON salvo
    chunks_loaded = False
    possible_chunk_files = [
        root_dir / 'processed_chunks.json',
        root_dir / 'chunks.json',
        root_dir / 'data' / 'processed_chunks.json',
    ]
    
    for chunk_file in possible_chunk_files:
        if chunk_file.exists():
            try:
                print(f"   üìÇ Tentando carregar: {chunk_file}")
                with open(chunk_file, 'r', encoding='utf-8') as f:
                    all_chunks = json.load(f)
                chunks_count = len(all_chunks)
                print(f"‚úÖ Chunks carregados do arquivo: {chunks_count} chunks")
                chunks_loaded = True
                break
            except Exception as e:
                print(f"   ‚ö†Ô∏è  Erro ao carregar {chunk_file}: {e}")
                continue
    
    # Se n√£o conseguiu carregar de arquivo, exibe instru√ß√µes
    if not chunks_loaded:
        chunk_file_path = root_dir / 'processed_chunks.json'
        print("\n" + "=" * 80)
        print("‚ö†Ô∏è  CHUNKS N√ÉO ENCONTRADOS")
        print("=" * 80)
        print("A vari√°vel 'all_chunks' n√£o est√° dispon√≠vel.")
        print("\nüí° SOLU√á√ïES:")
        print("\nüìù Op√ß√£o 1: Execute o notebook 02 completo")
        print("   1. Abra o notebook 02-process-medical-data.ipynb")
        print("   2. Execute TODAS as c√©lulas sequencialmente:")
        print("      - C√©lula 1: Importa√ß√£o de bibliotecas")
        print("      - C√©lula 2: Carregamento do dataset")
        print("      - C√©lula 3: Processamento de dados")
        print("      - C√©lula 4: Filtragem de entradas")
        print("      - C√©lula 5: Divis√£o em chunks (cria 'all_chunks')")
        print("   3. Depois, volte para este notebook e execute esta c√©lula novamente")
        print("\nüíæ Op√ß√£o 2: Carregue de um arquivo JSON salvo")
        print("   Se voc√™ j√° processou os dados antes, salve os chunks:")
        print("   (Execute no notebook 02, ap√≥s a c√©lula 5)")
        print("   import json")
        print(f"   with open('{chunk_file_path}', 'w') as f:")
        print("       json.dump(all_chunks, f, ensure_ascii=False, indent=2)")
        print("\n   Depois, coloque o arquivo em um destes locais:")
        for chunk_file in possible_chunk_files:
            print(f"   - {chunk_file}")
        print("=" * 80)
        raise NameError(
            "Vari√°vel 'all_chunks' n√£o encontrada. "
            "Execute o notebook 02 primeiro (especialmente a c√©lula 5 que cria 'all_chunks') "
            "ou carregue os chunks de um arquivo JSON."
        )


‚úÖ Chunks j√° carregados na mem√≥ria: 5320 chunks prontos para ingest√£o


In [10]:
# ============================================================================
# ETAPA 2: INICIALIZA√á√ÉO DO GERENCIADOR DE EMBEDDINGS
# ============================================================================
# Configura o provider de embeddings (Gemini ou Ollama)
# Gemini √© recomendado por ser mais r√°pido e confi√°vel

print("=" * 80)
print("üîß CONFIGURANDO EMBEDDINGS")
print("=" * 80)

# Cria gerenciador de embeddings
# Se n√£o especificar provider, detecta automaticamente das configura√ß√µes
embeddings_manager = EmbeddingsManager()

# Exibe informa√ß√µes sobre o provider
embedding_dim = embeddings_manager.get_embedding_dimension()
print(f"\nDimens√£o dos embeddings: {embedding_dim}")
print(f"Provider: {embeddings_manager.provider}")
print(f"Model: {embeddings_manager.model_name}")

print("=" * 80)


üîß CONFIGURANDO EMBEDDINGS
‚úÖ Embeddings Gemini inicializados: models/text-embedding-004

Dimens√£o dos embeddings: 768
Provider: gemini
Model: text-embedding-004


In [11]:
# ============================================================================
# ETAPA 3: INICIALIZA√á√ÉO DO INGESTER DO PINECONE
# ============================================================================
# Conecta com o √≠ndice Pinecone e prepara para ingest√£o
#
# ‚ö†Ô∏è IMPORTANTE: Se voc√™ modificou o c√≥digo de pinecone_ingester.py,
# execute a c√©lula 3 novamente para recarregar o m√≥dulo antes desta c√©lula

print("=" * 80)
print("üîå CONECTANDO COM PINECONE")
print("=" * 80)

# Recarrega o m√≥dulo para garantir que temos a vers√£o mais recente
if 'scripts.pinecone_ingester' in sys.modules:
    importlib.reload(sys.modules['scripts.pinecone_ingester'])
    # Re-importa para garantir que temos a classe atualizada
    from scripts.pinecone_ingester import PineconeIngester

# Cria ingester do Pinecone
ingester = PineconeIngester(
    embeddings_manager=embeddings_manager,
    index_name=settings.PINECONE_INDEX_NAME,
    namespace=settings.PINECONE_NAMESPACE,
    api_key=settings.PINECONE_API_KEY
)

print("=" * 80)


üîå CONECTANDO COM PINECONE
‚úÖ Pinecone inicializado: √≠ndice 'biobyia'
   Namespace: medical_qa
   Dimens√£o dos embeddings: 768
   Dimens√£o do √≠ndice Pinecone: 768
   ‚úÖ Dimens√µes compat√≠veis!


In [12]:
# ============================================================================
# ETAPA 4: INGEST√ÉO NO PINECONE
# ============================================================================
# Esta √© a etapa principal: gera embeddings e ingere todos os chunks
# no Pinecone em lotes otimizados
#
# ‚ö†Ô∏è ATEN√á√ÉO: Este processo pode levar v√°rios minutos!
# - Para ~10.000 chunks: ~10-15 minutos
# - Para ~100.000 chunks: ~2-3 horas
#
# O processo √© feito em lotes para:
# - Otimizar uso de API
# - Evitar rate limiting
# - Permitir retry em caso de erro
#
# üíæ CHECKPOINTING AUTOM√ÅTICO:
# - O processo salva automaticamente o progresso a cada 10 lotes
# - Se interrompido (Ctrl+C), voc√™ pode retomar executando esta c√©lula novamente
# - O checkpoint √© salvo em: rag_medical/checkpoints/
# - O processo continuar√° automaticamente de onde parou

import time

# Valida√ß√£o pr√©-ingest√£o
try:
    chunks_available = len(all_chunks) > 0
except NameError:
    print("=" * 80)
    print("‚ùå ERRO: Chunks n√£o encontrados")
    print("=" * 80)
    print("A vari√°vel 'all_chunks' n√£o est√° definida.")
    print("\nüí° SOLU√á√ÉO:")
    print("   1. Execute a c√©lula 4 (ETAPA 1) primeiro para carregar os chunks")
    print("   2. Ou execute o notebook 02 para processar os dados")
    print("=" * 80)
    raise NameError(
        "Vari√°vel 'all_chunks' n√£o encontrada. "
        "Execute a c√©lula 4 (ETAPA 1) primeiro ou o notebook 02."
    )

if not chunks_available:
    raise ValueError("Nenhum chunk dispon√≠vel para ingest√£o. Execute o notebook 02 primeiro.")

total_chunks = len(all_chunks)
batch_size = settings.BATCH_SIZE
total_batches = (total_chunks + batch_size - 1) // batch_size

# Estimativa de tempo (baseada em ~1-2 segundos por lote)
estimated_minutes = max(1, int(total_batches * 1.5 / 60))
if estimated_minutes < 60:
    estimated_time = f"~{estimated_minutes} min"
else:
    hours = estimated_minutes // 60
    mins = estimated_minutes % 60
    estimated_time = f"~{hours}h {mins}min" if mins > 0 else f"~{hours}h"

print("=" * 80)
print("üöÄ INICIANDO INGEST√ÉO NO PINECONE")
print("=" * 80)
print(f"üìä Informa√ß√µes da Ingest√£o:")
print(f"   ‚Ä¢ Total de chunks: {total_chunks:,}")
print(f"   ‚Ä¢ Tamanho do lote: {batch_size}")
print(f"   ‚Ä¢ Total de lotes: {total_batches:,}")
print(f"   ‚Ä¢ √çndice Pinecone: {settings.PINECONE_INDEX_NAME}")
if settings.PINECONE_NAMESPACE:
    print(f"   ‚Ä¢ Namespace: {settings.PINECONE_NAMESPACE}")
print(f"   ‚Ä¢ Provider de embeddings: {embeddings_manager.provider}")
print(f"   ‚Ä¢ Modelo: {embeddings_manager.model_name}")
print(f"\n‚è±Ô∏è  Tempo estimado: {estimated_time}")
print(f"‚è≥ Este processo pode levar v√°rios minutos...")
print("=" * 80)

# Verifica se o m√≥dulo foi recarregado corretamente
# Se voc√™ receber erro sobre par√¢metros inesperados, execute as c√©lulas 3 e 6 novamente
import inspect
ingest_method = getattr(ingester, 'ingest_chunks', None)
if ingest_method:
    sig = inspect.signature(ingest_method)
    has_checkpoint_params = 'resume_from_checkpoint' in sig.parameters
    if not has_checkpoint_params:
        print("‚ö†Ô∏è  AVISO: O m√≥dulo pinecone_ingester n√£o foi recarregado!")
        print("   Execute as c√©lulas 3 e 6 novamente para carregar a vers√£o atualizada.")
        print("   Ou reinicie o kernel e execute todas as c√©lulas novamente.")
        raise RuntimeError(
            "M√≥dulo n√£o atualizado. Execute as c√©lulas 3 e 6 novamente, "
            "ou reinicie o kernel."
        )

# Registra tempo de in√≠cio
start_time = time.time()

# Realiza a ingest√£o com suporte a checkpointing
# O checkpointing permite retomar de onde parou em caso de interrup√ß√£o
try:
    ingestion_stats = ingester.ingest_chunks(
        all_chunks,
        batch_size=batch_size,
        show_progress=True,
        resume_from_checkpoint=True,  # Retoma de checkpoint se existir
        checkpoint_interval=10  # Salva checkpoint a cada 10 lotes
    )
    
    # Calcula tempo decorrido
    elapsed_time = time.time() - start_time
    elapsed_minutes = int(elapsed_time // 60)
    elapsed_seconds = int(elapsed_time % 60)
    
    print("\n" + "=" * 80)
    print("üìä ESTAT√çSTICAS DA INGEST√ÉO")
    print("=" * 80)
    
    # Status da ingest√£o
    success_rate = (ingestion_stats['total_vectors'] / ingestion_stats['total_chunks'] * 100) if ingestion_stats['total_chunks'] > 0 else 0
    
    if ingestion_stats.get('interrupted', False):
        status = "‚è∏Ô∏è  Interrompida (checkpoint salvo)"
    elif success_rate == 100:
        status = "‚úÖ Conclu√≠da com sucesso"
    elif success_rate >= 95:
        status = "‚ö†Ô∏è  Conclu√≠da com alguns erros"
    else:
        status = "‚ùå Conclu√≠da com muitos erros"
    
    print(f"{status}")
    print(f"\nüìà Resultados:")
    print(f"   ‚Ä¢ Total de chunks processados: {ingestion_stats['total_chunks']:,}")
    print(f"   ‚Ä¢ Total de vetores inseridos: {ingestion_stats['total_vectors']:,}")
    print(f"   ‚Ä¢ Total de lotes processados: {ingestion_stats['batches']:,}")
    print(f"   ‚Ä¢ Taxa de sucesso: {success_rate:.1f}%")
    print(f"\n‚è±Ô∏è  Tempo decorrido: {elapsed_minutes}min {elapsed_seconds}s")
    
    if ingestion_stats.get('interrupted', False):
        print(f"\nüíæ Checkpoint salvo em: {ingestion_stats.get('checkpoint_path', 'N/A')}")
        print(f"   Para retomar, execute esta c√©lula novamente.")
        print(f"   O processo continuar√° automaticamente de onde parou.")
    
    if ingestion_stats['errors']:
        print(f"\n‚ö†Ô∏è  Erros encontrados: {len(ingestion_stats['errors'])}")
        print("   Primeiros erros:")
        for i, error in enumerate(ingestion_stats['errors'][:5], 1):
            print(f"   {i}. {error}")
        if len(ingestion_stats['errors']) > 5:
            print(f"   ... e mais {len(ingestion_stats['errors']) - 5} erros")
    else:
        print(f"\n‚úÖ Nenhum erro encontrado!")
    
    print("=" * 80)
    
except KeyboardInterrupt:
    print("\n" + "=" * 80)
    print("‚ö†Ô∏è  INGEST√ÉO INTERROMPIDA PELO USU√ÅRIO")
    print("=" * 80)
    print("A ingest√£o foi cancelada. Um checkpoint foi salvo automaticamente.")
    print("\nüí° Para retomar:")
    print("   1. Execute esta c√©lula novamente")
    print("   2. O processo continuar√° automaticamente de onde parou")
    print("   3. Os chunks j√° processados foram inseridos no Pinecone")
    print("=" * 80)
    # N√£o re-raise para permitir que o usu√°rio veja a mensagem
    ingestion_stats = {"interrupted": True, "total_vectors": 0, "total_chunks": total_chunks}
    
except Exception as e:
    print("\n" + "=" * 80)
    print("‚ùå ERRO DURANTE A INGEST√ÉO")
    print("=" * 80)
    print(f"Erro: {e}")
    print("\nüí° Poss√≠veis solu√ß√µes:")
    print("   1. Verifique sua conex√£o com a internet")
    print("   2. Verifique suas credenciais do Pinecone e Gemini")
    print("   3. Verifique se h√° cr√©ditos suficientes no Pinecone")
    print("   4. Tente executar novamente com um batch_size menor")
    print("   5. Se foi interrompido, execute novamente para retomar de checkpoint")
    print("=" * 80)
    raise


üöÄ INICIANDO INGEST√ÉO NO PINECONE
üìä Informa√ß√µes da Ingest√£o:
   ‚Ä¢ Total de chunks: 5,320
   ‚Ä¢ Tamanho do lote: 100
   ‚Ä¢ Total de lotes: 54
   ‚Ä¢ √çndice Pinecone: biobyia
   ‚Ä¢ Namespace: medical_qa
   ‚Ä¢ Provider de embeddings: gemini
   ‚Ä¢ Modelo: text-embedding-004

‚è±Ô∏è  Tempo estimado: ~1 min
‚è≥ Este processo pode levar v√°rios minutos...

üìã Checkpoint encontrado! Retomando de √≠ndice 0
   J√° processados: 0/5320 chunks

üöÄ Iniciando ingest√£o de 5320 chunks no Pinecone...
   Batch size: 100
   √çndice: biobyia
   Namespace: medical_qa


Ingerindo chunks:   0%|          | 0/5320 [00:00<?, ?it/s]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 1/5320 [00:04<6:56:32,  4.70s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 2/5320 [00:08<5:47:22,  3.92s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 3/5320 [00:12<5:58:57,  4.05s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 4/5320 [00:15<5:25:31,  3.67s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 5/5320 [00:18<5:07:08,  3.47s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 6/5320 [00:21<4:59:42,  3.38s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 7/5320 [00:24<4:55:47,  3.34s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 8/5320 [00:29<5:25:16,  3.67s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 9/5320 [00:32<5:06:46,  3.47s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 10/5320 [00:35<5:01:47,  3.41s/it]


üíæ Checkpoint salvo: 1000/5320 chunks processados
   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 11/5320 [00:39<5:01:01,  3.40s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 12/5320 [00:42<5:01:38,  3.41s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 13/5320 [00:45<4:55:58,  3.35s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 14/5320 [00:49<4:57:05,  3.36s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 15/5320 [00:52<4:54:05,  3.33s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 16/5320 [00:55<4:51:27,  3.30s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 17/5320 [00:59<4:58:06,  3.37s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 18/5320 [01:02<5:00:01,  3.40s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 19/5320 [01:06<5:03:39,  3.44s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 20/5320 [01:09<5:06:37,  3.47s/it]


üíæ Checkpoint salvo: 2000/5320 chunks processados
   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 21/5320 [01:12<5:01:54,  3.42s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 22/5320 [01:16<5:02:46,  3.43s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 23/5320 [01:19<4:59:04,  3.39s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 24/5320 [01:22<4:54:11,  3.33s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 25/5320 [01:26<4:55:10,  3.34s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   0%|          | 26/5320 [01:29<4:58:03,  3.38s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 27/5320 [01:32<4:53:52,  3.33s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 28/5320 [01:36<4:53:43,  3.33s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 29/5320 [01:39<4:53:53,  3.33s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 30/5320 [01:43<5:00:11,  3.40s/it]


üíæ Checkpoint salvo: 3000/5320 chunks processados
   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 31/5320 [01:46<4:59:00,  3.39s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 32/5320 [01:49<5:01:18,  3.42s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 33/5320 [01:53<4:57:26,  3.38s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 34/5320 [01:56<4:53:28,  3.33s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 35/5320 [01:59<4:53:46,  3.34s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 36/5320 [02:03<4:51:54,  3.31s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 37/5320 [02:06<4:55:21,  3.35s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 38/5320 [02:10<4:59:25,  3.40s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 39/5320 [02:13<5:01:11,  3.42s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 40/5320 [02:17<5:03:07,  3.44s/it]


üíæ Checkpoint salvo: 4000/5320 chunks processados
   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 41/5320 [02:20<5:01:10,  3.42s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 42/5320 [02:23<4:56:06,  3.37s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 43/5320 [02:27<5:19:06,  3.63s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 44/5320 [02:30<4:56:05,  3.37s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 45/5320 [02:33<4:45:48,  3.25s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 46/5320 [02:36<4:41:03,  3.20s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 47/5320 [02:39<4:34:57,  3.13s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 48/5320 [02:42<4:32:38,  3.10s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 49/5320 [02:45<4:29:59,  3.07s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 50/5320 [02:48<4:28:26,  3.06s/it]


üíæ Checkpoint salvo: 5000/5320 chunks processados
   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 51/5320 [02:51<4:26:56,  3.04s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 52/5320 [02:54<4:25:56,  3.03s/it]

   Gerando embeddings para 100 chunks...


Ingerindo chunks:   1%|          | 53/5320 [02:57<4:28:32,  3.06s/it]

   Gerando embeddings para 20 chunks...


Ingerindo chunks:   1%|          | 54/5320 [02:58<4:50:34,  3.31s/it]


‚úÖ Ingest√£o conclu√≠da!
   Vetores inseridos: 5320/5320

üìä ESTAT√çSTICAS DA INGEST√ÉO
‚úÖ Conclu√≠da com sucesso

üìà Resultados:
   ‚Ä¢ Total de chunks processados: 5,320
   ‚Ä¢ Total de vetores inseridos: 5,320
   ‚Ä¢ Total de lotes processados: 54
   ‚Ä¢ Taxa de sucesso: 100.0%

‚è±Ô∏è  Tempo decorrido: 2min 58s

‚úÖ Nenhum erro encontrado!





In [13]:
# ============================================================================
# ETAPA 5: VERIFICA√á√ÉO DA INGEST√ÉO
# ============================================================================
# Verifica se os dados foram ingeridos corretamente fazendo uma query de teste

print("=" * 80)
print("üîç VERIFICANDO INGEST√ÉO")
print("=" * 80)

# Importa fun√ß√£o de query
from scripts.rag_query import query_medical_rag

# Faz uma query de teste
test_query = "mitochondria apoptosis"
print(f"Query de teste: '{test_query}'")
print("-" * 80)

try:
    results = query_medical_rag(
        test_query,
        embeddings_manager=embeddings_manager,
        top_k=3
    )
    
    print(f"‚úÖ Query executada com sucesso!")
    print(f"   Resultados encontrados: {len(results)}")
    
    if results:
        print("\nüìÑ Primeiro resultado:")
        print(f"   Article ID: {results[0]['article_id']}")
        print(f"   Score: {results[0]['score']:.3f}")
        print(f"   Texto (primeiros 200 caracteres):")
        print(f"   {results[0]['text'][:200]}...")
    else:
        print("‚ö†Ô∏è  Nenhum resultado encontrado. Verifique se a ingest√£o foi bem-sucedida.")
        
except Exception as e:
    print(f"‚ùå Erro ao executar query de teste: {e}")

print("=" * 80)


üîç VERIFICANDO INGEST√ÉO
Query de teste: 'mitochondria apoptosis'
--------------------------------------------------------------------------------
‚úÖ Query executada com sucesso!
   Resultados encontrados: 3

üìÑ Primeiro resultado:
   Article ID: 21645374
   Score: 0.600
   Texto (primeiros 200 caracteres):
   dye MitoTracker Red CMXRos and examined. Mitochondrial dynamics were delineated into four categories (M1-M4) based on characteristics including distribution, motility, and membrane potential (ŒîŒ®m). A ...


## ‚úÖ Conclus√£o da Etapa 3

Neste notebook voc√™:
- ‚úÖ Configurou o gerenciador de embeddings
- ‚úÖ Conectou com o √≠ndice Pinecone
- ‚úÖ Gerou embeddings para todos os chunks
- ‚úÖ Ingeriu dados no Pinecone em lotes
- ‚úÖ Verificou a ingest√£o bem-sucedida

## üìå Pr√≥ximos Passos

Agora voc√™ est√° pronto para o pr√≥ximo notebook:
- **Notebook 04**: Testes de queries RAG
- Valida√ß√£o de recupera√ß√£o de contexto
- Exemplos pr√°ticos de uso
