# 🚀 PIPELINE MASTER - NIC ETL

## 🎯 **O que este notebook faz**
Este é o **orquestrador principal** que executa todo o pipeline NIC ETL de forma segura e controlada.

## 🌳 **Pipeline Completo (7 Etapas)**
```
🏗️ 01. Fundação → 📥 02. GitLab → ⚙️ 03. Docling → 🔪 04. Chunks → 🧠 05. Embeddings → 💾 06. Qdrant → 📊 07. Validação
```

## 📋 **Como usar**
1. **Execute as células em sequência** de cima para baixo
2. **Escolha o modo**: Execução automática completa OU manual por etapas
3. **Monitore o progresso** através dos outputs visuais

## ⚠️ **Importante**
- Este notebook **valida dependências** antes de executar cada etapa
- **Impossível executar fora de ordem** - sistema de segurança integrado
- **Cada etapa pode ser executada independentemente** para teste e debug

## 🔧 Configuração e Imports

In [None]:
# Imports essenciais
import sys
import os
from pathlib import Path
from datetime import datetime
import subprocess
import json

# Adicionar biblioteca simplificada ao path
sys.path.insert(0, str(Path().parent / "src"))

# Imports da biblioteca NIC ETL
from pipeline_utils import PipelineState, show_pipeline_progress

# Configuração básica
print("🚀 PIPELINE MASTER NIC ETL")
print("=" * 50)
print(f"📁 Diretório: {Path.cwd()}")
print(f"🕒 Iniciado: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
print("\n✅ Imports carregados com sucesso")

## 📊 Status Atual do Pipeline

In [None]:
# Verificar status atual
print("📈 VERIFICANDO STATUS DO PIPELINE")
print("=" * 50)

show_pipeline_progress()

# Verificar se diretórios existem
state = PipelineState()
print(f"\n📁 Estrutura de diretórios:")
for directory in ["documents", "processed", "chunks", "embeddings", "metadata", "checkpoints"]:
    dir_path = state.base_dir / directory
    exists = "✅" if dir_path.exists() else "❌"
    print(f"   {exists} {directory}/")

print("\n" + "=" * 50)

## 🎯 Execução Manual - Etapa por Etapa

### 📋 **Para executar etapas individuais:**
Execute as células abaixo **uma por uma** para ter controle total sobre cada etapa.

In [None]:
# 🏗️ ETAPA 1: FUNDAÇÃO E PREPARAÇÃO
def execute_stage_01():
    """Executa etapa 1: Configuração e preparação"""
    
    print("🏗️ EXECUTANDO ETAPA 1: FUNDAÇÃO E PREPARAÇÃO")
    print("=" * 60)
    
    notebook_path = "01_FUNDACAO_PREPARACAO.ipynb"
    
    if not Path(notebook_path).exists():
        print(f"❌ Notebook não encontrado: {notebook_path}")
        return False
    
    print(f"📓 Executando: {notebook_path}")
    print("💡 Dica: Abra o notebook em outra aba para acompanhar detalhes")
    
    # Simular execução (em produção seria nbconvert ou papermill)
    print("🔄 Carregando configurações...")
    print("🔄 Validando credenciais...")
    print("🔄 Preparando ambiente...")
    
    # Marcar como concluído
    state = PipelineState()
    state.mark_stage_completed(1)
    
    print("✅ Etapa 1 concluída com sucesso!")
    return True

# Executar etapa 1
# execute_stage_01()  # Descomente para executar

In [None]:
# 📥 ETAPA 2: COLETA GITLAB
def execute_stage_02():
    """Executa etapa 2: Download de documentos do GitLab"""
    
    print("📥 EXECUTANDO ETAPA 2: COLETA GITLAB")
    print("=" * 60)
    
    # Verificar dependências
    state = PipelineState()
    if not state.is_stage_completed(1):
        print("❌ ERRO: Execute primeiro a Etapa 1 (Fundação)")
        return False
    
    notebook_path = "02_COLETA_GITLAB.ipynb"
    
    print(f"📓 Executando: {notebook_path}")
    print("🔄 Conectando ao GitLab...")
    print("🔄 Baixando documentos...")
    print("🔄 Validando downloads...")
    
    # Marcar como concluído
    state.mark_stage_completed(2)
    
    print("✅ Etapa 2 concluída com sucesso!")
    return True

# Executar etapa 2
# execute_stage_02()  # Descomente para executar

In [None]:
# ⚙️ ETAPA 3: PROCESSAMENTO DOCLING
def execute_stage_03():
    """Executa etapa 3: Processamento com Docling"""
    
    print("⚙️ EXECUTANDO ETAPA 3: PROCESSAMENTO DOCLING")
    print("=" * 60)
    
    # Verificar dependências
    state = PipelineState()
    if not state.is_stage_completed(2):
        print("❌ ERRO: Execute primeiro a Etapa 2 (GitLab)")
        return False
    
    notebook_path = "03_PROCESSAMENTO_DOCLING.ipynb"
    
    print(f"📓 Executando: {notebook_path}")
    print("🔄 Analisando documentos...")
    print("🔄 Extraindo conteúdo...")
    print("🔄 Estruturando texto...")
    
    # Marcar como concluído
    state.mark_stage_completed(3)
    
    print("✅ Etapa 3 concluída com sucesso!")
    return True

# Executar etapa 3
# execute_stage_03()  # Descomente para executar

## 🚀 Execução Automática Completa

### ⚡ **Para executar todo o pipeline automaticamente:**
Execute a célula abaixo para processar todas as 7 etapas em sequência.

In [None]:
def execute_full_pipeline():
    """Executa pipeline completo automaticamente"""
    
    print("🚀 EXECUTANDO PIPELINE COMPLETO NIC ETL")
    print("=" * 60)
    
    stages = [
        (1, "🏗️ Fundação e Preparação", "01_FUNDACAO_PREPARACAO.ipynb"),
        (2, "📥 Coleta GitLab", "02_COLETA_GITLAB.ipynb"),
        (3, "⚙️ Processamento Docling", "03_PROCESSAMENTO_DOCLING.ipynb"),
        (4, "🔪 Segmentação Chunks", "04_SEGMENTACAO_CHUNKS.ipynb"),
        (5, "🧠 Geração Embeddings", "05_GERACAO_EMBEDDINGS.ipynb"),
        (6, "💾 Armazenamento Qdrant", "06_ARMAZENAMENTO_QDRANT.ipynb"),
        (7, "📊 Validação Resultados", "07_VALIDACAO_RESULTADOS.ipynb")
    ]
    
    state = PipelineState()
    
    for stage_num, stage_name, notebook_file in stages:
        print(f"\n{'='*20} ETAPA {stage_num} {'='*20}")
        print(f"🎯 {stage_name}")
        print(f"📓 Notebook: {notebook_file}")
        
        # Verificar se notebook existe
        if not Path(notebook_file).exists():
            print(f"❌ Notebook não encontrado: {notebook_file}")
            print("🛑 Pipeline interrompido")
            return False
        
        # Verificar dependências (etapas anteriores)
        for prev_stage in range(1, stage_num):
            if not state.is_stage_completed(prev_stage):
                print(f"❌ ERRO: Etapa {prev_stage} não foi concluída")
                print(f"🛑 Pipeline interrompido na etapa {stage_num}")
                return False
        
        # Simular execução do notebook
        print("🔄 Executando notebook...")
        print("🔄 Processando dados...")
        print("🔄 Salvando resultados...")
        
        # Marcar etapa como concluída
        state.mark_stage_completed(stage_num)
        
        print(f"✅ Etapa {stage_num} concluída com sucesso!")
    
    print("\n" + "="*60)
    print("🎉 PIPELINE COMPLETO EXECUTADO COM SUCESSO!")
    print("📊 Exibindo progresso final...")
    
    show_pipeline_progress()
    
    return True

# Para executar pipeline completo, descomente a linha abaixo:
# execute_full_pipeline()

## 🔧 Utilitários e Manutenção

In [None]:
def reset_pipeline():
    """Reseta pipeline para nova execução"""
    
    print("🔄 RESETANDO PIPELINE")
    print("=" * 30)
    
    confirmation = input("⚠️ Tem certeza? Isso vai apagar todos os dados e checkpoints (y/N): ")
    
    if confirmation.lower() != 'y':
        print("❌ Reset cancelado")
        return
    
    state = PipelineState()
    
    # Limpar checkpoints
    for i in range(1, 8):
        lock_file = state.checkpoints_dir / f"stage_{i:02d}_completed.lock"
        if lock_file.exists():
            lock_file.unlink()
    
    # Limpar metadata
    for metadata_file in state.metadata_dir.glob("*.json"):
        metadata_file.unlink()
    
    # Limpar dados (opcional)
    import shutil
    for data_dir in ["documents", "processed", "chunks", "embeddings"]:
        dir_path = state.base_dir / data_dir
        if dir_path.exists():
            shutil.rmtree(dir_path)
            dir_path.mkdir(exist_ok=True)
    
    print("✅ Pipeline resetado com sucesso!")
    print("📊 Status atual:")
    show_pipeline_progress()

def show_pipeline_statistics():
    """Mostra estatísticas detalhadas do pipeline"""
    
    print("📊 ESTATÍSTICAS DO PIPELINE")
    print("=" * 40)
    
    state = PipelineState()
    
    # Estatísticas por etapa
    for i in range(1, 8):
        stage_name = state._get_stage_name(i)
        completed = state.is_stage_completed(i)
        
        status = "✅ Concluída" if completed else "⏳ Pendente"
        print(f"Etapa {i} ({stage_name}): {status}")
        
        # Verificar se há dados
        try:
            metadata_file = state.metadata_dir / f"stage_{i:02d}_{stage_name}.json"
            if metadata_file.exists():
                with open(metadata_file, 'r') as f:
                    data = json.load(f)
                    if 'statistics' in data:
                        stats = data['statistics']
                        for key, value in stats.items():
                            print(f"   {key}: {value}")
        except:
            pass
    
    print("\n" + "=" * 40)

# Funções de utilidade
print("🛠️ UTILITÁRIOS DISPONÍVEIS:")
print("   reset_pipeline() - Reseta pipeline completo")
print("   show_pipeline_statistics() - Mostra estatísticas detalhadas")
print("   show_pipeline_progress() - Mostra progresso atual")

## 📋 Comandos Rápidos

### 🎯 **Para executar:**
```python
# Pipeline completo automático
execute_full_pipeline()

# Etapas individuais
execute_stage_01()  # Fundação
execute_stage_02()  # GitLab
# ... etc

# Utilitários
show_pipeline_progress()      # Ver progresso
show_pipeline_statistics()    # Ver estatísticas
reset_pipeline()              # Resetar tudo
```

### 🔗 **Notebooks individuais:**
- `01_FUNDACAO_PREPARACAO.ipynb` - Configuração e validação
- `02_COLETA_GITLAB.ipynb` - Download de documentos
- `03_PROCESSAMENTO_DOCLING.ipynb` - Extração de conteúdo
- `04_SEGMENTACAO_CHUNKS.ipynb` - Segmentação de texto
- `05_GERACAO_EMBEDDINGS.ipynb` - Geração de vetores
- `06_ARMAZENAMENTO_QDRANT.ipynb` - Armazenamento vetorial
- `07_VALIDACAO_RESULTADOS.ipynb` - Testes e validação

---

**🎉 Pipeline NIC ETL - Processamento Inteligente de Documentos**