# 🚀 NIC ETL

Pipeline Orquestrador

## 📋 O que este notebook faz

Este é o **notebook master** que executa todo o pipeline NIC ETL de forma automatizada. Ele:

- 🎯 **Executa em sequência** todos os 6 notebooks do pipeline
- ⚙️ **Controla erros** - para imediatamente se alguma etapa falhar  
- 📊 **Monitora progresso** - mostra status de cada etapa
- 🔄 **Garante ordem** - executa na sequência correta de dependências

## 🔗 Pipeline Completo

```
🏗️ Fundação → 📥 GitLab → ⚙️ Docling → 🔪 Chunks → 🧠 Embeddings → 💾 Qdrant
```

## ▶️ Como usar

**Execute todas as células** deste notebook para rodar o pipeline completo, ou execute os notebooks individuais para controle manual.

---

## 🛠️ Configuração do Pipeline

In [1]:
import subprocess
import sys
from pathlib import Path

# Notebooks do pipeline
notebooks = [
    "etl-1-fundacao-preparacao.ipynb",
    "etl-2-coleta-gitlab.ipynb",
    "etl-3-processamento-docling.ipynb",
    "etl-4-segmentacao-chunks.ipynb",
    "etl-5-geracao-embeddings.ipynb",
    "etl-6-armazenamento-qdrant.ipynb"
]

print("🚀 Iniciando Pipeline NIC ETL")
print(f"Total de etapas: {len(notebooks)}")
print("="*50)

🚀 Iniciando Pipeline NIC ETL
Total de etapas: 6


## 🚀 Execução do Pipeline

In [2]:
# Executar notebooks em sequência
for i, notebook in enumerate(notebooks, 1):
    print(f"📋 Etapa {i}/{len(notebooks)}: {notebook}")
    
    try:
        # Executar notebook
        result = subprocess.run([
            "jupyter", "nbconvert", 
            "--to", "notebook",
            "--execute",
            "--inplace",
            notebook
        ], capture_output=True, text=True, check=True)
        
        print(f"✅ {notebook} executado com sucesso")
        
    except subprocess.CalledProcessError as e:
        print(f"❌ Erro ao executar {notebook}:")
        print(f"Stdout: {e.stdout}")
        print(f"Stderr: {e.stderr}")
        
        # Parar execução em caso de erro
        print("\n🛑 Pipeline interrompido devido a erro")
        break
    
    except Exception as e:
        print(f"❌ Erro inesperado: {str(e)}")
        break

    print("-" * 40)

else:
    print("\n🎉 Pipeline NIC ETL concluído com sucesso!")
    print("📊 Todas as etapas foram executadas")
    print("💾 Dados processados e armazenados no Qdrant")

📋 Etapa 1/6: etl-1-fundacao-preparacao.ipynb


✅ etl-1-fundacao-preparacao.ipynb executado com sucesso
----------------------------------------
📋 Etapa 2/6: etl-2-coleta-gitlab.ipynb


✅ etl-2-coleta-gitlab.ipynb executado com sucesso
----------------------------------------
📋 Etapa 3/6: etl-3-processamento-docling.ipynb


✅ etl-3-processamento-docling.ipynb executado com sucesso
----------------------------------------
📋 Etapa 4/6: etl-4-segmentacao-chunks.ipynb


✅ etl-4-segmentacao-chunks.ipynb executado com sucesso
----------------------------------------
📋 Etapa 5/6: etl-5-geracao-embeddings.ipynb


✅ etl-5-geracao-embeddings.ipynb executado com sucesso
----------------------------------------
📋 Etapa 6/6: etl-6-armazenamento-qdrant.ipynb


✅ etl-6-armazenamento-qdrant.ipynb executado com sucesso
----------------------------------------

🎉 Pipeline NIC ETL concluído com sucesso!
📊 Todas as etapas foram executadas
💾 Dados processados e armazenados no Qdrant
