# 🏗️ FUNDAÇÃO E PREPARAÇÃO - Etapa 1/6

## 📋 O que este notebook faz

Este notebook **inicializa o ambiente** e prepara a infraestrutura para todo o pipeline:

- 🔧 **Carrega configurações** do arquivo `.env` (development/staging/production)
- 📁 **Cria diretórios** necessários para armazenar dados do pipeline
- ✅ **Valida setup** - garante que tudo está pronto para as próximas etapas

## 📂 Estrutura criada

```
pipeline-data/
├── documents/   # ← GitLab baixará aqui
├── processed/   # ← Docling processará aqui  
├── chunks/      # ← Segmentação salvará aqui
└── embeddings/  # ← Vetores ficarão aqui
```


## ⏱️ Inicialização

In [1]:
import time
from datetime import datetime

# Marcar início da execução
stage_start = time.time()
start_timestamp = datetime.now().isoformat() + "Z"

In [2]:
import os
from pathlib import Path
from dotenv import load_dotenv

# Carregar .env
env_file = f".env.{os.getenv('ENVIRONMENT', 'development')}"
if Path(f"../{env_file}").exists():
    load_dotenv(f"../{env_file}")
elif Path("../.env").exists():
    load_dotenv("../.env")

# Criar diretórios
Path("pipeline-data/documents").mkdir(parents=True, exist_ok=True)
Path("pipeline-data/processed").mkdir(parents=True, exist_ok=True)
Path("pipeline-data/chunks").mkdir(parents=True, exist_ok=True)
Path("pipeline-data/embeddings").mkdir(parents=True, exist_ok=True)

print("✅ Configuração carregada e diretórios criados")

✅ Configuração carregada e diretórios criados


## 📊 Relatório de Execução

In [3]:
import json

# Calcular duração
stage_duration = time.time() - stage_start

# Criar estrutura inicial do relatório
report = {
    "pipeline_info": {
        "version": "1.0.0",
        "last_execution": start_timestamp,
        "environment": os.getenv('ENVIRONMENT', 'development')
    },
    "context": {},  # Será preenchido nos próximos notebooks
    "stages": [
        {
            "stage": 1,
            "name": "Fundação e Preparação",
            "status": "SUCCESS",
            "start_time": start_timestamp,
            "duration_seconds": round(stage_duration, 2),
            "results": {
                "directories_created": 4,
                "environment_loaded": True,
                "config_source": f".env.{os.getenv('ENVIRONMENT', 'development')}"
            }
        }
    ],
    "summary": {
        "pipeline_status": "IN_PROGRESS",
        "last_update": datetime.now().isoformat() + "Z"
    }
}

# Salvar relatório
report_path = Path("pipeline-data/report.json")
with open(report_path, "w") as f:
    json.dump(report, f, indent=2, ensure_ascii=False)

print(f"📊 Relatório iniciado: {report_path}")
print(f"⏱️ Duração da etapa: {stage_duration:.2f}s")

📊 Relatório iniciado: pipeline-data/report.json
⏱️ Duração da etapa: 0.04s
