# üì• COLETA GITLAB - Etapa 2/6

## üìã O que este notebook faz

Este notebook **baixa documentos do GitLab** para processamento local:

- üîó **Conecta ao GitLab** usando token de acesso
- üìÇ **Lista arquivos** da pasta `30-Aprovados` recursivamente  
- üîç **Filtra tipos** suportados (.pdf, .docx, .md, .txt, .png, .jpg, .jpeg)
- üíæ **Baixa preservando** a estrutura original de pastas
- üìç **Salva contexto** do commit atual para rastreabilidade

## üéØ Configura√ß√£o necess√°ria

- `GITLAB_URL` - URL do reposit√≥rio GitLab
- `GITLAB_ACCESS_TOKEN` - Token de acesso (obrigat√≥rio)
- `GITLAB_TARGET_FOLDER` - Pasta alvo (padr√£o: "30-Aprovados")

## üìä Output esperado

~39 arquivos baixados (~0.3MB) em `pipeline-data/documents/` mantendo a estrutura de pastas.

---

## ‚öôÔ∏è Configura√ß√£o e Conex√£o

In [1]:
import os
import sys
from pathlib import Path
from urllib.parse import urlparse
import time
from datetime import datetime

# Marcar in√≠cio da execu√ß√£o
stage_start = time.time()
start_timestamp = datetime.now().isoformat() + "Z"

# Adicionar src ao path para usar nossa biblioteca customizada
sys.path.insert(0, str(Path().parent / "src"))
from gitlab_client import NicGitlab

# Configura√ß√£o
GITLAB_URL = os.getenv("GITLAB_URL", "http://gitlab.processa.info/nic/documentacao/base-de-conhecimento.git")
GITLAB_TOKEN = os.getenv("GITLAB_ACCESS_TOKEN")
GITLAB_BRANCH = os.getenv("GITLAB_BRANCH", "main")
TARGET_FOLDER = os.getenv("GITLAB_TARGET_FOLDER", "30-Aprovados")
EXTENSIONS = [".pdf", ".docx", ".md", ".txt", ".png", ".jpg", ".jpeg"]

if not GITLAB_TOKEN:
    raise ValueError("GITLAB_ACCESS_TOKEN √© obrigat√≥rio")

# Extrair informa√ß√µes da URL
clean_url = GITLAB_URL.removesuffix(".git")
parsed = urlparse(clean_url)
instance_url = f"{parsed.scheme}://{parsed.netloc}"
project_path = parsed.path.lstrip("/")
branch = GITLAB_BRANCH

print(f"GitLab: {instance_url}")
print(f"Projeto: {project_path}")
print(f"Branch: {branch}")
print(f"Pasta: {TARGET_FOLDER}")

GitLab: http://gitlab.processa.info
Projeto: nic/documentacao/base-de-conhecimento
Branch: main
Pasta: 30-Aprovados


In [2]:
# Conectar ao GitLab usando nosso cliente customizado
gl = NicGitlab(instance_url, private_token=GITLAB_TOKEN)
print("‚úÖ GitLab conectado ok!")

# Obter projeto diretamente por path (sem busca de ID)
project = gl.client.get_project(project_path)
print(f"‚úÖ Projeto do GitLab carregado ok!")
print(f"ID do projeto: {project.project_id}")

# Obter commit atual
try:
    commits = project.commits.list(ref_name=branch, per_page=1)
    if commits:
        commit_hash = commits[0]["id"]  # √â um dict, n√£o objeto
        print(f"üìç Commit atual: {commit_hash[:8]}")
    else:
        commit_hash = "unknown"
        print("‚ö†Ô∏è N√£o foi poss√≠vel obter commit")
except Exception as e:
    commit_hash = "unknown"
    print(f"‚ö†Ô∏è Erro ao obter commit: {e}")

# Criar diret√≥rio de destino
docs_dir = Path("pipeline-data/documents")
docs_dir.mkdir(parents=True, exist_ok=True)

# Limpar diret√≥rio
print(f"Limpando diret√≥rio: {docs_dir}")
for f in docs_dir.glob("*"):
    if f.is_file():
        f.unlink()
print(f"‚úÖ Diret√≥rio limpo!")

print(f"Diret√≥rio preparado: {docs_dir}")

‚úÖ GitLab conectado ok!
‚úÖ Projeto do GitLab carregado ok!
ID do projeto: 266
üìç Commit atual: aeb81ff4
Limpando diret√≥rio: pipeline-data/documents
‚úÖ Diret√≥rio limpo!
Diret√≥rio preparado: pipeline-data/documents


## üîó Conex√£o e Prepara√ß√£o

In [3]:
# Listar e filtrar arquivos
def list_files_recursive(project, path="", branch="main"):
    """Lista arquivos recursivamente em uma pasta"""
    files = []
    try:
        items = project.repository_tree(path=path, ref=branch, all=True)
        for item in items:
            if item["type"] == "blob":
                files.append({
                    "name": item["name"],
                    "path": item["path"],
                    "size": 0  # GitLab API n√£o retorna tamanho na listagem
                })
    except Exception as e:
        print(f"Erro ao listar {path}: {e}")
    return files

# Listar arquivos na pasta alvo
print(f"Listando arquivos da pasta: {TARGET_FOLDER}")
all_files = list_files_recursive(project, TARGET_FOLDER)

# Filtrar por extens√£o
filtered_files = [
    {"name": i["name"], "path": i["path"], "size": 0}
    for i in project.repository_tree(path=TARGET_FOLDER, ref=branch, recursive=True, all=True, per_page=100)
    if i.get("type") == "blob" and any(i["name"].lower().endswith(ext.lower()) for ext in EXTENSIONS)
]

print(f"Arquivos encontrados: {len(all_files)}")
print(f"Arquivos filtrados: {len(filtered_files)}")

for f in filtered_files[:10]:  # Mostrar primeiros 10
    print(f"  {f['path']}")
if len(filtered_files) > 10:
    print(f"  ... e mais {len(filtered_files) - 10} arquivos")

Listando arquivos da pasta: 30-Aprovados


Arquivos encontrados: 1
Arquivos filtrados: 39
  30-Aprovados/Anexos/Imagens Self Checkout/FIgura 7 - Op√ß√£o Menu.jpg
  30-Aprovados/Anexos/Imagens Self Checkout/Figura 1 ‚Äì Interface inicial do Self Checkout.jpg
  30-Aprovados/Anexos/Imagens Self Checkout/Figura 2 ‚Äì Interface de identifica√ß√£o do cliente.jpg
  30-Aprovados/Anexos/Imagens Self Checkout/Figura 3 ‚Äì Interface para registro do produto.jpg
  30-Aprovados/Anexos/Imagens Self Checkout/Figura 4 - Msg produto na cesta.jpg
  30-Aprovados/Anexos/Imagens Self Checkout/Figura 5 - Escolher a forma de pagamento.jpg
  30-Aprovados/Anexos/Imagens Self Checkout/Figura 6 ‚Äì Op√ß√£o para Ajuda.jpg
  30-Aprovados/Anexos/Imagens Self Checkout/Figura 8 - Autenticacao do Menu.jpg
  30-Aprovados/Mapas/Processa Sistemas.md
  30-Aprovados/Mapas/Vis√£o Geral do NIC.md
  ... e mais 29 arquivos


## üìÇ Descoberta de Arquivos

In [4]:
# Baixar arquivos preservando a estrutura de pastas
downloaded = 0
errors = []
total_size = 0

for file_info in filtered_files:
    try:
        # Obter conte√∫do do arquivo usando nosso cliente customizado
        content = project.download_file_raw(file_path=file_info["path"], ref=branch)

        # Caminho local com subpastas reproduzidas
        local_path = docs_dir / Path(file_info["path"])
        local_path.parent.mkdir(parents=True, exist_ok=True)

        # Salvar
        with open(local_path, "wb") as f:
            f.write(content)

        file_size = len(content)
        total_size += file_size
        downloaded += 1

        print(f"‚úÖ {file_info['path']} ({file_size/1024:.1f} KB)")

    except Exception as e:
        errors.append(f"{file_info['path']}: {str(e)}")
        print(f"‚ùå {file_info['path']}: {str(e)}")

print(f"\nüìä Resumo:")
print(f"  Baixados: {downloaded}")
print(f"  Erros: {len(errors)}")
print(f"  Tamanho total: {total_size/1024/1024:.1f} MB")

if errors:
    print("\n‚ùå Erros:")
    for error in errors[:5]:
        print(f"  {error}")

‚úÖ 30-Aprovados/Anexos/Imagens Self Checkout/FIgura 7 - Op√ß√£o Menu.jpg (26.6 KB)


‚úÖ 30-Aprovados/Anexos/Imagens Self Checkout/Figura 1 ‚Äì Interface inicial do Self Checkout.jpg (26.9 KB)


‚úÖ 30-Aprovados/Anexos/Imagens Self Checkout/Figura 2 ‚Äì Interface de identifica√ß√£o do cliente.jpg (25.3 KB)
‚úÖ 30-Aprovados/Anexos/Imagens Self Checkout/Figura 3 ‚Äì Interface para registro do produto.jpg (37.9 KB)


‚úÖ 30-Aprovados/Anexos/Imagens Self Checkout/Figura 4 - Msg produto na cesta.jpg (23.4 KB)
‚úÖ 30-Aprovados/Anexos/Imagens Self Checkout/Figura 5 - Escolher a forma de pagamento.jpg (32.6 KB)


‚úÖ 30-Aprovados/Anexos/Imagens Self Checkout/Figura 6 ‚Äì Op√ß√£o para Ajuda.jpg (23.7 KB)
‚úÖ 30-Aprovados/Anexos/Imagens Self Checkout/Figura 8 - Autenticacao do Menu.jpg (27.1 KB)


‚úÖ 30-Aprovados/Mapas/Processa Sistemas.md (4.2 KB)
‚úÖ 30-Aprovados/Mapas/Vis√£o Geral do NIC.md (4.6 KB)


‚úÖ 30-Aprovados/Mapas/Vis√£o Geral do Self Checkout.md (14.4 KB)


‚úÖ 30-Aprovados/T√≥picos/Acesso ao menu do fiscal.md (3.5 KB)
‚úÖ 30-Aprovados/T√≥picos/Aplica√ß√£o de desconto por item.md (2.5 KB)


‚úÖ 30-Aprovados/T√≥picos/Apresenta√ß√£o do sistema Self Checkout.md (2.5 KB)
‚úÖ 30-Aprovados/T√≥picos/Cancelamento de cupom.md (2.7 KB)


‚úÖ 30-Aprovados/T√≥picos/Cancelamento de item.md (1.7 KB)
‚úÖ 30-Aprovados/T√≥picos/Componentes principais do sistema.md (6.3 KB)


‚úÖ 30-Aprovados/T√≥picos/Cronograma e marcos do projeto.md (3.6 KB)
‚úÖ 30-Aprovados/T√≥picos/Efetuar pagamento.md (2.9 KB)


‚úÖ 30-Aprovados/T√≥picos/Estrat√©gia de implanta√ß√£o e ado√ß√£o.md (3.6 KB)
‚úÖ 30-Aprovados/T√≥picos/Estrutura e fluxo da base de conhecimento.md (3.0 KB)


‚úÖ 30-Aprovados/T√≥picos/Finalidade e vis√£o do NIC.md (4.3 KB)
‚úÖ 30-Aprovados/T√≥picos/Finaliza√ß√£o do movimento di√°rio.md (1.8 KB)


‚úÖ 30-Aprovados/T√≥picos/Funcionalidade do bloqueio.md (3.3 KB)
‚úÖ 30-Aprovados/T√≥picos/Fun√ß√£o do Chat NIC.md (2.9 KB)


‚úÖ 30-Aprovados/T√≥picos/Governan√ßa e pap√©is organizacionais.md (3.3 KB)
‚úÖ 30-Aprovados/T√≥picos/Hist√≥rico de atualiza√ß√µes Self Checkout.md (2.0 KB)


‚úÖ 30-Aprovados/T√≥picos/Identifica√ß√£o do cliente.md (2.4 KB)
‚úÖ 30-Aprovados/T√≥picos/Infraestrutura t√©cnica e operacional.md (2.9 KB)


‚úÖ 30-Aprovados/T√≥picos/Iniciar a compra.md (0.8 KB)
‚úÖ 30-Aprovados/T√≥picos/Opera√ß√£o cont√≠nua e evolu√ß√£o do sistema.md (2.3 KB)


‚úÖ 30-Aprovados/T√≥picos/Padr√µes de Documenta√ß√£o do NIC.md (5.2 KB)
‚úÖ 30-Aprovados/T√≥picos/Processo de documenta√ß√£o e valida√ß√£o.md (3.3 KB)


‚úÖ 30-Aprovados/T√≥picos/Prop√≥sito do NIC.md (4.2 KB)
‚úÖ 30-Aprovados/T√≥picos/Pr√©-requisitos t√©cnicos.md (5.6 KB)


‚úÖ 30-Aprovados/T√≥picos/Registro de produtos.md (2.7 KB)
‚úÖ 30-Aprovados/T√≥picos/Reimpress√£o do √∫ltimo cupom.md (1.5 KB)


‚úÖ 30-Aprovados/T√≥picos/Retornar para registro de venda.md (2.9 KB)
‚úÖ 30-Aprovados/T√≥picos/Solicita√ß√£o de ajuda.md (2.1 KB)

üìä Resumo:
  Baixados: 39
  Erros: 0
  Tamanho total: 0.3 MB


## üíæ Download e Armazenamento

In [5]:
# Salvar informa√ß√£o de commit para outros notebooks
import json

context_dir = Path("pipeline-data")
context_dir.mkdir(exist_ok=True)

context = {"gitlab_commit": commit_hash}

with open(context_dir / "context.json", "w") as f:
    json.dump(context, f, indent=2)

print(f"‚úÖ Commit {commit_hash[:8]} salvo em pipeline-data/context.json")

‚úÖ Commit e9c8a430 salvo em pipeline-data/context.json


## üìä Relat√≥rio de Execu√ß√£o

In [6]:
# Calcular dura√ß√£o
stage_duration = time.time() - stage_start

# Carregar relat√≥rio existente
report_path = Path("pipeline-data/report.json")
if report_path.exists():
    with open(report_path, "r") as f:
        report = json.load(f)
else:
    report = {"stages": [], "context": {}, "summary": {}}

# Atualizar contexto com informa√ß√µes do GitLab
report["context"].update({
    "repository": project_path,
    "gitlab_url": instance_url,
    "branch": branch,
    "commit": commit_hash,
    "target_folder": TARGET_FOLDER
})

# Adicionar informa√ß√µes desta etapa
stage_report = {
    "stage": 2,
    "name": "Coleta GitLab",
    "status": "SUCCESS" if len(errors) == 0 else "FAILED",
    "start_time": start_timestamp,
    "duration_seconds": round(stage_duration, 2),
    "results": {
        "project_id": project.project_id,
        "files_found": len(filtered_files),
        "files_downloaded": downloaded,
        "download_errors": len(errors),
        "total_size_mb": round(total_size/1024/1024, 2)
    }
}

# Se houve erros, adicionar detalhes
if errors:
    stage_report["errors"] = errors[:5]  # Limitar a 5 erros

# Adicionar ou atualizar stage no relat√≥rio
stages_updated = False
for i, stage in enumerate(report["stages"]):
    if stage["stage"] == 2:
        report["stages"][i] = stage_report
        stages_updated = True
        break

if not stages_updated:
    report["stages"].append(stage_report)

# Atualizar timestamp
report["summary"]["last_update"] = datetime.now().isoformat() + "Z"

# Salvar relat√≥rio atualizado
with open(report_path, "w") as f:
    json.dump(report, f, indent=2, ensure_ascii=False)

print(f"üìä Relat√≥rio atualizado: {report_path}")
print(f"‚è±Ô∏è Dura√ß√£o da etapa: {stage_duration:.2f}s")

üìä Relat√≥rio atualizado: pipeline-data/report.json
‚è±Ô∏è Dura√ß√£o da etapa: 22.45s
