In [10]:
# CÉLULA 1: CONFIGURAÇÃO DO AMBIENTE
import sys
import os
import json
import glob

notebook_dir = os.getcwd() 
PROJECT_ROOT_PATH = os.path.abspath(os.path.join(notebook_dir, '..'))
SRC_PATH = os.path.join(PROJECT_ROOT_PATH, "src")

if SRC_PATH not in sys.path:
    sys.path.append(SRC_PATH)
    print(f"Adicionado ao sys.path: {SRC_PATH}")

try:
    from table_pipeline.table_runner import run_extraction_pipeline
    from integration import _format_table_for_final_json
    print("Sucesso: Módulos 'table_runner' e 'integration' (formatador) importados.")
    
except ImportError as e:
    print(f"!!! ERRO DE IMPORTAÇÃO !!!")
    print(f"Verifique se 'table_pipeline/' e 'integration.py' estão na pasta: {SRC_PATH}")
    print(f"Erro original: {e}")

Sucesso: Módulos 'table_runner' e 'integration' (formatador) importados.


In [11]:
# CÉLULA 2: DEFINIÇÃO DOS CAMINHOS DE ENTRADA/SAÍDA

PDF_INPUT_DIRECTORY = os.path.join(PROJECT_ROOT_PATH, "data", "input")
JSON_OUTPUT_DIRECTORY = os.path.join(PROJECT_ROOT_PATH, "data", "output")

os.makedirs(JSON_OUTPUT_DIRECTORY, exist_ok=True) # Cria a pasta 'output' se não existir

if not os.path.exists(PDF_INPUT_DIRECTORY):
    print(f"!!! ALERTA: Pasta de PDFs não encontrada: {PDF_INPUT_DIRECTORY}")

print(f"Lendo PDFs de: {PDF_INPUT_DIRECTORY}")
print(f"Lendo e Editando/Criando JSONs em: {JSON_OUTPUT_DIRECTORY}")

Lendo PDFs de: C:\Users\extre\preprocessamento-pdfs\data\input
Lendo e Editando/Criando JSONs em: C:\Users\extre\preprocessamento-pdfs\data\output


In [12]:
# CÉLULA 3: EXECUÇÃO (com RESUMO LIMPO no final)

print("\n--- INICIANDO PIPELINE DE INTEGRAÇÃO (Modo Padrão: 'tables') ---")

pdf_files_to_process = glob.glob(os.path.join(PDF_INPUT_DIRECTORY, "*.pdf"))

if not pdf_files_to_process:
    print(f"Nenhum PDF encontrado em {PDF_INPUT_DIRECTORY}. Fim da execução.")
else:
    print(f"Encontrados {len(pdf_files_to_process)} PDFs para processar...")

resumo_geral = []

# Loop principal: 1 PDF por vez
for pdf_path in pdf_files_to_process:
    pdf_name = os.path.basename(pdf_path)
    pdf_basename = os.path.splitext(pdf_name)[0]
    
    # Imprime apenas o início do processamento
    print(f"\n--- Processando: {pdf_name} ---")

    # Variáveis para guardar os detalhes do resumo
    json_alvo = ""
    status_acao_json = ""
    tabelas_adicionadas = 0
    status_limpeza = "Não"
    status_final = "FALHA"
    erro_msg = None

    try:
        # --- ETAPA A: Encontrar ou Criar o JSON Base ---
        jsonl_name = f"{pdf_basename}_output.jsonl"
        json_name = f"{pdf_basename}_output.json"
        
        jsonl_path = os.path.join(JSON_OUTPUT_DIRECTORY, jsonl_name)
        json_path = os.path.join(JSON_OUTPUT_DIRECTORY, json_name)
        
        path_to_use = None
        base_json_data = {} 

        if os.path.exists(jsonl_path):
            path_to_use = jsonl_path
            json_alvo = jsonl_name
            status_acao_json = "Editado"
            try:
                with open(path_to_use, 'r', encoding='utf-8') as f:
                    base_json_data = json.load(f)
            except json.JSONDecodeError:
                status_acao_json = "Corrompido (Recriado)"
                base_json_data = {}

        elif os.path.exists(json_path):
            path_to_use = json_path
            json_alvo = json_name
            status_acao_json = "Editado"
            try:
                with open(path_to_use, 'r', encoding='utf-8') as f:
                    base_json_data = json.load(f)
            except json.JSONDecodeError:
                status_acao_json = "Corrompido (Recriado)"
                base_json_data = {}
                
        else:
            path_to_use = jsonl_path
            json_alvo = jsonl_name
            status_acao_json = "Criado (Novo)"
            base_json_data = {}

        # --- ETAPA B: Extrair as Tabelas (Nossa Tarefa) ---
        # (Esta função ainda vai imprimir os logs internos dela, como "Nenhuma tabela encontrada...")
        raw_table_data = run_extraction_pipeline(pdf_path=pdf_path)

        # --- ETAPA C: Formatar as Tabelas (Nossa Tarefa) ---
        formatted_tables_list = []
        
        for table in raw_table_data.get("calendarios", []):
            formatted_tables_list.append(_format_table_for_final_json(table, "calendar"))
        for table in raw_table_data.get("horarios", []):
            formatted_tables_list.append(_format_table_for_final_json(table, "horario"))
        for ppc_page_data in raw_table_data.get("ppc_data", []):
            for sub_tabela in ppc_page_data.get("parsed_data_list", []):
                formatted_tables_list.append(_format_table_for_final_json(sub_tabela, "ppc"))
        
        tabelas_adicionadas = len(formatted_tables_list)

        # --- ETAPA D: INTEGRAR NA CHAVE "tables" (plural) ---
        if "tables" not in base_json_data or not isinstance(base_json_data.get("tables"), list):
            base_json_data["tables"] = formatted_tables_list
        else:
            base_json_data["tables"].extend(formatted_tables_list)

        if "table" in base_json_data:
            status_limpeza = "Sim" # Marca que a limpeza foi feita
            del base_json_data["table"]

        # --- ETAPA E: Salvar o Resultado (Sobrescrevendo ou Criando) ---
        with open(path_to_use, 'w', encoding='utf-8') as f:
            json.dump(base_json_data, f, indent=4, ensure_ascii=False)
        
        status_final = "SUCESSO"

    except Exception as e:
        print(f"!!! [ERRO GERAL] Falha grave ao processar {pdf_name}: {e} !!!")
        erro_msg = str(e)

    # --- Guarda os dados do resumo para este arquivo ---
    resumo_geral.append({
        "pdf": pdf_name,
        "json": json_alvo,
        "status": status_final,
        "tabelas_add": tabelas_adicionadas,
        "acao_json": status_acao_json,
        "limpeza": status_limpeza,
        "erro": erro_msg
    })

# --- Fim do Loop ---

# --- IMPRESSÃO DO RESUMO FINAL ---

print("\n\n" + "="*50)
print("--- PROCESSAMENTO DE INTEGRAÇÃO CONCLUÍDO ---")
print("="*50)

sucesso_count = sum(1 for r in resumo_geral if r["status"] == "SUCESSO")
falha_count = len(resumo_geral) - sucesso_count

print(f"Sucesso: {sucesso_count} arquivos")
print(f"Falhas:  {falha_count} arquivos")

print("\n--- RESUMO DETALHADO POR ARQUIVO ---")

for r in resumo_geral:
    if r["status"] == "SUCESSO":
        print(f"\n[SUCESSO] {r['pdf']}")
        print(f"  - JSON Alvo:   {r['json']} ({r['acao_json']})")
        print(f"  - Tabelas Add: {r['tabelas_add']}")
        print(f"  - Limpeza ('table' singular): {r['limpeza']}")
    else:
        print(f"\n[FALHA] {r['pdf']}")
        print(f"  - JSON Alvo:   {r['json']}")
        print(f"  - Erro: {r['erro']}")


--- INICIANDO PIPELINE DE INTEGRAÇÃO (Modo Padrão: 'tables') ---
Encontrados 7 PDFs para processar...

--- Processando: Ciencia-da-computacao-01-2025_com_sala_MkIII.pdf ---
Iniciando [Table Pipeline] para: C:\Users\extre\preprocessamento-pdfs\data\input\Ciencia-da-computacao-01-2025_com_sala_MkIII.pdf
  [Table Pipeline] Página 1/7 -> Tipo: horario
--- [horario.py] Processando Página 1 ---
  [horario.py] Metadados encontrados: 20 INGRESSANTES (MATUTINO)
  [horario.py] Sala padrão detectada: 'P2 – Sala 7'
  [horario.py] Tabela da página 1 processada com sucesso.
  [Table Pipeline] Página 2/7 -> Tipo: horario
--- [horario.py] Processando Página 2 ---
  [horario.py] Metadados encontrados: 30 (MATUTINO)
  [horario.py] Sala padrão detectada: 'P2 - Sala 9'
  [horario.py] Tabela da página 2 processada com sucesso.
  [Table Pipeline] Página 3/7 -> Tipo: horario
--- [horario.py] Processando Página 3 ---
  [horario.py] Metadados encontrados: 50 PERÍODO (VESPERTINO)
  [horario.py] Sala padrão det



      [ppc.py] Processando Tabela 1/3 na página 19...
      [ppc.py] -> ALERTA: Tabela 1 não correspondeu a nenhum tipo de PPC conhecido (ementa, matriz, etc.).
      [ppc.py] Processando Tabela 2/3 na página 19...
      [ppc.py] -> Tabela 2 identificada como: 'ppc_matriz_curricular' (ou optativa)
      [ppc.py] -> SUCESSO: Parser 'ppc_matriz_curricular' retornou dados.
      [ppc.py] Processando Tabela 3/3 na página 19...
      [ppc.py] -> Tabela 3 identificada como: 'ppc_matriz_curricular' (ou optativa)
      [ppc.py] -> SUCESSO: Parser 'ppc_matriz_curricular' retornou dados.
    -> SUCESSO: 'ppc.py' retornou 2 tabela(s). Adicionando aos resultados.
  [Table Pipeline] Página 20/103 -> Tipo: unknown
  [Table Pipeline] Página 21/103 -> Tipo: unknown
  [Table Pipeline] Página 22/103 -> Tipo: unknown
  [Table Pipeline] Página 23/103 -> Tipo: ppc
    -> Chamando processador 'ppc.py'...
      [ppc.py] Processando Tabela 1/1 na página 23...
      [ppc.py] -> ALERTA: Tabela 1 não corresponde