In [3]:
# notebooks/processar_horarios.ipynb

import sys
import os
import fitz # Importar fitz aqui também para pegar o número de páginas
import json
from tqdm import tqdm # Para barra de progresso

# Garante que o Python encontre a pasta 'src' que está um nível acima
if '..' not in sys.path:
    sys.path.append('..')

# Importa a função principal que criamos no novo arquivo .py
try:
    from src.horario_parser import extract_schedule_from_page
    print("Módulo 'horario_parser' importado com sucesso.")
except ImportError as e:
    print(f"Erro ao importar 'horario_parser': {e}")
    print("Verifique se o arquivo 'src/horario_parser.py' existe e não contém erros de sintaxe.")
    # Interrompe a execução se não conseguir importar
    raise

# --- Configurações ---
# Coloque o nome (ou caminho relativo desde a raiz do projeto) do seu PDF de horário aqui
pdf_input_path = "data/input/Ciencia-da-computacao-01-2025_com_sala_MkIII.pdf"
# Nome do arquivo de saída na pasta data/output
output_filename = "horarios_extraidos_CienciaComp.jsonl"
output_path = os.path.join("..", "data", "output", output_filename) # Caminho relativo desde 'notebooks/'

# Cria a pasta de saída se não existir
os.makedirs(os.path.dirname(output_path), exist_ok=True)

# --- Processamento ---
all_extracted_schedules = []
num_pages = 0

if not os.path.exists(os.path.join("..", pdf_input_path)): # Verifica se o PDF existe (caminho relativo desde notebooks/)
     print(f"Erro: Arquivo PDF não encontrado em '{pdf_input_path}'. Verifique o caminho.")
else:
    try:
        # Abre o PDF brevemente só para contar as páginas
        with fitz.open(os.path.join("..", pdf_input_path)) as doc:
            num_pages = len(doc)
        print(f"PDF '{os.path.basename(pdf_input_path)}' encontrado com {num_pages} páginas.")

        # Itera por cada página do PDF
        if num_pages > 0:
            for page_number in tqdm(range(1, num_pages + 1), desc="Processando Páginas"):
                # Chama a função principal do nosso módulo para processar a página
                schedule_data = extract_schedule_from_page(os.path.join("..", pdf_input_path), page_number)

                # Se a função retornou dados válidos, adiciona à lista
                if schedule_data:
                    all_extracted_schedules.append(schedule_data)
                else:
                    print(f"Nenhum horário válido extraído ou erro na página {page_number}.")

    except Exception as e:
        print(f"Erro inesperado durante o processamento do PDF: {e}")

# --- Salvando Resultados ---
if all_extracted_schedules:
    try:
        with open(output_path, 'w', encoding='utf-8') as f:
            for schedule in all_extracted_schedules:
                # Escreve cada horário extraído como uma linha JSON separada (JSON Lines)
                f.write(json.dumps(schedule, ensure_ascii=False) + '\n')
        print(f"\nExtração concluída com sucesso!")
        print(f"{len(all_extracted_schedules)} horários foram extraídos e salvos em: {output_path}")
    except IOError as e:
        print(f"Erro ao salvar o arquivo de saída '{output_path}': {e}")
else:
    print("\nNenhum horário foi extraído. O arquivo de saída não foi gerado.")

Módulo 'horario_parser' importado com sucesso.
PDF 'Ciencia-da-computacao-01-2025_com_sala_MkIII.pdf' encontrado com 7 páginas.


Processando Páginas:   0%|                                                                       | 0/7 [00:00<?, ?it/s]


--- Processando Página 1 ---
Metadados encontrados: {'semestre': '1/2025', 'turma': '20 INGRESSANTES (MATUTINO)', 'salas_info': 'P2 – Sala 7, P2-LAB CC (quando indicado)'}


Processando Páginas:  14%|█████████                                                      | 1/7 [00:00<00:04,  1.24it/s]

Tabela da página 1 processada com sucesso.

--- Processando Página 2 ---
Metadados encontrados: {'semestre': '1/2025', 'turma': '30 (MATUTINO)', 'salas_info': 'P2 - Sala 9, P2-LAB CC (quando indicado)'}


Processando Páginas:  29%|██████████████████                                             | 2/7 [00:01<00:03,  1.29it/s]

Tabela da página 2 processada com sucesso.

--- Processando Página 3 ---
Metadados encontrados: {'semestre': '1/2025', 'turma': '50 PERÍODO (VESPERTINO)', 'salas_info': 'P2 – sala 9, P2-LAB CC (quando indicado)'}


Processando Páginas:  43%|███████████████████████████                                    | 3/7 [00:02<00:02,  1.36it/s]

Tabela da página 3 processada com sucesso.

--- Processando Página 4 ---
Metadados encontrados: {'semestre': '1/2025', 'turma': '70 PERÍODO (MATUTINO)', 'salas_info': 'P2 – Sala 8 ou P2- LAB CC ou P2-LabRedes(quando indicado)'}


Processando Páginas:  57%|████████████████████████████████████                           | 4/7 [00:02<00:02,  1.36it/s]

Tabela da página 4 processada com sucesso.

--- Processando Página 5 ---
Metadados encontrados: {'semestre': '1/2025', 'turma': '90 PERÍODO / Optativas', 'salas_info': 'P2 – Sala 9, P2-LAB CC ou P2-LAB Redes (quando indicados)'}


  "horario": processed_df.to_dict(orient='records') # Converte DataFrame processado para lista de dicts
Processando Páginas:  71%|█████████████████████████████████████████████                  | 5/7 [00:03<00:01,  1.43it/s]

Tabela da página 5 processada com sucesso.

--- Processando Página 6 ---
Metadados encontrados: {'semestre': '1/2025', 'turma': 'Optativas (Vespertino)', 'salas_info': 'P2 – Sala 7, P2-LAB CC ou P2-LAB Redes (quando indicados)'}


Processando Páginas:  86%|██████████████████████████████████████████████████████         | 6/7 [00:04<00:00,  1.50it/s]

Tabela da página 6 processada com sucesso.

--- Processando Página 7 ---
Metadados encontrados: {'semestre': '1/2025', 'turma': 'RE-OFERTAS  (Vespertino)', 'salas_info': 'P2 – sala 7,P2-LAB CC (quando indicado)'}


Processando Páginas: 100%|███████████████████████████████████████████████████████████████| 7/7 [00:04<00:00,  1.44it/s]

Tabela da página 7 processada com sucesso.





TypeError: keys must be str, int, float, bool or None, not NAType