# üáßüá∑ Script Python para An√°lise de Hor√°rios Dispon√≠veis
Com base na estrutura do seu arquivo JSON aulas_coletadas.json, preparei um script Python, ideal para ser executado em um notebook (como Jupyter ou Google Colab), que permite analisar os hor√°rios e a disponibilidade de aulas sob v√°rios √¢ngulos.

Este script usa a biblioteca pandas para manipular os dados de forma eficiente e datetime para o processamento das datas e hor√°rios.

### 1. Prepara√ß√£o e Carregamento de Dados
Primeiro, voc√™ precisar√° de uma maneira de carregar seu JSON.

In [None]:
import pandas as pd
import json
import os
from datetime import datetime, time, timedelta

# --- Configura√ß√£o de Arquivos ---
# Caminhos fornecidos pelo usu√°rio
ARQUIVO_AULAS = os.path.join('..', 'data', 'aulas_coletadas.json')
ARQUIVO_MAPA_TURMAS = os.path.join('..', 'data', 'mapa_turmas.json')
ARQUIVO_HORARIOS_SEMANAIS = os.path.join('..', 'data', 'horarios_semanais_oficial.json')

# Mapeamento para nomes de dias da semana em portugu√™s
MAPA_DIA_INT_PT = {
    0: 'segunda-feira', 1: 'ter√ßa-feira', 2: 'quarta-feira', 
    3: 'quinta-feira', 4: 'sexta-feira', 5: 's√°bado', 6: 'domingo'
}
MAPA_DIA_PT_INT = {v: k for k, v in MAPA_DIA_INT_PT.items()}


# --- 1. Carregamento e Pr√©-processamento de Dados ---

def carregar_dados():
    """Carrega os dados dos arquivos JSON com tratamento de erros."""
    data = {}
    
    try:
        with open(ARQUIVO_AULAS, 'r', encoding='utf-8') as f:
            data['df_aulas_raw'] = pd.DataFrame(json.load(f))
        
        with open(ARQUIVO_MAPA_TURMAS, 'r', encoding='utf-8') as f:
            data['mapa_turmas'] = json.load(f)
        
        # O arquivo horarios_semanais √© uma lista com um objeto dentro
        with open(ARQUIVO_HORARIOS_SEMANAIS, 'r', encoding='utf-8') as f:
            data['dados_agenda_raw'] = json.load(f)[0]
        
        print("‚úÖ Todos os arquivos carregados com sucesso.")
        return data

    except FileNotFoundError as e:
        print(f"‚ùå Erro: Arquivo n√£o encontrado: {e.filename}")
        print("‚ö†Ô∏è Por favor, verifique se os caminhos dos arquivos est√£o corretos.")
        return None
    except json.JSONDecodeError:
        print("‚ùå Erro: O arquivo JSON est√° mal formatado.")
        return None
    except Exception as e:
        print(f"‚ùå Ocorreu um erro desconhecido durante o carregamento: {e}")
        return None


def preprocessar_aulas(df_aulas_raw, mapa_turmas):
    """Pr√©-processamento das aulas coletadas, criando colunas de tempo e mapeamento."""
    
    # Filtrar apenas aulas confirmadas e fazer uma c√≥pia
    df = df_aulas_raw[df_aulas_raw['status'] == 'Aula confirmada'].copy()
    
    # 1. Aplica mapeamento de turma
    df['turma_curta'] = df['turma'].apply(lambda x: mapa_turmas.get(x, x))
    
    # 2. Processamento de data e hor√°rio
    df[['horario_inicio_str', 'horario_fim_str']] = df['horario'].str.split(' √†s ', expand=True)
    df['data_aula_dt'] = pd.to_datetime(df['dataAula'], format='%d/%m/%Y', errors='coerce')
    
    # 3. C√°lculo da Dura√ß√£o (em minutos) - Corre√ß√£o aplicada
    def calcular_duracao(row):
        try:
            start_dt = datetime.strptime(row['horario_inicio_str'], '%H:%M').time()
            end_dt = datetime.strptime(row['horario_fim_str'], '%H:%M').time()
            
            start_datetime = datetime.combine(row['data_aula_dt'].date(), start_dt)
            end_datetime = datetime.combine(row['data_aula_dt'].date(), end_dt)
            
            # Trata casos onde o hor√°rio final √© menor que o inicial (ex: 23:30 - 00:30)
            if end_datetime < start_datetime:
                 end_datetime += timedelta(days=1)
            
            return int((end_datetime - start_datetime).total_seconds() / 60)
        except:
            return 0

    df['duracao_minutos'] = df.apply(calcular_duracao, axis=1)
    
    # 4. Cria√ß√£o das chaves de compara√ß√£o
    df['dia_semana'] = df['data_aula_dt'].dt.dayofweek
    df['horario_inicio'] = df['horario_inicio_str']
    df['chave_agendamento'] = df['turma_curta'] + '-' + df['dia_semana'].astype(str) + '-' + df['horario_inicio']
    
    return df.dropna(subset=['data_aula_dt']) # Remove linhas com erro no parse da data


def normalizar_agenda(dados_agenda_raw):
    """Transforma a estrutura complexa da agenda em um DataFrame simples."""
    agenda_normalizada = []
    
    for professor, prof_data in dados_agenda_raw['professores'].items():
        for turma_curta, comps in prof_data['turmas'].items():
            for componente, horarios in comps.items():
                for h in horarios:
                    if isinstance(h, dict) and 'label_horario' in h:
                        try:
                            start_time_str, end_time_str = h['label_horario'].replace(' ', '').split('-')
                            dia_semana_nome = h['dia_semana_nome'].lower()
                            
                            agenda_normalizada.append({
                                'professor': professor,
                                'turma_curta': turma_curta,
                                'componenteCurricular': componente,
                                'dia_semana_nome': dia_semana_nome,
                                'dia_semana': MAPA_DIA_PT_INT.get(dia_semana_nome),
                                'horario_inicio': start_time_str,
                                'horario_fim': end_time_str,
                            })
                        except Exception as e:
                            # Ignora linhas mal formatadas
                            # print(f"Aviso: Pulando item mal formatado na agenda: {h}. Erro: {e}") 
                            pass
    
    df_agenda = pd.DataFrame(agenda_normalizada)
    df_agenda['chave_agendamento'] = df_agenda['turma_curta'] + '-' + df_agenda['dia_semana'].astype(str) + '-' + df_agenda['horario_inicio']
    
    return df_agenda


# --- 2. Execu√ß√£o do Pr√©-processamento ---

dados = carregar_dados()

if dados:
    df_aulas = preprocessar_aulas(dados['df_aulas_raw'], dados['mapa_turmas'])
    df_agenda = normalizar_agenda(dados['dados_agenda_raw'])
    
    if df_aulas.empty or df_agenda.empty:
         print("‚ùå Aviso: Um dos DataFrames de an√°lise est√° vazio ap√≥s o pr√©-processamento.")
    else:
        print("‚úÖ DataFrames prontos para an√°lise.")

        # --- 3. An√°lises de Disponibilidade ---

        print("\n" + "="*80)
        print("                           üìä RESULTADOS DA AN√ÅLISE DE DISPONIBILIDADE")
        print("="*80)
        
        # 3.1. An√°lise de Frequ√™ncia de Cumprimento da Agenda Fixa (Planejado vs. Coletado)
        
        # Calcular o per√≠odo de coleta para refer√™ncia de slots esperados
        min_date = df_aulas['data_aula_dt'].min()
        max_date = df_aulas['data_aula_dt'].max()
        total_dias_analisados = (max_date - min_date).days + 1
        total_semanas = total_dias_analisados // 7
        
        print(f"\nüìÖ Per√≠odo coletado: {min_date.strftime('%d/%m/%Y')} a {max_date.strftime('%d/%m/%Y')} ({total_semanas} semanas de refer√™ncia)")
        
        frequencia_cumprimento = df_aulas['chave_agendamento'].value_counts().reset_index()
        frequencia_cumprimento.columns = ['chave_agendamento', 'aulas_registradas_coletadas']

        df_analise = df_agenda.merge(frequencia_cumprimento, on='chave_agendamento', how='left').fillna(0)
        df_analise['aulas_registradas_coletadas'] = df_analise['aulas_registradas_coletadas'].astype(int)

        # O Slots_Esperados_Ref √© uma estimativa; PRECISA do 'ano_letivo.json' para ser exato.
        df_analise['slots_esperados'] = total_semanas 
        
        df_analise['percentual_cumprimento'] = (df_analise['aulas_registradas_coletadas'] / df_analise['slots_esperados'] * 100).round(1)
        
        df_cumprimento = df_analise[[
            'professor', 'turma_curta', 'componenteCurricular', 
            'dia_semana_nome', 'horario_inicio', 'horario_fim', 
            'aulas_registradas_coletadas', 'slots_esperados', 
            'percentual_cumprimento'
        ]].rename(columns={
            'aulas_registradas_coletadas': 'Aulas_Coletadas',
            'slots_esperados': 'Slots_Esperados_Ref',
            'percentual_cumprimento': 'Cumprimento_%'
        })

        print("\n--- üìä 3.1. Cumprimento da Agenda Fixa (Planejado vs. Coletado) ---")
        print("Slots_Esperados_Ref = Total de semanas no per√≠odo. Desvios (Cumprimento_% < 100) indicam aulas n√£o registradas.")
        print(df_cumprimento.sort_values(by='Cumprimento_%', ascending=True).to_string())
        
        print("\n" + "-"*80)

        # 3.2. An√°lise por Componente Curricular (Total de Horas Coletadas)
        
        aulas_por_disciplina = df_aulas.groupby('componenteCurricular').agg(
            total_aulas=('turma_curta', 'count'),
            total_horas=('duracao_minutos', 'sum')
        ).sort_values(by='total_aulas', ascending=False)
        
        aulas_por_disciplina['total_horas'] = (aulas_por_disciplina['total_horas'] / 60).round(2)
        
        print("\n--- üìö 3.2. Distribui√ß√£o de Aulas por Disciplina (Coletadas) ---")
        print("Total de aulas e horas ministradas por disciplina (aulas confirmadas).")
        print(aulas_por_disciplina)
        
        print("\n" + "-"*80)

        # 3.3. Identifica√ß√£o de Slots Vagos na Agenda (Oportunidades de Agendamento - "Furos")
        
        horarios_disponiveis = dados['dados_agenda_raw']['config']['horario_id_para_label']
        turmas_na_agenda = df_agenda['turma_curta'].unique()
        
        slots_possiveis = []
        for turma in turmas_na_agenda:
            for dia_int, dia_nome in MAPA_DIA_INT_PT.items():
                if dia_int < 5: # Considera apenas dias √∫teis
                    for horario_id, label_horario in horarios_disponiveis.items():
                        start_time_str, _ = label_horario.replace(' ', '').split('-')
                        slots_possiveis.append({
                            'turma_curta': turma,
                            'dia_semana_nome': dia_nome,
                            'label_horario': label_horario,
                            'chave_possivel': turma + '-' + str(dia_int) + '-' + start_time_str
                        })

        df_slots_possiveis = pd.DataFrame(slots_possiveis)
        slots_agendados = set(df_agenda['chave_agendamento'])

        df_slots_possiveis['agendado'] = df_slots_possiveis['chave_possivel'].apply(lambda x: x in slots_agendados)

        furos_na_agenda = df_slots_possiveis[df_slots_possiveis['agendado'] == False]
        df_furos = furos_na_agenda[['turma_curta', 'dia_semana_nome', 'label_horario']]
        
        print("\n--- üéØ 3.3. Slots Vagos na Agenda (Oportunidades de Agendamento) ---")
        print("Estes s√£o hor√°rios que turmas espec√≠ficas n√£o t√™m aula agendada na grade fixa semanal (furos/disponibilidade total).")
        print(df_furos.sort_values(by=['turma_curta', 'dia_semana_nome']).to_string())
        
        print("\n" + "="*80)

### 2. Fun√ß√£o de Pr√©-processamento e Limpeza
√â crucial converter as colunas de data e hor√°rio para formatos que o Python e o Pandas possam manipular.

In [None]:
def preprocessar_aulas(df_aulas_raw, mapa_turmas):
    """Pr√©-processamento das aulas coletadas (fun√ß√£o anterior, simplificada)."""
    
    # Certifica-se de que a coluna existe antes de prosseguir
    if 'componenteCurricular' not in df_aulas_raw.columns:
        print("‚ö†Ô∏è ERRO DE COLUNA: 'componenteCurricular' n√£o encontrada no JSON original.")
        # Se voc√™ souber o nome correto da coluna no seu JSON, ajuste aqui:
        # Ex: df_aulas_raw.rename(columns={'nome_correto': 'componenteCurricular'}, inplace=True)
        # Se n√£o tiver essa coluna, a an√°lise 3.2 n√£o funcionar√°.
        # Por seguran√ßa, vamos apenas retornar um DataFrame vazio ou causar erro claro.
        raise KeyError("A coluna 'componenteCurricular' n√£o foi encontrada no DataFrame de aulas brutas.")

    df = df_aulas_raw[df_aulas_raw['status'] == 'Aula confirmada'].copy()
    
    # Aplica mapeamento
    df['turma_curta'] = df['turma'].apply(lambda x: mapa_turmas.get(x, x))
    
    # Processamento de hor√°rio
    df[['horario_inicio', 'horario_fim']] = df['horario'].str.split(' √†s ', expand=True)
    
    # Processamento de data e dia da semana
    df['data_aula_dt'] = pd.to_datetime(df['dataAula'], format='%d/%m/%Y')
    df['dia_semana'] = df['data_aula_dt'].dt.dayofweek
    
    # Cria uma chave √∫nica para compara√ß√£o com a agenda semanal (Dia + Hora + Turma)
    df['chave_agendamento'] = df['turma_curta'] + '-' + df['dia_semana'].astype(str) + '-' + df['horario_inicio']
    
    return df

### 3. An√°lises de Disponibilidade por V√°rios √Çngulos
Agora, o script ir√° gerar as informa√ß√µes solicitadas.

#### 3.1. Vis√£o Geral: Hor√°rios mais e menos Ocupados (por Dia da Semana e Hora)
Esta an√°lise mostra a distribui√ß√£o de aulas por dia da semana e o hor√°rio de in√≠cio, ajudando a identificar picos e vales na agenda semanal.

In [None]:
# Contar quantas vezes cada slot da agenda fixa FOI registrado no per√≠odo coletado
frequencia_cumprimento = df_aulas['chave_agendamento'].value_counts().reset_index()
frequencia_cumprimento.columns = ['chave_agendamento', 'aulas_registradas_coletadas']

# Cruza a frequ√™ncia de cumprimento com a agenda fixa
df_analise = df_agenda.merge(frequencia_cumprimento, on='chave_agendamento', how='left').fillna(0)
df_analise['aulas_registradas_coletadas'] = df_analise['aulas_registradas_coletadas'].astype(int)

# Contagem de Ocorr√™ncias: Quantas vezes aquele slot (Dia/Hora/Turma) deveria ter ocorrido
# *Se n√£o tiv√©ssemos o arquivo do ano letivo*, assumimos que cada slot deveria ter ocorrido
# uma vez por semana ao longo das 860+ aulas.

# Para simplificar sem o ano letivo, vamos analisar a m√©dia de registro:
total_dias_analisados = (df_aulas['data_aula_dt'].max() - df_aulas['data_aula_dt'].min()).days + 1
print(f"\nPer√≠odo coletado: {df_aulas['dataAula'].min()} a {df_aulas['dataAula'].max()} ({total_dias_analisados} dias)")

# Aulas_por_semana_min: Para ter uma refer√™ncia, vamos calcular quantas vezes o slot deveria 
# ter ocorrido se considerarmos um per√≠odo de 12 semanas (apenas um exemplo, ajuste necess√°rio
# com base no 'ano letivo.json')
total_semanas = total_dias_analisados // 7
df_analise['slots_esperados'] = total_semanas # Assumindo 1 ocorr√™ncia por semana

df_analise['diferenca'] = df_analise['aulas_registradas_coletadas'] - df_analise['slots_esperados']
df_analise['percentual_cumprimento'] = (df_analise['aulas_registradas_coletadas'] / df_analise['slots_esperados'] * 100).round(1)

# Seleciona colunas de interesse
df_cumprimento = df_analise[[
    'professor', 'turma_curta', 'componenteCurricular', 
    'dia_semana_nome', 'horario_inicio', 'horario_fim', 
    'aulas_registradas_coletadas', 'slots_esperados', 
    'percentual_cumprimento'
]]
df_cumprimento.rename(columns={
    'aulas_registradas_coletadas': 'Aulas_Coletadas',
    'slots_esperados': 'Slots_Esperados_Ref',
    'percentual_cumprimento': 'Cumprimento_%'
}, inplace=True)

print("\n--- üìä 3.1. Cumprimento da Agenda Fixa (Planejado vs. Coletado) ---")
print("Slots Esperados √© uma refer√™ncia (total de semanas no per√≠odo coletado) e PRECISA ser ajustado pelo 'ano letivo.json' para maior precis√£o.")
print(df_cumprimento.sort_values(by='Cumprimento_%', ascending=True).to_string())
#
#

#### 3.2. Disponibilidade por Componente Curricular (Disciplina)
Ajuda a ver quantas vezes cada disciplina √© oferecida.

In [None]:
## 3.2. Carga Hor√°ria Planejada por Professor

# O c√°lculo de dura√ß√£o da aula √© necess√°rio para a agenda, pois o label_horario n√£o tem o campo de dura√ß√£o
def calcular_duracao_agenda(start_str, end_str):
    start = datetime.strptime(start_str, '%H:%M')
    end = datetime.strptime(end_str, '%H:%M')
    # Trata caso de virada de dia (se necess√°rio)
    if end < start:
        end += timedelta(days=1)
    return (end - start).total_seconds() / 3600 # Dura√ß√£o em Horas

# Aplica o c√°lculo no DataFrame de an√°lise
df_analise['duracao_horas'] = df_analise.apply(
    lambda row: calcular_duracao_agenda(row['horario_inicio'], row['horario_fim']), 
    axis=1
)

carga_planejada_professor = df_analise.groupby('professor')['duracao_horas'].sum().round(2).reset_index()
carga_planejada_professor.columns = ['Professor', 'Carga_Hor√°ria_Planejada_Horas']

print("\n--- üë®‚Äçüè´ 3.2. Carga Hor√°ria Semanal Planejada por Professor ---")
print(carga_planejada_professor.sort_values(by='Carga_Hor√°ria_Planejada_Horas', ascending=False).to_string())

In [None]:
## 3.2. An√°lise por Componente Curricular (Disciplina)

aulas_por_disciplina = df_aulas.groupby('componenteCurricular').agg(
    total_aulas=('turma', 'count'),
    total_horas=('duracao_minutos', 'sum')
).sort_values(by='total_aulas', ascending=False)

# Converter total_horas de minutos para horas (para melhor visualiza√ß√£o)
aulas_por_disciplina['total_horas'] = (aulas_por_disciplina['total_horas'] / 60).round(2)

print("\n--- üìö 3.2. Distribui√ß√£o de Aulas por Disciplina ---")
print(aulas_por_disciplina)

#### 3.3. Disponibilidade por Turma
Mostra a carga hor√°ria de aulas para cada turma.

In [None]:
## 3.3. An√°lise por Turma

aulas_por_turma = df_aulas.groupby('turma').agg(
    total_aulas=('componenteCurricular', 'count'),
    total_horas=('duracao_minutos', 'sum'),
    primeira_aula=('data_aula_dt', 'min'),
    ultima_aula=('data_aula_dt', 'max')
).sort_values(by='total_aulas', ascending=False)

# Converter total_horas de minutos para horas
aulas_por_turma['total_horas'] = (aulas_por_turma['total_horas'] / 60).round(2)

print("\n--- üè´ 3.3. Carga Hor√°ria de Aulas por Turma ---")
print(aulas_por_turma)

#### 3.4. Dura√ß√£o M√©dia das Aulas
Se houver varia√ß√µes na dura√ß√£o, esta an√°lise √© √∫til.

In [None]:
## 3.2. Carga Hor√°ria Planejada por Professor

# O c√°lculo de dura√ß√£o da aula √© necess√°rio para a agenda, pois o label_horario n√£o tem o campo de dura√ß√£o
def calcular_duracao_agenda(start_str, end_str):
    start = datetime.strptime(start_str, '%H:%M')
    end = datetime.strptime(end_str, '%H:%M')
    # Trata caso de virada de dia (se necess√°rio)
    if end < start:
        end += timedelta(days=1)
    return (end - start).total_seconds() / 3600 # Dura√ß√£o em Horas

# Aplica o c√°lculo no DataFrame de an√°lise
df_analise['duracao_horas'] = df_analise.apply(
    lambda row: calcular_duracao_agenda(row['horario_inicio'], row['horario_fim']), 
    axis=1
)

carga_planejada_professor = df_analise.groupby('professor')['duracao_horas'].sum().round(2).reset_index()
carga_planejada_professor.columns = ['Professor', 'Carga_Hor√°ria_Planejada_Horas']

print("\n--- üë®‚Äçüè´ 3.2. Carga Hor√°ria Semanal Planejada por Professor ---")
print(carga_planejada_professor.sort_values(by='Carga_Hor√°ria_Planejada_Horas', ascending=False).to_string())

#### 4. B√¥nus: Identifica√ß√£o de Slots Completamente Livres (Avan√ßado)
Para identificar hor√°rios que nunca tiveram aula em um per√≠odo (ex: em todas as ter√ßas-feiras), precisar√≠amos de um intervalo de tempo completo de an√°lise (seu ano letivo).

- Se voc√™ tiver o JSON do "ano letivo" e da "agenda semanal", podemos mapear os hor√°rios fixos de funcionamento da escola e fazer a subtra√ß√£o das aulas j√° ocupadas para obter os slots vazios com precis√£o.

Como alternativa, podemos identificar a intersec√ß√£o dos hor√°rios vagos no dia mais livre.

In [None]:
## 4. B√¥nus: Identifica√ß√£o de Slots Potenciais Vagos (Furos)

# 4.1. Mapeamento de todos os slots de tempo poss√≠veis
horarios_disponiveis = dados_agenda_raw['config']['horario_id_para_label']

# 4.2. Identifica todas as turmas mapeadas que est√£o na agenda
turmas_na_agenda = df_agenda['turma_curta'].unique()

# 4.3. Cria todos os slots TURMA-DIA-HORARIO POSS√çVEIS (Cartesian Product)
slots_possiveis = []
for turma in turmas_na_agenda:
    for dia_int, dia_nome in mapa_dia_para_int.items():
        if dia_int < 5: # Considera apenas dias √∫teis (Seg-Sex)
            for horario_id, label_horario in horarios_disponiveis.items():
                start_time_str, _ = label_horario.split(' - ')
                slots_possiveis.append({
                    'turma_curta': turma,
                    'dia_semana': dia_int,
                    'dia_semana_nome': dia_nome,
                    'horario_inicio': start_time_str,
                    'label_horario': label_horario,
                    'chave_possivel': turma + '-' + str(dia_int) + '-' + start_time_str
                })

df_slots_possiveis = pd.DataFrame(slots_possiveis)

# 4.4. Cruza com os slots que est√£o realmente agendados
slots_agendados = set(df_agenda['chave_agendamento'])

df_slots_possiveis['agendado'] = df_slots_possiveis['chave_possivel'].apply(lambda x: x in slots_agendados)

# Filtra apenas os slots que n√£o foram agendados (os "Furos")
furos_na_agenda = df_slots_possiveis[df_slots_possiveis['agendado'] == False]
furos_na_agenda = furos_na_agenda.sort_values(by=['turma_curta', 'dia_semana', 'horario_inicio'])

df_furos = furos_na_agenda[['turma_curta', 'dia_semana_nome', 'label_horario']]

print("\n--- üéØ 4. Slots Vagos na Agenda (Oportunidades de Agendamento) ---")
print("Estes s√£o hor√°rios que poderiam ser agendados para as turmas, pois est√£o na grade hor√°ria padr√£o (config), mas n√£o est√£o ocupados por uma disciplina na agenda fixa.")
print(df_furos.to_string())