# üìä An√°lise de Aulas Coletadas

Este notebook tem como objetivo analisar os dados extra√≠dos pelo scraper do portal da Seduc. Vamos verificar a quantidade de aulas por disciplina, por turma e a distribui√ß√£o ao longo do tempo para identificar poss√≠veis falhas na coleta e entender o panorama geral dos registros.

## 1. Carregamento e Prepara√ß√£o dos Dados

Primeiro, vamos importar as bibliotecas necess√°rias e carregar o arquivo `aulas_coletadas.json` em um DataFrame do Pandas, que √© a estrutura ideal para an√°lise de dados em Python.

In [None]:
import json
import pandas as pd
import plotly.express as px
import os

# Define o estilo dos gr√°ficos
px.defaults.template = "plotly_dark"

# Constr√≥i o caminho para o arquivo de dados
file_path = os.path.join('..', 'data', 'aulas_coletadas.json')

# Carrega os dados
try:
    df = pd.read_json(file_path)
    print(f"Arquivo '{file_path}' carregado com sucesso!")
    print(f"Total de registros encontrados: {len(df)}")
except FileNotFoundError:
    print(f"ERRO: O arquivo '{file_path}' n√£o foi encontrado. Execute o scraper primeiro.")
    df = pd.DataFrame() # Cria um DataFrame vazio para evitar erros posteriores

# Exibe as primeiras linhas e informa√ß√µes do DataFrame
if not df.empty:
    display(df.head())
    print("\nInforma√ß√µes do DataFrame:")
    df.info()

In [None]:

import os

# --- Caminhos para os arquivos ---
# Define o caminho para a pasta 'data' e para o arquivo de sa√≠da.
# Esta abordagem com '..' sobe um n√≠vel no diret√≥rio, sendo mais flex√≠vel.
# Se voc√™ executar este c√≥digo da raiz do projeto, pode usar diretamente 'data/aulas_coletadas.json'.
json_input_path = os.path.join('data', 'aulas_coletadas.json')
csv_output_path = 'aulas_profhelio2025.csv' # Salva o CSV na pasta atual

# 1. Carregar os dados do arquivo JSON para um DataFrame
try:
    # pd.read_json √© a fun√ß√£o correta para ler um arquivo JSON
    df = pd.read_json(json_input_path)
    print(f"Arquivo '{json_input_path}' carregado com sucesso.")
except FileNotFoundError:
    print(f"ERRO: Arquivo de entrada n√£o encontrado em '{json_input_path}'. Verifique se o caminho est√° correto.")
    exit()
except Exception as e:
    print(f"Ocorreu um erro ao ler o arquivo JSON: {e}")
    exit()

# 2. Preparar o DataFrame para exporta√ß√£o (se necess√°rio)
# Adiciona colunas que n√£o existem no JSON, como 'A√ß√µes'
df['A√ß√µes'] = 'Visualizar | Editar' 

# Seleciona e reordena as colunas na ordem desejada para o CSV
# As chaves aqui devem corresponder exatamente √†s chaves do seu arquivo JSON
df_export = df[[
    'data_cadastro',
    'horario',
    'dataAula',
    'turma',
    'componenteCurricular',
    'status',
    'A√ß√µes'
]]

# 3. Defina a lista com os cabe√ßalhos exatos que voc√™ deseja no arquivo CSV
cabecalho_desejado = [
    'data_cadastro',
    'Hor√°rio_(inicial_~_final)',
    'Data Aula',
    'Turma',
    'Componente',
    'Situa√ß√£o',
    'A√ß√µes'
]

# 4. Salve o DataFrame em CSV com os par√¢metros corretos
df_export.to_csv(
    csv_output_path,
    header=cabecalho_desejado, # Usa sua lista de cabe√ßalhos personalizados
    index=False,               # Essencial para n√£o salvar o √≠ndice do DataFrame
    sep=';',                   # Ponto e v√≠rgula √© mais compat√≠vel com o Excel no Brasil
    encoding='utf-8-sig'       # Garante a correta exibi√ß√£o de acentos e caracteres especiais
)

print(f"\nDataFrame salvo com sucesso em '{csv_output_path}'")

### Limpeza e Convers√£o de Tipos

A coluna `dataAula` est√° como texto. Vamos convert√™-la para o tipo `datetime` para que possamos fazer an√°lises temporais, como agrupar por m√™s ou semana.

In [None]:
# Filtra o DataFrame para manter apenas as linhas onde o status √© 'Aula confirmada'
df_confirmadas = df[df['status'] == 'Aula confirmada'].copy()

# Agora voc√™ pode continuar sua an√°lise usando o df_confirmadas
print(f"Total de aulas: {len(df)}")
print(f"Total de aulas confirmadas: {len(df_confirmadas)}")

# Exemplo de como usar o novo DataFrame
display(df_confirmadas.head())

In [None]:
# Salvando em CSV da forma recomendada
df.to_csv(
    'clientes.csv',      # Nome do arquivo
    index=False,         # N√£o salvar o √≠ndice
    sep=';',             # Usar ponto e v√≠rgula como separador
    encoding='utf-8-sig' # Garantir compatibilidade de caracteres e com Excel
)

In [None]:
if not df.empty:
    # Converte a coluna 'dataAula' para o formato de data, tratando poss√≠veis erros
    df['dataAula'] = pd.to_datetime(df['dataAula'], format='%d/%m/%Y', errors='coerce')

    # Remove linhas onde a convers√£o de data falhou (se houver)
    df.dropna(subset=['dataAula'], inplace=True)

    # Extrai o m√™s e o ano para facilitar o agrupamento
    df['mes'] = df['dataAula'].dt.strftime('%Y-%m')

    print("Coluna 'dataAula' convertida para datetime.")
    display(df.head())

## 2. An√°lise Estat√≠stica

Agora vamos come√ßar a agregar os dados para obter insights.

### Contagem de Aulas por Disciplina

Isso nos mostrar√° o total de registros coletados para cada componente curricular. Se uma disciplina tem um n√∫mero muito baixo de aulas, pode ser um indicativo de que a coleta falhou para ela em algum momento.

In [None]:
if not df.empty:
    # Agrupa por componente curricular e conta o n√∫mero de aulas
    aulas_por_disciplina = df['componenteCurricular'].value_counts().reset_index()
    aulas_por_disciplina.columns = ['Disciplina', 'Quantidade de Aulas']

    print("Total de aulas coletadas por disciplina:")
    display(aulas_por_disciplina)

In [None]:
if not df.empty:
    fig = px.bar(
        aulas_por_disciplina, 
        x='Disciplina', 
        y='Quantidade de Aulas', 
        title='Quantidade de Aulas Registradas por Disciplina',
        text='Quantidade de Aulas',
        color='Disciplina'
    )
    fig.update_traces(textposition='outside')
    fig.update_layout(xaxis_tickangle=-45)
    fig.show()

### Contagem de Aulas por Turma

Similarmente, vamos verificar a distribui√ß√£o de aulas por turma.

In [None]:
if not df.empty:
    aulas_por_turma = df['turma'].value_counts().reset_index()
    aulas_por_turma.columns = ['Turma', 'Quantidade de Aulas']

    print("Total de aulas coletadas por turma:")
    display(aulas_por_turma)

In [None]:
if not df.empty:
    fig = px.pie(
        aulas_por_turma, 
        names='Turma', 
        values='Quantidade de Aulas', 
        title='Distribui√ß√£o de Aulas por Turma',
        hole=0.3
    )
    fig.update_traces(textinfo='percent+label', pull=[0.05] * len(aulas_por_turma))
    fig.show()

### Distribui√ß√£o de Aulas ao Longo do Tempo

Um histograma por data nos ajuda a ver se h√° meses ou per√≠odos espec√≠ficos com poucas ou nenhuma aula registrada, o que pode indicar problemas na pagina√ß√£o ou interrup√ß√£o do scraper durante a coleta desses per√≠odos.

In [None]:
if not df.empty:
    aulas_por_mes = df.groupby('mes').size().reset_index(name='Quantidade de Aulas')

    fig = px.bar(
        aulas_por_mes,
        x='mes',
        y='Quantidade de Aulas',
        title='Distribui√ß√£o de Aulas Registradas por M√™s',
        text='Quantidade de Aulas'
    )
    fig.update_traces(textposition='outside')
    fig.update_xaxes(type='category') # Trata os meses como categorias para melhor visualiza√ß√£o
    fig.show()

## 3. An√°lise Detalhada por Disciplina e Turma

Vamos cruzar as informa√ß√µes para ver quantas aulas de cada disciplina foram coletadas para cada turma.

In [None]:
if not df.empty:
    # Cria uma tabela cruzada (crosstab) para ver a contagem de aulas por turma e disciplina
    tabela_cruzada = pd.crosstab(df['turma'], df['componenteCurricular'])

    print("Tabela Cruzada: Aulas por Turma e Disciplina")
    display(tabela_cruzada)

In [None]:
if not df.empty:
    # Para visualizar melhor, podemos usar um mapa de calor
    fig = px.imshow(
        tabela_cruzada,
        text_auto=True, # Mostra os n√∫meros dentro das c√©lulas
        aspect="auto",
        title='Mapa de Calor: Aulas Coletadas por Turma e Disciplina',
        labels=dict(x="Disciplina", y="Turma", color="Quantidade")
    )
    fig.update_xaxes(side="top")
    fig.show()

## 4. Conclus√µes e Pr√≥ximos Passos

Com base nos gr√°ficos e tabelas acima, podemos tirar algumas conclus√µes:

1.  **Total de Aulas:** O n√∫mero total coletado foi de **{len(df) if not df.empty else 0}**. Se a sua expectativa era de ~780, temos uma diferen√ßa a ser investigada.
2.  **Distribui√ß√£o por Disciplina:** Verifique no primeiro gr√°fico de barras se alguma disciplina tem um n√∫mero de aulas drasticamente menor que as outras. Isso pode indicar que o scraper foi interrompido ou que a pagina√ß√£o falhou especificamente para ela.
3.  **Distribui√ß√£o por M√™s:** O histograma mensal √© crucial. Se voc√™ vir um m√™s com um n√∫mero muito baixo de aulas (quando deveria ter muitas), √© um forte ind√≠cio de que a coleta para aquele per√≠odo foi incompleta.
4.  **Mapa de Calor:** O mapa de calor nos d√° a vis√£o mais detalhada. C√©lulas com valor `0` ou valores muito baixos s√£o os pontos exatos onde a coleta pode ter falhado.

**Sugest√£o de Investiga√ß√£o:**
Foque nas disciplinas e meses com os menores n√∫meros. Tente rodar o scraper novamente, talvez filtrando para coletar apenas uma dessas turmas/disciplinas problem√°ticas, e observe o console para ver se ocorre algum erro de `Timeout` ou outro problema durante a pagina√ß√£o.