In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Preprocessing

In [21]:
def processar_dados_ano(caminho_arquivo):
    df = pd.read_csv(caminho_arquivo, encoding='latin1', delimiter=';')

    colunas_para_remover = [col for col in df.columns if (col.startswith('DS_') or col.startswith('NU_') or col.startswith('DT_') or col.startswith('CO_') or col.startswith('NO_')) and col != 'NU_ANO_CENSO']
    df_limpo = df.drop(columns=colunas_para_remover).drop(columns=['SG_UF'])

    colunas_com_nan = df_limpo.columns[df_limpo.isnull().any()].tolist()

    return df_limpo, colunas_com_nan

dfs = list()
diretorio = 'dataset/'
anos = range(2014, 2024)  

for ano in anos:
    caminho_arquivo = f'{diretorio}microdados_ed_basica_{ano}_alagoas.csv'
    df_limpo, colunas_com_nan = processar_dados_ano(caminho_arquivo)
    dfs.append(df_limpo)
    print(f"Resumo dos dados de {ano}:")
    print(colunas_com_nan)
    print("--------------------------------------------------------------------\n")
    print(df_limpo.describe())

Resumo dos dados de 2014:
[]
--------------------------------------------------------------------

       NU_ANO_CENSO  TP_DEPENDENCIA  TP_CATEGORIA_ESCOLA_PRIVADA  \
count        3787.0     3787.000000                  3787.000000   
mean         2014.0        3.053868                     0.178241   
std             0.0        0.495892                     0.547454   
min          2014.0        1.000000                     0.000000   
25%          2014.0        3.000000                     0.000000   
50%          2014.0        3.000000                     0.000000   
75%          2014.0        3.000000                     0.000000   
max          2014.0        4.000000                     4.000000   

       TP_LOCALIZACAO  TP_LOCALIZACAO_DIFERENCIADA  TP_SITUACAO_FUNCIONAMENTO  \
count     3787.000000                  3787.000000                3787.000000   
mean         1.549247                     0.071032                   1.155004   
std          0.497634                     0.4

In [8]:
df_consolidado = pd.concat(dfs)

In [27]:
correlacao = df_consolidado.corr()

limiar_correlacao = 0.65
correlacoes_fortes = correlacao[(np.abs(correlacao) > limiar_correlacao) & (correlacao != 1.0)]

variaveis_fortes = correlacoes_fortes.dropna(axis=0, how='all').dropna(axis=1, how='all')
variaveis_fortes_lista = variaveis_fortes.index.tolist()

variaveis_fortes_lista
# print(len(variaveis_fortes_lista))

['NU_ANO_CENSO',
 'TP_DEPENDENCIA',
 'TP_SITUACAO_FUNCIONAMENTO',
 'IN_VINCULO_SECRETARIA_EDUCACAO',
 'IN_CONVENIADA_PP',
 'TP_CONVENIO_PODER_PUBLICO',
 'IN_MANT_ESCOLA_PRIVADA_EMP',
 'TP_REGULAMENTACAO',
 'TP_RESPONSAVEL_REGULAMENTACAO',
 'IN_LOCAL_FUNC_PREDIO_ESCOLAR',
 'TP_OCUPACAO_PREDIO_ESCOLAR',
 'IN_LOCAL_FUNC_SOCIOEDUCATIVO',
 'IN_LOCAL_FUNC_UNID_PRISIONAL',
 'IN_LOCAL_FUNC_PRISIONAL_SOCIO',
 'IN_LOCAL_FUNC_GALPAO',
 'TP_OCUPACAO_GALPAO',
 'IN_AGUA_FILTRADA',
 'IN_AGUA_POTAVEL',
 'IN_AGUA_REDE_PUBLICA',
 'IN_ENERGIA_REDE_PUBLICA',
 'IN_LIXO_SERVICO_COLETA',
 'IN_TRATAMENTO_LIXO_SEPARACAO',
 'IN_TRATAMENTO_LIXO_REUTILIZA',
 'IN_TRATAMENTO_LIXO_RECICLAGEM',
 'IN_TRATAMENTO_LIXO_INEXISTENTE',
 'IN_BANHEIRO_DENTRO_PREDIO',
 'IN_BANHEIRO',
 'IN_BIBLIOTECA',
 'IN_BIBLIOTECA_SALA_LEITURA',
 'IN_COZINHA',
 'IN_QUADRA_ESPORTES',
 'IN_QUADRA_ESPORTES_COBERTA',
 'IN_SALA_DIRETORIA',
 'IN_SALA_LEITURA',
 'IN_SALA_ATENDIMENTO_ESPECIAL',
 'QT_SALAS_EXISTENTES',
 'QT_SALAS_UTILIZADAS_DENTRO',