# Censo Escolar 2023

Análise dos dados de infraestrutura das escolas com o objetivo de entender o relacionamento entre a quantidade de matrículas na escola e sua infraestrutura

Sugestão: Definir faixas de quantidade de alunos a partir de árvore de decisão e seguir com uma regressão logística multinomial para chegar na probabilidade da quantidade de alunos dentro de cada faixa

## Setting Up

In [349]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

pd.set_option('display.max_columns', None)

In [350]:
def basic_exploration(df: pd.DataFrame, col: str, type: str = 'binary'):
    # BUG: prints e display não aparecem conforme estruturado na função
    if(type in ['binary', 'category']):
        print("\nContagem de valores:")
        display(df[col].value_counts(dropna=False))

    print("\nQuantidade de valores ausentes")
    display(df[col].isna().value_counts(dropna=False))

## Variáveis

In [None]:
cols = [
'NO_ENTIDADE',
'TP_DEPENDENCIA',
'TP_CATEGORIA_ESCOLA_PRIVADA',
'TP_LOCALIZACAO',
'TP_LOCALIZACAO_DIFERENCIADA',
'TP_SITUACAO_FUNCIONAMENTO',

'IN_LOCAL_FUNC_PREDIO_ESCOLAR',
'TP_OCUPACAO_PREDIO_ESCOLAR',
'IN_LOCAL_FUNC_SOCIOEDUCATIVO',
'IN_LOCAL_FUNC_UNID_PRISIONAL',
'IN_LOCAL_FUNC_PRISIONAL_SOCIO',
'IN_LOCAL_FUNC_GALPAO',
'IN_LOCAL_FUNC_SALAS_OUTRA_ESC',
'IN_LOCAL_FUNC_OUTROS',
'IN_PREDIO_COMPARTILHADO',

'IN_AGUA_POTAVEL',
'IN_AGUA_REDE_PUBLICA',
'IN_AGUA_POCO_ARTESIANO',
'IN_AGUA_CACIMBA',
'IN_AGUA_FONTE_RIO',
'IN_AGUA_INEXISTENTE',

'IN_ENERGIA_REDE_PUBLICA',
'IN_ENERGIA_GERADOR_FOSSIL',
'IN_ENERGIA_RENOVAVEL',
'IN_ENERGIA_INEXISTENTE',

'IN_ESGOTO_REDE_PUBLICA',
'IN_ESGOTO_FOSSA_SEPTICA',
'IN_ESGOTO_FOSSA_COMUM',
'IN_ESGOTO_FOSSA',
'IN_ESGOTO_INEXISTENTE',

'IN_LIXO_SERVICO_COLETA',
'IN_LIXO_QUEIMA',
'IN_LIXO_ENTERRA',
'IN_LIXO_DESTINO_FINAL_PUBLICO',
'IN_LIXO_DESCARTA_OUTRA_AREA',

'IN_ALMOXARIFADO',
'IN_AREA_VERDE',
'IN_AUDITORIO',
'IN_BANHEIRO',
'IN_BANHEIRO_EI',
'IN_BANHEIRO_PNE',
'IN_BANHEIRO_FUNCIONARIOS',
'IN_BANHEIRO_CHUVEIRO',
'IN_BIBLIOTECA',
'IN_BIBLIOTECA_SALA_LEITURA',
'IN_COZINHA',
'IN_DESPENSA',
'IN_DORMITORIO_ALUNO',
'IN_DORMITORIO_PROFESSOR',
'IN_LABORATORIO_CIENCIAS',
'IN_LABORATORIO_INFORMATICA',
'IN_LABORATORIO_EDUC_PROF',
'IN_PATIO_COBERTO',
'IN_PATIO_DESCOBERTO',
'IN_PARQUE_INFANTIL',
'IN_PISCINA',
'IN_QUADRA_ESPORTES',
'IN_QUADRA_ESPORTES_COBERTA',
'IN_QUADRA_ESPORTES_DESCOBERTA',
'IN_REFEITORIO',
'IN_SALA_ATELIE_ARTES',
'IN_SALA_MUSICA_CORAL',
'IN_SALA_ESTUDIO_DANCA',
'IN_SALA_MULTIUSO',
'IN_SALA_ESTUDIO_GRAVACAO',
'IN_SALA_OFICINAS_EDUC_PROF',
'IN_SALA_DIRETORIA',
'IN_SALA_LEITURA',
'IN_SALA_PROFESSOR',
'IN_SALA_REPOUSO_ALUNO',
'IN_SECRETARIA',
'IN_SALA_ATENDIMENTO_ESPECIAL',
'IN_TERREIRAO',
'IN_VIVEIRO',
'IN_DEPENDENCIAS_OUTRAS',

'IN_ACESSIBILIDADE_CORRIMAO',
'IN_ACESSIBILIDADE_ELEVADOR',
'IN_ACESSIBILIDADE_PISOS_TATEIS',
'IN_ACESSIBILIDADE_VAO_LIVRE',
'IN_ACESSIBILIDADE_RAMPAS',
'IN_ACESSIBILIDADE_SINAL_SONORO',
'IN_ACESSIBILIDADE_SINAL_TATIL',
'IN_ACESSIBILIDADE_SINAL_VISUAL',
'IN_ACESSIBILIDADE_INEXISTENTE',

'QT_SALAS_UTILIZADAS_DENTRO',
'QT_SALAS_UTILIZADAS_FORA',
'QT_SALAS_UTILIZADAS',
'QT_SALAS_UTILIZA_CLIMATIZADAS',
'QT_SALAS_UTILIZADAS_ACESSIVEIS',

'IN_EQUIP_PARABOLICA',
'IN_COMPUTADOR',
'IN_EQUIP_COPIADORA',
'IN_EQUIP_IMPRESSORA',
'IN_EQUIP_IMPRESSORA_MULT',
'IN_EQUIP_SCANNER',

'QT_EQUIP_DVD',
'QT_EQUIP_SOM',
'QT_EQUIP_TV',
'QT_EQUIP_LOUSA_DIGITAL',
'QT_EQUIP_MULTIMIDIA',
'QT_DESKTOP_ALUNO',
'QT_COMP_PORTATIL_ALUNO',
'QT_TABLET_ALUNO',

'IN_INTERNET',
'IN_INTERNET_ALUNOS',
'IN_INTERNET_ADMINISTRATIVO',
'IN_INTERNET_APRENDIZAGEM',
'IN_INTERNET_COMUNIDADE',
'IN_ACESSO_INTERNET_COMPUTADOR',
'IN_ACES_INTERNET_DISP_PESSOAIS',
'TP_REDE_LOCAL',
'IN_BANDA_LARGA',

'CO_REGIAO',
'CO_UF',

'IN_EAD', # Utilizar no modelo final
'QT_MAT_BAS'
]

len(cols)

In [None]:
cols_matriculas = [
'QT_MAT_INF',
'QT_MAT_INF_CRE',
'QT_MAT_INF_PRE',
'QT_MAT_FUND',
'QT_MAT_FUND_AI',
'QT_MAT_FUND_AI_1',
'QT_MAT_FUND_AI_2',
'QT_MAT_FUND_AI_3',
'QT_MAT_FUND_AI_4',
'QT_MAT_FUND_AI_5',
'QT_MAT_FUND_AF',
'QT_MAT_FUND_AF_6',
'QT_MAT_FUND_AF_7',
'QT_MAT_FUND_AF_8',
'QT_MAT_FUND_AF_9',
'QT_MAT_MED',
'QT_MAT_MED_PROP',
'QT_MAT_MED_PROP_1',
'QT_MAT_MED_PROP_2',
'QT_MAT_MED_PROP_3',
'QT_MAT_MED_PROP_4',
'QT_MAT_MED_PROP_NS',
'QT_MAT_MED_CT',
'QT_MAT_MED_CT_1',
'QT_MAT_MED_CT_2',
'QT_MAT_MED_CT_3',
'QT_MAT_MED_CT_4',
'QT_MAT_MED_CT_NS',
'QT_MAT_MED_NM',
'QT_MAT_MED_NM_1',
'QT_MAT_MED_NM_2',
'QT_MAT_MED_NM_3',
'QT_MAT_MED_NM_4',
'QT_MAT_PROF',
'QT_MAT_PROF_TEC',
'QT_MAT_PROF_TEC_CONC',
'QT_MAT_PROF_TEC_SUBS',
'QT_MAT_PROF_FIC_CONC',
'QT_MAT_EJA',
'QT_MAT_EJA_FUND',
'QT_MAT_EJA_FUND_AI',
'QT_MAT_EJA_FUND_AF',
'QT_MAT_EJA_FUND_FIC',
'QT_MAT_EJA_MED',
'QT_MAT_EJA_MED_NPROF',
'QT_MAT_EJA_MED_FIC',
'QT_MAT_EJA_MED_TEC']

len(cols_matriculas)

## Região e UF

In [None]:
df_localizacao = pd.read_csv('data\\dados\\microdados_ed_basica_2023.csv', sep=';', encoding='ANSI')
df_localizacao = df_localizacao[['CO_UF', 'SG_UF', 'CO_REGIAO', 'NO_REGIAO']].groupby('CO_UF', as_index = False).max()
df_localizacao

## Tratamento dos Dados

In [None]:
df = pd.read_csv('data\\dados\\microdados_ed_basica_2023.csv', sep=';', encoding='ANSI')
df = df[cols + cols_matriculas]
df.shape

In [None]:
# Mantendo apenas escolas em atividade
df = df[df['TP_SITUACAO_FUNCIONAMENTO'] == 1]
df.shape

In [356]:
cols_remover = []

### Localização da Escola

#### Região

In [None]:
basic_exploration(df, 'CO_REGIAO', 'category')

#### Estado

In [None]:
basic_exploration(df, 'CO_UF', 'category')

### EAD

In [None]:
basic_exploration(df, 'IN_EAD')

In [None]:
df = df[df['IN_EAD'] == 0]
df.shape

In [None]:
cols_remover += ['IN_EAD']
cols_remover[-1]

### Quantidade de Matrículas

#### Educação Infantil - OK

In [362]:
temp = ['QT_MAT_INF', 'QT_MAT_INF_CRE', 'QT_MAT_INF_PRE']

In [None]:
basic_exploration(df, 'QT_MAT_INF', 'numeric')

In [None]:
basic_exploration(df, 'QT_MAT_INF_CRE', 'numeric')

In [None]:
basic_exploration(df, 'QT_MAT_INF_PRE', 'numeric')

In [None]:
df[temp].isna().value_counts()

In [None]:
df[df['QT_MAT_INF'].isna()][['NO_ENTIDADE'] + temp]

In [None]:
df[(~df['QT_MAT_INF'].isna()) & (df['QT_MAT_INF'] != df[temp[1:]].sum(axis=1))][temp]

#### Ensino Fundamental - OK

In [369]:
temp = ['QT_MAT_FUND', 
        'QT_MAT_FUND_AI', 'QT_MAT_FUND_AI_1', 'QT_MAT_FUND_AI_2', 'QT_MAT_FUND_AI_3', 'QT_MAT_FUND_AI_4', 'QT_MAT_FUND_AI_5', 
        'QT_MAT_FUND_AF', 'QT_MAT_FUND_AF_6', 'QT_MAT_FUND_AF_7', 'QT_MAT_FUND_AF_8', 'QT_MAT_FUND_AF_9',]

In [None]:
for t in temp:
    basic_exploration(df, t, 'numeric')

In [None]:
df[temp].isna().value_counts()

In [None]:
# Anos Iniciais
df[(~df['QT_MAT_FUND_AI'].isna()) & (df['QT_MAT_FUND_AI'] != df[temp[2:7]].sum(axis=1))][temp[1:7]]

In [None]:
# Anos Finais
df[(~df['QT_MAT_FUND_AF'].isna()) & (df['QT_MAT_FUND_AF'] != df[temp[8:]].sum(axis=1))][temp[7:]]

In [None]:
# Ensino Fundamental
df[(~df['QT_MAT_FUND'].isna()) & (df['QT_MAT_FUND'] != df[['QT_MAT_FUND_AI', 'QT_MAT_FUND_AF']].sum(axis=1))][['QT_MAT_FUND', 'QT_MAT_FUND_AI', 'QT_MAT_FUND_AF']]

#### Ensino Médio - OK

In [375]:
temp = ['QT_MAT_MED', 
        'QT_MAT_MED_PROP', 'QT_MAT_MED_PROP_1', 'QT_MAT_MED_PROP_2', 'QT_MAT_MED_PROP_3', 'QT_MAT_MED_PROP_4', 'QT_MAT_MED_PROP_NS', 
        'QT_MAT_MED_CT', 'QT_MAT_MED_CT_1', 'QT_MAT_MED_CT_2', 'QT_MAT_MED_CT_3', 'QT_MAT_MED_CT_4', 'QT_MAT_MED_CT_NS', 
        'QT_MAT_MED_NM', 'QT_MAT_MED_NM_1', 'QT_MAT_MED_NM_2', 'QT_MAT_MED_NM_3', 'QT_MAT_MED_NM_4',]

In [None]:
for t in temp:
    basic_exploration(df, t, 'numeric')

In [None]:
df[temp].isna().value_counts()

In [None]:
# Ensino Médio Propedêutico
df[(~df['QT_MAT_MED_PROP'].isna()) & (df['QT_MAT_MED_PROP'] != df[temp[2:7]].sum(axis=1))][temp[1:7]]

In [None]:
# Ensino Médio Técnico Integrado
df[(~df['QT_MAT_MED_CT'].isna()) & (df['QT_MAT_MED_CT'] != df[temp[8:13]].sum(axis=1))][temp[7:13]]

In [None]:
# Ensino Médio Normal
df[(~df['QT_MAT_MED_NM'].isna()) & (df['QT_MAT_MED_NM'] != df[temp[14:]].sum(axis=1))][temp[13:]]

In [None]:
# Ensino Médio
df[(
    ~df['QT_MAT_MED'].isna()) & 
    (df['QT_MAT_MED'] != df[['QT_MAT_MED_PROP', 'QT_MAT_MED_CT', 'QT_MAT_MED_NM']].sum(axis=1))
][['QT_MAT_MED', 'QT_MAT_MED_PROP', 'QT_MAT_MED_CT', 'QT_MAT_MED_NM']]

#### Educação Profissional Técnica - NO

O valor da possível coluna agregada não confere com os valores das colunas granulares

In [382]:
temp = ['QT_MAT_PROF', 
        'QT_MAT_PROF_TEC', 'QT_MAT_PROF_TEC_CONC', 'QT_MAT_PROF_TEC_SUBS', 'QT_MAT_PROF_FIC_CONC',]

In [None]:
for t in temp:
    basic_exploration(df, t, 'numeric')

In [None]:
df[temp].isna().value_counts()

In [None]:
# Educação Profissional Técnica
df[(~df['QT_MAT_PROF_TEC'].isna()) & (df['QT_MAT_PROF_TEC'] != df[temp[2:]].sum(axis=1))][temp[1:]]

In [None]:
# Ensino Profissional
df[(~df['QT_MAT_PROF'].isna()) & (df['QT_MAT_PROF'] != df[['QT_MAT_PROF_TEC']].sum(axis=1))][['QT_MAT_PROF', 'QT_MAT_PROF_TEC']]

#### Educação de Jovens e Adultos - EJA - OK

In [387]:
temp = ['QT_MAT_EJA', 
        'QT_MAT_EJA_FUND', 'QT_MAT_EJA_FUND_AI', 'QT_MAT_EJA_FUND_AF', 'QT_MAT_EJA_FUND_FIC', 
        'QT_MAT_EJA_MED', 'QT_MAT_EJA_MED_NPROF', 'QT_MAT_EJA_MED_FIC', 'QT_MAT_EJA_MED_TEC',]

In [None]:
for t in temp:
    basic_exploration(df, t, 'numeric')

In [None]:
df[temp].isna().value_counts()

In [None]:
# EJA - Ensino Fundamental
df[(~df['QT_MAT_EJA_FUND'].isna()) & (df['QT_MAT_EJA_FUND'] != df[temp[2:5]].sum(axis=1))][temp[1:5]]

In [None]:
# EJA - Ensino Médio
df[(~df['QT_MAT_EJA_MED'].isna()) & (df['QT_MAT_EJA_MED'] != df[temp[6:]].sum(axis=1))][temp[5:]]

In [None]:
# EJA
df[(~df['QT_MAT_EJA'].isna()) & (df['QT_MAT_EJA'] != df[['QT_MAT_EJA_FUND', 'QT_MAT_EJA_MED']].sum(axis=1))][['QT_MAT_EJA', 'QT_MAT_EJA_FUND', 'QT_MAT_EJA_MED']]

#### Geral

In [None]:
basic_exploration(df, 'QT_MAT_BAS', 'numeric')

In [None]:
df[['QT_MAT_BAS']].describe()

In [None]:
df[['QT_MAT_BAS']].quantile([0.1 * i for i in range(11)])

In [None]:
sns.histplot(df[['QT_MAT_BAS']])

In [None]:
df[df['QT_MAT_BAS'] == 0].shape

In [None]:
temp = ['QT_MAT_INF', 'QT_MAT_FUND', 'QT_MAT_MED', 'QT_MAT_PROF', 'QT_MAT_EJA']

# A grande maioria dos alunos se encontra em apenas uma categoria de ensino de cada vez
display(df[(~df['QT_MAT_BAS'].isna()) & (df['QT_MAT_BAS'] == df[temp].sum(axis = 1))][['QT_MAT_BAS'] + temp].shape)

# Porém, é possível assumir que um mesmo aluno possa estar em duas categorias de ensino ao mesmo tempo
df_teste = df[(~df['QT_MAT_BAS'].isna()) & (df['QT_MAT_BAS'] < df[temp].sum(axis = 1))][['QT_MAT_BAS'] + temp]
display(df_teste.shape)

# O valor de QT_MAT_BAS não supera o valor do somatório das categorias de ensino, reforçando a teoria
display(df[(~df['QT_MAT_BAS'].isna()) & (df['QT_MAT_BAS'] > df[temp].sum(axis = 1))][['QT_MAT_BAS'] + temp].shape)

In [None]:
df_teste

In [None]:
df.shape

In [None]:
cols_remover += cols_matriculas
len(cols_remover)

In [None]:
# Removendo escolas com valor ausente na quantidade de matrículas
df = df.dropna(subset=['QT_MAT_BAS'], ignore_index=True)
df['QT_MAT_BAS'].isna().value_counts()

In [None]:
df[['NO_ENTIDADE', 'CO_UF', 'QT_MAT_BAS']].sort_values(by='QT_MAT_BAS', ascending=False).head(10)

In [None]:
df[df['QT_MAT_BAS'] == 1].shape

### Tipo de Escola

#### TP_DEPENDENCIA

- 1 - Federal
- 2 - Estadual
- 3 - Municipal
- 4 - Privada

In [None]:
basic_exploration(df, 'TP_DEPENDENCIA', 'category')

#### TP_CATEGORIA_ESCOLA_PRIVADA

- 1 - Particular
- 2 - Comunitária
- 3 - Confessional
- 4 - Filantrópica

\* Não aplicável para escolas públicas

In [None]:
basic_exploration(df, 'TP_CATEGORIA_ESCOLA_PRIVADA', 'category')

In [None]:
df[(df['TP_DEPENDENCIA'] == 4) & (df['TP_CATEGORIA_ESCOLA_PRIVADA'].isna())]

In [None]:
df.loc[(df['TP_DEPENDENCIA'] < 4) & (df['TP_CATEGORIA_ESCOLA_PRIVADA'].isna()), 'TP_CATEGORIA_ESCOLA_PRIVADA'] = -1
df['TP_CATEGORIA_ESCOLA_PRIVADA'].value_counts(dropna=False)

### Local da Escola

#### TP_LOCALIZACAO

- 1 - Urbana
- 2 - Rural

In [None]:
basic_exploration(df, 'TP_LOCALIZACAO', 'category')

#### TP_LOCALIZACAO_DIFERENCIADA

- 0 - A escola não está em área de localização diferenciada
- 1 - Área de assentamento
- 2 - Terra indígena
- 3 - Área onde se localiza comunidade remanescente de quilombos
- 8 - Área onde se localizam povos e comunidades tradicionais

In [None]:
basic_exploration(df, 'TP_LOCALIZACAO_DIFERENCIADA', 'category')

#### IN_LOCAL_FUNC_PREDIO_ESCOLAR

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LOCAL_FUNC_PREDIO_ESCOLAR', 'binary')

#### TP_OCUPACAO_PREDIO_ESCOLAR

- 1 - Próprio
- 2 - Alugado
- 3 - Cedido

\* Não aplicável para escolas que não ocupam prédio escolar

In [None]:
basic_exploration(df, 'TP_OCUPACAO_PREDIO_ESCOLAR', 'category')

In [None]:
df[(df['TP_OCUPACAO_PREDIO_ESCOLAR'].isna()) & (df['IN_LOCAL_FUNC_PREDIO_ESCOLAR'] == 1)]

In [None]:
df.loc[df['IN_LOCAL_FUNC_PREDIO_ESCOLAR'] == 0, 'TP_OCUPACAO_PREDIO_ESCOLAR'] = -1
df[['IN_LOCAL_FUNC_PREDIO_ESCOLAR', 'TP_OCUPACAO_PREDIO_ESCOLAR']].value_counts(dropna = False)

#### IN_LOCAL_FUNC_SOCIOEDUCATIVO

- 1 - Sim
- 0 - Não

In [None]:
basic_exploration(df, 'IN_LOCAL_FUNC_SOCIOEDUCATIVO', 'binary')

#### IN_LOCAL_FUNC_UNID_PRISIONAL

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LOCAL_FUNC_UNID_PRISIONAL', 'binary')

#### IN_LOCAL_FUNC_PRISIONAL_SOCIO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LOCAL_FUNC_PRISIONAL_SOCIO', 'binary')

#### IN_LOCAL_FUNC_GALPAO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LOCAL_FUNC_GALPAO', 'binary')

#### IN_LOCAL_FUNC_SALAS_OUTRA_ESC

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LOCAL_FUNC_SALAS_OUTRA_ESC', 'binary')

#### IN_LOCAL_FUNC_OUTROS

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LOCAL_FUNC_OUTROS', 'binary')

#### IN_PREDIO_COMPARTILHADO

- 0 - Não
- 1 - Sim

\* Não aplicável para escolas que não ocupam prédio escolar

In [None]:
basic_exploration(df, 'IN_PREDIO_COMPARTILHADO', 'binary')

In [None]:
df[['IN_LOCAL_FUNC_PREDIO_ESCOLAR', 'TP_OCUPACAO_PREDIO_ESCOLAR', 'IN_PREDIO_COMPARTILHADO']].value_counts(dropna = False)

In [None]:
df.loc[df['IN_LOCAL_FUNC_PREDIO_ESCOLAR'] == 0, 'IN_PREDIO_COMPARTILHADO'] = -1
df[['IN_LOCAL_FUNC_PREDIO_ESCOLAR', 'TP_OCUPACAO_PREDIO_ESCOLAR', 'IN_PREDIO_COMPARTILHADO']].value_counts(dropna = False)

### Abastecimento de Água

#### IN_AGUA_POTAVEL

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_AGUA_POTAVEL', 'binary')

#### IN_AGUA_REDE_PUBLICA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_AGUA_REDE_PUBLICA', 'binary')

#### IN_AGUA_POCO_ARTESIANO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_AGUA_POCO_ARTESIANO', 'binary')

#### IN_AGUA_CACIMBA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_AGUA_CACIMBA', 'binary')

#### IN_AGUA_FONTE_RIO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_AGUA_FONTE_RIO', 'binary')

#### IN_AGUA_INEXISTENTE

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_AGUA_INEXISTENTE', 'binary')

#### Comparação

In [None]:
cols_agua = ['IN_AGUA_POTAVEL', 'IN_AGUA_REDE_PUBLICA', 'IN_AGUA_POCO_ARTESIANO', 'IN_AGUA_CACIMBA', 'IN_AGUA_FONTE_RIO', 'IN_AGUA_INEXISTENTE']

df[cols_agua].value_counts(dropna = False)

### Abastecimento de Energia Elétrica

#### IN_ENERGIA_REDE_PUBLICA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ENERGIA_REDE_PUBLICA', 'binary')

#### IN_ENERGIA_GERADOR_FOSSIL

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ENERGIA_GERADOR_FOSSIL', 'binary')

#### IN_ENERGIA_RENOVAVEL

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ENERGIA_RENOVAVEL', 'binary')

#### IN_ENERGIA_INEXISTENTE

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ENERGIA_INEXISTENTE', 'binary')

#### Comparação

In [None]:
cols_agua = ['IN_ENERGIA_REDE_PUBLICA', 'IN_ENERGIA_GERADOR_FOSSIL', 'IN_ENERGIA_RENOVAVEL', 'IN_ENERGIA_INEXISTENTE']

df[cols_agua].value_counts(dropna = False)

### Esgoto Sanitário

#### IN_ESGOTO_REDE_PUBLICA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ESGOTO_REDE_PUBLICA', 'binary')

#### IN_ESGOTO_FOSSA_SEPTICA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ESGOTO_FOSSA_SEPTICA', 'binary')

#### IN_ESGOTO_FOSSA_COMUM

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ESGOTO_FOSSA_COMUM', 'binary')

#### IN_ESGOTO_FOSSA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ESGOTO_FOSSA', 'binary')

In [None]:
cols_remover += ['IN_ESGOTO_FOSSA']
cols_remover[-1]

#### IN_ESGOTO_INEXISTENTE

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ESGOTO_INEXISTENTE', 'binary')

#### Comparação

In [None]:
cols_esgoto = ['IN_ESGOTO_REDE_PUBLICA', 'IN_ESGOTO_FOSSA_SEPTICA', 'IN_ESGOTO_FOSSA_COMUM', 'IN_ESGOTO_FOSSA', 'IN_ESGOTO_INEXISTENTE']

df[cols_esgoto].value_counts(dropna = False)

### Destinação do Lixo

#### IN_LIXO_SERVICO_COLETA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LIXO_SERVICO_COLETA', 'binary')

#### IN_LIXO_QUEIMA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LIXO_QUEIMA', 'binary')

#### IN_LIXO_ENTERRA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LIXO_ENTERRA', 'binary')

#### IN_LIXO_DESTINO_FINAL_PUBLICO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LIXO_DESTINO_FINAL_PUBLICO', 'binary')

#### IN_LIXO_DESCARTA_OUTRA_AREA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LIXO_DESCARTA_OUTRA_AREA', 'binary')

#### Comparação

In [None]:
cols_lixo = ['IN_LIXO_SERVICO_COLETA', 'IN_LIXO_QUEIMA', 'IN_LIXO_ENTERRA', 'IN_LIXO_DESTINO_FINAL_PUBLICO', 'IN_LIXO_DESCARTA_OUTRA_AREA']

df[cols_lixo].value_counts(dropna = False)

### Dependências Físicas Existentes e Utilizadas na Escola

#### IN_ALMOXARIFADO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ALMOXARIFADO', 'binary')

#### IN_AREA_VERDE

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_AREA_VERDE', 'binary')

#### IN_AUDITORIO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_AUDITORIO', 'binary')

#### IN_BANHEIRO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_BANHEIRO', 'binary')

#### IN_BANHEIRO_EI

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_BANHEIRO_EI', 'binary')

#### IN_BANHEIRO_PNE

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_BANHEIRO_PNE', 'binary')

#### IN_BANHEIRO_FUNCIONARIOS

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_BANHEIRO_FUNCIONARIOS', 'binary')

#### IN_BANHEIRO_CHUVEIRO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_BANHEIRO_CHUVEIRO', 'binary')

#### IN_BIBLIOTECA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_BIBLIOTECA', 'binary')

#### IN_BIBLIOTECA_SALA_LEITURA -> Remover

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_BIBLIOTECA_SALA_LEITURA', 'binary')

#### IN_COZINHA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_COZINHA', 'binary')

#### IN_DESPENSA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_DESPENSA', 'binary')

#### IN_DORMITORIO_ALUNO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_DORMITORIO_ALUNO', 'binary')

#### IN_DORMITORIO_PROFESSOR

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_DORMITORIO_PROFESSOR', 'binary')

#### IN_LABORATORIO_CIENCIAS

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LABORATORIO_CIENCIAS', 'binary')

#### IN_LABORATORIO_INFORMATICA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LABORATORIO_INFORMATICA', 'binary')

#### IN_LABORATORIO_EDUC_PROF

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_LABORATORIO_EDUC_PROF', 'binary')

#### IN_PATIO_COBERTO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_PATIO_COBERTO', 'binary')

#### IN_PATIO_DESCOBERTO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_PATIO_DESCOBERTO', 'binary')

#### IN_PARQUE_INFANTIL

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_PARQUE_INFANTIL', 'binary')

#### IN_PISCINA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_PISCINA', 'binary')

#### IN_QUADRA_ESPORTES

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_QUADRA_ESPORTES', 'binary')

In [None]:
cols_remover += ['IN_QUADRA_ESPORTES']
cols_remover[-1]

#### IN_QUADRA_ESPORTES_COBERTA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_QUADRA_ESPORTES_COBERTA', 'binary')

#### IN_QUADRA_ESPORTES_DESCOBERTA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_QUADRA_ESPORTES_DESCOBERTA', 'binary')

#### IN_REFEITORIO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_REFEITORIO', 'binary')

#### IN_SALA_ATELIE_ARTES

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SALA_ATELIE_ARTES', 'binary')

#### IN_SALA_MUSICA_CORAL

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SALA_MUSICA_CORAL', 'binary')

#### IN_SALA_ESTUDIO_DANCA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SALA_ESTUDIO_DANCA', 'binary')

#### IN_SALA_MULTIUSO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SALA_MULTIUSO', 'binary')

#### IN_SALA_ESTUDIO_GRAVACAO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SALA_ESTUDIO_GRAVACAO', 'binary')

#### IN_SALA_OFICINAS_EDUC_PROF

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SALA_OFICINAS_EDUC_PROF', 'binary')

#### IN_SALA_DIRETORIA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SALA_DIRETORIA', 'binary')

#### IN_SALA_LEITURA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SALA_LEITURA', 'binary')

#### IN_SALA_PROFESSOR

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SALA_PROFESSOR', 'binary')

#### IN_SALA_REPOUSO_ALUNO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SALA_REPOUSO_ALUNO', 'binary')

#### IN_SECRETARIA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SECRETARIA', 'binary')

#### IN_SALA_ATENDIMENTO_ESPECIAL

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_SALA_ATENDIMENTO_ESPECIAL', 'binary')

#### IN_TERREIRAO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_TERREIRAO', 'binary')

#### IN_VIVEIRO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_VIVEIRO', 'binary')

#### IN_DEPENDENCIAS_OUTRAS

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_DEPENDENCIAS_OUTRAS', 'binary')

#### Comparação

In [None]:
cols_banheiros = ['IN_BANHEIRO', 'IN_BANHEIRO_EI', 'IN_BANHEIRO_PNE', 'IN_BANHEIRO_FUNCIONARIOS', 'IN_BANHEIRO_CHUVEIRO']

df[cols_banheiros].value_counts(dropna = False)

In [None]:
cols_biblioteca = ['IN_BIBLIOTECA', 'IN_BIBLIOTECA_SALA_LEITURA', 'IN_SALA_LEITURA']

df[cols_biblioteca].value_counts(dropna = False)

In [None]:
cols_remover += ['IN_BIBLIOTECA_SALA_LEITURA']
cols_remover

### Recursos de Acessibilidade para Pessoas com Deficiência ou Mobilidade Reduzida nas Vias de Circulação Interna da Escola

#### IN_ACESSIBILIDADE_CORRIMAO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ACESSIBILIDADE_CORRIMAO', 'binary')

#### IN_ACESSIBILIDADE_ELEVADOR

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ACESSIBILIDADE_ELEVADOR', 'binary')

#### IN_ACESSIBILIDADE_PISOS_TATEIS

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ACESSIBILIDADE_PISOS_TATEIS', 'binary')

#### IN_ACESSIBILIDADE_VAO_LIVRE

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ACESSIBILIDADE_VAO_LIVRE', 'binary')

#### IN_ACESSIBILIDADE_RAMPAS

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ACESSIBILIDADE_RAMPAS', 'binary')

#### IN_ACESSIBILIDADE_SINAL_SONORO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ACESSIBILIDADE_SINAL_SONORO', 'binary')

#### IN_ACESSIBILIDADE_SINAL_TATIL

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ACESSIBILIDADE_SINAL_TATIL', 'binary')

#### IN_ACESSIBILIDADE_SINAL_VISUAL

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ACESSIBILIDADE_SINAL_VISUAL', 'binary')

#### IN_ACESSIBILIDADE_INEXISTENTE

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_ACESSIBILIDADE_INEXISTENTE', 'binary')

#### Comparação

In [None]:
cols_acessibilidade = ['IN_ACESSIBILIDADE_CORRIMAO', 'IN_ACESSIBILIDADE_ELEVADOR', 'IN_ACESSIBILIDADE_PISOS_TATEIS', 'IN_ACESSIBILIDADE_VAO_LIVRE', 'IN_ACESSIBILIDADE_RAMPAS', 
                  'IN_ACESSIBILIDADE_SINAL_SONORO', 'IN_ACESSIBILIDADE_SINAL_TATIL', 'IN_ACESSIBILIDADE_SINAL_VISUAL', 'IN_ACESSIBILIDADE_INEXISTENTE']

df[cols_acessibilidade].value_counts(dropna = False)

### Salas

#### QT_SALAS_UTILIZADAS_DENTRO

In [None]:
basic_exploration(df, 'QT_SALAS_UTILIZADAS_DENTRO', 'numeric')

#### QT_SALAS_UTILIZADAS_FORA

In [None]:
basic_exploration(df, 'QT_SALAS_UTILIZADAS_FORA', 'numeric')

#### QT_SALAS_UTILIZADAS -> Remover

In [None]:
basic_exploration(df, 'QT_SALAS_UTILIZADAS', 'numeric')

In [None]:
cols_remover += ['QT_SALAS_UTILIZADAS']
cols_remover[-1]

#### QT_SALAS_UTILIZA_CLIMATIZADAS

In [None]:
basic_exploration(df, 'QT_SALAS_UTILIZA_CLIMATIZADAS', 'numeric')

#### QT_SALAS_UTILIZADAS_ACESSIVEIS

In [None]:
basic_exploration(df, 'QT_SALAS_UTILIZADAS_ACESSIVEIS', 'numeric')

#### Comparação

In [None]:
df[df['QT_SALAS_UTILIZADAS_DENTRO'] + df['QT_SALAS_UTILIZADAS_FORA'] != df['QT_SALAS_UTILIZADAS']].shape

In [None]:
cols_remover += ['QT_SALAS_UTILIZADAS_DENTRO']
cols_remover

### Equipamentos para uso técnico e administrativo

#### IN_EQUIP_PARABOLICA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_EQUIP_PARABOLICA', 'binary')

#### IN_COMPUTADOR

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_COMPUTADOR', 'binary')

#### IN_EQUIP_COPIADORA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_EQUIP_COPIADORA', 'binary')

#### IN_EQUIP_IMPRESSORA

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_EQUIP_IMPRESSORA', 'binary')

#### IN_EQUIP_IMPRESSORA_MULT

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_EQUIP_IMPRESSORA_MULT', 'binary')

#### IN_EQUIP_SCANNER

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_EQUIP_SCANNER', 'binary')

#### Comparação

In [None]:
cols_equipamentos_tec = ['IN_EQUIP_COPIADORA', 'IN_EQUIP_IMPRESSORA', 'IN_EQUIP_IMPRESSORA_MULT', 'IN_EQUIP_SCANNER']

df[cols_equipamentos_tec].value_counts(dropna = False)

### Equipamentos para o processo de ensino e atividade

#### QT_EQUIP_DVD

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 salas existentes - foram marcados apenas valores>3)

In [None]:
basic_exploration(df, 'QT_EQUIP_DVD', 'numeric')

In [None]:
df[df['QT_EQUIP_DVD'] == 0].shape

In [None]:
df[df['QT_EQUIP_DVD'] == 88888].shape

In [None]:
df[(df['QT_EQUIP_DVD'] > 0) & (df['QT_EQUIP_DVD'] < 88888)].shape

In [None]:
df[(df['QT_EQUIP_DVD'] > 0) & (df['QT_EQUIP_DVD'] < 88888)]['QT_EQUIP_DVD'].sort_values(ascending = False)

In [None]:
df[
    (df['QT_EQUIP_DVD'] > 3) & 
    (df['QT_EQUIP_DVD'] > df['QT_SALAS_UTILIZADAS'] / 3 * 4) & 
    (df['QT_EQUIP_DVD'] < 88888)
][['NO_ENTIDADE', 'QT_EQUIP_DVD', 'QT_SALAS_UTILIZADAS']]

#### QT_EQUIP_SOM

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 salas existentes - foram marcados apenas valores>3)

In [None]:
basic_exploration(df, 'QT_EQUIP_SOM', 'numeric')

In [None]:
df[df['QT_EQUIP_SOM'] == 0].shape

In [None]:
df[df['QT_EQUIP_SOM'] == 88888].shape

In [None]:
df[(df['QT_EQUIP_SOM'] > 0) & (df['QT_EQUIP_SOM'] < 88888)].shape

In [None]:
df[(df['QT_EQUIP_SOM'] > 0) & (df['QT_EQUIP_SOM'] < 88888)]['QT_EQUIP_SOM'].sort_values(ascending = False)

In [None]:
df[
    (df['QT_EQUIP_SOM'] > 3) & 
    (df['QT_EQUIP_SOM'] > df['QT_SALAS_UTILIZADAS'] / 3 * 4) & 
    (df['QT_EQUIP_SOM'] < 88888)
][['NO_ENTIDADE', 'QT_EQUIP_SOM', 'QT_SALAS_UTILIZADAS']]

#### QT_EQUIP_TV

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 salas existentes - foram marcados apenas valores>3)

In [None]:
basic_exploration(df, 'QT_EQUIP_TV', 'numeric')

In [None]:
df[df['QT_EQUIP_TV'] == 0].shape

In [None]:
df[df['QT_EQUIP_TV'] == 88888].shape

In [None]:
df[(df['QT_EQUIP_TV'] > 0) & (df['QT_EQUIP_TV'] < 88888)].shape

In [None]:
df[(df['QT_EQUIP_TV'] > 0) & (df['QT_EQUIP_TV'] < 88888)]['QT_EQUIP_TV'].sort_values(ascending = False)

In [None]:
df[
    (df['QT_EQUIP_TV'] > 3) & 
    (df['QT_EQUIP_TV'] > df['QT_SALAS_UTILIZADAS'] / 3 * 4) & 
    (df['QT_EQUIP_TV'] < 88888)
][['NO_ENTIDADE', 'QT_EQUIP_TV', 'QT_SALAS_UTILIZADAS']]

#### QT_EQUIP_LOUSA_DIGITAL

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 salas existentes - foram marcados apenas valores>3)

In [None]:
basic_exploration(df, 'QT_EQUIP_LOUSA_DIGITAL', 'numeric')

In [None]:
df[df['QT_EQUIP_LOUSA_DIGITAL'] == 0].shape

In [None]:
df[df['QT_EQUIP_LOUSA_DIGITAL'] == 88888].shape

In [None]:
df[(df['QT_EQUIP_LOUSA_DIGITAL'] > 0) & (df['QT_EQUIP_LOUSA_DIGITAL'] < 88888)].shape

In [None]:
df[(df['QT_EQUIP_LOUSA_DIGITAL'] > 0) & (df['QT_EQUIP_LOUSA_DIGITAL'] < 88888)]['QT_EQUIP_LOUSA_DIGITAL'].sort_values(ascending = False)

In [None]:
df[
    (df['QT_EQUIP_LOUSA_DIGITAL'] > 3) & 
    (df['QT_EQUIP_LOUSA_DIGITAL'] > df['QT_SALAS_UTILIZADAS'] / 3 * 4) & 
    (df['QT_EQUIP_LOUSA_DIGITAL'] < 88888)
][['NO_ENTIDADE', 'QT_EQUIP_LOUSA_DIGITAL', 'QT_SALAS_UTILIZADAS']]

#### QT_EQUIP_MULTIMIDIA

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 salas existentes - foram marcados apenas valores>3)

In [None]:
basic_exploration(df, 'QT_EQUIP_MULTIMIDIA', 'numeric')

In [None]:
df[df['QT_EQUIP_MULTIMIDIA'] == 0].shape

In [None]:
df[df['QT_EQUIP_MULTIMIDIA'] == 88888].shape

In [None]:
df[(df['QT_EQUIP_MULTIMIDIA'] > 0) & (df['QT_EQUIP_MULTIMIDIA'] < 88888)].shape

In [None]:
df[(df['QT_EQUIP_MULTIMIDIA'] > 0) & (df['QT_EQUIP_MULTIMIDIA'] < 88888)]['QT_EQUIP_MULTIMIDIA'].sort_values(ascending = False)

In [None]:
df[
    (df['QT_EQUIP_MULTIMIDIA'] > 3) & 
    (df['QT_EQUIP_MULTIMIDIA'] > df['QT_SALAS_UTILIZADAS'] / 3 * 4) & 
    (df['QT_EQUIP_MULTIMIDIA'] < 88888)
][['NO_ENTIDADE', 'QT_EQUIP_MULTIMIDIA', 'QT_SALAS_UTILIZADAS']]

#### QT_DESKTOP_ALUNO -> 24 Valores estranhos

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 matrículas - foram marcados apenas valores>3)

In [None]:
basic_exploration(df, 'QT_DESKTOP_ALUNO', 'numeric')

In [None]:
df[df['QT_DESKTOP_ALUNO'] == 0].shape

In [None]:
df[df['QT_DESKTOP_ALUNO'] == 88888].shape

In [None]:
df[(df['QT_DESKTOP_ALUNO'] > 0) & (df['QT_DESKTOP_ALUNO'] < 88888)].shape

In [None]:
df[(df['QT_DESKTOP_ALUNO'] > 0) & (df['QT_DESKTOP_ALUNO'] < 88888)]['QT_DESKTOP_ALUNO'].sort_values(ascending = False)

In [None]:
df['QT_DESKTOP_TESTE'] = round(df['QT_DESKTOP_ALUNO'] / (df['QT_MAT_BAS'] / 3), 2)
df[
    (df['QT_DESKTOP_ALUNO'] > 3) & 
    (df['QT_DESKTOP_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_DESKTOP_ALUNO'] < 88888)
][['NO_ENTIDADE', 'QT_DESKTOP_ALUNO', 'QT_DESKTOP_TESTE', 'QT_MAT_BAS']].sort_values('QT_DESKTOP_TESTE', ascending = False)

In [554]:
# Substitui pelo código 88888
df.loc[
    (df['QT_DESKTOP_ALUNO'] > 3) & 
    (df['QT_DESKTOP_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_DESKTOP_ALUNO'] < 88888)
, 'QT_DESKTOP_ALUNO'] = 88888

In [None]:
df['QT_DESKTOP_TESTE'] = round(df['QT_DESKTOP_ALUNO'] / (df['QT_MAT_BAS'] / 3), 2)
df[
    (df['QT_DESKTOP_ALUNO'] > 3) & 
    (df['QT_DESKTOP_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_DESKTOP_ALUNO'] < 88888)
][['NO_ENTIDADE', 'QT_DESKTOP_ALUNO', 'QT_DESKTOP_TESTE', 'QT_MAT_BAS']].sort_values('QT_DESKTOP_TESTE', ascending = False)

In [None]:
cols_remover += ['QT_DESKTOP_TESTE']
cols_remover[-1]

#### QT_COMP_PORTATIL_ALUNO -> 11 Valores estranhos

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 matrículas - foram marcados apenas valores>3)

In [None]:
basic_exploration(df, 'QT_COMP_PORTATIL_ALUNO', 'numeric')

In [None]:
df[df['QT_COMP_PORTATIL_ALUNO'] == 0].shape

In [None]:
df[df['QT_COMP_PORTATIL_ALUNO'] == 88888].shape

In [None]:
df[(df['QT_COMP_PORTATIL_ALUNO'] > 0) & (df['QT_COMP_PORTATIL_ALUNO'] < 88888)].shape

In [None]:
df[(df['QT_COMP_PORTATIL_ALUNO'] > 0) & (df['QT_COMP_PORTATIL_ALUNO'] < 88888)]['QT_COMP_PORTATIL_ALUNO'].sort_values(ascending = False)

In [None]:
df['QT_COMP_PORTATIL_TESTE'] = round(df['QT_COMP_PORTATIL_ALUNO'] / (df['QT_MAT_BAS'] / 3), 2)
df[
    (df['QT_COMP_PORTATIL_ALUNO'] > 3) & 
    (df['QT_COMP_PORTATIL_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_COMP_PORTATIL_ALUNO'] < 88888)
][['NO_ENTIDADE', 'QT_COMP_PORTATIL_ALUNO', 'QT_COMP_PORTATIL_TESTE', 'QT_MAT_BAS']].sort_values('QT_COMP_PORTATIL_TESTE', ascending = False)

In [563]:
# Substitui pelo código 88888
df.loc[
    (df['QT_COMP_PORTATIL_ALUNO'] > 3) & 
    (df['QT_COMP_PORTATIL_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_COMP_PORTATIL_ALUNO'] < 88888)
, 'QT_COMP_PORTATIL_ALUNO'] = 88888

In [None]:
df['QT_COMP_PORTATIL_TESTE'] = round(df['QT_COMP_PORTATIL_ALUNO'] / (df['QT_MAT_BAS'] / 3), 2)
df[
    (df['QT_COMP_PORTATIL_ALUNO'] > 3) & 
    (df['QT_COMP_PORTATIL_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_COMP_PORTATIL_ALUNO'] < 88888)
][['NO_ENTIDADE', 'QT_COMP_PORTATIL_ALUNO', 'QT_COMP_PORTATIL_TESTE', 'QT_MAT_BAS']].sort_values('QT_COMP_PORTATIL_TESTE', ascending = False)

In [None]:
cols_remover += ['QT_COMP_PORTATIL_TESTE']
cols_remover[-1]

#### QT_TABLET_ALUNO -> 9 Valores estranhos

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 matrículas - foram marcados apenas valores>3)

In [None]:
basic_exploration(df, 'QT_TABLET_ALUNO', 'numeric')

In [None]:
df[df['QT_TABLET_ALUNO'] == 0].shape

In [None]:
df[df['QT_TABLET_ALUNO'] == 88888].shape

In [None]:
df[(df['QT_TABLET_ALUNO'] > 0) & (df['QT_TABLET_ALUNO'] < 88888)].shape

In [None]:
df[(df['QT_TABLET_ALUNO'] > 0) & (df['QT_TABLET_ALUNO'] < 88888)]['QT_TABLET_ALUNO'].sort_values(ascending = False)

In [None]:
df['QT_TABLET_TESTE'] = round(df['QT_TABLET_ALUNO'] / (df['QT_MAT_BAS'] / 3), 2)
df[
    (df['QT_TABLET_ALUNO'] > 3) & 
    (df['QT_TABLET_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_TABLET_ALUNO'] < 88888)
][['NO_ENTIDADE', 'QT_TABLET_ALUNO', 'QT_TABLET_TESTE', 'QT_MAT_BAS']].sort_values('QT_TABLET_TESTE', ascending = False)

In [572]:
# Substitui pelo código 88888
df.loc[
    (df['QT_TABLET_ALUNO'] > 3) & 
    (df['QT_TABLET_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_TABLET_ALUNO'] < 88888)
, 'QT_TABLET_ALUNO'] = 88888

In [None]:
df['QT_TABLET_TESTE'] = round(df['QT_TABLET_ALUNO'] / (df['QT_MAT_BAS'] / 3), 2)
df[
    (df['QT_TABLET_ALUNO'] > 3) & 
    (df['QT_TABLET_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_TABLET_ALUNO'] < 88888)
][['NO_ENTIDADE', 'QT_TABLET_ALUNO', 'QT_TABLET_TESTE', 'QT_MAT_BAS']].sort_values('QT_TABLET_TESTE', ascending = False)

In [None]:
cols_remover += ['QT_TABLET_TESTE']
cols_remover[-1]

### Internet

#### IN_INTERNET

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_INTERNET', 'binary')

#### IN_INTERNET_ALUNOS

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_INTERNET_ALUNOS', 'binary')

#### IN_INTERNET_ADMINISTRATIVO

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_INTERNET_ADMINISTRATIVO', 'binary')

#### IN_INTERNET_APRENDIZAGEM

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_INTERNET_APRENDIZAGEM', 'binary')

#### IN_INTERNET_COMUNIDADE

- 1 - Sim
- 0 - Não


In [None]:
basic_exploration(df, 'IN_INTERNET_COMUNIDADE', 'binary')

#### IN_ACESSO_INTERNET_COMPUTADOR

- 0 - Não
- 1 - Sim
- 9 - Não informado

In [None]:
basic_exploration(df, 'IN_ACESSO_INTERNET_COMPUTADOR', 'binary')

#### IN_ACES_INTERNET_DISP_PESSOAIS

- 0 - Não
- 1 - Sim
- 9 - Não informado

In [None]:
basic_exploration(df, 'IN_ACES_INTERNET_DISP_PESSOAIS', 'binary')

#### TP_REDE_LOCAL

- 0 - Não há rede local interligando computadores
- 1 - A cabo
- 2 - Wireless
- 3 - A cabo e Wireless
- 9 - Não informado

In [None]:
basic_exploration(df, 'TP_REDE_LOCAL', 'binary')

#### IN_BANDA_LARGA

- 1 - Sim
- 0 - Não

* Não aplicável para escolas sem acesso à internet

In [None]:
basic_exploration(df, 'IN_BANDA_LARGA', 'binary')

In [None]:
df.loc[df['IN_BANDA_LARGA'].isna(), 'IN_BANDA_LARGA'] = -1
df['IN_BANDA_LARGA'].value_counts(dropna=False)

#### Comparação

In [None]:
cols_internet = ['IN_INTERNET', 'IN_INTERNET_ALUNOS', 'IN_INTERNET_ADMINISTRATIVO', 'IN_INTERNET_APRENDIZAGEM', 'IN_INTERNET_COMUNIDADE', 'IN_ACESSO_INTERNET_COMPUTADOR', 
                         'IN_ACES_INTERNET_DISP_PESSOAIS', 'TP_REDE_LOCAL', 'IN_BANDA_LARGA']

df[cols_internet].value_counts(dropna = False)

## Criação da Base Final

### Remoção das colunas desnecessárias

In [None]:
df.drop(cols_remover, axis = 1, inplace = True)
len(df.columns)

In [None]:
df.shape

### Criação das faixas de quantidade de matrículas

#### Árvore de Decisão -> Documentar, porque não funciona

Testes que foram feitos:
1. Não tinha as variáveis de EAD, Região e UF -> A melhor combinação de hiperparâmetros resultou em 12 faixas, com a última tendo intervalo de +180
2. Foram adicionadas as variáveis EAD, Região e UF, com testes individuais e combinados dessas variáveis. -> A árvore não apresentou melhora na distribuição das escolas nem na definição de intervalos menos abrangentes
3. Foram removidas as escolas que fazem ensino EAD e ignorados as variáveis de Região e UF. -> A árvore não apresentou melhora na distribuição das escolas nem na definição de intervalos menos abrangentes [Atual]

In [603]:
# import pandas as pd
# import numpy as np

# from sklearn.tree import DecisionTreeRegressor
# from sklearn import tree

In [604]:
# df.columns

In [605]:
# X = df[df.columns[1:-3]]  # Variáveis independentes
# y = df[['QT_MAT_BAS']]  # Variável alvo

In [606]:
# dt = DecisionTreeRegressor(
#     # ccp_alpha=0.05,
#     max_depth=4,
#     max_leaf_nodes=15,
#     min_samples_leaf=150,
#     random_state=42
# )
# dt.fit(X, y)

In [607]:
# plt.figure(figsize = (20,8))
# _ = tree.plot_tree(dt, feature_names=df.columns[1:-3], filled=True)

In [608]:
# # Obter os pontos de corte da árvore
# thresholds = np.sort(dt.tree_.threshold[dt.tree_.threshold != -2])  # -2 é um valor padrão quando não há corte

# # Adicionar o valor mínimo e máximo para garantir que todos os valores de y estejam dentro das faixas
# bins = np.concatenate(([-np.inf], thresholds, [np.inf]))
# bins

In [609]:
# # Criar a nova variável categórica
# df['FAIXA_QNT_MAT_BAS'] = pd.cut(
#     y.QT_MAT_BAS, 
#     bins=bins, 
#     duplicates='drop',
#     labels=False
# )
# df[['FAIXA_QNT_MAT_BAS']].value_counts(dropna = False).sort_index()

In [610]:
# for i in df['FAIXA_QNT_MAT_BAS'].sort_values().unique():
#     print(f"faixa: {i} | min: {df[df['FAIXA_QNT_MAT_BAS'] == i]['QT_MAT_BAS'].min()} | max: {df[df['FAIXA_QNT_MAT_BAS'] == i]['QT_MAT_BAS'].max()}")

In [611]:
# sns.histplot(df[['FAIXA_QNT_MAT_BAS']])

In [612]:
# def generate_pct_heatmap(df: pd.DataFrame, columns: list):
#     # Agrupa pela faixa e pela região para conseguir a quantidade de escolas em cada grupo
#     temp = df.groupby(columns, as_index = False).size()

#     pct = [temp[temp[columns[0]] == faixa].sum()['size'] for faixa in temp[columns[0]]]
#     pct = temp['size'] / pct * 100

#     temp['pct'] = pct
#     temp = temp.set_index(columns[0]).pivot(columns = columns[1], values = 'pct')

#     return sns.heatmap(temp, annot=True, fmt='.2f', linewidths=0.5, cmap='PuRd')

In [613]:
# generate_pct_heatmap(df[['FAIXA_QNT_MAT_BAS', 'CO_REGIAO']], ['FAIXA_QNT_MAT_BAS', 'CO_REGIAO'])

In [614]:
# plt.figure(figsize = (20,5))
# generate_pct_heatmap(df[['FAIXA_QNT_MAT_BAS', 'CO_UF']], ['FAIXA_QNT_MAT_BAS', 'CO_UF'])

#### Criação das faixas conforme o percentil

In [None]:
df.columns

In [None]:
df[['QT_MAT_BAS']].quantile([0.1 * i for i in range(11)])

In [None]:
percentiles = pd.DataFrame()
percentiles['MAX'] = df['QT_MAT_BAS'].quantile([0.1 * i for i in range(1, 11)]) - 1
percentiles['MIN'] = df['QT_MAT_BAS'].quantile([0.1 * i for i in range(0, 10)]).values
percentiles

In [685]:
df['FAIXA_QT_MAT_BAS'] = pd.qcut(df['QT_MAT_BAS'], q=10, labels=range(1, 11))

In [None]:
df[['QT_MAT_BAS', 'FAIXA_QT_MAT_BAS']]

In [None]:
df.columns

In [None]:
df.shape

In [None]:
sns.histplot(df['FAIXA_QT_MAT_BAS'])

### Geração do CSV

In [705]:
df.to_csv('censo_escolar_2023_mod.csv')