# Censo Escolar 2023

Análise dos dados de infraestrutura das escolas com o objetivo de entender o relacionamento entre a quantidade de matrículas na escola e sua infraestrutura

Sugestão: Definir faixas de quantidade de alunos a partir de árvore de decisão e seguir com uma regressão logística multinomial para chegar na probabilidade da quantidade de alunos dentro de cada faixa

## Setting Up

In [2]:
import pandas as pd

pd.set_option('display.max_columns', None)

In [3]:
def basic_exploration(df: pd.DataFrame, col: str, type: str = 'binary'):
    # BUG: prints e display não aparecem conforme estruturado na função
    if(type in ['binary', 'category']):
        print("\nContagem de valores:")
        display(df[col].value_counts(dropna=False))

    print("\nQuantidade de valores ausentes")
    display(df[col].isna().value_counts(dropna=False))

## Variáveis

In [4]:
cols = [
'NO_ENTIDADE',
'TP_DEPENDENCIA',
'TP_CATEGORIA_ESCOLA_PRIVADA',
'TP_LOCALIZACAO',
'TP_LOCALIZACAO_DIFERENCIADA',
'TP_SITUACAO_FUNCIONAMENTO',

'IN_LOCAL_FUNC_PREDIO_ESCOLAR',
'TP_OCUPACAO_PREDIO_ESCOLAR',
'IN_LOCAL_FUNC_SOCIOEDUCATIVO',
'IN_LOCAL_FUNC_UNID_PRISIONAL',
'IN_LOCAL_FUNC_PRISIONAL_SOCIO',
'IN_LOCAL_FUNC_GALPAO',
'IN_LOCAL_FUNC_SALAS_OUTRA_ESC',
'IN_LOCAL_FUNC_OUTROS',
'IN_PREDIO_COMPARTILHADO',

'IN_AGUA_POTAVEL',
'IN_AGUA_REDE_PUBLICA',
'IN_AGUA_POCO_ARTESIANO',
'IN_AGUA_CACIMBA',
'IN_AGUA_FONTE_RIO',
'IN_AGUA_INEXISTENTE',

'IN_ENERGIA_REDE_PUBLICA',
'IN_ENERGIA_GERADOR_FOSSIL',
'IN_ENERGIA_RENOVAVEL',
'IN_ENERGIA_INEXISTENTE',

'IN_ESGOTO_REDE_PUBLICA',
'IN_ESGOTO_FOSSA_SEPTICA',
'IN_ESGOTO_FOSSA_COMUM',
'IN_ESGOTO_FOSSA',
'IN_ESGOTO_INEXISTENTE',

'IN_LIXO_SERVICO_COLETA',
'IN_LIXO_QUEIMA',
'IN_LIXO_ENTERRA',
'IN_LIXO_DESTINO_FINAL_PUBLICO',
'IN_LIXO_DESCARTA_OUTRA_AREA',

'IN_ALMOXARIFADO',
'IN_AREA_VERDE',
'IN_AUDITORIO',
'IN_BANHEIRO',
'IN_BANHEIRO_EI',
'IN_BANHEIRO_PNE',
'IN_BANHEIRO_FUNCIONARIOS',
'IN_BANHEIRO_CHUVEIRO',
'IN_BIBLIOTECA',
'IN_BIBLIOTECA_SALA_LEITURA',
'IN_COZINHA',
'IN_DESPENSA',
'IN_DORMITORIO_ALUNO',
'IN_DORMITORIO_PROFESSOR',
'IN_LABORATORIO_CIENCIAS',
'IN_LABORATORIO_INFORMATICA',
'IN_LABORATORIO_EDUC_PROF',
'IN_PATIO_COBERTO',
'IN_PATIO_DESCOBERTO',
'IN_PARQUE_INFANTIL',
'IN_PISCINA',
'IN_QUADRA_ESPORTES',
'IN_QUADRA_ESPORTES_COBERTA',
'IN_QUADRA_ESPORTES_DESCOBERTA',
'IN_REFEITORIO',
'IN_SALA_ATELIE_ARTES',
'IN_SALA_MUSICA_CORAL',
'IN_SALA_ESTUDIO_DANCA',
'IN_SALA_MULTIUSO',
'IN_SALA_ESTUDIO_GRAVACAO',
'IN_SALA_OFICINAS_EDUC_PROF',
'IN_SALA_DIRETORIA',
'IN_SALA_LEITURA',
'IN_SALA_PROFESSOR',
'IN_SALA_REPOUSO_ALUNO',
'IN_SECRETARIA',
'IN_SALA_ATENDIMENTO_ESPECIAL',
'IN_TERREIRAO',
'IN_VIVEIRO',
'IN_DEPENDENCIAS_OUTRAS',

'IN_ACESSIBILIDADE_CORRIMAO',
'IN_ACESSIBILIDADE_ELEVADOR',
'IN_ACESSIBILIDADE_PISOS_TATEIS',
'IN_ACESSIBILIDADE_VAO_LIVRE',
'IN_ACESSIBILIDADE_RAMPAS',
'IN_ACESSIBILIDADE_SINAL_SONORO',
'IN_ACESSIBILIDADE_SINAL_TATIL',
'IN_ACESSIBILIDADE_SINAL_VISUAL',
'IN_ACESSIBILIDADE_INEXISTENTE',

'QT_SALAS_UTILIZADAS_DENTRO',
'QT_SALAS_UTILIZADAS_FORA',
'QT_SALAS_UTILIZADAS',
'QT_SALAS_UTILIZA_CLIMATIZADAS',
'QT_SALAS_UTILIZADAS_ACESSIVEIS',

'IN_EQUIP_PARABOLICA',
'IN_COMPUTADOR',
'IN_EQUIP_COPIADORA',
'IN_EQUIP_IMPRESSORA',
'IN_EQUIP_IMPRESSORA_MULT',
'IN_EQUIP_SCANNER',

'QT_EQUIP_DVD',
'QT_EQUIP_SOM',
'QT_EQUIP_TV',
'QT_EQUIP_LOUSA_DIGITAL',
'QT_EQUIP_MULTIMIDIA',
'QT_DESKTOP_ALUNO',
'QT_COMP_PORTATIL_ALUNO',
'QT_TABLET_ALUNO',

'IN_INTERNET',
'IN_INTERNET_ALUNOS',
'IN_INTERNET_ADMINISTRATIVO',
'IN_INTERNET_APRENDIZAGEM',
'IN_INTERNET_COMUNIDADE',
'IN_ACESSO_INTERNET_COMPUTADOR',
'IN_ACES_INTERNET_DISP_PESSOAIS',
'TP_REDE_LOCAL',
'IN_BANDA_LARGA',

'IN_MATERIAL_PED_MULTIMIDIA',
'IN_MATERIAL_PED_INFANTIL',
'IN_MATERIAL_PED_CIENTIFICO',
'IN_MATERIAL_PED_DIFUSAO',
'IN_MATERIAL_PED_MUSICAL',
'IN_MATERIAL_PED_JOGOS',
'IN_MATERIAL_PED_ARTISTICAS',
'IN_MATERIAL_PED_PROFISSIONAL',
'IN_MATERIAL_PED_DESPORTIVA',
'IN_MATERIAL_PED_INDIGENA',
'IN_MATERIAL_PED_ETNICO',
'IN_MATERIAL_PED_CAMPO',
'IN_MATERIAL_PED_BIL_SURDOS',
'IN_MATERIAL_PED_NENHUM',

'QT_MAT_BAS'
]

len(cols)

127

In [5]:
cols_matriculas = [
'QT_MAT_INF',
'QT_MAT_INF_CRE',
'QT_MAT_INF_PRE',
'QT_MAT_FUND',
'QT_MAT_FUND_AI',
'QT_MAT_FUND_AI_1',
'QT_MAT_FUND_AI_2',
'QT_MAT_FUND_AI_3',
'QT_MAT_FUND_AI_4',
'QT_MAT_FUND_AI_5',
'QT_MAT_FUND_AF',
'QT_MAT_FUND_AF_6',
'QT_MAT_FUND_AF_7',
'QT_MAT_FUND_AF_8',
'QT_MAT_FUND_AF_9',
'QT_MAT_MED',
'QT_MAT_MED_PROP',
'QT_MAT_MED_PROP_1',
'QT_MAT_MED_PROP_2',
'QT_MAT_MED_PROP_3',
'QT_MAT_MED_PROP_4',
'QT_MAT_MED_PROP_NS',
'QT_MAT_MED_CT',
'QT_MAT_MED_CT_1',
'QT_MAT_MED_CT_2',
'QT_MAT_MED_CT_3',
'QT_MAT_MED_CT_4',
'QT_MAT_MED_CT_NS',
'QT_MAT_MED_NM',
'QT_MAT_MED_NM_1',
'QT_MAT_MED_NM_2',
'QT_MAT_MED_NM_3',
'QT_MAT_MED_NM_4',
'QT_MAT_PROF',
'QT_MAT_PROF_TEC',
'QT_MAT_PROF_TEC_CONC',
'QT_MAT_PROF_TEC_SUBS',
'QT_MAT_PROF_FIC_CONC',
'QT_MAT_EJA',
'QT_MAT_EJA_FUND',
'QT_MAT_EJA_FUND_AI',
'QT_MAT_EJA_FUND_AF',
'QT_MAT_EJA_FUND_FIC',
'QT_MAT_EJA_MED',
'QT_MAT_EJA_MED_NPROF',
'QT_MAT_EJA_MED_FIC',
'QT_MAT_EJA_MED_TEC']

len(cols_matriculas)

47

## Tratamento dos Dados

In [6]:
df = pd.read_csv('data\\dados\\microdados_ed_basica_2023.csv', sep=';', encoding='ANSI')
df = df[cols + cols_matriculas]
df.shape

  df = pd.read_csv('data\\dados\\microdados_ed_basica_2023.csv', sep=';', encoding='ANSI')


(217625, 174)

In [7]:
# Mantendo apenas escolas em atividade
df = df[df['TP_SITUACAO_FUNCIONAMENTO'] == 1]
df.shape

(180230, 174)

In [8]:
cols_remover = []

### Quantidade de Matrículas

#### Educação Infantil - OK

In [9]:
temp = ['QT_MAT_INF', 'QT_MAT_INF_CRE', 'QT_MAT_INF_PRE']

In [10]:
basic_exploration(df, 'QT_MAT_INF', 'numeric')


Quantidade de valores ausentes


QT_MAT_INF
False    178476
True       1754
Name: count, dtype: int64

In [11]:
basic_exploration(df, 'QT_MAT_INF_CRE', 'numeric')


Quantidade de valores ausentes


QT_MAT_INF_CRE
False    178476
True       1754
Name: count, dtype: int64

In [12]:
basic_exploration(df, 'QT_MAT_INF_PRE', 'numeric')


Quantidade de valores ausentes


QT_MAT_INF_PRE
False    178476
True       1754
Name: count, dtype: int64

In [13]:
df[temp].isna().value_counts()

QT_MAT_INF  QT_MAT_INF_CRE  QT_MAT_INF_PRE
False       False           False             178476
True        True            True                1754
Name: count, dtype: int64

In [14]:
df[df['QT_MAT_INF'].isna()][['NO_ENTIDADE'] + temp]

Unnamed: 0,NO_ENTIDADE,QT_MAT_INF,QT_MAT_INF_CRE,QT_MAT_INF_PRE
246,ESCOLA DE EDUCACAO ESPECIAL NOVO MUNDO - ASSOC...,,,
247,APAE DE ARIQUEMES,,,
377,APAE DE JI PARANA - INSTITUTO DE EDUCACAO ESPE...,,,
545,CENTRO EDUCACIONAL DE ROLIM DE MOURA,,,
598,ESCOLA DE ENSINO ESPECIAL DENISE ACCORSI TOMIO...,,,
...,...,...,...,...
217372,CIL DO RIACHO FUNDO I,,,
217402,CIL DO RIACHO FUNDO II,,,
217464,CENTRO DE ENSINO GRAU TECNICO - UNIDADE BRASILIA,,,
217476,EP DA NATUREZA E ESPORTE,,,


In [15]:
df[(~df['QT_MAT_INF'].isna()) & (df['QT_MAT_INF'] != df[temp[1:]].sum(axis=1))][temp]

Unnamed: 0,QT_MAT_INF,QT_MAT_INF_CRE,QT_MAT_INF_PRE


#### Ensino Fundamental - OK

In [16]:
temp = ['QT_MAT_FUND', 
        'QT_MAT_FUND_AI', 'QT_MAT_FUND_AI_1', 'QT_MAT_FUND_AI_2', 'QT_MAT_FUND_AI_3', 'QT_MAT_FUND_AI_4', 'QT_MAT_FUND_AI_5', 
        'QT_MAT_FUND_AF', 'QT_MAT_FUND_AF_6', 'QT_MAT_FUND_AF_7', 'QT_MAT_FUND_AF_8', 'QT_MAT_FUND_AF_9',]

In [17]:
for t in temp:
    basic_exploration(df, t, 'numeric')


Quantidade de valores ausentes


QT_MAT_FUND
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_FUND_AI
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_FUND_AI_1
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_FUND_AI_2
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_FUND_AI_3
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_FUND_AI_4
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_FUND_AI_5
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_FUND_AF
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_FUND_AF_6
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_FUND_AF_7
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_FUND_AF_8
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_FUND_AF_9
False    178476
True       1754
Name: count, dtype: int64

In [18]:
df[temp].isna().value_counts()

QT_MAT_FUND  QT_MAT_FUND_AI  QT_MAT_FUND_AI_1  QT_MAT_FUND_AI_2  QT_MAT_FUND_AI_3  QT_MAT_FUND_AI_4  QT_MAT_FUND_AI_5  QT_MAT_FUND_AF  QT_MAT_FUND_AF_6  QT_MAT_FUND_AF_7  QT_MAT_FUND_AF_8  QT_MAT_FUND_AF_9
False        False           False             False             False             False             False             False           False             False             False             False               178476
True         True            True              True              True              True              True              True            True              True              True              True                  1754
Name: count, dtype: int64

In [19]:
# Anos Iniciais
df[(~df['QT_MAT_FUND_AI'].isna()) & (df['QT_MAT_FUND_AI'] != df[temp[2:7]].sum(axis=1))][temp[1:7]]

Unnamed: 0,QT_MAT_FUND_AI,QT_MAT_FUND_AI_1,QT_MAT_FUND_AI_2,QT_MAT_FUND_AI_3,QT_MAT_FUND_AI_4,QT_MAT_FUND_AI_5


In [20]:
# Anos Finais
df[(~df['QT_MAT_FUND_AF'].isna()) & (df['QT_MAT_FUND_AF'] != df[temp[8:]].sum(axis=1))][temp[7:]]

Unnamed: 0,QT_MAT_FUND_AF,QT_MAT_FUND_AF_6,QT_MAT_FUND_AF_7,QT_MAT_FUND_AF_8,QT_MAT_FUND_AF_9


In [21]:
# Ensino Fundamental
df[(~df['QT_MAT_FUND'].isna()) & (df['QT_MAT_FUND'] != df[['QT_MAT_FUND_AI', 'QT_MAT_FUND_AF']].sum(axis=1))][['QT_MAT_FUND', 'QT_MAT_FUND_AI', 'QT_MAT_FUND_AF']]

Unnamed: 0,QT_MAT_FUND,QT_MAT_FUND_AI,QT_MAT_FUND_AF


#### Ensino Médio - OK

In [22]:
temp = ['QT_MAT_MED', 
        'QT_MAT_MED_PROP', 'QT_MAT_MED_PROP_1', 'QT_MAT_MED_PROP_2', 'QT_MAT_MED_PROP_3', 'QT_MAT_MED_PROP_4', 'QT_MAT_MED_PROP_NS', 
        'QT_MAT_MED_CT', 'QT_MAT_MED_CT_1', 'QT_MAT_MED_CT_2', 'QT_MAT_MED_CT_3', 'QT_MAT_MED_CT_4', 'QT_MAT_MED_CT_NS', 
        'QT_MAT_MED_NM', 'QT_MAT_MED_NM_1', 'QT_MAT_MED_NM_2', 'QT_MAT_MED_NM_3', 'QT_MAT_MED_NM_4',]

In [23]:
for t in temp:
    basic_exploration(df, t, 'numeric')


Quantidade de valores ausentes


QT_MAT_MED
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_PROP
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_PROP_1
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_PROP_2
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_PROP_3
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_PROP_4
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_PROP_NS
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_CT
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_CT_1
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_CT_2
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_CT_3
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_CT_4
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_CT_NS
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_NM
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_NM_1
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_NM_2
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_NM_3
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_MED_NM_4
False    178476
True       1754
Name: count, dtype: int64

In [24]:
df[temp].isna().value_counts()

QT_MAT_MED  QT_MAT_MED_PROP  QT_MAT_MED_PROP_1  QT_MAT_MED_PROP_2  QT_MAT_MED_PROP_3  QT_MAT_MED_PROP_4  QT_MAT_MED_PROP_NS  QT_MAT_MED_CT  QT_MAT_MED_CT_1  QT_MAT_MED_CT_2  QT_MAT_MED_CT_3  QT_MAT_MED_CT_4  QT_MAT_MED_CT_NS  QT_MAT_MED_NM  QT_MAT_MED_NM_1  QT_MAT_MED_NM_2  QT_MAT_MED_NM_3  QT_MAT_MED_NM_4
False       False            False              False              False              False              False               False          False            False            False            False            False             False          False            False            False            False              178476
True        True             True               True               True               True               True                True           True             True             True             True             True              True           True             True             True             True                 1754
Name: count, dtype: int64

In [25]:
# Ensino Médio Propedêutico
df[(~df['QT_MAT_MED_PROP'].isna()) & (df['QT_MAT_MED_PROP'] != df[temp[2:7]].sum(axis=1))][temp[1:7]]

Unnamed: 0,QT_MAT_MED_PROP,QT_MAT_MED_PROP_1,QT_MAT_MED_PROP_2,QT_MAT_MED_PROP_3,QT_MAT_MED_PROP_4,QT_MAT_MED_PROP_NS


In [26]:
# Ensino Médio Técnico Integrado
df[(~df['QT_MAT_MED_CT'].isna()) & (df['QT_MAT_MED_CT'] != df[temp[8:13]].sum(axis=1))][temp[7:13]]

Unnamed: 0,QT_MAT_MED_CT,QT_MAT_MED_CT_1,QT_MAT_MED_CT_2,QT_MAT_MED_CT_3,QT_MAT_MED_CT_4,QT_MAT_MED_CT_NS


In [27]:
# Ensino Médio Normal
df[(~df['QT_MAT_MED_NM'].isna()) & (df['QT_MAT_MED_NM'] != df[temp[14:]].sum(axis=1))][temp[13:]]

Unnamed: 0,QT_MAT_MED_NM,QT_MAT_MED_NM_1,QT_MAT_MED_NM_2,QT_MAT_MED_NM_3,QT_MAT_MED_NM_4


In [28]:
# Ensino Médio
df[(
    ~df['QT_MAT_MED'].isna()) & 
    (df['QT_MAT_MED'] != df[['QT_MAT_MED_PROP', 'QT_MAT_MED_CT', 'QT_MAT_MED_NM']].sum(axis=1))
][['QT_MAT_MED', 'QT_MAT_MED_PROP', 'QT_MAT_MED_CT', 'QT_MAT_MED_NM']]

Unnamed: 0,QT_MAT_MED,QT_MAT_MED_PROP,QT_MAT_MED_CT,QT_MAT_MED_NM


#### Educação Profissional Técnica - NO

O valor da possível coluna agregada não confere com os valores das colunas granulares

In [29]:
temp = ['QT_MAT_PROF', 
        'QT_MAT_PROF_TEC', 'QT_MAT_PROF_TEC_CONC', 'QT_MAT_PROF_TEC_SUBS', 'QT_MAT_PROF_FIC_CONC',]

In [30]:
for t in temp:
    basic_exploration(df, t, 'numeric')


Quantidade de valores ausentes


QT_MAT_PROF
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_PROF_TEC
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_PROF_TEC_CONC
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_PROF_TEC_SUBS
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_PROF_FIC_CONC
False    178476
True       1754
Name: count, dtype: int64

In [31]:
df[temp].isna().value_counts()

QT_MAT_PROF  QT_MAT_PROF_TEC  QT_MAT_PROF_TEC_CONC  QT_MAT_PROF_TEC_SUBS  QT_MAT_PROF_FIC_CONC
False        False            False                 False                 False                   178476
True         True             True                  True                  True                      1754
Name: count, dtype: int64

In [32]:
# Educação Profissional Técnica
df[(~df['QT_MAT_PROF_TEC'].isna()) & (df['QT_MAT_PROF_TEC'] != df[temp[2:]].sum(axis=1))][temp[1:]]

Unnamed: 0,QT_MAT_PROF_TEC,QT_MAT_PROF_TEC_CONC,QT_MAT_PROF_TEC_SUBS,QT_MAT_PROF_FIC_CONC
38,72.0,0.0,0.0,0.0
375,197.0,0.0,0.0,0.0
565,220.0,0.0,0.0,0.0
666,579.0,0.0,0.0,0.0
1060,109.0,0.0,0.0,0.0
...,...,...,...,...
217462,548.0,173.0,375.0,33.0
217478,658.0,635.0,11.0,0.0
217499,5.0,0.0,0.0,0.0
217561,479.0,298.0,181.0,79.0


In [33]:
# Ensino Profissional
df[(~df['QT_MAT_PROF'].isna()) & (df['QT_MAT_PROF'] != df[['QT_MAT_PROF_TEC']].sum(axis=1))][['QT_MAT_PROF', 'QT_MAT_PROF_TEC']]

Unnamed: 0,QT_MAT_PROF,QT_MAT_PROF_TEC
140,112.0,0.0
1128,691.0,532.0
1229,1104.0,999.0
2853,156.0,131.0
3610,78.0,0.0
...,...,...
217427,223.0,47.0
217437,17.0,0.0
217462,581.0,548.0
217561,558.0,479.0


#### Educação de Jovens e Adultos - EJA - OK

In [34]:
temp = ['QT_MAT_EJA', 
        'QT_MAT_EJA_FUND', 'QT_MAT_EJA_FUND_AI', 'QT_MAT_EJA_FUND_AF', 'QT_MAT_EJA_FUND_FIC', 
        'QT_MAT_EJA_MED', 'QT_MAT_EJA_MED_NPROF', 'QT_MAT_EJA_MED_FIC', 'QT_MAT_EJA_MED_TEC',]

In [35]:
for t in temp:
    basic_exploration(df, t, 'numeric')


Quantidade de valores ausentes


QT_MAT_EJA
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_EJA_FUND
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_EJA_FUND_AI
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_EJA_FUND_AF
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_EJA_FUND_FIC
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_EJA_MED
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_EJA_MED_NPROF
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_EJA_MED_FIC
False    178476
True       1754
Name: count, dtype: int64


Quantidade de valores ausentes


QT_MAT_EJA_MED_TEC
False    178476
True       1754
Name: count, dtype: int64

In [36]:
df[temp].isna().value_counts()

QT_MAT_EJA  QT_MAT_EJA_FUND  QT_MAT_EJA_FUND_AI  QT_MAT_EJA_FUND_AF  QT_MAT_EJA_FUND_FIC  QT_MAT_EJA_MED  QT_MAT_EJA_MED_NPROF  QT_MAT_EJA_MED_FIC  QT_MAT_EJA_MED_TEC
False       False            False               False               False                False           False                 False               False                 178476
True        True             True                True                True                 True            True                  True                True                    1754
Name: count, dtype: int64

In [37]:
# EJA - Ensino Fundamental
df[(~df['QT_MAT_EJA_FUND'].isna()) & (df['QT_MAT_EJA_FUND'] != df[temp[2:5]].sum(axis=1))][temp[1:5]]

Unnamed: 0,QT_MAT_EJA_FUND,QT_MAT_EJA_FUND_AI,QT_MAT_EJA_FUND_AF,QT_MAT_EJA_FUND_FIC


In [38]:
# EJA - Ensino Médio
df[(~df['QT_MAT_EJA_MED'].isna()) & (df['QT_MAT_EJA_MED'] != df[temp[6:]].sum(axis=1))][temp[5:]]

Unnamed: 0,QT_MAT_EJA_MED,QT_MAT_EJA_MED_NPROF,QT_MAT_EJA_MED_FIC,QT_MAT_EJA_MED_TEC


In [39]:
# EJA
df[(~df['QT_MAT_EJA'].isna()) & (df['QT_MAT_EJA'] != df[['QT_MAT_EJA_FUND', 'QT_MAT_EJA_MED']].sum(axis=1))][['QT_MAT_EJA', 'QT_MAT_EJA_FUND', 'QT_MAT_EJA_MED']]

Unnamed: 0,QT_MAT_EJA,QT_MAT_EJA_FUND,QT_MAT_EJA_MED


#### Geral

In [40]:
basic_exploration(df, 'QT_MAT_BAS', 'numeric')


Quantidade de valores ausentes


QT_MAT_BAS
False    178476
True       1754
Name: count, dtype: int64

In [329]:
df[['QT_MAT_BAS']].describe()

Unnamed: 0,QT_MAT_BAS
count,178476.0
mean,265.047581
std,353.108658
min,1.0
25%,69.0
50%,164.0
75%,352.0
max,51791.0


In [41]:
df[df['QT_MAT_BAS'] == 0].shape

(0, 174)

In [42]:
temp = ['QT_MAT_INF', 'QT_MAT_FUND', 'QT_MAT_MED', 'QT_MAT_PROF', 'QT_MAT_EJA']

# A grande maioria dos alunos se encontra em apenas uma categoria de ensino de cada vez
display(df[(~df['QT_MAT_BAS'].isna()) & (df['QT_MAT_BAS'] == df[temp].sum(axis = 1))][['QT_MAT_BAS'] + temp].shape)

# Porém, é possível assumir que um mesmo aluno possa estar em duas categorias de ensino ao mesmo tempo
display(df[(~df['QT_MAT_BAS'].isna()) & (df['QT_MAT_BAS'] < df[temp].sum(axis = 1))][['QT_MAT_BAS'] + temp].shape)

# O valor de QT_MAT_BAS não supera o valor do somatório das categorias de ensino, reforçando a teoria
display(df[(~df['QT_MAT_BAS'].isna()) & (df['QT_MAT_BAS'] > df[temp].sum(axis = 1))][['QT_MAT_BAS'] + temp].shape)

(173135, 6)

(5341, 6)

(0, 6)

In [43]:
df.shape

(180230, 174)

In [44]:
cols_remover += cols_matriculas
len(cols_remover)

47

In [45]:
# Removendo escolas com valor ausente na quantidade de matrículas
df = df.dropna(subset=['QT_MAT_BAS'], ignore_index=True)
df['QT_MAT_BAS'].isna().value_counts()

QT_MAT_BAS
False    178476
Name: count, dtype: int64

In [46]:
df.shape

(178476, 174)

In [47]:
df[['NO_ENTIDADE', 'QT_MAT_BAS']].sort_values(by='QT_MAT_BAS', ascending=False).head(10)

Unnamed: 0,NO_ENTIDADE,QT_MAT_BAS
131427,INSTITUTO MONITOR LTDA,51791.0
160108,SENAC RIO GRANDE DO SUL,44906.0
60404,ESCOLA TECNICA ESTADUAL PROFESSOR ANTONIO CARL...,36811.0
136930,INSTITUTO BRASILEIRO DE EDUCACAO PROFISSIONAL ...,8412.0
48188,CENTRO DE PROFISSIONALIZACAO E EDUCACAO TECNICA,8247.0
156948,INSTITUTO BRASILEIRO DE ED PROFISSIONAL - IBREP,7868.0
161627,UNIDADE SESI DE ENSINO MEDIO FRANSCISCO XAVIER...,7856.0
78002,UNIDADE SESI RETIRO,7794.0
109764,INSTITUTO MONITOR LTDA,7182.0
148106,INSTITUTO EDUCACIONAL MONITOR LTDA,6745.0


In [48]:
df[df['QT_MAT_BAS'] == 1].shape

(56, 174)

### Tipo de Escola

#### TP_DEPENDENCIA

- 1 - Federal
- 2 - Estadual
- 3 - Municipal
- 4 - Privada

In [49]:
basic_exploration(df, 'TP_DEPENDENCIA', 'category')


Contagem de valores:


TP_DEPENDENCIA
3    106707
4     41555
2     29508
1       706
Name: count, dtype: int64


Quantidade de valores ausentes


TP_DEPENDENCIA
False    178476
Name: count, dtype: int64

#### TP_CATEGORIA_ESCOLA_PRIVADA

- 1 - Particular
- 2 - Comunitária
- 3 - Confessional
- 4 - Filantrópica

\* Não aplicável para escolas públicas

In [50]:
basic_exploration(df, 'TP_CATEGORIA_ESCOLA_PRIVADA', 'category')


Contagem de valores:


TP_CATEGORIA_ESCOLA_PRIVADA
NaN    136921
1.0     31275
4.0      7675
2.0      2198
3.0       407
Name: count, dtype: int64


Quantidade de valores ausentes


TP_CATEGORIA_ESCOLA_PRIVADA
True     136921
False     41555
Name: count, dtype: int64

In [51]:
df[(df['TP_DEPENDENCIA'] == 4) & (df['TP_CATEGORIA_ESCOLA_PRIVADA'].isna())]

Unnamed: 0,NO_ENTIDADE,TP_DEPENDENCIA,TP_CATEGORIA_ESCOLA_PRIVADA,TP_LOCALIZACAO,TP_LOCALIZACAO_DIFERENCIADA,TP_SITUACAO_FUNCIONAMENTO,IN_LOCAL_FUNC_PREDIO_ESCOLAR,TP_OCUPACAO_PREDIO_ESCOLAR,IN_LOCAL_FUNC_SOCIOEDUCATIVO,IN_LOCAL_FUNC_UNID_PRISIONAL,IN_LOCAL_FUNC_PRISIONAL_SOCIO,IN_LOCAL_FUNC_GALPAO,IN_LOCAL_FUNC_SALAS_OUTRA_ESC,IN_LOCAL_FUNC_OUTROS,IN_PREDIO_COMPARTILHADO,IN_AGUA_POTAVEL,IN_AGUA_REDE_PUBLICA,IN_AGUA_POCO_ARTESIANO,IN_AGUA_CACIMBA,IN_AGUA_FONTE_RIO,IN_AGUA_INEXISTENTE,IN_ENERGIA_REDE_PUBLICA,IN_ENERGIA_GERADOR_FOSSIL,IN_ENERGIA_RENOVAVEL,IN_ENERGIA_INEXISTENTE,IN_ESGOTO_REDE_PUBLICA,IN_ESGOTO_FOSSA_SEPTICA,IN_ESGOTO_FOSSA_COMUM,IN_ESGOTO_FOSSA,IN_ESGOTO_INEXISTENTE,IN_LIXO_SERVICO_COLETA,IN_LIXO_QUEIMA,IN_LIXO_ENTERRA,IN_LIXO_DESTINO_FINAL_PUBLICO,IN_LIXO_DESCARTA_OUTRA_AREA,IN_ALMOXARIFADO,IN_AREA_VERDE,IN_AUDITORIO,IN_BANHEIRO,IN_BANHEIRO_EI,IN_BANHEIRO_PNE,IN_BANHEIRO_FUNCIONARIOS,IN_BANHEIRO_CHUVEIRO,IN_BIBLIOTECA,IN_BIBLIOTECA_SALA_LEITURA,IN_COZINHA,IN_DESPENSA,IN_DORMITORIO_ALUNO,IN_DORMITORIO_PROFESSOR,IN_LABORATORIO_CIENCIAS,IN_LABORATORIO_INFORMATICA,IN_LABORATORIO_EDUC_PROF,IN_PATIO_COBERTO,IN_PATIO_DESCOBERTO,IN_PARQUE_INFANTIL,IN_PISCINA,IN_QUADRA_ESPORTES,IN_QUADRA_ESPORTES_COBERTA,IN_QUADRA_ESPORTES_DESCOBERTA,IN_REFEITORIO,IN_SALA_ATELIE_ARTES,IN_SALA_MUSICA_CORAL,IN_SALA_ESTUDIO_DANCA,IN_SALA_MULTIUSO,IN_SALA_ESTUDIO_GRAVACAO,IN_SALA_OFICINAS_EDUC_PROF,IN_SALA_DIRETORIA,IN_SALA_LEITURA,IN_SALA_PROFESSOR,IN_SALA_REPOUSO_ALUNO,IN_SECRETARIA,IN_SALA_ATENDIMENTO_ESPECIAL,IN_TERREIRAO,IN_VIVEIRO,IN_DEPENDENCIAS_OUTRAS,IN_ACESSIBILIDADE_CORRIMAO,IN_ACESSIBILIDADE_ELEVADOR,IN_ACESSIBILIDADE_PISOS_TATEIS,IN_ACESSIBILIDADE_VAO_LIVRE,IN_ACESSIBILIDADE_RAMPAS,IN_ACESSIBILIDADE_SINAL_SONORO,IN_ACESSIBILIDADE_SINAL_TATIL,IN_ACESSIBILIDADE_SINAL_VISUAL,IN_ACESSIBILIDADE_INEXISTENTE,QT_SALAS_UTILIZADAS_DENTRO,QT_SALAS_UTILIZADAS_FORA,QT_SALAS_UTILIZADAS,QT_SALAS_UTILIZA_CLIMATIZADAS,QT_SALAS_UTILIZADAS_ACESSIVEIS,IN_EQUIP_PARABOLICA,IN_COMPUTADOR,IN_EQUIP_COPIADORA,IN_EQUIP_IMPRESSORA,IN_EQUIP_IMPRESSORA_MULT,IN_EQUIP_SCANNER,QT_EQUIP_DVD,QT_EQUIP_SOM,QT_EQUIP_TV,QT_EQUIP_LOUSA_DIGITAL,QT_EQUIP_MULTIMIDIA,QT_DESKTOP_ALUNO,QT_COMP_PORTATIL_ALUNO,QT_TABLET_ALUNO,IN_INTERNET,IN_INTERNET_ALUNOS,IN_INTERNET_ADMINISTRATIVO,IN_INTERNET_APRENDIZAGEM,IN_INTERNET_COMUNIDADE,IN_ACESSO_INTERNET_COMPUTADOR,IN_ACES_INTERNET_DISP_PESSOAIS,TP_REDE_LOCAL,IN_BANDA_LARGA,IN_MATERIAL_PED_MULTIMIDIA,IN_MATERIAL_PED_INFANTIL,IN_MATERIAL_PED_CIENTIFICO,IN_MATERIAL_PED_DIFUSAO,IN_MATERIAL_PED_MUSICAL,IN_MATERIAL_PED_JOGOS,IN_MATERIAL_PED_ARTISTICAS,IN_MATERIAL_PED_PROFISSIONAL,IN_MATERIAL_PED_DESPORTIVA,IN_MATERIAL_PED_INDIGENA,IN_MATERIAL_PED_ETNICO,IN_MATERIAL_PED_CAMPO,IN_MATERIAL_PED_BIL_SURDOS,IN_MATERIAL_PED_NENHUM,QT_MAT_BAS,QT_MAT_INF,QT_MAT_INF_CRE,QT_MAT_INF_PRE,QT_MAT_FUND,QT_MAT_FUND_AI,QT_MAT_FUND_AI_1,QT_MAT_FUND_AI_2,QT_MAT_FUND_AI_3,QT_MAT_FUND_AI_4,QT_MAT_FUND_AI_5,QT_MAT_FUND_AF,QT_MAT_FUND_AF_6,QT_MAT_FUND_AF_7,QT_MAT_FUND_AF_8,QT_MAT_FUND_AF_9,QT_MAT_MED,QT_MAT_MED_PROP,QT_MAT_MED_PROP_1,QT_MAT_MED_PROP_2,QT_MAT_MED_PROP_3,QT_MAT_MED_PROP_4,QT_MAT_MED_PROP_NS,QT_MAT_MED_CT,QT_MAT_MED_CT_1,QT_MAT_MED_CT_2,QT_MAT_MED_CT_3,QT_MAT_MED_CT_4,QT_MAT_MED_CT_NS,QT_MAT_MED_NM,QT_MAT_MED_NM_1,QT_MAT_MED_NM_2,QT_MAT_MED_NM_3,QT_MAT_MED_NM_4,QT_MAT_PROF,QT_MAT_PROF_TEC,QT_MAT_PROF_TEC_CONC,QT_MAT_PROF_TEC_SUBS,QT_MAT_PROF_FIC_CONC,QT_MAT_EJA,QT_MAT_EJA_FUND,QT_MAT_EJA_FUND_AI,QT_MAT_EJA_FUND_AF,QT_MAT_EJA_FUND_FIC,QT_MAT_EJA_MED,QT_MAT_EJA_MED_NPROF,QT_MAT_EJA_MED_FIC,QT_MAT_EJA_MED_TEC


In [52]:
df.loc[(df['TP_DEPENDENCIA'] < 4) & (df['TP_CATEGORIA_ESCOLA_PRIVADA'].isna()), 'TP_CATEGORIA_ESCOLA_PRIVADA'] = -1
df['TP_CATEGORIA_ESCOLA_PRIVADA'].value_counts(dropna=False)

TP_CATEGORIA_ESCOLA_PRIVADA
-1.0    136921
 1.0     31275
 4.0      7675
 2.0      2198
 3.0       407
Name: count, dtype: int64

### Local da Escola

#### TP_LOCALIZACAO

- 1 - Urbana
- 2 - Rural

In [53]:
basic_exploration(df, 'TP_LOCALIZACAO', 'category')


Contagem de valores:


TP_LOCALIZACAO
1    126620
2     51856
Name: count, dtype: int64


Quantidade de valores ausentes


TP_LOCALIZACAO
False    178476
Name: count, dtype: int64

#### TP_LOCALIZACAO_DIFERENCIADA

- 0 - A escola não está em área de localização diferenciada
- 1 - Área de assentamento
- 2 - Terra indígena
- 3 - Área onde se localiza comunidade remanescente de quilombos
- 8 - Área onde se localizam povos e comunidades tradicionais

In [54]:
basic_exploration(df, 'TP_LOCALIZACAO_DIFERENCIADA', 'category')


Contagem de valores:


TP_LOCALIZACAO_DIFERENCIADA
0.0    166969
1.0      4552
2.0      3588
3.0      2601
8.0       766
Name: count, dtype: int64


Quantidade de valores ausentes


TP_LOCALIZACAO_DIFERENCIADA
False    178476
Name: count, dtype: int64

#### IN_LOCAL_FUNC_PREDIO_ESCOLAR

- 1 - Sim
- 0 - Não


In [55]:
basic_exploration(df, 'IN_LOCAL_FUNC_PREDIO_ESCOLAR', 'binary')


Contagem de valores:


IN_LOCAL_FUNC_PREDIO_ESCOLAR
1.0    174442
0.0      4034
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LOCAL_FUNC_PREDIO_ESCOLAR
False    178476
Name: count, dtype: int64

#### TP_OCUPACAO_PREDIO_ESCOLAR

- 1 - Próprio
- 2 - Alugado
- 3 - Cedido

\* Não aplicável para escolas que não ocupam prédio escolar

In [56]:
basic_exploration(df, 'TP_OCUPACAO_PREDIO_ESCOLAR', 'category')


Contagem de valores:


TP_OCUPACAO_PREDIO_ESCOLAR
1.0    141886
2.0     21400
3.0     11156
NaN      4034
Name: count, dtype: int64


Quantidade de valores ausentes


TP_OCUPACAO_PREDIO_ESCOLAR
False    174442
True       4034
Name: count, dtype: int64

In [57]:
df[(df['TP_OCUPACAO_PREDIO_ESCOLAR'].isna()) & (df['IN_LOCAL_FUNC_PREDIO_ESCOLAR'] == 1)]

Unnamed: 0,NO_ENTIDADE,TP_DEPENDENCIA,TP_CATEGORIA_ESCOLA_PRIVADA,TP_LOCALIZACAO,TP_LOCALIZACAO_DIFERENCIADA,TP_SITUACAO_FUNCIONAMENTO,IN_LOCAL_FUNC_PREDIO_ESCOLAR,TP_OCUPACAO_PREDIO_ESCOLAR,IN_LOCAL_FUNC_SOCIOEDUCATIVO,IN_LOCAL_FUNC_UNID_PRISIONAL,IN_LOCAL_FUNC_PRISIONAL_SOCIO,IN_LOCAL_FUNC_GALPAO,IN_LOCAL_FUNC_SALAS_OUTRA_ESC,IN_LOCAL_FUNC_OUTROS,IN_PREDIO_COMPARTILHADO,IN_AGUA_POTAVEL,IN_AGUA_REDE_PUBLICA,IN_AGUA_POCO_ARTESIANO,IN_AGUA_CACIMBA,IN_AGUA_FONTE_RIO,IN_AGUA_INEXISTENTE,IN_ENERGIA_REDE_PUBLICA,IN_ENERGIA_GERADOR_FOSSIL,IN_ENERGIA_RENOVAVEL,IN_ENERGIA_INEXISTENTE,IN_ESGOTO_REDE_PUBLICA,IN_ESGOTO_FOSSA_SEPTICA,IN_ESGOTO_FOSSA_COMUM,IN_ESGOTO_FOSSA,IN_ESGOTO_INEXISTENTE,IN_LIXO_SERVICO_COLETA,IN_LIXO_QUEIMA,IN_LIXO_ENTERRA,IN_LIXO_DESTINO_FINAL_PUBLICO,IN_LIXO_DESCARTA_OUTRA_AREA,IN_ALMOXARIFADO,IN_AREA_VERDE,IN_AUDITORIO,IN_BANHEIRO,IN_BANHEIRO_EI,IN_BANHEIRO_PNE,IN_BANHEIRO_FUNCIONARIOS,IN_BANHEIRO_CHUVEIRO,IN_BIBLIOTECA,IN_BIBLIOTECA_SALA_LEITURA,IN_COZINHA,IN_DESPENSA,IN_DORMITORIO_ALUNO,IN_DORMITORIO_PROFESSOR,IN_LABORATORIO_CIENCIAS,IN_LABORATORIO_INFORMATICA,IN_LABORATORIO_EDUC_PROF,IN_PATIO_COBERTO,IN_PATIO_DESCOBERTO,IN_PARQUE_INFANTIL,IN_PISCINA,IN_QUADRA_ESPORTES,IN_QUADRA_ESPORTES_COBERTA,IN_QUADRA_ESPORTES_DESCOBERTA,IN_REFEITORIO,IN_SALA_ATELIE_ARTES,IN_SALA_MUSICA_CORAL,IN_SALA_ESTUDIO_DANCA,IN_SALA_MULTIUSO,IN_SALA_ESTUDIO_GRAVACAO,IN_SALA_OFICINAS_EDUC_PROF,IN_SALA_DIRETORIA,IN_SALA_LEITURA,IN_SALA_PROFESSOR,IN_SALA_REPOUSO_ALUNO,IN_SECRETARIA,IN_SALA_ATENDIMENTO_ESPECIAL,IN_TERREIRAO,IN_VIVEIRO,IN_DEPENDENCIAS_OUTRAS,IN_ACESSIBILIDADE_CORRIMAO,IN_ACESSIBILIDADE_ELEVADOR,IN_ACESSIBILIDADE_PISOS_TATEIS,IN_ACESSIBILIDADE_VAO_LIVRE,IN_ACESSIBILIDADE_RAMPAS,IN_ACESSIBILIDADE_SINAL_SONORO,IN_ACESSIBILIDADE_SINAL_TATIL,IN_ACESSIBILIDADE_SINAL_VISUAL,IN_ACESSIBILIDADE_INEXISTENTE,QT_SALAS_UTILIZADAS_DENTRO,QT_SALAS_UTILIZADAS_FORA,QT_SALAS_UTILIZADAS,QT_SALAS_UTILIZA_CLIMATIZADAS,QT_SALAS_UTILIZADAS_ACESSIVEIS,IN_EQUIP_PARABOLICA,IN_COMPUTADOR,IN_EQUIP_COPIADORA,IN_EQUIP_IMPRESSORA,IN_EQUIP_IMPRESSORA_MULT,IN_EQUIP_SCANNER,QT_EQUIP_DVD,QT_EQUIP_SOM,QT_EQUIP_TV,QT_EQUIP_LOUSA_DIGITAL,QT_EQUIP_MULTIMIDIA,QT_DESKTOP_ALUNO,QT_COMP_PORTATIL_ALUNO,QT_TABLET_ALUNO,IN_INTERNET,IN_INTERNET_ALUNOS,IN_INTERNET_ADMINISTRATIVO,IN_INTERNET_APRENDIZAGEM,IN_INTERNET_COMUNIDADE,IN_ACESSO_INTERNET_COMPUTADOR,IN_ACES_INTERNET_DISP_PESSOAIS,TP_REDE_LOCAL,IN_BANDA_LARGA,IN_MATERIAL_PED_MULTIMIDIA,IN_MATERIAL_PED_INFANTIL,IN_MATERIAL_PED_CIENTIFICO,IN_MATERIAL_PED_DIFUSAO,IN_MATERIAL_PED_MUSICAL,IN_MATERIAL_PED_JOGOS,IN_MATERIAL_PED_ARTISTICAS,IN_MATERIAL_PED_PROFISSIONAL,IN_MATERIAL_PED_DESPORTIVA,IN_MATERIAL_PED_INDIGENA,IN_MATERIAL_PED_ETNICO,IN_MATERIAL_PED_CAMPO,IN_MATERIAL_PED_BIL_SURDOS,IN_MATERIAL_PED_NENHUM,QT_MAT_BAS,QT_MAT_INF,QT_MAT_INF_CRE,QT_MAT_INF_PRE,QT_MAT_FUND,QT_MAT_FUND_AI,QT_MAT_FUND_AI_1,QT_MAT_FUND_AI_2,QT_MAT_FUND_AI_3,QT_MAT_FUND_AI_4,QT_MAT_FUND_AI_5,QT_MAT_FUND_AF,QT_MAT_FUND_AF_6,QT_MAT_FUND_AF_7,QT_MAT_FUND_AF_8,QT_MAT_FUND_AF_9,QT_MAT_MED,QT_MAT_MED_PROP,QT_MAT_MED_PROP_1,QT_MAT_MED_PROP_2,QT_MAT_MED_PROP_3,QT_MAT_MED_PROP_4,QT_MAT_MED_PROP_NS,QT_MAT_MED_CT,QT_MAT_MED_CT_1,QT_MAT_MED_CT_2,QT_MAT_MED_CT_3,QT_MAT_MED_CT_4,QT_MAT_MED_CT_NS,QT_MAT_MED_NM,QT_MAT_MED_NM_1,QT_MAT_MED_NM_2,QT_MAT_MED_NM_3,QT_MAT_MED_NM_4,QT_MAT_PROF,QT_MAT_PROF_TEC,QT_MAT_PROF_TEC_CONC,QT_MAT_PROF_TEC_SUBS,QT_MAT_PROF_FIC_CONC,QT_MAT_EJA,QT_MAT_EJA_FUND,QT_MAT_EJA_FUND_AI,QT_MAT_EJA_FUND_AF,QT_MAT_EJA_FUND_FIC,QT_MAT_EJA_MED,QT_MAT_EJA_MED_NPROF,QT_MAT_EJA_MED_FIC,QT_MAT_EJA_MED_TEC


In [58]:
df.loc[df['IN_LOCAL_FUNC_PREDIO_ESCOLAR'] == 0, 'TP_OCUPACAO_PREDIO_ESCOLAR'] = -1
df[['IN_LOCAL_FUNC_PREDIO_ESCOLAR', 'TP_OCUPACAO_PREDIO_ESCOLAR']].value_counts(dropna = False)

IN_LOCAL_FUNC_PREDIO_ESCOLAR  TP_OCUPACAO_PREDIO_ESCOLAR
1.0                            1.0                          141886
                               2.0                           21400
                               3.0                           11156
0.0                           -1.0                            4034
Name: count, dtype: int64

#### IN_LOCAL_FUNC_SOCIOEDUCATIVO

- 1 - Sim
- 0 - Não

In [59]:
basic_exploration(df, 'IN_LOCAL_FUNC_SOCIOEDUCATIVO', 'binary')


Contagem de valores:


IN_LOCAL_FUNC_SOCIOEDUCATIVO
0.0    178245
1.0       231
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LOCAL_FUNC_SOCIOEDUCATIVO
False    178476
Name: count, dtype: int64

#### IN_LOCAL_FUNC_UNID_PRISIONAL

- 1 - Sim
- 0 - Não


In [60]:
basic_exploration(df, 'IN_LOCAL_FUNC_UNID_PRISIONAL', 'binary')


Contagem de valores:


IN_LOCAL_FUNC_UNID_PRISIONAL
0.0    177856
1.0       620
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LOCAL_FUNC_UNID_PRISIONAL
False    178476
Name: count, dtype: int64

#### IN_LOCAL_FUNC_PRISIONAL_SOCIO

- 1 - Sim
- 0 - Não


In [61]:
basic_exploration(df, 'IN_LOCAL_FUNC_PRISIONAL_SOCIO', 'binary')


Contagem de valores:


IN_LOCAL_FUNC_PRISIONAL_SOCIO
0.0    177653
1.0       823
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LOCAL_FUNC_PRISIONAL_SOCIO
False    178476
Name: count, dtype: int64

#### IN_LOCAL_FUNC_GALPAO

- 1 - Sim
- 0 - Não


In [62]:
basic_exploration(df, 'IN_LOCAL_FUNC_GALPAO', 'binary')


Contagem de valores:


IN_LOCAL_FUNC_GALPAO
0.0    176016
1.0      2460
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LOCAL_FUNC_GALPAO
False    178476
Name: count, dtype: int64

#### IN_LOCAL_FUNC_SALAS_OUTRA_ESC

- 1 - Sim
- 0 - Não


In [63]:
basic_exploration(df, 'IN_LOCAL_FUNC_SALAS_OUTRA_ESC', 'binary')


Contagem de valores:


IN_LOCAL_FUNC_SALAS_OUTRA_ESC
0.0    172801
1.0      5675
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LOCAL_FUNC_SALAS_OUTRA_ESC
False    178476
Name: count, dtype: int64

#### IN_LOCAL_FUNC_OUTROS

- 1 - Sim
- 0 - Não


In [64]:
basic_exploration(df, 'IN_LOCAL_FUNC_OUTROS', 'binary')


Contagem de valores:


IN_LOCAL_FUNC_OUTROS
0.0    167631
1.0     10845
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LOCAL_FUNC_OUTROS
False    178476
Name: count, dtype: int64

#### IN_PREDIO_COMPARTILHADO

- 0 - Não
- 1 - Sim

\* Não aplicável para escolas que não ocupam prédio escolar

In [65]:
basic_exploration(df, 'IN_PREDIO_COMPARTILHADO', 'binary')


Contagem de valores:


IN_PREDIO_COMPARTILHADO
0.0    166279
1.0      8163
NaN      4034
Name: count, dtype: int64


Quantidade de valores ausentes


IN_PREDIO_COMPARTILHADO
False    174442
True       4034
Name: count, dtype: int64

In [66]:
df[['IN_LOCAL_FUNC_PREDIO_ESCOLAR', 'TP_OCUPACAO_PREDIO_ESCOLAR', 'IN_PREDIO_COMPARTILHADO']].value_counts(dropna = False)

IN_LOCAL_FUNC_PREDIO_ESCOLAR  TP_OCUPACAO_PREDIO_ESCOLAR  IN_PREDIO_COMPARTILHADO
1.0                            1.0                        0.0                        135313
                               2.0                        0.0                         20988
                               3.0                        0.0                          9978
                               1.0                        1.0                          6573
0.0                           -1.0                        NaN                          4034
1.0                            3.0                        1.0                          1178
                               2.0                        1.0                           412
Name: count, dtype: int64

In [67]:
df.loc[df['IN_LOCAL_FUNC_PREDIO_ESCOLAR'] == 0, 'IN_PREDIO_COMPARTILHADO'] = -1
df[['IN_LOCAL_FUNC_PREDIO_ESCOLAR', 'TP_OCUPACAO_PREDIO_ESCOLAR', 'IN_PREDIO_COMPARTILHADO']].value_counts(dropna = False)

IN_LOCAL_FUNC_PREDIO_ESCOLAR  TP_OCUPACAO_PREDIO_ESCOLAR  IN_PREDIO_COMPARTILHADO
1.0                            1.0                         0.0                       135313
                               2.0                         0.0                        20988
                               3.0                         0.0                         9978
                               1.0                         1.0                         6573
0.0                           -1.0                        -1.0                         4034
1.0                            3.0                         1.0                         1178
                               2.0                         1.0                          412
Name: count, dtype: int64

### Abastecimento de Água

#### IN_AGUA_POTAVEL

- 1 - Sim
- 0 - Não


In [68]:
basic_exploration(df, 'IN_AGUA_POTAVEL', 'binary')


Contagem de valores:


IN_AGUA_POTAVEL
1.0    170596
0.0      7880
Name: count, dtype: int64


Quantidade de valores ausentes


IN_AGUA_POTAVEL
False    178476
Name: count, dtype: int64

#### IN_AGUA_REDE_PUBLICA

- 1 - Sim
- 0 - Não


In [69]:
basic_exploration(df, 'IN_AGUA_REDE_PUBLICA', 'binary')


Contagem de valores:


IN_AGUA_REDE_PUBLICA
1.0    137701
0.0     40775
Name: count, dtype: int64


Quantidade de valores ausentes


IN_AGUA_REDE_PUBLICA
False    178476
Name: count, dtype: int64

#### IN_AGUA_POCO_ARTESIANO

- 1 - Sim
- 0 - Não


In [70]:
basic_exploration(df, 'IN_AGUA_POCO_ARTESIANO', 'binary')


Contagem de valores:


IN_AGUA_POCO_ARTESIANO
0.0    150071
1.0     28405
Name: count, dtype: int64


Quantidade de valores ausentes


IN_AGUA_POCO_ARTESIANO
False    178476
Name: count, dtype: int64

#### IN_AGUA_CACIMBA

- 1 - Sim
- 0 - Não


In [71]:
basic_exploration(df, 'IN_AGUA_CACIMBA', 'binary')


Contagem de valores:


IN_AGUA_CACIMBA
0.0    163111
1.0     15365
Name: count, dtype: int64


Quantidade de valores ausentes


IN_AGUA_CACIMBA
False    178476
Name: count, dtype: int64

#### IN_AGUA_FONTE_RIO

- 1 - Sim
- 0 - Não


In [72]:
basic_exploration(df, 'IN_AGUA_FONTE_RIO', 'binary')


Contagem de valores:


IN_AGUA_FONTE_RIO
0.0    171550
1.0      6926
Name: count, dtype: int64


Quantidade de valores ausentes


IN_AGUA_FONTE_RIO
False    178476
Name: count, dtype: int64

#### IN_AGUA_INEXISTENTE

- 1 - Sim
- 0 - Não


In [73]:
basic_exploration(df, 'IN_AGUA_INEXISTENTE', 'binary')


Contagem de valores:


IN_AGUA_INEXISTENTE
0.0    175418
1.0      3058
Name: count, dtype: int64


Quantidade de valores ausentes


IN_AGUA_INEXISTENTE
False    178476
Name: count, dtype: int64

#### Comparação

In [74]:
cols_agua = ['IN_AGUA_POTAVEL', 'IN_AGUA_REDE_PUBLICA', 'IN_AGUA_POCO_ARTESIANO', 'IN_AGUA_CACIMBA', 'IN_AGUA_FONTE_RIO', 'IN_AGUA_INEXISTENTE']

df[cols_agua].value_counts(dropna = False)

IN_AGUA_POTAVEL  IN_AGUA_REDE_PUBLICA  IN_AGUA_POCO_ARTESIANO  IN_AGUA_CACIMBA  IN_AGUA_FONTE_RIO  IN_AGUA_INEXISTENTE
1.0              1.0                   0.0                     0.0              0.0                0.0                    124096
                 0.0                   1.0                     0.0              0.0                0.0                     18898
                                       0.0                     1.0              0.0                0.0                      9129
                 1.0                   1.0                     0.0              0.0                0.0                      6520
                 0.0                   0.0                     0.0              1.0                0.0                      4539
                 1.0                   0.0                     1.0              0.0                0.0                      3796
0.0              1.0                   0.0                     0.0              0.0                0.0     

### Abastecimento de Energia Elétrica

#### IN_ENERGIA_REDE_PUBLICA

- 1 - Sim
- 0 - Não


In [75]:
basic_exploration(df, 'IN_ENERGIA_REDE_PUBLICA', 'binary')


Contagem de valores:


IN_ENERGIA_REDE_PUBLICA
1.0    172846
0.0      5630
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ENERGIA_REDE_PUBLICA
False    178476
Name: count, dtype: int64

#### IN_ENERGIA_GERADOR_FOSSIL

- 1 - Sim
- 0 - Não


In [76]:
basic_exploration(df, 'IN_ENERGIA_GERADOR_FOSSIL', 'binary')


Contagem de valores:


IN_ENERGIA_GERADOR_FOSSIL
0.0    176483
1.0      1993
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ENERGIA_GERADOR_FOSSIL
False    178476
Name: count, dtype: int64

#### IN_ENERGIA_RENOVAVEL

- 1 - Sim
- 0 - Não


In [77]:
basic_exploration(df, 'IN_ENERGIA_RENOVAVEL', 'binary')


Contagem de valores:


IN_ENERGIA_RENOVAVEL
0.0    174393
1.0      4083
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ENERGIA_RENOVAVEL
False    178476
Name: count, dtype: int64

#### IN_ENERGIA_INEXISTENTE

- 1 - Sim
- 0 - Não


In [78]:
basic_exploration(df, 'IN_ENERGIA_INEXISTENTE', 'binary')


Contagem de valores:


IN_ENERGIA_INEXISTENTE
0.0    175891
1.0      2585
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ENERGIA_INEXISTENTE
False    178476
Name: count, dtype: int64

#### Comparação

In [79]:
cols_agua = ['IN_ENERGIA_REDE_PUBLICA', 'IN_ENERGIA_GERADOR_FOSSIL', 'IN_ENERGIA_RENOVAVEL', 'IN_ENERGIA_INEXISTENTE']

df[cols_agua].value_counts(dropna = False)

IN_ENERGIA_REDE_PUBLICA  IN_ENERGIA_GERADOR_FOSSIL  IN_ENERGIA_RENOVAVEL  IN_ENERGIA_INEXISTENTE
1.0                      0.0                        0.0                   0.0                       169923
0.0                      0.0                        0.0                   1.0                         2585
1.0                      0.0                        1.0                   0.0                         2539
0.0                      1.0                        0.0                   0.0                         1554
                         0.0                        1.0                   0.0                         1436
1.0                      1.0                        0.0                   0.0                          331
0.0                      1.0                        1.0                   0.0                           55
1.0                      1.0                        1.0                   0.0                           53
Name: count, dtype: int64

### Esgoto Sanitário

#### IN_ESGOTO_REDE_PUBLICA

- 1 - Sim
- 0 - Não


In [80]:
basic_exploration(df, 'IN_ESGOTO_REDE_PUBLICA', 'binary')


Contagem de valores:


IN_ESGOTO_REDE_PUBLICA
1.0    101959
0.0     76517
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ESGOTO_REDE_PUBLICA
False    178476
Name: count, dtype: int64

#### IN_ESGOTO_FOSSA_SEPTICA

- 1 - Sim
- 0 - Não


In [81]:
basic_exploration(df, 'IN_ESGOTO_FOSSA_SEPTICA', 'binary')


Contagem de valores:


IN_ESGOTO_FOSSA_SEPTICA
0.0    137245
1.0     41231
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ESGOTO_FOSSA_SEPTICA
False    178476
Name: count, dtype: int64

#### IN_ESGOTO_FOSSA_COMUM

- 1 - Sim
- 0 - Não


In [82]:
basic_exploration(df, 'IN_ESGOTO_FOSSA_COMUM', 'binary')


Contagem de valores:


IN_ESGOTO_FOSSA_COMUM
0.0    146010
1.0     32466
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ESGOTO_FOSSA_COMUM
False    178476
Name: count, dtype: int64

#### IN_ESGOTO_FOSSA

- 1 - Sim
- 0 - Não


In [83]:
basic_exploration(df, 'IN_ESGOTO_FOSSA', 'binary')


Contagem de valores:


IN_ESGOTO_FOSSA
0.0    104779
1.0     73697
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ESGOTO_FOSSA
False    178476
Name: count, dtype: int64

#### IN_ESGOTO_INEXISTENTE

- 1 - Sim
- 0 - Não


In [84]:
basic_exploration(df, 'IN_ESGOTO_INEXISTENTE', 'binary')


Contagem de valores:


IN_ESGOTO_INEXISTENTE
0.0    172120
1.0      6356
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ESGOTO_INEXISTENTE
False    178476
Name: count, dtype: int64

#### Comparação

In [85]:
cols_esgoto = ['IN_ESGOTO_REDE_PUBLICA', 'IN_ESGOTO_FOSSA_SEPTICA', 'IN_ESGOTO_FOSSA_COMUM', 'IN_ESGOTO_FOSSA', 'IN_ESGOTO_INEXISTENTE']

df[cols_esgoto].value_counts(dropna = False)

IN_ESGOTO_REDE_PUBLICA  IN_ESGOTO_FOSSA_SEPTICA  IN_ESGOTO_FOSSA_COMUM  IN_ESGOTO_FOSSA  IN_ESGOTO_INEXISTENTE
1.0                     0.0                      0.0                    0.0              0.0                      98423
0.0                     1.0                      0.0                    1.0              0.0                      38681
                        0.0                      1.0                    1.0              0.0                      31480
                                                 0.0                    0.0              1.0                       6356
1.0                     1.0                      0.0                    1.0              0.0                       2550
                        0.0                      1.0                    1.0              0.0                        986
Name: count, dtype: int64

### Destinação do Lixo

#### IN_LIXO_SERVICO_COLETA

- 1 - Sim
- 0 - Não


In [86]:
basic_exploration(df, 'IN_LIXO_SERVICO_COLETA', 'binary')


Contagem de valores:


IN_LIXO_SERVICO_COLETA
1.0    147971
0.0     30505
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LIXO_SERVICO_COLETA
False    178476
Name: count, dtype: int64

#### IN_LIXO_QUEIMA

- 1 - Sim
- 0 - Não


In [87]:
basic_exploration(df, 'IN_LIXO_QUEIMA', 'binary')


Contagem de valores:


IN_LIXO_QUEIMA
0.0    148725
1.0     29751
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LIXO_QUEIMA
False    178476
Name: count, dtype: int64

#### IN_LIXO_ENTERRA

- 1 - Sim
- 0 - Não


In [88]:
basic_exploration(df, 'IN_LIXO_ENTERRA', 'binary')


Contagem de valores:


IN_LIXO_ENTERRA
0.0    174252
1.0      4224
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LIXO_ENTERRA
False    178476
Name: count, dtype: int64

#### IN_LIXO_DESTINO_FINAL_PUBLICO

- 1 - Sim
- 0 - Não


In [89]:
basic_exploration(df, 'IN_LIXO_DESTINO_FINAL_PUBLICO', 'binary')


Contagem de valores:


IN_LIXO_DESTINO_FINAL_PUBLICO
0.0    174288
1.0      4188
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LIXO_DESTINO_FINAL_PUBLICO
False    178476
Name: count, dtype: int64

#### IN_LIXO_DESCARTA_OUTRA_AREA

- 1 - Sim
- 0 - Não


In [90]:
basic_exploration(df, 'IN_LIXO_DESCARTA_OUTRA_AREA', 'binary')


Contagem de valores:


IN_LIXO_DESCARTA_OUTRA_AREA
0.0    171900
1.0      6576
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LIXO_DESCARTA_OUTRA_AREA
False    178476
Name: count, dtype: int64

#### Comparação

In [91]:
cols_lixo = ['IN_LIXO_SERVICO_COLETA', 'IN_LIXO_QUEIMA', 'IN_LIXO_ENTERRA', 'IN_LIXO_DESTINO_FINAL_PUBLICO', 'IN_LIXO_DESCARTA_OUTRA_AREA']

df[cols_lixo].value_counts(dropna = False)

IN_LIXO_SERVICO_COLETA  IN_LIXO_QUEIMA  IN_LIXO_ENTERRA  IN_LIXO_DESTINO_FINAL_PUBLICO  IN_LIXO_DESCARTA_OUTRA_AREA
1.0                     0.0             0.0              0.0                            0.0                            140609
0.0                     1.0             0.0              0.0                            0.0                             21258
                                                                                        1.0                              2823
1.0                     0.0             0.0              1.0                            0.0                              2721
0.0                     1.0             1.0              0.0                            0.0                              2459
1.0                     1.0             0.0              0.0                            0.0                              2325
0.0                     0.0             0.0              0.0                            1.0                              1658
1.

### Dependências Físicas Existentes e Utilizadas na Escola

#### IN_ALMOXARIFADO

- 1 - Sim
- 0 - Não


In [92]:
basic_exploration(df, 'IN_ALMOXARIFADO', 'binary')


Contagem de valores:


IN_ALMOXARIFADO
1.0    90409
0.0    88067
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ALMOXARIFADO
False    178476
Name: count, dtype: int64

#### IN_AREA_VERDE

- 1 - Sim
- 0 - Não


In [93]:
basic_exploration(df, 'IN_AREA_VERDE', 'binary')


Contagem de valores:


IN_AREA_VERDE
0.0    115667
1.0     62809
Name: count, dtype: int64


Quantidade de valores ausentes


IN_AREA_VERDE
False    178476
Name: count, dtype: int64

#### IN_AUDITORIO

- 1 - Sim
- 0 - Não


In [94]:
basic_exploration(df, 'IN_AUDITORIO', 'binary')


Contagem de valores:


IN_AUDITORIO
0.0    156540
1.0     21936
Name: count, dtype: int64


Quantidade de valores ausentes


IN_AUDITORIO
False    178476
Name: count, dtype: int64

#### IN_BANHEIRO

- 1 - Sim
- 0 - Não


In [95]:
basic_exploration(df, 'IN_BANHEIRO', 'binary')


Contagem de valores:


IN_BANHEIRO
1.0    173525
0.0      4951
Name: count, dtype: int64


Quantidade de valores ausentes


IN_BANHEIRO
False    178476
Name: count, dtype: int64

#### IN_BANHEIRO_EI

- 1 - Sim
- 0 - Não


In [96]:
basic_exploration(df, 'IN_BANHEIRO_EI', 'binary')


Contagem de valores:


IN_BANHEIRO_EI
0.0    107031
1.0     71445
Name: count, dtype: int64


Quantidade de valores ausentes


IN_BANHEIRO_EI
False    178476
Name: count, dtype: int64

#### IN_BANHEIRO_PNE

- 1 - Sim
- 0 - Não


In [97]:
basic_exploration(df, 'IN_BANHEIRO_PNE', 'binary')


Contagem de valores:


IN_BANHEIRO_PNE
1.0    94288
0.0    84188
Name: count, dtype: int64


Quantidade de valores ausentes


IN_BANHEIRO_PNE
False    178476
Name: count, dtype: int64

#### IN_BANHEIRO_FUNCIONARIOS

- 1 - Sim
- 0 - Não


In [98]:
basic_exploration(df, 'IN_BANHEIRO_FUNCIONARIOS', 'binary')


Contagem de valores:


IN_BANHEIRO_FUNCIONARIOS
1.0    107778
0.0     70698
Name: count, dtype: int64


Quantidade de valores ausentes


IN_BANHEIRO_FUNCIONARIOS
False    178476
Name: count, dtype: int64

#### IN_BANHEIRO_CHUVEIRO

- 1 - Sim
- 0 - Não


In [99]:
basic_exploration(df, 'IN_BANHEIRO_CHUVEIRO', 'binary')


Contagem de valores:


IN_BANHEIRO_CHUVEIRO
0.0    100189
1.0     78287
Name: count, dtype: int64


Quantidade de valores ausentes


IN_BANHEIRO_CHUVEIRO
False    178476
Name: count, dtype: int64

#### IN_BIBLIOTECA

- 1 - Sim
- 0 - Não


In [100]:
basic_exploration(df, 'IN_BIBLIOTECA', 'binary')


Contagem de valores:


IN_BIBLIOTECA
0.0    112973
1.0     65503
Name: count, dtype: int64


Quantidade de valores ausentes


IN_BIBLIOTECA
False    178476
Name: count, dtype: int64

#### IN_BIBLIOTECA_SALA_LEITURA -> Remover

- 1 - Sim
- 0 - Não


In [101]:
basic_exploration(df, 'IN_BIBLIOTECA_SALA_LEITURA', 'binary')


Contagem de valores:


IN_BIBLIOTECA_SALA_LEITURA
1.0    93779
0.0    84697
Name: count, dtype: int64


Quantidade de valores ausentes


IN_BIBLIOTECA_SALA_LEITURA
False    178476
Name: count, dtype: int64

#### IN_COZINHA

- 1 - Sim
- 0 - Não


In [102]:
basic_exploration(df, 'IN_COZINHA', 'binary')


Contagem de valores:


IN_COZINHA
1.0    165259
0.0     13217
Name: count, dtype: int64


Quantidade de valores ausentes


IN_COZINHA
False    178476
Name: count, dtype: int64

#### IN_DESPENSA

- 1 - Sim
- 0 - Não


In [103]:
basic_exploration(df, 'IN_DESPENSA', 'binary')


Contagem de valores:


IN_DESPENSA
1.0    120253
0.0     58223
Name: count, dtype: int64


Quantidade de valores ausentes


IN_DESPENSA
False    178476
Name: count, dtype: int64

#### IN_DORMITORIO_ALUNO

- 1 - Sim
- 0 - Não


In [104]:
basic_exploration(df, 'IN_DORMITORIO_ALUNO', 'binary')


Contagem de valores:


IN_DORMITORIO_ALUNO
0.0    173289
1.0      5187
Name: count, dtype: int64


Quantidade de valores ausentes


IN_DORMITORIO_ALUNO
False    178476
Name: count, dtype: int64

#### IN_DORMITORIO_PROFESSOR

- 1 - Sim
- 0 - Não


In [105]:
basic_exploration(df, 'IN_DORMITORIO_PROFESSOR', 'binary')


Contagem de valores:


IN_DORMITORIO_PROFESSOR
0.0    176401
1.0      2075
Name: count, dtype: int64


Quantidade de valores ausentes


IN_DORMITORIO_PROFESSOR
False    178476
Name: count, dtype: int64

#### IN_LABORATORIO_CIENCIAS

- 1 - Sim
- 0 - Não


In [106]:
basic_exploration(df, 'IN_LABORATORIO_CIENCIAS', 'binary')


Contagem de valores:


IN_LABORATORIO_CIENCIAS
0.0    155899
1.0     22577
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LABORATORIO_CIENCIAS
False    178476
Name: count, dtype: int64

#### IN_LABORATORIO_INFORMATICA

- 1 - Sim
- 0 - Não


In [107]:
basic_exploration(df, 'IN_LABORATORIO_INFORMATICA', 'binary')


Contagem de valores:


IN_LABORATORIO_INFORMATICA
0.0    124646
1.0     53830
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LABORATORIO_INFORMATICA
False    178476
Name: count, dtype: int64

#### IN_LABORATORIO_EDUC_PROF

- 1 - Sim
- 0 - Não


In [108]:
basic_exploration(df, 'IN_LABORATORIO_EDUC_PROF', 'binary')


Contagem de valores:


IN_LABORATORIO_EDUC_PROF
0.0    175438
1.0      3038
Name: count, dtype: int64


Quantidade de valores ausentes


IN_LABORATORIO_EDUC_PROF
False    178476
Name: count, dtype: int64

#### IN_PATIO_COBERTO

- 1 - Sim
- 0 - Não


In [109]:
basic_exploration(df, 'IN_PATIO_COBERTO', 'binary')


Contagem de valores:


IN_PATIO_COBERTO
1.0    101764
0.0     76712
Name: count, dtype: int64


Quantidade de valores ausentes


IN_PATIO_COBERTO
False    178476
Name: count, dtype: int64

#### IN_PATIO_DESCOBERTO

- 1 - Sim
- 0 - Não


In [110]:
basic_exploration(df, 'IN_PATIO_DESCOBERTO', 'binary')


Contagem de valores:


IN_PATIO_DESCOBERTO
0.0    91815
1.0    86661
Name: count, dtype: int64


Quantidade de valores ausentes


IN_PATIO_DESCOBERTO
False    178476
Name: count, dtype: int64

#### IN_PARQUE_INFANTIL

- 1 - Sim
- 0 - Não


In [111]:
basic_exploration(df, 'IN_PARQUE_INFANTIL', 'binary')


Contagem de valores:


IN_PARQUE_INFANTIL
0.0    112675
1.0     65801
Name: count, dtype: int64


Quantidade de valores ausentes


IN_PARQUE_INFANTIL
False    178476
Name: count, dtype: int64

#### IN_PISCINA

- 1 - Sim
- 0 - Não


In [112]:
basic_exploration(df, 'IN_PISCINA', 'binary')


Contagem de valores:


IN_PISCINA
0.0    173712
1.0      4764
Name: count, dtype: int64


Quantidade de valores ausentes


IN_PISCINA
False    178476
Name: count, dtype: int64

#### IN_QUADRA_ESPORTES

- 1 - Sim
- 0 - Não


In [113]:
basic_exploration(df, 'IN_QUADRA_ESPORTES', 'binary')


Contagem de valores:


IN_QUADRA_ESPORTES
0.0    110429
1.0     68047
Name: count, dtype: int64


Quantidade de valores ausentes


IN_QUADRA_ESPORTES
False    178476
Name: count, dtype: int64

#### IN_QUADRA_ESPORTES_COBERTA

- 1 - Sim
- 0 - Não


In [114]:
basic_exploration(df, 'IN_QUADRA_ESPORTES_COBERTA', 'binary')


Contagem de valores:


IN_QUADRA_ESPORTES_COBERTA
0.0    127785
1.0     50691
Name: count, dtype: int64


Quantidade de valores ausentes


IN_QUADRA_ESPORTES_COBERTA
False    178476
Name: count, dtype: int64

#### IN_QUADRA_ESPORTES_DESCOBERTA

- 1 - Sim
- 0 - Não


In [115]:
basic_exploration(df, 'IN_QUADRA_ESPORTES_DESCOBERTA', 'binary')


Contagem de valores:


IN_QUADRA_ESPORTES_DESCOBERTA
0.0    152600
1.0     25876
Name: count, dtype: int64


Quantidade de valores ausentes


IN_QUADRA_ESPORTES_DESCOBERTA
False    178476
Name: count, dtype: int64

#### IN_REFEITORIO

- 1 - Sim
- 0 - Não


In [116]:
basic_exploration(df, 'IN_REFEITORIO', 'binary')


Contagem de valores:


IN_REFEITORIO
1.0    92283
0.0    86193
Name: count, dtype: int64


Quantidade de valores ausentes


IN_REFEITORIO
False    178476
Name: count, dtype: int64

#### IN_SALA_ATELIE_ARTES

- 1 - Sim
- 0 - Não


In [117]:
basic_exploration(df, 'IN_SALA_ATELIE_ARTES', 'binary')


Contagem de valores:


IN_SALA_ATELIE_ARTES
0.0    169935
1.0      8541
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SALA_ATELIE_ARTES
False    178476
Name: count, dtype: int64

#### IN_SALA_MUSICA_CORAL

- 1 - Sim
- 0 - Não


In [118]:
basic_exploration(df, 'IN_SALA_MUSICA_CORAL', 'binary')


Contagem de valores:


IN_SALA_MUSICA_CORAL
0.0    174273
1.0      4203
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SALA_MUSICA_CORAL
False    178476
Name: count, dtype: int64

#### IN_SALA_ESTUDIO_DANCA

- 1 - Sim
- 0 - Não


In [119]:
basic_exploration(df, 'IN_SALA_ESTUDIO_DANCA', 'binary')


Contagem de valores:


IN_SALA_ESTUDIO_DANCA
0.0    175286
1.0      3190
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SALA_ESTUDIO_DANCA
False    178476
Name: count, dtype: int64

#### IN_SALA_MULTIUSO

- 1 - Sim
- 0 - Não


In [120]:
basic_exploration(df, 'IN_SALA_MULTIUSO', 'binary')


Contagem de valores:


IN_SALA_MULTIUSO
0.0    161018
1.0     17458
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SALA_MULTIUSO
False    178476
Name: count, dtype: int64

#### IN_SALA_ESTUDIO_GRAVACAO

- 1 - Sim
- 0 - Não


In [121]:
basic_exploration(df, 'IN_SALA_ESTUDIO_GRAVACAO', 'binary')


Contagem de valores:


IN_SALA_ESTUDIO_GRAVACAO
0.0    177912
1.0       564
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SALA_ESTUDIO_GRAVACAO
False    178476
Name: count, dtype: int64

#### IN_SALA_OFICINAS_EDUC_PROF

- 1 - Sim
- 0 - Não


In [122]:
basic_exploration(df, 'IN_SALA_OFICINAS_EDUC_PROF', 'binary')


Contagem de valores:


IN_SALA_OFICINAS_EDUC_PROF
0.0    176954
1.0      1522
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SALA_OFICINAS_EDUC_PROF
False    178476
Name: count, dtype: int64

#### IN_SALA_DIRETORIA

- 1 - Sim
- 0 - Não


In [123]:
basic_exploration(df, 'IN_SALA_DIRETORIA', 'binary')


Contagem de valores:


IN_SALA_DIRETORIA
1.0    130584
0.0     47892
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SALA_DIRETORIA
False    178476
Name: count, dtype: int64

#### IN_SALA_LEITURA

- 1 - Sim
- 0 - Não


In [124]:
basic_exploration(df, 'IN_SALA_LEITURA', 'binary')


Contagem de valores:


IN_SALA_LEITURA
0.0    129747
1.0     48729
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SALA_LEITURA
False    178476
Name: count, dtype: int64

#### IN_SALA_PROFESSOR

- 1 - Sim
- 0 - Não


In [125]:
basic_exploration(df, 'IN_SALA_PROFESSOR', 'binary')


Contagem de valores:


IN_SALA_PROFESSOR
1.0    115078
0.0     63398
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SALA_PROFESSOR
False    178476
Name: count, dtype: int64

#### IN_SALA_REPOUSO_ALUNO

- 1 - Sim
- 0 - Não


In [126]:
basic_exploration(df, 'IN_SALA_REPOUSO_ALUNO', 'binary')


Contagem de valores:


IN_SALA_REPOUSO_ALUNO
0.0    169818
1.0      8658
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SALA_REPOUSO_ALUNO
False    178476
Name: count, dtype: int64

#### IN_SECRETARIA

- 1 - Sim
- 0 - Não


In [127]:
basic_exploration(df, 'IN_SECRETARIA', 'binary')


Contagem de valores:


IN_SECRETARIA
1.0    133224
0.0     45252
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SECRETARIA
False    178476
Name: count, dtype: int64

#### IN_SALA_ATENDIMENTO_ESPECIAL

- 1 - Sim
- 0 - Não


In [128]:
basic_exploration(df, 'IN_SALA_ATENDIMENTO_ESPECIAL', 'binary')


Contagem de valores:


IN_SALA_ATENDIMENTO_ESPECIAL
0.0    137618
1.0     40858
Name: count, dtype: int64


Quantidade de valores ausentes


IN_SALA_ATENDIMENTO_ESPECIAL
False    178476
Name: count, dtype: int64

#### IN_TERREIRAO

- 1 - Sim
- 0 - Não


In [129]:
basic_exploration(df, 'IN_TERREIRAO', 'binary')


Contagem de valores:


IN_TERREIRAO
0.0    156972
1.0     21504
Name: count, dtype: int64


Quantidade de valores ausentes


IN_TERREIRAO
False    178476
Name: count, dtype: int64

#### IN_VIVEIRO

- 1 - Sim
- 0 - Não


In [130]:
basic_exploration(df, 'IN_VIVEIRO', 'binary')


Contagem de valores:


IN_VIVEIRO
0.0    176779
1.0      1697
Name: count, dtype: int64


Quantidade de valores ausentes


IN_VIVEIRO
False    178476
Name: count, dtype: int64

#### IN_DEPENDENCIAS_OUTRAS

- 1 - Sim
- 0 - Não


In [131]:
basic_exploration(df, 'IN_DEPENDENCIAS_OUTRAS', 'binary')


Contagem de valores:


IN_DEPENDENCIAS_OUTRAS
0.0    176695
1.0      1781
Name: count, dtype: int64


Quantidade de valores ausentes


IN_DEPENDENCIAS_OUTRAS
False    178476
Name: count, dtype: int64

#### Comparação

In [132]:
cols_banheiros = ['IN_BANHEIRO', 'IN_BANHEIRO_EI', 'IN_BANHEIRO_PNE', 'IN_BANHEIRO_FUNCIONARIOS', 'IN_BANHEIRO_CHUVEIRO']

df[cols_banheiros].value_counts(dropna = False)

IN_BANHEIRO  IN_BANHEIRO_EI  IN_BANHEIRO_PNE  IN_BANHEIRO_FUNCIONARIOS  IN_BANHEIRO_CHUVEIRO
1.0          0.0             0.0              0.0                       0.0                     29160
             1.0             1.0              1.0                       1.0                     24813
             0.0             1.0              1.0                       1.0                     18483
                                                                        0.0                     18394
                             0.0              1.0                       0.0                     12696
             1.0             0.0              1.0                       1.0                     10019
                             1.0              1.0                       0.0                      9846
             0.0             1.0              0.0                       0.0                      8697
             1.0             0.0              1.0                       0.0                

In [133]:
cols_biblioteca = ['IN_BIBLIOTECA', 'IN_BIBLIOTECA_SALA_LEITURA', 'IN_SALA_LEITURA']

df[cols_biblioteca].value_counts(dropna = False)

IN_BIBLIOTECA  IN_BIBLIOTECA_SALA_LEITURA  IN_SALA_LEITURA
0.0            0.0                         0.0                84697
1.0            1.0                         0.0                45050
0.0            1.0                         1.0                28276
1.0            1.0                         1.0                20453
Name: count, dtype: int64

In [134]:
cols_remover += ['IN_BIBLIOTECA_SALA_LEITURA']
cols_remover

['QT_MAT_INF',
 'QT_MAT_INF_CRE',
 'QT_MAT_INF_PRE',
 'QT_MAT_FUND',
 'QT_MAT_FUND_AI',
 'QT_MAT_FUND_AI_1',
 'QT_MAT_FUND_AI_2',
 'QT_MAT_FUND_AI_3',
 'QT_MAT_FUND_AI_4',
 'QT_MAT_FUND_AI_5',
 'QT_MAT_FUND_AF',
 'QT_MAT_FUND_AF_6',
 'QT_MAT_FUND_AF_7',
 'QT_MAT_FUND_AF_8',
 'QT_MAT_FUND_AF_9',
 'QT_MAT_MED',
 'QT_MAT_MED_PROP',
 'QT_MAT_MED_PROP_1',
 'QT_MAT_MED_PROP_2',
 'QT_MAT_MED_PROP_3',
 'QT_MAT_MED_PROP_4',
 'QT_MAT_MED_PROP_NS',
 'QT_MAT_MED_CT',
 'QT_MAT_MED_CT_1',
 'QT_MAT_MED_CT_2',
 'QT_MAT_MED_CT_3',
 'QT_MAT_MED_CT_4',
 'QT_MAT_MED_CT_NS',
 'QT_MAT_MED_NM',
 'QT_MAT_MED_NM_1',
 'QT_MAT_MED_NM_2',
 'QT_MAT_MED_NM_3',
 'QT_MAT_MED_NM_4',
 'QT_MAT_PROF',
 'QT_MAT_PROF_TEC',
 'QT_MAT_PROF_TEC_CONC',
 'QT_MAT_PROF_TEC_SUBS',
 'QT_MAT_PROF_FIC_CONC',
 'QT_MAT_EJA',
 'QT_MAT_EJA_FUND',
 'QT_MAT_EJA_FUND_AI',
 'QT_MAT_EJA_FUND_AF',
 'QT_MAT_EJA_FUND_FIC',
 'QT_MAT_EJA_MED',
 'QT_MAT_EJA_MED_NPROF',
 'QT_MAT_EJA_MED_FIC',
 'QT_MAT_EJA_MED_TEC',
 'IN_BIBLIOTECA_SALA_LEITURA']

### Recursos de Acessibilidade para Pessoas com Deficiência ou Mobilidade Reduzida nas Vias de Circulação Interna da Escola

#### IN_ACESSIBILIDADE_CORRIMAO

- 1 - Sim
- 0 - Não


In [135]:
basic_exploration(df, 'IN_ACESSIBILIDADE_CORRIMAO', 'binary')


Contagem de valores:


IN_ACESSIBILIDADE_CORRIMAO
0.0    122907
1.0     55569
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ACESSIBILIDADE_CORRIMAO
False    178476
Name: count, dtype: int64

#### IN_ACESSIBILIDADE_ELEVADOR

- 1 - Sim
- 0 - Não


In [136]:
basic_exploration(df, 'IN_ACESSIBILIDADE_ELEVADOR', 'binary')


Contagem de valores:


IN_ACESSIBILIDADE_ELEVADOR
0.0    170582
1.0      7894
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ACESSIBILIDADE_ELEVADOR
False    178476
Name: count, dtype: int64

#### IN_ACESSIBILIDADE_PISOS_TATEIS

- 1 - Sim
- 0 - Não


In [137]:
basic_exploration(df, 'IN_ACESSIBILIDADE_PISOS_TATEIS', 'binary')


Contagem de valores:


IN_ACESSIBILIDADE_PISOS_TATEIS
0.0    159691
1.0     18785
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ACESSIBILIDADE_PISOS_TATEIS
False    178476
Name: count, dtype: int64

#### IN_ACESSIBILIDADE_VAO_LIVRE

- 1 - Sim
- 0 - Não


In [138]:
basic_exploration(df, 'IN_ACESSIBILIDADE_VAO_LIVRE', 'binary')


Contagem de valores:


IN_ACESSIBILIDADE_VAO_LIVRE
0.0    108065
1.0     70411
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ACESSIBILIDADE_VAO_LIVRE
False    178476
Name: count, dtype: int64

#### IN_ACESSIBILIDADE_RAMPAS

- 1 - Sim
- 0 - Não


In [139]:
basic_exploration(df, 'IN_ACESSIBILIDADE_RAMPAS', 'binary')


Contagem de valores:


IN_ACESSIBILIDADE_RAMPAS
1.0    97688
0.0    80788
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ACESSIBILIDADE_RAMPAS
False    178476
Name: count, dtype: int64

#### IN_ACESSIBILIDADE_SINAL_SONORO

- 1 - Sim
- 0 - Não


In [140]:
basic_exploration(df, 'IN_ACESSIBILIDADE_SINAL_SONORO', 'binary')


Contagem de valores:


IN_ACESSIBILIDADE_SINAL_SONORO
0.0    174178
1.0      4298
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ACESSIBILIDADE_SINAL_SONORO
False    178476
Name: count, dtype: int64

#### IN_ACESSIBILIDADE_SINAL_TATIL

- 1 - Sim
- 0 - Não


In [141]:
basic_exploration(df, 'IN_ACESSIBILIDADE_SINAL_TATIL', 'binary')


Contagem de valores:


IN_ACESSIBILIDADE_SINAL_TATIL
0.0    170637
1.0      7839
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ACESSIBILIDADE_SINAL_TATIL
False    178476
Name: count, dtype: int64

#### IN_ACESSIBILIDADE_SINAL_VISUAL

- 1 - Sim
- 0 - Não


In [142]:
basic_exploration(df, 'IN_ACESSIBILIDADE_SINAL_VISUAL', 'binary')


Contagem de valores:


IN_ACESSIBILIDADE_SINAL_VISUAL
0.0    161963
1.0     16513
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ACESSIBILIDADE_SINAL_VISUAL
False    178476
Name: count, dtype: int64

#### IN_ACESSIBILIDADE_INEXISTENTE

- 1 - Sim
- 0 - Não


In [143]:
basic_exploration(df, 'IN_ACESSIBILIDADE_INEXISTENTE', 'binary')


Contagem de valores:


IN_ACESSIBILIDADE_INEXISTENTE
0.0    122027
1.0     56449
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ACESSIBILIDADE_INEXISTENTE
False    178476
Name: count, dtype: int64

#### Comparação

In [144]:
cols_acessibilidade = ['IN_ACESSIBILIDADE_CORRIMAO', 'IN_ACESSIBILIDADE_ELEVADOR', 'IN_ACESSIBILIDADE_PISOS_TATEIS', 'IN_ACESSIBILIDADE_VAO_LIVRE', 'IN_ACESSIBILIDADE_RAMPAS', 
                  'IN_ACESSIBILIDADE_SINAL_SONORO', 'IN_ACESSIBILIDADE_SINAL_TATIL', 'IN_ACESSIBILIDADE_SINAL_VISUAL', 'IN_ACESSIBILIDADE_INEXISTENTE']

df[cols_acessibilidade].value_counts(dropna = False)

IN_ACESSIBILIDADE_CORRIMAO  IN_ACESSIBILIDADE_ELEVADOR  IN_ACESSIBILIDADE_PISOS_TATEIS  IN_ACESSIBILIDADE_VAO_LIVRE  IN_ACESSIBILIDADE_RAMPAS  IN_ACESSIBILIDADE_SINAL_SONORO  IN_ACESSIBILIDADE_SINAL_TATIL  IN_ACESSIBILIDADE_SINAL_VISUAL  IN_ACESSIBILIDADE_INEXISTENTE
0.0                         0.0                         0.0                             0.0                          0.0                       0.0                             0.0                            0.0                             1.0                              56449
                                                                                                                     1.0                       0.0                             0.0                            0.0                             0.0                              25384
                                                                                        1.0                          1.0                       0.0                             0.0

### Salas

#### QT_SALAS_UTILIZADAS_DENTRO

In [145]:
basic_exploration(df, 'QT_SALAS_UTILIZADAS_DENTRO', 'numeric')


Quantidade de valores ausentes


QT_SALAS_UTILIZADAS_DENTRO
False    178476
Name: count, dtype: int64

#### QT_SALAS_UTILIZADAS_FORA

In [146]:
basic_exploration(df, 'QT_SALAS_UTILIZADAS_FORA', 'numeric')


Quantidade de valores ausentes


QT_SALAS_UTILIZADAS_FORA
False    178476
Name: count, dtype: int64

#### QT_SALAS_UTILIZADAS -> Remover

In [147]:
basic_exploration(df, 'QT_SALAS_UTILIZADAS', 'numeric')


Quantidade de valores ausentes


QT_SALAS_UTILIZADAS
False    178476
Name: count, dtype: int64

#### QT_SALAS_UTILIZA_CLIMATIZADAS

In [148]:
basic_exploration(df, 'QT_SALAS_UTILIZA_CLIMATIZADAS', 'numeric')


Quantidade de valores ausentes


QT_SALAS_UTILIZA_CLIMATIZADAS
False    178476
Name: count, dtype: int64

#### QT_SALAS_UTILIZADAS_ACESSIVEIS

In [149]:
basic_exploration(df, 'QT_SALAS_UTILIZADAS_ACESSIVEIS', 'numeric')


Quantidade de valores ausentes


QT_SALAS_UTILIZADAS_ACESSIVEIS
False    178476
Name: count, dtype: int64

#### Comparação

In [150]:
df[df['QT_SALAS_UTILIZADAS_DENTRO'] + df['QT_SALAS_UTILIZADAS_FORA'] != df['QT_SALAS_UTILIZADAS']].shape

(0, 174)

In [151]:
cols_remover += ['QT_SALAS_UTILIZADAS_DENTRO']
cols_remover

['QT_MAT_INF',
 'QT_MAT_INF_CRE',
 'QT_MAT_INF_PRE',
 'QT_MAT_FUND',
 'QT_MAT_FUND_AI',
 'QT_MAT_FUND_AI_1',
 'QT_MAT_FUND_AI_2',
 'QT_MAT_FUND_AI_3',
 'QT_MAT_FUND_AI_4',
 'QT_MAT_FUND_AI_5',
 'QT_MAT_FUND_AF',
 'QT_MAT_FUND_AF_6',
 'QT_MAT_FUND_AF_7',
 'QT_MAT_FUND_AF_8',
 'QT_MAT_FUND_AF_9',
 'QT_MAT_MED',
 'QT_MAT_MED_PROP',
 'QT_MAT_MED_PROP_1',
 'QT_MAT_MED_PROP_2',
 'QT_MAT_MED_PROP_3',
 'QT_MAT_MED_PROP_4',
 'QT_MAT_MED_PROP_NS',
 'QT_MAT_MED_CT',
 'QT_MAT_MED_CT_1',
 'QT_MAT_MED_CT_2',
 'QT_MAT_MED_CT_3',
 'QT_MAT_MED_CT_4',
 'QT_MAT_MED_CT_NS',
 'QT_MAT_MED_NM',
 'QT_MAT_MED_NM_1',
 'QT_MAT_MED_NM_2',
 'QT_MAT_MED_NM_3',
 'QT_MAT_MED_NM_4',
 'QT_MAT_PROF',
 'QT_MAT_PROF_TEC',
 'QT_MAT_PROF_TEC_CONC',
 'QT_MAT_PROF_TEC_SUBS',
 'QT_MAT_PROF_FIC_CONC',
 'QT_MAT_EJA',
 'QT_MAT_EJA_FUND',
 'QT_MAT_EJA_FUND_AI',
 'QT_MAT_EJA_FUND_AF',
 'QT_MAT_EJA_FUND_FIC',
 'QT_MAT_EJA_MED',
 'QT_MAT_EJA_MED_NPROF',
 'QT_MAT_EJA_MED_FIC',
 'QT_MAT_EJA_MED_TEC',
 'IN_BIBLIOTECA_SALA_LEITURA',
 'QT

### Equipamentos para uso técnico e administrativo

#### IN_EQUIP_PARABOLICA

- 1 - Sim
- 0 - Não


In [152]:
basic_exploration(df, 'IN_EQUIP_PARABOLICA', 'binary')


Contagem de valores:


IN_EQUIP_PARABOLICA
0.0    157998
1.0     20478
Name: count, dtype: int64


Quantidade de valores ausentes


IN_EQUIP_PARABOLICA
False    178476
Name: count, dtype: int64

#### IN_COMPUTADOR

- 1 - Sim
- 0 - Não


In [153]:
basic_exploration(df, 'IN_COMPUTADOR', 'binary')


Contagem de valores:


IN_COMPUTADOR
1.0    150985
0.0     27491
Name: count, dtype: int64


Quantidade de valores ausentes


IN_COMPUTADOR
False    178476
Name: count, dtype: int64

#### IN_EQUIP_COPIADORA

- 1 - Sim
- 0 - Não


In [154]:
basic_exploration(df, 'IN_EQUIP_COPIADORA', 'binary')


Contagem de valores:


IN_EQUIP_COPIADORA
0.0    106825
1.0     71651
Name: count, dtype: int64


Quantidade de valores ausentes


IN_EQUIP_COPIADORA
False    178476
Name: count, dtype: int64

#### IN_EQUIP_IMPRESSORA

- 1 - Sim
- 0 - Não


In [155]:
basic_exploration(df, 'IN_EQUIP_IMPRESSORA', 'binary')


Contagem de valores:


IN_EQUIP_IMPRESSORA
1.0    117024
0.0     61452
Name: count, dtype: int64


Quantidade de valores ausentes


IN_EQUIP_IMPRESSORA
False    178476
Name: count, dtype: int64

#### IN_EQUIP_IMPRESSORA_MULT

- 1 - Sim
- 0 - Não


In [156]:
basic_exploration(df, 'IN_EQUIP_IMPRESSORA_MULT', 'binary')


Contagem de valores:


IN_EQUIP_IMPRESSORA_MULT
1.0    126486
0.0     51990
Name: count, dtype: int64


Quantidade de valores ausentes


IN_EQUIP_IMPRESSORA_MULT
False    178476
Name: count, dtype: int64

#### IN_EQUIP_SCANNER

- 1 - Sim
- 0 - Não


In [157]:
basic_exploration(df, 'IN_EQUIP_SCANNER', 'binary')


Contagem de valores:


IN_EQUIP_SCANNER
0.0    129856
1.0     48620
Name: count, dtype: int64


Quantidade de valores ausentes


IN_EQUIP_SCANNER
False    178476
Name: count, dtype: int64

#### Comparação

In [158]:
cols_equipamentos_tec = ['IN_EQUIP_COPIADORA', 'IN_EQUIP_IMPRESSORA', 'IN_EQUIP_IMPRESSORA_MULT', 'IN_EQUIP_SCANNER']

df[cols_equipamentos_tec].value_counts(dropna = False)

IN_EQUIP_COPIADORA  IN_EQUIP_IMPRESSORA  IN_EQUIP_IMPRESSORA_MULT  IN_EQUIP_SCANNER
1.0                 1.0                  1.0                       1.0                 33865
0.0                 0.0                  1.0                       0.0                 31853
                    1.0                  1.0                       0.0                 25302
1.0                 1.0                  1.0                       0.0                 20133
0.0                 0.0                  0.0                       0.0                 20096
                    1.0                  0.0                       0.0                 18733
1.0                 1.0                  0.0                       0.0                  7687
0.0                 1.0                  1.0                       1.0                  7226
1.0                 0.0                  1.0                       0.0                  4803
                    1.0                  0.0                       1.0         

### Equipamentos para o processo de ensino e atividade

#### QT_EQUIP_DVD

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 salas existentes - foram marcados apenas valores>3)

In [159]:
basic_exploration(df, 'QT_EQUIP_DVD', 'numeric')


Quantidade de valores ausentes


QT_EQUIP_DVD
False    178476
Name: count, dtype: int64

In [160]:
df[df['QT_EQUIP_DVD'] == 0].shape

(99603, 174)

In [161]:
df[df['QT_EQUIP_DVD'] == 88888].shape

(162, 174)

In [162]:
df[(df['QT_EQUIP_DVD'] > 0) & (df['QT_EQUIP_DVD'] < 88888)].shape

(78711, 174)

In [163]:
df[(df['QT_EQUIP_DVD'] > 0) & (df['QT_EQUIP_DVD'] < 88888)]['QT_EQUIP_DVD'].sort_values(ascending = False)

123195    74.0
123833    70.0
106229    61.0
146427    52.0
103653    50.0
          ... 
87826      1.0
87827      1.0
87828      1.0
87829      1.0
178474     1.0
Name: QT_EQUIP_DVD, Length: 78711, dtype: float64

In [164]:
df[
    (df['QT_EQUIP_DVD'] > 3) & 
    (df['QT_EQUIP_DVD'] > df['QT_SALAS_UTILIZADAS'] / 3 * 4) & 
    (df['QT_EQUIP_DVD'] < 88888)
][['NO_ENTIDADE', 'QT_EQUIP_DVD', 'QT_SALAS_UTILIZADAS']]

Unnamed: 0,NO_ENTIDADE,QT_EQUIP_DVD,QT_SALAS_UTILIZADAS


#### QT_EQUIP_SOM

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 salas existentes - foram marcados apenas valores>3)

In [165]:
basic_exploration(df, 'QT_EQUIP_SOM', 'numeric')


Quantidade de valores ausentes


QT_EQUIP_SOM
False    178476
Name: count, dtype: int64

In [166]:
df[df['QT_EQUIP_SOM'] == 0].shape

(48020, 174)

In [167]:
df[df['QT_EQUIP_SOM'] == 88888].shape

(1207, 174)

In [168]:
df[(df['QT_EQUIP_SOM'] > 0) & (df['QT_EQUIP_SOM'] < 88888)].shape

(129249, 174)

In [169]:
df[(df['QT_EQUIP_SOM'] > 0) & (df['QT_EQUIP_SOM'] < 88888)]['QT_EQUIP_SOM'].sort_values(ascending = False)

138522    192.0
123049    140.0
107360    106.0
123197    101.0
146626     92.0
          ...  
64682       1.0
124825      1.0
64680       1.0
124827      1.0
178475      1.0
Name: QT_EQUIP_SOM, Length: 129249, dtype: float64

In [170]:
df[
    (df['QT_EQUIP_SOM'] > 3) & 
    (df['QT_EQUIP_SOM'] > df['QT_SALAS_UTILIZADAS'] / 3 * 4) & 
    (df['QT_EQUIP_SOM'] < 88888)
][['NO_ENTIDADE', 'QT_EQUIP_SOM', 'QT_SALAS_UTILIZADAS']]

Unnamed: 0,NO_ENTIDADE,QT_EQUIP_SOM,QT_SALAS_UTILIZADAS


#### QT_EQUIP_TV

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 salas existentes - foram marcados apenas valores>3)

In [171]:
basic_exploration(df, 'QT_EQUIP_TV', 'numeric')


Quantidade de valores ausentes


QT_EQUIP_TV
False    178476
Name: count, dtype: int64

In [172]:
df[df['QT_EQUIP_TV'] == 0].shape

(39195, 174)

In [173]:
df[df['QT_EQUIP_TV'] == 88888].shape

(2359, 174)

In [174]:
df[(df['QT_EQUIP_TV'] > 0) & (df['QT_EQUIP_TV'] < 88888)].shape

(136922, 174)

In [175]:
df[(df['QT_EQUIP_TV'] > 0) & (df['QT_EQUIP_TV'] < 88888)]['QT_EQUIP_TV'].sort_values(ascending = False)

79786     131.0
7947      112.0
111712     90.0
54150      81.0
103781     76.0
          ...  
54888       1.0
54886       1.0
54885       1.0
54884       1.0
178475      1.0
Name: QT_EQUIP_TV, Length: 136922, dtype: float64

In [176]:
df[
    (df['QT_EQUIP_TV'] > 3) & 
    (df['QT_EQUIP_TV'] > df['QT_SALAS_UTILIZADAS'] / 3 * 4) & 
    (df['QT_EQUIP_TV'] < 88888)
][['NO_ENTIDADE', 'QT_EQUIP_TV', 'QT_SALAS_UTILIZADAS']]

Unnamed: 0,NO_ENTIDADE,QT_EQUIP_TV,QT_SALAS_UTILIZADAS


#### QT_EQUIP_LOUSA_DIGITAL

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 salas existentes - foram marcados apenas valores>3)

In [177]:
basic_exploration(df, 'QT_EQUIP_LOUSA_DIGITAL', 'numeric')


Quantidade de valores ausentes


QT_EQUIP_LOUSA_DIGITAL
False    178476
Name: count, dtype: int64

In [178]:
df[df['QT_EQUIP_LOUSA_DIGITAL'] == 0].shape

(153717, 174)

In [179]:
df[df['QT_EQUIP_LOUSA_DIGITAL'] == 88888].shape

(67, 174)

In [180]:
df[(df['QT_EQUIP_LOUSA_DIGITAL'] > 0) & (df['QT_EQUIP_LOUSA_DIGITAL'] < 88888)].shape

(24692, 174)

In [181]:
df[(df['QT_EQUIP_LOUSA_DIGITAL'] > 0) & (df['QT_EQUIP_LOUSA_DIGITAL'] < 88888)]['QT_EQUIP_LOUSA_DIGITAL'].sort_values(ascending = False)

124520    128.0
173437     98.0
123833     75.0
106830     72.0
111712     68.0
          ...  
96002       1.0
96001       1.0
95997       1.0
95995       1.0
178474      1.0
Name: QT_EQUIP_LOUSA_DIGITAL, Length: 24692, dtype: float64

In [182]:
df[
    (df['QT_EQUIP_LOUSA_DIGITAL'] > 3) & 
    (df['QT_EQUIP_LOUSA_DIGITAL'] > df['QT_SALAS_UTILIZADAS'] / 3 * 4) & 
    (df['QT_EQUIP_LOUSA_DIGITAL'] < 88888)
][['NO_ENTIDADE', 'QT_EQUIP_LOUSA_DIGITAL', 'QT_SALAS_UTILIZADAS']]

Unnamed: 0,NO_ENTIDADE,QT_EQUIP_LOUSA_DIGITAL,QT_SALAS_UTILIZADAS


#### QT_EQUIP_MULTIMIDIA

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 salas existentes - foram marcados apenas valores>3)

In [183]:
basic_exploration(df, 'QT_EQUIP_MULTIMIDIA', 'numeric')


Quantidade de valores ausentes


QT_EQUIP_MULTIMIDIA
False    178476
Name: count, dtype: int64

In [184]:
df[df['QT_EQUIP_MULTIMIDIA'] == 0].shape

(68594, 174)

In [185]:
df[df['QT_EQUIP_MULTIMIDIA'] == 88888].shape

(980, 174)

In [186]:
df[(df['QT_EQUIP_MULTIMIDIA'] > 0) & (df['QT_EQUIP_MULTIMIDIA'] < 88888)].shape

(108902, 174)

In [187]:
df[(df['QT_EQUIP_MULTIMIDIA'] > 0) & (df['QT_EQUIP_MULTIMIDIA'] < 88888)]['QT_EQUIP_MULTIMIDIA'].sort_values(ascending = False)

171532    178.0
138524    160.0
146587    128.0
146359    116.0
111712    110.0
          ...  
110788      1.0
23559       1.0
110792      1.0
23555       1.0
41909       1.0
Name: QT_EQUIP_MULTIMIDIA, Length: 108902, dtype: float64

In [188]:
df[
    (df['QT_EQUIP_MULTIMIDIA'] > 3) & 
    (df['QT_EQUIP_MULTIMIDIA'] > df['QT_SALAS_UTILIZADAS'] / 3 * 4) & 
    (df['QT_EQUIP_MULTIMIDIA'] < 88888)
][['NO_ENTIDADE', 'QT_EQUIP_MULTIMIDIA', 'QT_SALAS_UTILIZADAS']]

Unnamed: 0,NO_ENTIDADE,QT_EQUIP_MULTIMIDIA,QT_SALAS_UTILIZADAS


#### QT_DESKTOP_ALUNO -> 24 Valores estranhos

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 matrículas - foram marcados apenas valores>3)

In [189]:
basic_exploration(df, 'QT_DESKTOP_ALUNO', 'numeric')


Quantidade de valores ausentes


QT_DESKTOP_ALUNO
False    178476
Name: count, dtype: int64

In [190]:
df[df['QT_DESKTOP_ALUNO'] == 0].shape

(94396, 174)

In [191]:
df[df['QT_DESKTOP_ALUNO'] == 88888].shape

(174, 174)

In [192]:
df[(df['QT_DESKTOP_ALUNO'] > 0) & (df['QT_DESKTOP_ALUNO'] < 88888)].shape

(83906, 174)

In [193]:
df[(df['QT_DESKTOP_ALUNO'] > 0) & (df['QT_DESKTOP_ALUNO'] < 88888)]['QT_DESKTOP_ALUNO'].sort_values(ascending = False)

51333     1485.0
151778    1400.0
123234    1246.0
62491     1155.0
177807     900.0
           ...  
149393       1.0
105321       1.0
105326       1.0
23562        1.0
70966        1.0
Name: QT_DESKTOP_ALUNO, Length: 83906, dtype: float64

In [194]:
df['QT_DESKTOP_TESTE'] = round(df['QT_DESKTOP_ALUNO'] / (df['QT_MAT_BAS'] / 3), 2)
df[
    (df['QT_DESKTOP_ALUNO'] > 3) & 
    (df['QT_DESKTOP_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_DESKTOP_ALUNO'] < 88888)
][['NO_ENTIDADE', 'QT_DESKTOP_ALUNO', 'QT_DESKTOP_TESTE', 'QT_MAT_BAS']].sort_values('QT_DESKTOP_TESTE', ascending = False)

Unnamed: 0,NO_ENTIDADE,QT_DESKTOP_ALUNO,QT_DESKTOP_TESTE,QT_MAT_BAS
125106,ESCOLA SENAI OSCAR LUCIO BALDAN,163.0,20.38,24.0
171381,SENAI CUIABA,600.0,15.38,117.0
125107,EDWARD SAVIO CENTRO DE TREINAMENTO SENAI,233.0,14.56,48.0
65769,SENAI - CENTRO DE EDUC E TEC INTEG DA CONST CI...,90.0,11.74,23.0
125071,ANTONIO DEVISATE ESCOLA SENAI,194.0,10.58,55.0
20388,CENTRO CULTURAL FRANCO AMAPAENSE,10.0,10.0,3.0
125095,LUIS EULALIO DE BUENO VIDIGAL FILHO ESCOLA SENAI,222.0,7.57,88.0
172453,ASSOCIACAO DE PAIS E AMIGOS DOS EXCEPCIONAIS -...,5.0,7.5,2.0
125058,ESCOLA SENAI JAIRO CANDIDO,300.0,7.5,120.0
125110,ESCOLA SENAI ETTORE ZANINI,291.0,6.61,132.0


In [195]:
cols_remover += ['QT_DESKTOP_TESTE']
cols_remover

['QT_MAT_INF',
 'QT_MAT_INF_CRE',
 'QT_MAT_INF_PRE',
 'QT_MAT_FUND',
 'QT_MAT_FUND_AI',
 'QT_MAT_FUND_AI_1',
 'QT_MAT_FUND_AI_2',
 'QT_MAT_FUND_AI_3',
 'QT_MAT_FUND_AI_4',
 'QT_MAT_FUND_AI_5',
 'QT_MAT_FUND_AF',
 'QT_MAT_FUND_AF_6',
 'QT_MAT_FUND_AF_7',
 'QT_MAT_FUND_AF_8',
 'QT_MAT_FUND_AF_9',
 'QT_MAT_MED',
 'QT_MAT_MED_PROP',
 'QT_MAT_MED_PROP_1',
 'QT_MAT_MED_PROP_2',
 'QT_MAT_MED_PROP_3',
 'QT_MAT_MED_PROP_4',
 'QT_MAT_MED_PROP_NS',
 'QT_MAT_MED_CT',
 'QT_MAT_MED_CT_1',
 'QT_MAT_MED_CT_2',
 'QT_MAT_MED_CT_3',
 'QT_MAT_MED_CT_4',
 'QT_MAT_MED_CT_NS',
 'QT_MAT_MED_NM',
 'QT_MAT_MED_NM_1',
 'QT_MAT_MED_NM_2',
 'QT_MAT_MED_NM_3',
 'QT_MAT_MED_NM_4',
 'QT_MAT_PROF',
 'QT_MAT_PROF_TEC',
 'QT_MAT_PROF_TEC_CONC',
 'QT_MAT_PROF_TEC_SUBS',
 'QT_MAT_PROF_FIC_CONC',
 'QT_MAT_EJA',
 'QT_MAT_EJA_FUND',
 'QT_MAT_EJA_FUND_AI',
 'QT_MAT_EJA_FUND_AF',
 'QT_MAT_EJA_FUND_FIC',
 'QT_MAT_EJA_MED',
 'QT_MAT_EJA_MED_NPROF',
 'QT_MAT_EJA_MED_FIC',
 'QT_MAT_EJA_MED_TEC',
 'IN_BIBLIOTECA_SALA_LEITURA',
 'QT

#### QT_COMP_PORTATIL_ALUNO -> 11 Valores estranhos

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 matrículas - foram marcados apenas valores>3)

In [196]:
basic_exploration(df, 'QT_COMP_PORTATIL_ALUNO', 'numeric')


Quantidade de valores ausentes


QT_COMP_PORTATIL_ALUNO
False    178476
Name: count, dtype: int64

In [197]:
df[df['QT_COMP_PORTATIL_ALUNO'] == 0].shape

(106796, 175)

In [198]:
df[df['QT_COMP_PORTATIL_ALUNO'] == 88888].shape

(64, 175)

In [199]:
df[(df['QT_COMP_PORTATIL_ALUNO'] > 0) & (df['QT_COMP_PORTATIL_ALUNO'] < 88888)].shape

(71616, 175)

In [200]:
df[(df['QT_COMP_PORTATIL_ALUNO'] > 0) & (df['QT_COMP_PORTATIL_ALUNO'] < 88888)]['QT_COMP_PORTATIL_ALUNO'].sort_values(ascending = False)

123049    1500.0
124713    1399.0
113745    1200.0
135824    1000.0
96564      938.0
           ...  
52076        1.0
124813       1.0
124806       1.0
124804       1.0
178474       1.0
Name: QT_COMP_PORTATIL_ALUNO, Length: 71616, dtype: float64

In [201]:
df['QT_COMP_PORTATIL_TESTE'] = round(df['QT_COMP_PORTATIL_ALUNO'] / (df['QT_MAT_BAS'] / 3), 2)
df[
    (df['QT_COMP_PORTATIL_ALUNO'] > 3) & 
    (df['QT_COMP_PORTATIL_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_COMP_PORTATIL_ALUNO'] < 88888)
][['NO_ENTIDADE', 'QT_COMP_PORTATIL_ALUNO', 'QT_COMP_PORTATIL_TESTE', 'QT_MAT_BAS']].sort_values('QT_COMP_PORTATIL_TESTE', ascending = False)

Unnamed: 0,NO_ENTIDADE,QT_COMP_PORTATIL_ALUNO,QT_COMP_PORTATIL_TESTE,QT_MAT_BAS
125071,ANTONIO DEVISATE ESCOLA SENAI,130.0,7.09,55.0
136228,ESCOLA SENAI DE OURINHOS,80.0,5.45,44.0
116336,ESCOLA SENAI DE REGISTRO,63.0,5.4,35.0
143807,MARIA APARECIDA P BATISTA E E C EF,23.0,5.31,13.0
37514,CENTRO EDUCACIONAL SESC LER PIRIPIRI,34.0,4.43,23.0
143692,ALBINO O DE PROENCA E E DO C EF,20.0,4.29,14.0
164285,ESC EST ENS FUN BAIRRO CARVALHO,165.0,4.27,116.0
166613,ESC MUN DE ENS FUND ESPECIAL ROBERTO LEOPOLDO ...,7.0,4.2,5.0
161034,ESC MUN ENS FUN OLAVO BILAC,36.0,4.15,26.0
121874,EMEFEI PADRE AVELINO CANAZZA,179.0,4.1,131.0


In [202]:
cols_remover += ['QT_COMP_PORTATIL_TESTE']
cols_remover

['QT_MAT_INF',
 'QT_MAT_INF_CRE',
 'QT_MAT_INF_PRE',
 'QT_MAT_FUND',
 'QT_MAT_FUND_AI',
 'QT_MAT_FUND_AI_1',
 'QT_MAT_FUND_AI_2',
 'QT_MAT_FUND_AI_3',
 'QT_MAT_FUND_AI_4',
 'QT_MAT_FUND_AI_5',
 'QT_MAT_FUND_AF',
 'QT_MAT_FUND_AF_6',
 'QT_MAT_FUND_AF_7',
 'QT_MAT_FUND_AF_8',
 'QT_MAT_FUND_AF_9',
 'QT_MAT_MED',
 'QT_MAT_MED_PROP',
 'QT_MAT_MED_PROP_1',
 'QT_MAT_MED_PROP_2',
 'QT_MAT_MED_PROP_3',
 'QT_MAT_MED_PROP_4',
 'QT_MAT_MED_PROP_NS',
 'QT_MAT_MED_CT',
 'QT_MAT_MED_CT_1',
 'QT_MAT_MED_CT_2',
 'QT_MAT_MED_CT_3',
 'QT_MAT_MED_CT_4',
 'QT_MAT_MED_CT_NS',
 'QT_MAT_MED_NM',
 'QT_MAT_MED_NM_1',
 'QT_MAT_MED_NM_2',
 'QT_MAT_MED_NM_3',
 'QT_MAT_MED_NM_4',
 'QT_MAT_PROF',
 'QT_MAT_PROF_TEC',
 'QT_MAT_PROF_TEC_CONC',
 'QT_MAT_PROF_TEC_SUBS',
 'QT_MAT_PROF_FIC_CONC',
 'QT_MAT_EJA',
 'QT_MAT_EJA_FUND',
 'QT_MAT_EJA_FUND_AI',
 'QT_MAT_EJA_FUND_AF',
 'QT_MAT_EJA_FUND_FIC',
 'QT_MAT_EJA_MED',
 'QT_MAT_EJA_MED_NPROF',
 'QT_MAT_EJA_MED_FIC',
 'QT_MAT_EJA_MED_TEC',
 'IN_BIBLIOTECA_SALA_LEITURA',
 'QT

#### QT_TABLET_ALUNO -> 9 Valores estranhos

88888 - registro com marcação de valor extremo (valor superior ao limite máximo de 4 equipamentos para cada 3 matrículas - foram marcados apenas valores>3)

In [203]:
basic_exploration(df, 'QT_TABLET_ALUNO', 'numeric')


Quantidade de valores ausentes


QT_TABLET_ALUNO
False    178476
Name: count, dtype: int64

In [204]:
df[df['QT_TABLET_ALUNO'] == 0].shape

(147790, 176)

In [205]:
df[df['QT_TABLET_ALUNO'] == 88888].shape

(68, 176)

In [206]:
df[(df['QT_TABLET_ALUNO'] > 0) & (df['QT_TABLET_ALUNO'] < 88888)].shape

(30618, 176)

In [207]:
df[(df['QT_TABLET_ALUNO'] > 0) & (df['QT_TABLET_ALUNO'] < 88888)]['QT_TABLET_ALUNO'].sort_values(ascending = False)

110415    2038.0
8225      1815.0
52638     1367.0
89766     1345.0
58121     1300.0
           ...  
107072       1.0
107079       1.0
107085       1.0
107086       1.0
178474       1.0
Name: QT_TABLET_ALUNO, Length: 30618, dtype: float64

In [208]:
df['QT_TABLET_TESTE'] = round(df['QT_TABLET_ALUNO'] / (df['QT_MAT_BAS'] / 3), 2)
df[
    (df['QT_TABLET_ALUNO'] > 3) & 
    (df['QT_TABLET_ALUNO'] > df['QT_MAT_BAS'] / 3 * 4) & 
    (df['QT_TABLET_ALUNO'] < 88888)
][['NO_ENTIDADE', 'QT_TABLET_ALUNO', 'QT_TABLET_TESTE', 'QT_MAT_BAS']].sort_values('QT_TABLET_TESTE', ascending = False)

Unnamed: 0,NO_ENTIDADE,QT_TABLET_ALUNO,QT_TABLET_TESTE,QT_MAT_BAS
111055,IFF- CAMPUS ITABORAI,10.0,10.0,3.0
64283,ESCOLA MUNICIPAL PROFESSOR PEDRO ALCANTARA DE ...,39.0,5.57,21.0
107705,E M DE EDUCACAO DE SURDOS,36.0,5.4,20.0
113404,MARIO MANCHINI NUCLEO DE EDUCACAO INFANTIL,35.0,5.25,20.0
88623,ESCOLA MUNICIPAL OSCAR BOTELHO,280.0,5.15,163.0
121602,JOVITA FRANCO AROUCHE PROFA EMESP,40.0,4.8,25.0
85347,E M FRANCISCO ATHAYDE,68.0,4.74,43.0
176284,ESCOLA MUNICIPAL JOSE CANDIDO BRAGA,56.0,4.2,40.0
82723,ESCOLA MUNICIPAL TEREZINHA DA SILVA COSENZA,382.0,4.05,283.0


In [209]:
cols_remover += ['QT_TABLET_TESTE']
cols_remover

['QT_MAT_INF',
 'QT_MAT_INF_CRE',
 'QT_MAT_INF_PRE',
 'QT_MAT_FUND',
 'QT_MAT_FUND_AI',
 'QT_MAT_FUND_AI_1',
 'QT_MAT_FUND_AI_2',
 'QT_MAT_FUND_AI_3',
 'QT_MAT_FUND_AI_4',
 'QT_MAT_FUND_AI_5',
 'QT_MAT_FUND_AF',
 'QT_MAT_FUND_AF_6',
 'QT_MAT_FUND_AF_7',
 'QT_MAT_FUND_AF_8',
 'QT_MAT_FUND_AF_9',
 'QT_MAT_MED',
 'QT_MAT_MED_PROP',
 'QT_MAT_MED_PROP_1',
 'QT_MAT_MED_PROP_2',
 'QT_MAT_MED_PROP_3',
 'QT_MAT_MED_PROP_4',
 'QT_MAT_MED_PROP_NS',
 'QT_MAT_MED_CT',
 'QT_MAT_MED_CT_1',
 'QT_MAT_MED_CT_2',
 'QT_MAT_MED_CT_3',
 'QT_MAT_MED_CT_4',
 'QT_MAT_MED_CT_NS',
 'QT_MAT_MED_NM',
 'QT_MAT_MED_NM_1',
 'QT_MAT_MED_NM_2',
 'QT_MAT_MED_NM_3',
 'QT_MAT_MED_NM_4',
 'QT_MAT_PROF',
 'QT_MAT_PROF_TEC',
 'QT_MAT_PROF_TEC_CONC',
 'QT_MAT_PROF_TEC_SUBS',
 'QT_MAT_PROF_FIC_CONC',
 'QT_MAT_EJA',
 'QT_MAT_EJA_FUND',
 'QT_MAT_EJA_FUND_AI',
 'QT_MAT_EJA_FUND_AF',
 'QT_MAT_EJA_FUND_FIC',
 'QT_MAT_EJA_MED',
 'QT_MAT_EJA_MED_NPROF',
 'QT_MAT_EJA_MED_FIC',
 'QT_MAT_EJA_MED_TEC',
 'IN_BIBLIOTECA_SALA_LEITURA',
 'QT

### Internet

#### IN_INTERNET

- 1 - Sim
- 0 - Não


In [210]:
basic_exploration(df, 'IN_INTERNET', 'binary')


Contagem de valores:


IN_INTERNET
1.0    162189
0.0     16287
Name: count, dtype: int64


Quantidade de valores ausentes


IN_INTERNET
False    178476
Name: count, dtype: int64

#### IN_INTERNET_ALUNOS

- 1 - Sim
- 0 - Não


In [211]:
basic_exploration(df, 'IN_INTERNET_ALUNOS', 'binary')


Contagem de valores:


IN_INTERNET_ALUNOS
0.0    106307
1.0     72169
Name: count, dtype: int64


Quantidade de valores ausentes


IN_INTERNET_ALUNOS
False    178476
Name: count, dtype: int64

#### IN_INTERNET_ADMINISTRATIVO

- 1 - Sim
- 0 - Não


In [212]:
basic_exploration(df, 'IN_INTERNET_ADMINISTRATIVO', 'binary')


Contagem de valores:


IN_INTERNET_ADMINISTRATIVO
1.0    156730
0.0     21746
Name: count, dtype: int64


Quantidade de valores ausentes


IN_INTERNET_ADMINISTRATIVO
False    178476
Name: count, dtype: int64

#### IN_INTERNET_APRENDIZAGEM

- 1 - Sim
- 0 - Não


In [213]:
basic_exploration(df, 'IN_INTERNET_APRENDIZAGEM', 'binary')


Contagem de valores:


IN_INTERNET_APRENDIZAGEM
1.0    112935
0.0     65541
Name: count, dtype: int64


Quantidade de valores ausentes


IN_INTERNET_APRENDIZAGEM
False    178476
Name: count, dtype: int64

#### IN_INTERNET_COMUNIDADE

- 1 - Sim
- 0 - Não


In [214]:
basic_exploration(df, 'IN_INTERNET_COMUNIDADE', 'binary')


Contagem de valores:


IN_INTERNET_COMUNIDADE
0.0    168749
1.0      9727
Name: count, dtype: int64


Quantidade de valores ausentes


IN_INTERNET_COMUNIDADE
False    178476
Name: count, dtype: int64

#### IN_ACESSO_INTERNET_COMPUTADOR

- 0 - Não
- 1 - Sim
- 9 - Não informado

In [215]:
basic_exploration(df, 'IN_ACESSO_INTERNET_COMPUTADOR', 'binary')


Contagem de valores:


IN_ACESSO_INTERNET_COMPUTADOR
0.0    117495
1.0     54736
9.0      6245
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ACESSO_INTERNET_COMPUTADOR
False    178476
Name: count, dtype: int64

#### IN_ACES_INTERNET_DISP_PESSOAIS

- 0 - Não
- 1 - Sim
- 9 - Não informado

In [216]:
basic_exploration(df, 'IN_ACES_INTERNET_DISP_PESSOAIS', 'binary')


Contagem de valores:


IN_ACES_INTERNET_DISP_PESSOAIS
0.0    141427
1.0     30804
9.0      6245
Name: count, dtype: int64


Quantidade de valores ausentes


IN_ACES_INTERNET_DISP_PESSOAIS
False    178476
Name: count, dtype: int64

#### TP_REDE_LOCAL

- 0 - Não há rede local interligando computadores
- 1 - A cabo
- 2 - Wireless
- 3 - A cabo e Wireless
- 9 - Não informado

In [217]:
basic_exploration(df, 'TP_REDE_LOCAL', 'binary')


Contagem de valores:


TP_REDE_LOCAL
3.0    67897
1.0    33668
2.0    31292
9.0    27667
0.0    17952
Name: count, dtype: int64


Quantidade de valores ausentes


TP_REDE_LOCAL
False    178476
Name: count, dtype: int64

#### IN_BANDA_LARGA

- 1 - Sim
- 0 - Não

* Não aplicável para escolas sem acesso à internet

In [218]:
basic_exploration(df, 'IN_BANDA_LARGA', 'binary')


Contagem de valores:


IN_BANDA_LARGA
1.0    140486
0.0     21703
NaN     16287
Name: count, dtype: int64


Quantidade de valores ausentes


IN_BANDA_LARGA
False    162189
True      16287
Name: count, dtype: int64

In [219]:
df.loc[df['IN_BANDA_LARGA'].isna(), 'IN_BANDA_LARGA'] = -1
df['IN_BANDA_LARGA'].value_counts(dropna=False)

IN_BANDA_LARGA
 1.0    140486
 0.0     21703
-1.0     16287
Name: count, dtype: int64

#### Comparação

In [220]:
cols_internet = ['IN_INTERNET', 'IN_INTERNET_ALUNOS', 'IN_INTERNET_ADMINISTRATIVO', 'IN_INTERNET_APRENDIZAGEM', 'IN_INTERNET_COMUNIDADE', 'IN_ACESSO_INTERNET_COMPUTADOR', 
                         'IN_ACES_INTERNET_DISP_PESSOAIS', 'TP_REDE_LOCAL', 'IN_BANDA_LARGA']

df[cols_internet].value_counts(dropna = False)

IN_INTERNET  IN_INTERNET_ALUNOS  IN_INTERNET_ADMINISTRATIVO  IN_INTERNET_APRENDIZAGEM  IN_INTERNET_COMUNIDADE  IN_ACESSO_INTERNET_COMPUTADOR  IN_ACES_INTERNET_DISP_PESSOAIS  TP_REDE_LOCAL  IN_BANDA_LARGA
1.0          0.0                 1.0                         1.0                       0.0                     0.0                            0.0                             3.0             1.0              16897
             1.0                 1.0                         1.0                       0.0                     1.0                            0.0                             3.0             1.0              14224
0.0          0.0                 0.0                         0.0                       0.0                     0.0                            0.0                             9.0            -1.0              13905
1.0          1.0                 1.0                         1.0                       0.0                     1.0                            1.0            

### Materiais pedagógicos

#### IN_MATERIAL_PED_MULTIMIDIA

- 1 - Sim
- 0 - Não

In [221]:
basic_exploration(df, 'IN_MATERIAL_PED_MULTIMIDIA', 'binary')


Contagem de valores:


IN_MATERIAL_PED_MULTIMIDIA
0.0    113752
1.0     64724
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_MULTIMIDIA
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_INFANTIL

- 1 - Sim
- 0 - Não

In [222]:
basic_exploration(df, 'IN_MATERIAL_PED_INFANTIL', 'binary')


Contagem de valores:


IN_MATERIAL_PED_INFANTIL
1.0    91554
0.0    86922
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_INFANTIL
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_CIENTIFICO

- 1 - Sim
- 0 - Não

In [223]:
basic_exploration(df, 'IN_MATERIAL_PED_CIENTIFICO', 'binary')


Contagem de valores:


IN_MATERIAL_PED_CIENTIFICO
0.0    147624
1.0     30852
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_CIENTIFICO
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_DIFUSAO

- 1 - Sim
- 0 - Não

In [224]:
basic_exploration(df, 'IN_MATERIAL_PED_DIFUSAO', 'binary')


Contagem de valores:


IN_MATERIAL_PED_DIFUSAO
1.0    91477
0.0    86999
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_DIFUSAO
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_MUSICAL

- 1 - Sim
- 0 - Não

In [225]:
basic_exploration(df, 'IN_MATERIAL_PED_MUSICAL', 'binary')


Contagem de valores:


IN_MATERIAL_PED_MUSICAL
0.0    134656
1.0     43820
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_MUSICAL
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_JOGOS

- 1 - Sim
- 0 - Não

In [226]:
basic_exploration(df, 'IN_MATERIAL_PED_JOGOS', 'binary')


Contagem de valores:


IN_MATERIAL_PED_JOGOS
1.0    140698
0.0     37778
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_JOGOS
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_ARTISTICAS

- 1 - Sim
- 0 - Não

In [227]:
basic_exploration(df, 'IN_MATERIAL_PED_ARTISTICAS', 'binary')


Contagem de valores:


IN_MATERIAL_PED_ARTISTICAS
0.0    104589
1.0     73887
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_ARTISTICAS
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_PROFISSIONAL

- 1 - Sim
- 0 - Não

In [228]:
basic_exploration(df, 'IN_MATERIAL_PED_PROFISSIONAL', 'binary')


Contagem de valores:


IN_MATERIAL_PED_PROFISSIONAL
0.0    169653
1.0      8823
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_PROFISSIONAL
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_DESPORTIVA

- 1 - Sim
- 0 - Não

In [229]:
basic_exploration(df, 'IN_MATERIAL_PED_DESPORTIVA', 'binary')


Contagem de valores:


IN_MATERIAL_PED_DESPORTIVA
1.0    114281
0.0     64195
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_DESPORTIVA
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_INDIGENA

- 1 - Sim
- 0 - Não

In [230]:
basic_exploration(df, 'IN_MATERIAL_PED_INDIGENA', 'binary')


Contagem de valores:


IN_MATERIAL_PED_INDIGENA
0.0    171516
1.0      6960
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_INDIGENA
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_ETNICO

- 1 - Sim
- 0 - Não

In [231]:
basic_exploration(df, 'IN_MATERIAL_PED_ETNICO', 'binary')


Contagem de valores:


IN_MATERIAL_PED_ETNICO
0.0    146380
1.0     32096
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_ETNICO
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_CAMPO

- 1 - Sim
- 0 - Não

In [232]:
basic_exploration(df, 'IN_MATERIAL_PED_CAMPO', 'binary')


Contagem de valores:


IN_MATERIAL_PED_CAMPO
0.0    161391
1.0     17085
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_CAMPO
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_BIL_SURDOS

- 1 - Sim
- 0 - Não

In [233]:
basic_exploration(df, 'IN_MATERIAL_PED_BIL_SURDOS', 'binary')


Contagem de valores:


IN_MATERIAL_PED_BIL_SURDOS
0.0    175374
1.0      3102
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_BIL_SURDOS
False    178476
Name: count, dtype: int64

#### IN_MATERIAL_PED_NENHUM

- 1 - Sim
- 0 - Não

In [234]:
basic_exploration(df, 'IN_MATERIAL_PED_NENHUM', 'binary')


Contagem de valores:


IN_MATERIAL_PED_NENHUM
0.0    161006
1.0     17470
Name: count, dtype: int64


Quantidade de valores ausentes


IN_MATERIAL_PED_NENHUM
False    178476
Name: count, dtype: int64

#### Comparação

In [235]:
cols_materiais = ['IN_MATERIAL_PED_MULTIMIDIA', 'IN_MATERIAL_PED_INFANTIL', 'IN_MATERIAL_PED_CIENTIFICO', 'IN_MATERIAL_PED_DIFUSAO', 'IN_MATERIAL_PED_MUSICAL', 
                         'IN_MATERIAL_PED_JOGOS', 'IN_MATERIAL_PED_ARTISTICAS', 'IN_MATERIAL_PED_PROFISSIONAL', 'IN_MATERIAL_PED_DESPORTIVA', 'IN_MATERIAL_PED_INDIGENA', 
                         'IN_MATERIAL_PED_ETNICO', 'IN_MATERIAL_PED_CAMPO', 'IN_MATERIAL_PED_BIL_SURDOS', ]

df[df['IN_MATERIAL_PED_NENHUM'] == 1][cols_materiais + ['IN_MATERIAL_PED_NENHUM']].value_counts(dropna = False)

IN_MATERIAL_PED_MULTIMIDIA  IN_MATERIAL_PED_INFANTIL  IN_MATERIAL_PED_CIENTIFICO  IN_MATERIAL_PED_DIFUSAO  IN_MATERIAL_PED_MUSICAL  IN_MATERIAL_PED_JOGOS  IN_MATERIAL_PED_ARTISTICAS  IN_MATERIAL_PED_PROFISSIONAL  IN_MATERIAL_PED_DESPORTIVA  IN_MATERIAL_PED_INDIGENA  IN_MATERIAL_PED_ETNICO  IN_MATERIAL_PED_CAMPO  IN_MATERIAL_PED_BIL_SURDOS  IN_MATERIAL_PED_NENHUM
0.0                         0.0                       0.0                         0.0                      0.0                      0.0                    0.0                         0.0                           0.0                         0.0                       0.0                     0.0                    0.0                         1.0                       17470
Name: count, dtype: int64

## Criação da Base Final

### Remoção das colunas desnecessárias

In [236]:
df.drop(cols_remover, axis = 1, inplace = True)
len(df.columns)

125

In [237]:
df.shape

(178476, 125)

### Criação das faixas de quantidade de matrículas

#### Árvore de Decisão

In [1]:
import pandas as pd
from sklearn.tree import DecisionTreeRegressor
import numpy as np

In [238]:
df.columns

Index(['NO_ENTIDADE', 'TP_DEPENDENCIA', 'TP_CATEGORIA_ESCOLA_PRIVADA',
       'TP_LOCALIZACAO', 'TP_LOCALIZACAO_DIFERENCIADA',
       'TP_SITUACAO_FUNCIONAMENTO', 'IN_LOCAL_FUNC_PREDIO_ESCOLAR',
       'TP_OCUPACAO_PREDIO_ESCOLAR', 'IN_LOCAL_FUNC_SOCIOEDUCATIVO',
       'IN_LOCAL_FUNC_UNID_PRISIONAL',
       ...
       'IN_MATERIAL_PED_JOGOS', 'IN_MATERIAL_PED_ARTISTICAS',
       'IN_MATERIAL_PED_PROFISSIONAL', 'IN_MATERIAL_PED_DESPORTIVA',
       'IN_MATERIAL_PED_INDIGENA', 'IN_MATERIAL_PED_ETNICO',
       'IN_MATERIAL_PED_CAMPO', 'IN_MATERIAL_PED_BIL_SURDOS',
       'IN_MATERIAL_PED_NENHUM', 'QT_MAT_BAS'],
      dtype='object', length=125)

In [249]:
X = df[df.columns[1:-1]]  # Variáveis independentes
y = df[['QT_MAT_BAS']]  # Variável alvo

In [380]:
tree = DecisionTreeRegressor(
    max_leaf_nodes=15,
    min_samples_leaf=5, 
    random_state=42
)
tree.fit(X, y)

In [381]:
# Obter os pontos de corte da árvore
thresholds = np.sort(tree.tree_.threshold[tree.tree_.threshold != -2])  # -2 é um valor padrão quando não há corte

In [382]:
print(len(thresholds))
thresholds

14


array([  0. ,   0. ,   0.5,   0.5,   0.5,   3.5,   3.5,   6.5,   8.5,
        11.5,  16.5,  35.5,  64.5, 180.5])

In [383]:
# Adicionar o valor mínimo e máximo para garantir que todos os valores de y estejam dentro das faixas
bins = np.concatenate(([-np.inf], thresholds, [np.inf]))
bins

array([ -inf,   0. ,   0. ,   0.5,   0.5,   0.5,   3.5,   3.5,   6.5,
         8.5,  11.5,  16.5,  35.5,  64.5, 180.5,   inf])

In [384]:
# Criar a nova variável categórica
df['FAIXA_QNT_MAT_BAS'] = pd.cut(
    y.QT_MAT_BAS, 
    bins=bins, 
    duplicates='drop',
    labels=False
)
df[['FAIXA_QNT_MAT_BAS']].value_counts(dropna = False)

FAIXA_QNT_MAT_BAS
10                   83398
9                    53131
8                    18461
7                    14540
6                     4213
5                     2302
4                     1170
3                      967
2                      294
Name: count, dtype: int64

In [385]:
df['FAIXA_QNT_MAT_BAS'].unique()

array([ 9, 10,  8,  7,  5,  2,  6,  3,  4], dtype=int64)

In [386]:
for i in df['FAIXA_QNT_MAT_BAS'].sort_values().unique():
    print(f"bin: {i} | min: {df[df['FAIXA_QNT_MAT_BAS'] == i]['QT_MAT_BAS'].min()} | max: {df[df['FAIXA_QNT_MAT_BAS'] == i]['QT_MAT_BAS'].max()}")

bin: 2 | min: 1.0 | max: 3.0
bin: 3 | min: 4.0 | max: 6.0
bin: 4 | min: 7.0 | max: 8.0
bin: 5 | min: 9.0 | max: 11.0
bin: 6 | min: 12.0 | max: 16.0
bin: 7 | min: 17.0 | max: 35.0
bin: 8 | min: 36.0 | max: 64.0
bin: 9 | min: 65.0 | max: 180.0
bin: 10 | min: 181.0 | max: 51791.0


### Geração do CSV

In [None]:
df.to_csv('censo_escolar_2023_mod.csv')