In [5]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

#### 1. Leitura da base de dados original

In [6]:
path_censo = 'Bases\microdados_ed_basica_2023.csv'

In [3]:
# df_censo = pd.read_csv(path_censo, sep=';', encoding='latin1', low_memory=False)

In [4]:
# df_censo.head()

In [5]:
# df_censo.shape[0]

In [6]:
# df_censo.info()

In [7]:
# salvar base pura como pickle
# df_censo.to_pickle('Bases\microdados_ed_basica_2023.pkl')

In [7]:
# Read pickle file
df_censo_pkl = pd.read_pickle('Bases\microdados_ed_basica_2023.pkl')

#### 2. Limpeza de colunas

In [8]:
# Manter apenas as colunas selecionadas na análise realizada pelo analista
colunas_utilizadas = ['CO_REGIAO', # Código da Região Geográfica
                        # 'CO_UF', # Código da Unidade da Federação ---> Já existe na base do ENEM
                        'CO_MUNICIPIO', # Código do Município
                        'TP_DEPENDENCIA', # Dependência Administrativa: 1-Federal, 2-Estadual, 3-Municipal, 4-Privada
                        'TP_CATEGORIA_ESCOLA_PRIVADA', # Categoria da Escola Privada: 1-Particular, 2-Comunitária, 3-Confessional, 4-Filantropica (Não aplicável para escolas públicas)
                        'TP_LOCALIZACAO', # Localização: 1-urbana, 2-rural
                        'TP_LOCALIZACAO_DIFERENCIADA', # Localização Diferenciada: 0-Não está em localidade diferenciada, 1-Área de Assentamento, 2-Área Indígena, 3-Quilombola, 8-Povos tradicionais
                        # 'TP_SITUACAO_FUNCIONAMENTO', # Situação de Funcionamento: 1-Em Atividade, 2-paralisada, 3-Extinta, 4-Extinta em anos anteriores ---> Já existe na base do ENEM
                        'CO_ORGAO_REGIONAL', # Código do Órgão Regional de ensino
                        'IN_VINCULO_SECRETARIA_EDUCACAO', # Vínculo com a Secretaria de Educação: 0-Não, 1-Sim (Não aplicável para escolas privadas)
                        'IN_VINCULO_SEGURANCA_PUBLICA', # Vínculo com a Secretaria de Segurança Pública: 0-Não, 1-Sim (Não aplicável para escolas privadas)
                        'IN_VINCULO_SECRETARIA_SAUDE', # Vínculo com a Secretaria de Saúde: 0-Não, 1-Sim (Não aplicável para escolas privadas)
                        'IN_VINCULO_OUTRO_ORGAO', # Vínculo com outro órgão público: 0-Não, 1-Sim (Não aplicável para escolas privadas)
                        'IN_PODER_PUBLICO_PARCERIA', # Parceria ou convênio com poder público: 0-Não, 1-Sim
                        'IN_MANT_ESCOLA_PRIVADA_EMP', # Mantida por empresa privada: 0-Não, 1-Sim
                        'IN_MANT_ESCOLA_PRIVADA_ONG', # Mantida por ONG: 0-Não, 1-Sim
                        'IN_MANT_ESCOLA_PRIVADA_OSCIP', # Mantida por OSCIP: 0-Não, 1-Sim
                        'IN_MANT_ESCOLA_PRIV_ONG_OSCIP', # Mantida por ONG ou OSCIP: 0-Não, 1-Sim
                        'IN_MANT_ESCOLA_PRIVADA_SIND', # Mantida por sindicato: 0-Não, 1-Sim
                        'IN_MANT_ESCOLA_PRIVADA_SIST_S', # Mantida por sistema de ensino: 0-Não, 1-Sim
                        'IN_MANT_ESCOLA_PRIVADA_S_FINS', # Mantida por instituição sem fins lucrativos: 0-Não, 1-Sim
                        'IN_LOCAL_FUNC_PREDIO_ESCOLAR', # Funcionamento em prédio escolar: 0-Não, 1-Sim
                        'TP_OCUPACAO_PREDIO_ESCOLAR', # Forma de ocupação do prédio escolar: 1-Próprio, 2-Alugado, 3-Cedido (Não aplicael para escolas que não ocupam prédio)
                        'IN_LOCAL_FUNC_SOCIOEDUCATIVO', # Funcionamento em unidade socioeducativa: 0-Não, 1-Sim
                        'IN_LOCAL_FUNC_UNID_PRISIONAL', # Funcionamento em unidade prisional: 0-Não, 1-Sim
                        'IN_LOCAL_FUNC_PRISIONAL_SOCIO', # Funcionamento em unidade prisional ou socioeducativa: 0-Não, 1-Sim
                        'IN_LOCAL_FUNC_GALPAO', # Funcionamento em galpão: 0-Não, 1-Sim
                        'TP_OCUPACAO_GALPAO', # Forma de ocupação do galpão: 1-Próprio, 2-Alugado, 3-Cedido, 9-Não informado (Não aplicável para escolas que não ocupam galpão)
                        'IN_LOCAL_FUNC_SALAS_OUTRA_ESC', # Funcionamento em salas de outra escola: 0-Não, 1-Sim
                        'IN_LOCAL_FUNC_OUTROS', # Funcionamento em outro tipo de local: 0-Não, 1-Sim
                        'IN_AGUA_POTAVEL', # Disponibilidade de água potável: 0-Não, 1-Sim
                        'IN_AGUA_INEXISTENTE', # Não há abastecimento de água: 0-Não, 1-Sim
                        'IN_ENERGIA_INEXISTENTE', # Não há energia elétrica: 0-Não, 1-Sim
                        'IN_ESGOTO_INEXISTENTE', # Não há esgoto: 0-Não, 1-Sim
                        'IN_TRATAMENTO_LIXO_INEXISTENTE', # Não há tratamento de lixo: 0-Não, 1-Sim
                        'IN_AREA_VERDE', # Área verde: 0-Não, 1-Sim
                        'IN_AUDITORIO', # Auditório: 0-Não, 1-Sim
                        'IN_BANHEIRO', # Banheiro: 0-Não, 1-Sim
                        'IN_BIBLIOTECA', # Biblioteca: 0-Não, 1-Sim
                        'IN_LABORATORIO_CIENCIAS', # Laboratório de Ciências: 0-Não, 1-Sim
                        'IN_LABORATORIO_INFORMATICA', # Laboratório de Informática: 0-Não, 1-Sim
                        'IN_PISCINA', # Piscina: 0-Não, 1-Sim
                        'IN_QUADRA_ESPORTES', # Quadra de esportes: 0-Não, 1-Sim
                        'IN_SALA_ATELIE_ARTES', # Sala de ateliê de artes: 0-Não, 1-Sim
                        'IN_SALA_MUSICA_CORAL', # Sala de música ou coral: 0-Não, 1-Sim
                        'QT_SALAS_UTILIZADAS', # Número de salas de aula utilizadas na escola (dentro e fora do prédio)
                        'QT_EQUIP_TV', # Quantidade de equipamentos de TV
                        'QT_EQUIP_LOUSA_DIGITAL', # Quantidade de equipamentos de lousa digital
                        'QT_EQUIP_MULTIMIDIA', # Quantidade de equipamentos multimídia
                        'QT_DESKTOP_ALUNO', # Quantidade de desktops para alunos
                        'QT_COMP_PORTATIL_ALUNO', # Quantidade de computadores portáteis para alunos
                        'QT_TABLET_ALUNO', # Quantidade de tablets para alunos
                        'IN_INTERNET_ALUNOS', # Disponibilidade de internet para alunos: 0-Não, 1-Sim
                        'IN_INTERNET_APRENDIZAGEM', # Disponibilidade de internet para aprendizagem: 0-Não, 1-Sim
                        'QT_PROF_BIBLIOTECARIO', # Quantidade de professores bibliotecários
                        'QT_PROF_PSICOLOGO', # Quantidade de professores psicólogos
                        'QT_PROF_PEDAGOGIA', # Quantidade de professores de pedagogia
                        'QT_PROF_MONITORES', # Quantidade de professores monitores
                        'IN_MATERIAL_PED_NENHUM', # Material pedagógico: 0-Não, 1-Sim
                        'IN_EXAME_SELECAO', # Exame de seleção: 0-Não, 1-Sim, 9-Não informado
                        'TP_PROPOSTA_PEDAGOGICA', # Proposta pedagógica foi atualizada nos últimos 12 meses?: 0-Não, 1-Sim, 2-Sem proposta pedagógica, 9-Não informado
                        'IN_MEDIACAO_PRESENCIAL', # Mediação presencial: 0-Não, 1-Sim
                        'IN_MEDIACAO_SEMIPRESENCIAL', # Mediação semipresencial: 0-Não, 1-Sim
                        'IN_MEDIACAO_EAD', # Mediação EAD: 0-Não, 1-Sim
                        'IN_PROF_TEC', # Possui educação profissional técnica: 0-Não, 1-Sim
                        'QT_MAT_MED', # Quantidade de matrículas no ensino médio
                        'QT_MAT_MED_NM', # Quantidade de matrículas no ensino médio Normal/Magistério
                        'QT_MAT_MED_INT', # Quantidade de matrículas no ensino médio Integral
                        'QT_DOC_MED', # Quantidade de docentes no ensino médio
                        'QT_TUR_MED', # Quantidade de turmas no ensino médio
                        'QT_TUR_MED_INT', # Quantidade de turmas no ensino médio Integral
]

In [9]:
len(colunas_utilizadas)

69

In [10]:
df_censo_pkl.shape

(217625, 408)

In [11]:
# Manter apenas colunas selecionadas
df_censo = df_censo_pkl[colunas_utilizadas]

In [12]:
df_censo.shape

(217625, 69)

In [13]:
df_censo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 217625 entries, 0 to 217624
Data columns (total 69 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   CO_REGIAO                       217625 non-null  int64  
 1   CO_MUNICIPIO                    217625 non-null  int64  
 2   TP_DEPENDENCIA                  217625 non-null  int64  
 3   TP_CATEGORIA_ESCOLA_PRIVADA     42316 non-null   float64
 4   TP_LOCALIZACAO                  217625 non-null  int64  
 5   TP_LOCALIZACAO_DIFERENCIADA     180230 non-null  float64
 6   CO_ORGAO_REGIONAL               211449 non-null  object 
 7   IN_VINCULO_SECRETARIA_EDUCACAO  137914 non-null  float64
 8   IN_VINCULO_SEGURANCA_PUBLICA    137914 non-null  float64
 9   IN_VINCULO_SECRETARIA_SAUDE     137914 non-null  float64
 10  IN_VINCULO_OUTRO_ORGAO          137914 non-null  float64
 11  IN_PODER_PUBLICO_PARCERIA       180230 non-null  float64
 12  IN_MANT_ESCOLA_P

#### 3. Tratamento de nulos/na (missing values)

In [14]:
# verificar quantidade de missing values
df_censo.isnull().sum()

CO_REGIAO                           0
CO_MUNICIPIO                        0
TP_DEPENDENCIA                      0
TP_CATEGORIA_ESCOLA_PRIVADA    175309
TP_LOCALIZACAO                      0
                                ...  
QT_MAT_MED_NM                   39149
QT_MAT_MED_INT                  39149
QT_DOC_MED                      39379
QT_TUR_MED                      39149
QT_TUR_MED_INT                  39149
Length: 69, dtype: int64

In [15]:
df_censo_na = df_censo.copy()

1. Excluir linhas que não possuem dados numéricos, ou seja, não foram preenchidos pelas escolas

Remover escolas que não preencheram o censo

    QT_SALAS_UTILIZADAS
    QT_EQUIP_TV
    QT_EQUIP_LOUSA_DIGITAL
    QT_EQUIP_MULTIMIDIA
    QT_DESKTOP_ALUNO
    QT_COMP_PORTATIL_ALUNO
    QT_TABLET_ALUNO
    QT_PROF_BIBLIOTECARIO
    QT_PROF_PSICOLOGO
    QT_PROF_PEDAGOGIA
    QT_PROF_MONITORES
    QT_MAT_MED
    QT_MAT_MED_NM
    QT_MAT_MED_INT
    QT_DOC_MED
    QT_TUR_MED
    QT_TUR_MED_INT

In [16]:
# Remover linhas com valores ausentes das colunas de quantidade
df_censo_na = df_censo_na.dropna(subset=['QT_SALAS_UTILIZADAS',
                                            'QT_EQUIP_TV',
                                            'QT_EQUIP_LOUSA_DIGITAL',
                                            'QT_EQUIP_MULTIMIDIA',
                                            'QT_DESKTOP_ALUNO',
                                            'QT_COMP_PORTATIL_ALUNO',
                                            'QT_TABLET_ALUNO',
                                            'QT_PROF_BIBLIOTECARIO',
                                            'QT_PROF_PSICOLOGO',
                                            'QT_PROF_PEDAGOGIA',
                                            'QT_PROF_MONITORES',
                                            'QT_MAT_MED',
                                            'QT_MAT_MED_NM',
                                            'QT_MAT_MED_INT',
                                            'QT_DOC_MED',
                                            'QT_TUR_MED',
                                            'QT_TUR_MED_INT'])

In [17]:
df_censo_na.shape

(178246, 69)

In [18]:
# verificar quantidade de missing values
df_censo_na.isnull().sum()

CO_REGIAO                           0
CO_MUNICIPIO                        0
TP_DEPENDENCIA                      0
TP_CATEGORIA_ESCOLA_PRIVADA    136783
TP_LOCALIZACAO                      0
                                ...  
QT_MAT_MED_NM                       0
QT_MAT_MED_INT                      0
QT_DOC_MED                          0
QT_TUR_MED                          0
QT_TUR_MED_INT                      0
Length: 69, dtype: int64

    Alguns campos são exclusivos de escolas públicas e outros exclusivos de escolas particulares
    Certas colunas podem ser unificadas utilizando categorias ao invés de não/sim
    Porém como o objetivo é agrupar posteriormente essas colunas serão mantidas como binárias
    Assim, podendo calcular a porcentagem de cada agrupamento para cada coluna

    Estratégia: preencher todas as colunas booleanas sem preenchimento como 0, indicando que não possui o item
    Caso for um item exclusivo de escola pública ou privada será marcado como 'não', se for da outra categoria
    Já existe outra coluna indicando se é pública ou privada, essa informação não é perdida

2. Órgão ao qual a escola pública está vinculada (aplica-se apenas em escolas públicas)

    IN_VINCULO_SECRETARIA_EDUCACAO
    IN_VINCULO_SEGURANCA_PUBLICA
    IN_VINCULO_SECRETARIA_SAUDE
    IN_VINCULO_OUTRO_ORGAO

In [19]:
df_censo_na2 = df_censo_na.copy()

In [20]:
df_censo_na2['IN_VINCULO_SECRETARIA_EDUCACAO'] = df_censo_na2['IN_VINCULO_SECRETARIA_EDUCACAO'].fillna(0)
df_censo_na2['IN_VINCULO_SEGURANCA_PUBLICA'] = df_censo_na2['IN_VINCULO_SEGURANCA_PUBLICA'].fillna(0)
df_censo_na2['IN_VINCULO_SECRETARIA_SAUDE'] = df_censo_na2['IN_VINCULO_SECRETARIA_SAUDE'].fillna(0)
df_censo_na2['IN_VINCULO_OUTRO_ORGAO'] = df_censo_na2['IN_VINCULO_OUTRO_ORGAO'].fillna(0)

    TP_DEPENDENCIA
    1 - Federeal
    2 - Estadual
    3 - Municipal
    4 - Privada

    IN_VINCULO_ORGAO_PUBLICO
    0 - Não vinculado
    1 - Secretaria de Educação
    2 - Secretaria de Segurança Pública
    3 - Secretaria de Saúde
    4 - Outro órgão público

In [21]:
# # Nova coluna para orgao de vinculo de escola publica
# # 0 - Não vinculado, 1 - Secretaria de Educação, 2 - Secretaria de Segurança Pública, 3 - Secretaria de Saúde, 4 - Outro órgão público
# df_censo_eng['TP_VINCULO_ORGAO_PUBLICO'] = 0
# df_censo_eng.loc[df_censo_eng['IN_VINCULO_SECRETARIA_EDUCACAO'] == 1, 'TP_VINCULO_ORGAO_PUBLICO'] = 1
# df_censo_eng.loc[df_censo_eng['IN_VINCULO_SEGURANCA_PUBLICA'] == 1, 'TP_VINCULO_ORGAO_PUBLICO'] = 2
# df_censo_eng.loc[df_censo_eng['IN_VINCULO_SECRETARIA_SAUDE'] == 1, 'TP_VINCULO_ORGAO_PUBLICO'] = 3
# df_censo_eng.loc[df_censo_eng['IN_VINCULO_OUTRO_ORGAO'] == 1, 'TP_VINCULO_ORGAO_PUBLICO'] = 4

# # Excluir colunas de vinculo com orgão público
# df_censo_eng.drop(columns=['IN_VINCULO_SECRETARIA_EDUCACAO', 'IN_VINCULO_SEGURANCA_PUBLICA', 
#                         'IN_VINCULO_SECRETARIA_SAUDE', 'IN_VINCULO_OUTRO_ORGAO'], inplace=True)

In [22]:
# # Verificar combinações das categorias das colunas 'IN_VINCULO_ORGAO_PUBLICO' e 'TP_DEPENDENCIA'
# df_censo_eng.groupby(['TP_VINCULO_ORGAO_PUBLICO', 'TP_DEPENDENCIA']).size().reset_index(name='count')

# # OK: 4 - privada aparece sempre como 0 - sem vinculo

3. Mantenedor da escola privada (aplica-se apenas em escolas privadas)

    IN_MANT_ESCOLA_PRIVADA_EMP
    IN_MANT_ESCOLA_PRIVADA_ONG
    IN_MANT_ESCOLA_PRIVADA_OSCIP
    IN_MANT_ESCOLA_PRIV_ONG_OSCIP
    IN_MANT_ESCOLA_PRIVADA_SIND
    IN_MANT_ESCOLA_PRIVADA_SIST_S
    IN_MANT_ESCOLA_PRIVADA_S_FINS

In [23]:
df_censo_na2['IN_MANT_ESCOLA_PRIVADA_EMP'] = df_censo_na2['IN_MANT_ESCOLA_PRIVADA_EMP'].fillna(0)
df_censo_na2['IN_MANT_ESCOLA_PRIVADA_ONG'] = df_censo_na2['IN_MANT_ESCOLA_PRIVADA_ONG'].fillna(0)
df_censo_na2['IN_MANT_ESCOLA_PRIVADA_OSCIP'] = df_censo_na2['IN_MANT_ESCOLA_PRIVADA_OSCIP'].fillna(0)
df_censo_na2['IN_MANT_ESCOLA_PRIV_ONG_OSCIP'] = df_censo_na2['IN_MANT_ESCOLA_PRIV_ONG_OSCIP'].fillna(0)
df_censo_na2['IN_MANT_ESCOLA_PRIVADA_SIND'] = df_censo_na2['IN_MANT_ESCOLA_PRIVADA_SIND'].fillna(0)
df_censo_na2['IN_MANT_ESCOLA_PRIVADA_SIST_S'] = df_censo_na2['IN_MANT_ESCOLA_PRIVADA_SIST_S'].fillna(0)
df_censo_na2['IN_MANT_ESCOLA_PRIVADA_S_FINS'] = df_censo_na2['IN_MANT_ESCOLA_PRIVADA_S_FINS'].fillna(0)

    TP_DEPENDENCIA
    1 - Federeal
    2 - Estadual
    3 - Municipal
    4 - Privada

    IN_MANT_ESCOLA_PRIVADA
    0 - Sem mantenedor
    1 - Empresa privada
    2 - ONG
    3 - OSCIP
    4 - ONG ou OSCIP
    5 - Sindicato
    6 - Sistema de ensino S
    7 - Instituição sem fins lucrativos

In [24]:
# # Nova coluna para mantenedor de escola privada
# # 0 - Sem mantenedor, 1 - Empresa privada, 2 - ONG, 3 - OSCIP, 4 - ONG ou OSCIP, 5 - Sindicato, 6 - Sistema de ensino S, 7 - Instituição sem fins lucrativos
# df_censo_eng['TP_MANT_ESCOLA_PRIVADA'] = 0
# df_censo_eng.loc[df_censo_eng['IN_MANT_ESCOLA_PRIVADA_EMP'] == 1, 'TP_MANT_ESCOLA_PRIVADA'] = 1
# df_censo_eng.loc[df_censo_eng['IN_MANT_ESCOLA_PRIVADA_ONG'] == 1, 'TP_MANT_ESCOLA_PRIVADA'] = 2
# df_censo_eng.loc[df_censo_eng['IN_MANT_ESCOLA_PRIVADA_OSCIP'] == 1, 'TP_MANT_ESCOLA_PRIVADA'] = 3
# df_censo_eng.loc[df_censo_eng['IN_MANT_ESCOLA_PRIV_ONG_OSCIP'] == 1, 'TP_MANT_ESCOLA_PRIVADA'] = 4
# df_censo_eng.loc[df_censo_eng['IN_MANT_ESCOLA_PRIVADA_SIND'] == 1, 'TP_MANT_ESCOLA_PRIVADA'] = 5
# df_censo_eng.loc[df_censo_eng['IN_MANT_ESCOLA_PRIVADA_SIST_S'] == 1, 'TP_MANT_ESCOLA_PRIVADA'] = 6
# df_censo_eng.loc[df_censo_eng['IN_MANT_ESCOLA_PRIVADA_S_FINS'] == 1, 'TP_MANT_ESCOLA_PRIVADA'] = 7

# # Excluir colunas de mantenedor de escola privada
# df_censo_eng.drop(columns=['IN_MANT_ESCOLA_PRIVADA_EMP', 'IN_MANT_ESCOLA_PRIVADA_ONG', 
#                         'IN_MANT_ESCOLA_PRIVADA_OSCIP', 'IN_MANT_ESCOLA_PRIV_ONG_OSCIP',
#                         'IN_MANT_ESCOLA_PRIVADA_SIND', 'IN_MANT_ESCOLA_PRIVADA_SIST_S', 
#                         'IN_MANT_ESCOLA_PRIVADA_S_FINS'], inplace=True)

In [25]:
# # Verificar combinações das categorias das colunas 'IN_MANT_ESCOLA_PRIVADA' e 'TP_DEPENDENCIA'
# df_censo_eng.groupby(['TP_MANT_ESCOLA_PRIVADA', 'TP_DEPENDENCIA']).size().reset_index(name='count')

# # OK: 1, 2 e 3 pública aparecem sempre como 0 - sem mantenedor 

4. Tipo de ocupação de Galpão - aplicável apenas para escolas que ocupam galpão

    Aplicável apenas paras escola em que 'IN_LOCAL_FUNC_GALPAO' é 'Sim' (escolas que funcionam em galpão)
    Será atribuido 0 - 'Não ocupam galpão' para as demais que estão com missing values

    TP_OCUPACAO_GALPAO
    0 - Não ocupam galpão
    1 - Próprio
    2 - Alugado
    3 - Cedido
    9 - Não informado

In [26]:
# Ajustar coluna 'TP_OCUPACAO_GALPAO' para ser 0 onde é NA
df_censo_na2['TP_OCUPACAO_GALPAO'] = df_censo_na2['TP_OCUPACAO_GALPAO'].fillna(0)

In [27]:
# value_count para coluna 'TP_OCUPACAO_GALPAO'
df_censo_na2['TP_OCUPACAO_GALPAO'].value_counts()

TP_OCUPACAO_GALPAO
0.0    175786
9.0      1353
1.0       892
3.0       124
2.0        91
Name: count, dtype: int64

5. Tipo de ocupação de prédio escolar - aplicável apenas para escolas que ocupam prédio escolar

    Aplicável apenas para escolas em que 'IN_LOCAL_FUNC_PREDIO_ESCOLAR' é 'Sim' (escolas que funcionam em prédio escolar)
    Será atribuido 0 - 'Não ocupam prédio escolar' para as demais que estão com missing values

    TP_OCUPACAO_PREDIO_ESCOLAR
    0 - Não ocupam prédio escolar
    1 - Próprio
    2 - Alugado
    3 - Cedido

In [28]:
# Ajustar coluna 'TP_OCUPACAO_PREDIO_ESCOLAR' para ser 0 onde é NA
df_censo_na2['TP_OCUPACAO_PREDIO_ESCOLAR'] = df_censo_na2['TP_OCUPACAO_PREDIO_ESCOLAR'].fillna(0)

In [29]:
# value_count para coluna 'TP_OCUPACAO_PREDIO_ESCOLAR'
df_censo_na2['TP_OCUPACAO_PREDIO_ESCOLAR'].value_counts()

TP_OCUPACAO_PREDIO_ESCOLAR
1.0    141723
2.0     21356
3.0     11136
0.0      4031
Name: count, dtype: int64

6.  Tipo de categoria da escola privada- aplicável apenas para escolas privadas

    Aplicável apenas para escolas particulares
    Será atribuido 0 - 'Escola pública' para as demais que estão com missing values

    TP_CATEGORIA_ESCOLA_PRIVADA
    0 - Pública
    1 - Particular
    2 - Comunitária
    3 - Confessional
    4 - Filantrópica

In [30]:
# Ajustar coluna 'TP_CATEGORIA_ESCOLA_PRIVADA' para ser 0 onde é NA
df_censo_na2['TP_CATEGORIA_ESCOLA_PRIVADA'] = df_censo_na2['TP_CATEGORIA_ESCOLA_PRIVADA'].fillna(0)

In [31]:
# value_count para coluna 'TP_CATEGORIA_ESCOLA_PRIVADA'
df_censo_na2['TP_CATEGORIA_ESCOLA_PRIVADA'].value_counts()

TP_CATEGORIA_ESCOLA_PRIVADA
0.0    136783
1.0     31252
4.0      7633
2.0      2171
3.0       407
Name: count, dtype: int64

7. Linhas sem 'CO_ORGAO_REGIONAL' -> Criar nova categoria 0 -> Possui boa representatividade

In [32]:
# Filtar coluna 'CO_ORGAO_REGIONAL' onde é NA
df_censo_na2[~df_censo_na2['CO_ORGAO_REGIONAL'].notna()]

Unnamed: 0,CO_REGIAO,CO_MUNICIPIO,TP_DEPENDENCIA,TP_CATEGORIA_ESCOLA_PRIVADA,TP_LOCALIZACAO,TP_LOCALIZACAO_DIFERENCIADA,CO_ORGAO_REGIONAL,IN_VINCULO_SECRETARIA_EDUCACAO,IN_VINCULO_SEGURANCA_PUBLICA,IN_VINCULO_SECRETARIA_SAUDE,...,IN_MEDIACAO_PRESENCIAL,IN_MEDIACAO_SEMIPRESENCIAL,IN_MEDIACAO_EAD,IN_PROF_TEC,QT_MAT_MED,QT_MAT_MED_NM,QT_MAT_MED_INT,QT_DOC_MED,QT_TUR_MED,QT_TUR_MED_INT
666,1,1100064,1,0.0,2,0.0,,1.0,0.0,0.0,...,1.0,0.0,0.0,1.0,579.0,0.0,579.0,61.0,18.0,18.0
1211,1,1100106,1,0.0,1,0.0,,1.0,0.0,0.0,...,1.0,0.0,0.0,1.0,374.0,0.0,374.0,40.0,12.0,12.0
1245,1,1100114,1,0.0,1,0.0,,1.0,0.0,0.0,...,1.0,0.0,1.0,1.0,318.0,0.0,0.0,34.0,9.0,0.0
1293,1,1100320,1,0.0,1,0.0,,1.0,0.0,0.0,...,1.0,0.0,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
1378,1,1100122,1,0.0,1,0.0,,1.0,0.0,0.0,...,1.0,0.0,1.0,1.0,526.0,0.0,0.0,57.0,15.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
217217,5,5300108,1,0.0,1,0.0,,1.0,0.0,0.0,...,1.0,0.0,0.0,1.0,281.0,0.0,65.0,34.0,9.0,0.0
217218,5,5300108,1,0.0,1,0.0,,1.0,0.0,0.0,...,1.0,0.0,0.0,1.0,147.0,0.0,147.0,32.0,6.0,6.0
217309,5,5300108,1,0.0,1,0.0,,1.0,0.0,0.0,...,1.0,0.0,1.0,1.0,264.0,0.0,0.0,34.0,13.0,0.0
217310,5,5300108,1,0.0,1,0.0,,1.0,0.0,0.0,...,1.0,0.0,0.0,1.0,272.0,0.0,31.0,34.0,8.0,0.0


In [33]:
# Ajustar coluna 'CO_ORGAO_REGIONAL' para ser 0 onde é NA
df_censo_na2['CO_ORGAO_REGIONAL'] = df_censo_na2['CO_ORGAO_REGIONAL'].fillna(0)

Validar remoção de missing values

In [34]:
# verificar quantidade de missing values
df_censo_na2.isnull().sum()

CO_REGIAO                      0
CO_MUNICIPIO                   0
TP_DEPENDENCIA                 0
TP_CATEGORIA_ESCOLA_PRIVADA    0
TP_LOCALIZACAO                 0
                              ..
QT_MAT_MED_NM                  0
QT_MAT_MED_INT                 0
QT_DOC_MED                     0
QT_TUR_MED                     0
QT_TUR_MED_INT                 0
Length: 69, dtype: int64

In [35]:
df_censo_na2

Unnamed: 0,CO_REGIAO,CO_MUNICIPIO,TP_DEPENDENCIA,TP_CATEGORIA_ESCOLA_PRIVADA,TP_LOCALIZACAO,TP_LOCALIZACAO_DIFERENCIADA,CO_ORGAO_REGIONAL,IN_VINCULO_SECRETARIA_EDUCACAO,IN_VINCULO_SEGURANCA_PUBLICA,IN_VINCULO_SECRETARIA_SAUDE,...,IN_MEDIACAO_PRESENCIAL,IN_MEDIACAO_SEMIPRESENCIAL,IN_MEDIACAO_EAD,IN_PROF_TEC,QT_MAT_MED,QT_MAT_MED_NM,QT_MAT_MED_INT,QT_DOC_MED,QT_TUR_MED,QT_TUR_MED_INT
0,1,1100205,2,0.0,1,0.0,00009,1.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1,1100205,3,0.0,1,0.0,00009,1.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,1,1100205,4,1.0,1,0.0,00009,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,354.0,0.0,0.0,29.0,8.0,0.0
3,1,1100205,4,1.0,1,0.0,00009,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,1,1100205,4,1.0,1,0.0,00009,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
217620,5,5300108,4,1.0,1,0.0,00099,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
217621,5,5300108,4,1.0,1,0.0,00099,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
217622,5,5300108,4,1.0,1,0.0,00099,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,72.0,0.0,0.0,12.0,3.0,0.0
217623,5,5300108,4,1.0,1,0.0,00099,0.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


#### 4. Verificar valores preenchidos incorretamente 

In [36]:
df_censo_valores = df_censo_na2.copy()

In [37]:
# Colunas que iniciam com 'QT_' são de quantidade: numéricas inteiras
colunas_numericas = [col for col in df_censo_valores.columns if col.startswith('QT_')]
# Colunas que iniciam com 'IN_' são de indicadores: booleanas
colunas_boolenas = [col for col in df_censo_valores.columns if col.startswith('IN_')]
# Colunas que iniciam com 'TP_' são de categorias: categóricas
colunas_categoricas = [col for col in df_censo_valores.columns if col.startswith('TP_')]

In [38]:
# Describe in numerical columns
df_censo_valores[colunas_numericas].describe()

Unnamed: 0,QT_SALAS_UTILIZADAS,QT_EQUIP_TV,QT_EQUIP_LOUSA_DIGITAL,QT_EQUIP_MULTIMIDIA,QT_DESKTOP_ALUNO,QT_COMP_PORTATIL_ALUNO,QT_TABLET_ALUNO,QT_PROF_BIBLIOTECARIO,QT_PROF_PSICOLOGO,QT_PROF_PEDAGOGIA,QT_PROF_MONITORES,QT_MAT_MED,QT_MAT_MED_NM,QT_MAT_MED_INT,QT_DOC_MED,QT_TUR_MED,QT_TUR_MED_INT
count,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0
mean,8.768113,1178.042161,33.802846,490.531591,92.994351,38.613843,39.40048,99.078829,20.602779,334.600328,472.133523,43.068248,0.232589,8.465452,3.612676,1.499271,0.248236
std,11.035462,10153.379119,1723.0131,6572.66416,2775.731946,1684.115955,1736.05854,2960.902173,1347.955906,5431.25458,6458.365838,145.598282,7.631088,49.971539,9.878824,4.69796,1.455675
min,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,4.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,7.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,11.0,3.0,0.0,2.0,6.0,2.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,2378.0,88888.0,88888.0,88888.0,88888.0,88888.0,88888.0,88888.0,88888.0,88888.0,88888.0,2759.0,1471.0,1849.0,313.0,163.0,57.0


Algumas colunas estão atingindo o valor máximo de 88888, o que não faz sentido, analisar

In [39]:
# Filtrar colunas numéricas com valores de 88888
df_censo_valores[colunas_numericas].apply(lambda x: (x == 88888).sum())

QT_SALAS_UTILIZADAS          0
QT_EQUIP_TV               2357
QT_EQUIP_LOUSA_DIGITAL      67
QT_EQUIP_MULTIMIDIA        980
QT_DESKTOP_ALUNO           174
QT_COMP_PORTATIL_ALUNO      64
QT_TABLET_ALUNO             68
QT_PROF_BIBLIOTECARIO      198
QT_PROF_PSICOLOGO           41
QT_PROF_PEDAGOGIA          668
QT_PROF_MONITORES          946
QT_MAT_MED                   0
QT_MAT_MED_NM                0
QT_MAT_MED_INT               0
QT_DOC_MED                   0
QT_TUR_MED                   0
QT_TUR_MED_INT               0
dtype: int64

In [40]:
df_censo_valores[df_censo_valores['QT_EQUIP_MULTIMIDIA'] == 88888]

Unnamed: 0,CO_REGIAO,CO_MUNICIPIO,TP_DEPENDENCIA,TP_CATEGORIA_ESCOLA_PRIVADA,TP_LOCALIZACAO,TP_LOCALIZACAO_DIFERENCIADA,CO_ORGAO_REGIONAL,IN_VINCULO_SECRETARIA_EDUCACAO,IN_VINCULO_SEGURANCA_PUBLICA,IN_VINCULO_SECRETARIA_SAUDE,...,IN_MEDIACAO_PRESENCIAL,IN_MEDIACAO_SEMIPRESENCIAL,IN_MEDIACAO_EAD,IN_PROF_TEC,QT_MAT_MED,QT_MAT_MED_NM,QT_MAT_MED_INT,QT_DOC_MED,QT_TUR_MED,QT_TUR_MED_INT
384,1,1100155,2,0.0,1,0.0,00008,1.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
472,1,1100015,2,0.0,1,0.0,00015,1.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
544,1,1100098,2,0.0,1,0.0,00018,1.0,0.0,0.0,...,1.0,0.0,0.0,0.0,335.0,0.0,335.0,18.0,11.0,11.0
593,1,1100189,2,0.0,1,0.0,00010,1.0,0.0,0.0,...,1.0,0.0,0.0,0.0,452.0,0.0,0.0,28.0,18.0,0.0
1053,1,1100130,2,0.0,1,0.0,00014,1.0,0.0,0.0,...,1.0,0.0,0.0,0.0,742.0,0.0,11.0,22.0,25.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
217217,5,5300108,1,0.0,1,0.0,0,1.0,0.0,0.0,...,1.0,0.0,0.0,1.0,281.0,0.0,65.0,34.0,9.0,0.0
217218,5,5300108,1,0.0,1,0.0,0,1.0,0.0,0.0,...,1.0,0.0,0.0,1.0,147.0,0.0,147.0,32.0,6.0,6.0
217221,5,5300108,2,0.0,1,0.0,00098,0.0,1.0,0.0,...,1.0,0.0,0.0,0.0,526.0,0.0,4.0,30.0,17.0,0.0
217309,5,5300108,1,0.0,1,0.0,0,1.0,0.0,0.0,...,1.0,0.0,1.0,1.0,264.0,0.0,0.0,34.0,13.0,0.0


Casos marcados como 88888 se enquadram como N/A (não aplicável) de acordo com análise, serão redefinidos como 0 itens referente a coluna

In [41]:
# Alterar todas as colunas numéricas que possuem valor 88888 para 0
df_censo_valores[colunas_numericas] = df_censo_valores[colunas_numericas].replace(88888, 0)

In [42]:
# Filtrar colunas numéricas com valores de 88888
df_censo_valores[colunas_numericas].apply(lambda x: (x == 88888).sum())

QT_SALAS_UTILIZADAS       0
QT_EQUIP_TV               0
QT_EQUIP_LOUSA_DIGITAL    0
QT_EQUIP_MULTIMIDIA       0
QT_DESKTOP_ALUNO          0
QT_COMP_PORTATIL_ALUNO    0
QT_TABLET_ALUNO           0
QT_PROF_BIBLIOTECARIO     0
QT_PROF_PSICOLOGO         0
QT_PROF_PEDAGOGIA         0
QT_PROF_MONITORES         0
QT_MAT_MED                0
QT_MAT_MED_NM             0
QT_MAT_MED_INT            0
QT_DOC_MED                0
QT_TUR_MED                0
QT_TUR_MED_INT            0
dtype: int64

Verificar colunas numéricas

In [43]:
# Describe in numerical columns
df_censo_valores[colunas_numericas].describe()

Unnamed: 0,QT_SALAS_UTILIZADAS,QT_EQUIP_TV,QT_EQUIP_LOUSA_DIGITAL,QT_EQUIP_MULTIMIDIA,QT_DESKTOP_ALUNO,QT_COMP_PORTATIL_ALUNO,QT_TABLET_ALUNO,QT_PROF_BIBLIOTECARIO,QT_PROF_PSICOLOGO,QT_PROF_PEDAGOGIA,QT_PROF_MONITORES,QT_MAT_MED,QT_MAT_MED_NM,QT_MAT_MED_INT,QT_DOC_MED,QT_TUR_MED,QT_TUR_MED_INT
count,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0
mean,8.768113,2.649636,0.391178,1.823626,6.223753,6.69822,5.490132,0.339873,0.156834,1.481021,0.380732,43.068248,0.232589,8.465452,3.612676,1.499271,0.248236
std,11.035462,3.837073,1.925999,4.010843,19.721033,27.585776,34.373558,0.803311,0.422439,2.653267,1.766695,145.598282,7.631088,49.971539,9.878824,4.69796,1.455675
min,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,4.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,7.0,1.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,11.0,3.0,0.0,2.0,6.0,2.0,0.0,0.0,0.0,2.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,2378.0,131.0,128.0,178.0,1485.0,1500.0,2038.0,22.0,21.0,247.0,160.0,2759.0,1471.0,1849.0,313.0,163.0,57.0


Verificar colunas binárias

In [44]:
# Describe in boolean columns
df_censo_valores[colunas_boolenas].describe()

Unnamed: 0,IN_VINCULO_SECRETARIA_EDUCACAO,IN_VINCULO_SEGURANCA_PUBLICA,IN_VINCULO_SECRETARIA_SAUDE,IN_VINCULO_OUTRO_ORGAO,IN_PODER_PUBLICO_PARCERIA,IN_MANT_ESCOLA_PRIVADA_EMP,IN_MANT_ESCOLA_PRIVADA_ONG,IN_MANT_ESCOLA_PRIVADA_OSCIP,IN_MANT_ESCOLA_PRIV_ONG_OSCIP,IN_MANT_ESCOLA_PRIVADA_SIND,...,IN_SALA_ATELIE_ARTES,IN_SALA_MUSICA_CORAL,IN_INTERNET_ALUNOS,IN_INTERNET_APRENDIZAGEM,IN_MATERIAL_PED_NENHUM,IN_EXAME_SELECAO,IN_MEDIACAO_PRESENCIAL,IN_MEDIACAO_SEMIPRESENCIAL,IN_MEDIACAO_EAD,IN_PROF_TEC
count,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,...,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0,178246.0
mean,0.765307,0.00129,0.000101,0.002154,0.051552,0.163443,0.002048,0.001952,0.003865,0.006424,...,0.047911,0.023574,0.404839,0.632912,0.097999,0.059923,0.9971,0.002452,0.015456,0.045157
std,0.423808,0.035898,0.010049,0.046365,0.221122,0.36977,0.045206,0.044142,0.062053,0.07989,...,0.213579,0.151719,0.490862,0.482012,0.297315,0.502237,0.053778,0.049454,0.123359,0.207648
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
50%,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0
75%,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0
max,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,9.0,1.0,1.0,1.0,1.0


#### 5. Feature Engineering

    Analisar "não informado"
    IN_TRATAMENTO_LIXO_INEXISTENTE
    IN_EXAME_SELECAO

Colunas marcadas como booleanas, mas possuem categoria não informado

In [45]:
df_censo_eng = df_censo_valores.copy()

In [46]:
# Realizar value_counts para 'IN_TRATAMENTO_LIXO_INEXISTENTE'
df_censo_eng['IN_TRATAMENTO_LIXO_INEXISTENTE'].value_counts(normalize=True)


IN_TRATAMENTO_LIXO_INEXISTENTE
1.0    0.620395
0.0    0.371386
9.0    0.008219
Name: proportion, dtype: float64

In [47]:
# Realizar value_counts para 'IN_EXAME_SELECAO'
df_censo_eng['IN_EXAME_SELECAO'].value_counts(normalize=True)

IN_EXAME_SELECAO
0.0    0.961845
1.0    0.035434
9.0    0.002721
Name: proportion, dtype: float64

Alterar nomes para colunas categóricas, será mantida a categoria 'Não informado'

In [48]:
# Alterar nome das colunas 'IN_TRATAMENTO_LIXO_INEXISTENTE' e 'IN_EXAME_SELECAO'
df_censo_eng.rename(columns={
    'IN_TRATAMENTO_LIXO_INEXISTENTE': 'TP_TRATAMENTO_LIXO_INEXISTENTE',
    'IN_EXAME_SELECAO': 'TP_EXAME_SELECAO'
}, inplace=True)


#### 6. Ajustes de tipos de variáveis

In [49]:
df_censo_tipos = df_censo_eng.copy()

In [50]:
# Colunas para futuramente realizar merge com a base do ENEM
colunas_chave = ['CO_MUNICIPIO', 'TP_DEPENDENCIA', 'TP_LOCALIZACAO']

In [51]:
# Renomear colunas chave: CO_MUNICIPIO para CHA_CO_MUNICIPIO, TP_DEPENDENCIA para CHA_DEPENDENCIA, TP_LOCALIZACAO para CHA_LOCALIZACAO
df_censo_tipos.rename(columns={
    'CO_MUNICIPIO': 'CHA_CO_MUNICIPIO',
    'TP_DEPENDENCIA': 'CHA_DEPENDENCIA',
    'TP_LOCALIZACAO': 'CHA_LOCALIZACAO',
    'CO_REGIAO': 'TP_REGIAO',
    'CO_ORGAO_REGIONAL': 'TP_ORGAO_REGIONAL'
}, inplace=True)

In [52]:
# Colunas que iniciam com 'QT_' são de quantidade: numéricas inteiras
colunas_numericas = [col for col in df_censo_tipos.columns if col.startswith('QT_')]
# Colunas que iniciam com 'IN_' são de indicadores: booleanas
colunas_boolenas = [col for col in df_censo_tipos.columns if col.startswith('IN_')]
# Colunas que iniciam com 'TP_' são de categorias: categóricas
colunas_categoricas = [col for col in df_censo_tipos.columns if col.startswith('TP_')]

In [53]:
# Alterar tipo das colunas booleanas para 'bool' e alterar nomes trocando o prefixo 'IN_' por 'BIN_'
for col in colunas_boolenas:
    df_censo_tipos[col] = df_censo_tipos[col].astype(bool)
    df_censo_tipos.rename(columns={col: col.replace('IN_', 'BIN_')}, inplace=True)

In [54]:
# Alterar tipo das colunas CATEGÓRICAS para 'category' e alterar nomes trocando o prefixo 'TP_' por 'CAT_'
for col in colunas_categoricas:
    df_censo_tipos[col] = df_censo_tipos[col].astype('category')
    df_censo_tipos.rename(columns={col: col.replace('TP_', 'CAT_')}, inplace=True)

In [55]:
# Alterar tipo das colunas numéricas para 'inteiro' e alterar nomes trocando o prefixo 'QT_' por 'NUM_'
for col in colunas_numericas:
    df_censo_tipos[col] = df_censo_tipos[col].astype(int)
    df_censo_tipos.rename(columns={col: col.replace('QT_', 'NUM_')}, inplace=True)

In [56]:
# Ordernar colunas por ordem alfabética
df_censo_tipos = df_censo_tipos.reindex(sorted(df_censo_tipos.columns), axis=1)

In [57]:
df_censo_tipos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 178246 entries, 0 to 217624
Data columns (total 69 columns):
 #   Column                           Non-Null Count   Dtype   
---  ------                           --------------   -----   
 0   BIN_AGUA_INEXISTENTE             178246 non-null  bool    
 1   BIN_AGUA_POTAVEL                 178246 non-null  bool    
 2   BIN_AREA_VERDE                   178246 non-null  bool    
 3   BIN_AUDITORIO                    178246 non-null  bool    
 4   BIN_BANHEIRO                     178246 non-null  bool    
 5   BIN_BIBLIOTECA                   178246 non-null  bool    
 6   BIN_ENERGIA_INEXISTENTE          178246 non-null  bool    
 7   BIN_ESGOTO_INEXISTENTE           178246 non-null  bool    
 8   BIN_INTERNET_ALUNOS              178246 non-null  bool    
 9   BIN_INTERNET_APRENDIZAGEM        178246 non-null  bool    
 10  BIN_LABORATORIO_CIENCIAS         178246 non-null  bool    
 11  BIN_LABORATORIO_INFORMATICA      178246 non-null  bool   

In [58]:
# Salvar como pickle
df_censo_tipos.to_pickle('Bases\microdados_ed_basica_2023_tratada.pkl')