---
### Preparando os dados

#### Import da base com todas as variáveis

In [1]:
import pandas as pd

df = pd.read_csv('dados/bruto.csv',index_col=0)
df[['no_entidade','nota enem']].head()

Unnamed: 0,no_entidade,nota enem
11024968,EEEMTI JUSCELINO KUBITSCHEK DE OLIVEIRA,539.94
11025638,EEEFM PADRE EZEQUIEL RAMIN,485.33
11006773,EEEFM CORA CORALINA,479.49
11006889,EEEFM ANISIO TEIXEIRA,468.94
11007168,COLEGIO TIRADENTES DA POLICIA MILITAR - CTPM III,482.38


#### Tratarmento de colunas categoricas

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 187 entries, co_regiao to nota enem
dtypes: float64(14), int64(48), object(125)
memory usage: 27.3+ MB


##### Informações de localização

Como temos Indice de Nivel Socioeconomico (INSE) por escola, achamos que informações relacionadas à localização não sejam relavantes, pois fatores relacionado ao desenvolvimento do municipio já foi levado em consideração no calculo do indicador.

In [3]:
cols_localizacao = ['co_regiao','co_uf','co_municipio','co_mesorregiao','co_microrregiao']
df.drop(columns=cols_localizacao, inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 182 entries, no_entidade to nota enem
dtypes: float64(14), int64(43), object(125)
memory usage: 26.6+ MB


##### Indicadores de presença de equipamentos

In [4]:
cols_in_equipamentos = [
    'in_internet','in_internet_alunos','in_internet_administrativo','in_internet_aprendizagem',
    'in_internet_comunidade','in_acesso_internet_computador','in_aces_internet_disp_pessoais',
    'in_equip_scanner','in_banda_larga','in_material_ped_multimidia','in_material_ped_infantil',
    'in_material_ped_cientifico','in_material_ped_difusao','in_material_ped_musical',
    'in_material_ped_jogos','in_material_ped_artisticas','in_material_ped_desportiva',
    'in_material_ped_indigena','in_material_ped_etnico','in_material_ped_campo','tp_rede_local'
]
df[cols_in_equipamentos] = df[cols_in_equipamentos].astype('category')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 182 entries, no_entidade to nota enem
dtypes: category(21), float64(14), int64(43), object(104)
memory usage: 23.9+ MB


##### Indicadores relacionados à estrutura

In [5]:
cols_in_estrutura = [
    'in_vinculo_secretaria_educacao','in_vinculo_seguranca_publica','in_vinculo_secretaria_saude',
    'in_vinculo_outro_orgao','in_conveniada_pp','in_mant_escola_privada_emp','in_mant_escola_privada_ong',
    'in_mant_escola_privada_oscip','in_mant_escola_priv_ong_oscip','in_mant_escola_privada_sind',
    'in_mant_escola_privada_sist_s','in_mant_escola_privada_s_fins','in_local_func_predio_escolar',
    'in_local_func_socioeducativo','in_local_func_unid_prisional','in_local_func_prisional_socio',
    'in_local_func_galpao','in_local_func_salas_outra_esc','in_local_func_outros','in_predio_compartilhado',
    'in_agua_potavel','in_energia_rede_publica','in_esgoto_rede_publica','in_almoxarifado','in_area_verde',
    'in_auditorio','in_banheiro','in_banheiro_funcionarios','in_banheiro_chuveiro','in_biblioteca',
    'in_biblioteca_sala_leitura','in_cozinha','in_dormitorio_aluno','in_dormitorio_professor',
    'in_laboratorio_ciencias','in_laboratorio_informatica','in_parque_infantil','in_piscina','in_quadra_esportes',
    'in_refeitorio','in_sala_atelie_artes','in_sala_musica_coral','in_sala_estudio_danca','in_sala_multiuso',
    'in_sala_diretoria','in_sala_leitura','in_sala_professor','in_sala_repouso_aluno','in_secretaria',
    'in_terreirao','in_viveiro','in_dependencias_outras','in_alimentacao','tp_categoria_escola_privada',
    'tp_localizacao','tp_localizacao_diferenciada','tp_ocupacao_galpao','tp_ocupacao_predio_escolar'
]
df[cols_in_estrutura] = df[cols_in_estrutura].astype('category')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 182 entries, no_entidade to nota enem
dtypes: category(79), float64(14), int64(43), object(46)
memory usage: 16.5+ MB


##### Indicadores relacionados à administração

In [6]:
cols_in_administracao = [
    'in_serie_ano','in_periodos_semestrais','in_fundamental_ciclos','in_grupos_nao_seriados',
    'in_modulos','in_formacao_alternancia','in_educacao_indigena','in_exame_selecao','in_reserva_ppi',
    'in_reserva_renda','in_reserva_publica','in_reserva_pcd','in_reserva_outros','in_reserva_nenhuma',
    'in_redes_sociais','in_espaco_atividade','in_espaco_equipamento','in_orgao_ass_pais',
    'in_orgao_ass_pais_mestres','in_orgao_conselho_escolar','in_orgao_gremio_estudantil','in_orgao_outros',
    'in_orgao_nenhum','in_diurno','in_noturno','in_ead','in_bas','in_inf','in_inf_cre','in_inf_pre',
    'in_fund','in_fund_ai','in_fund_af','in_med','in_prof','in_prof_tec','in_eja','in_eja_fund','in_eja_med',
    'in_esp','in_esp_cc','in_esp_ce','tp_convenio_poder_publico','tp_dependencia','tp_lingua'
]
df[cols_in_administracao] = df[cols_in_administracao].astype('category')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 182 entries, no_entidade to nota enem
dtypes: category(124), float64(14), int64(43), object(1)
memory usage: 10.8+ MB


##### Demais colunas não categoricas/numéricas

O nome da escola não é relevante para determinar qual nota no ENEM a escola obteve, portanto iremos removê-la do nosso dataset.

In [7]:
df.drop(columns='no_entidade',inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 181 entries, tp_dependencia to nota enem
dtypes: category(124), float64(14), int64(43)
memory usage: 10.7 MB


##### Variáveis categoricas para numericas

In [8]:
df = pd.get_dummies(df, drop_first=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 219 entries, qt_salas_utilizadas to tp_lingua_portugues
dtypes: float64(14), int64(43), uint8(162)
memory usage: 11.4 MB


In [9]:
df.to_csv('dados/final.csv')