---
### Preparando os dados

#### Import da base com todas as variáveis

In [1]:
import pandas as pd

df = pd.read_csv('dados/final.csv',index_col=0)
df[['no_entidade','nota enem']].head()

Unnamed: 0,no_entidade,nota enem
11024968,EEEMTI JUSCELINO KUBITSCHEK DE OLIVEIRA,539.94
11025638,EEEFM PADRE EZEQUIEL RAMIN,485.33
11006773,EEEFM CORA CORALINA,479.49
11006889,EEEFM ANISIO TEIXEIRA,468.94
11007168,COLEGIO TIRADENTES DA POLICIA MILITAR - CTPM III,482.38


#### Tratarmento de colunas categoricas

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 187 entries, co_regiao to nota enem
dtypes: float64(14), int64(48), object(125)
memory usage: 27.3+ MB


##### Informações de localização

Como temos Indice de Nivel Socioeconomico (INSE) por escola, achamos que informações relacionadas à localização não sejam relavantes, pois fatores relacionado ao desenvolvimento do municipio já foi levado em consideração no calculo do indicador.

In [3]:
cols_localizacao = ['co_regiao','co_uf','co_municipio','co_mesorregiao','co_microrregiao']
df.drop(columns=cols_localizacao, inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 182 entries, no_entidade to nota enem
dtypes: float64(14), int64(43), object(125)
memory usage: 26.6+ MB


##### Indicadores de presença de equipamentos

In [4]:
cols_in_equipamentos = [
    'in_internet','in_internet_alunos','in_internet_administrativo','in_internet_aprendizagem',
    'in_internet_comunidade','in_acesso_internet_computador','in_aces_internet_disp_pessoais',
    'in_equip_scanner','in_banda_larga','in_material_ped_multimidia','in_material_ped_infantil',
    'in_material_ped_cientifico','in_material_ped_difusao','in_material_ped_musical',
    'in_material_ped_jogos','in_material_ped_artisticas','in_material_ped_desportiva',
    'in_material_ped_indigena','in_material_ped_etnico','in_material_ped_campo','tp_rede_local'
]
df[cols_in_equipamentos] = df[cols_in_equipamentos].astype('category')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 182 entries, no_entidade to nota enem
dtypes: category(21), float64(14), int64(43), object(104)
memory usage: 23.9+ MB


##### Indicadores relacionados à estrutura

In [5]:
cols_in_estrutura = [
    'in_vinculo_secretaria_educacao','in_vinculo_seguranca_publica','in_vinculo_secretaria_saude',
    'in_vinculo_outro_orgao','in_conveniada_pp','in_mant_escola_privada_emp','in_mant_escola_privada_ong',
    'in_mant_escola_privada_oscip','in_mant_escola_priv_ong_oscip','in_mant_escola_privada_sind',
    'in_mant_escola_privada_sist_s','in_mant_escola_privada_s_fins','in_local_func_predio_escolar',
    'in_local_func_socioeducativo','in_local_func_unid_prisional','in_local_func_prisional_socio',
    'in_local_func_galpao','in_local_func_salas_outra_esc','in_local_func_outros','in_predio_compartilhado',
    'in_agua_potavel','in_energia_rede_publica','in_esgoto_rede_publica','in_almoxarifado','in_area_verde',
    'in_auditorio','in_banheiro','in_banheiro_funcionarios','in_banheiro_chuveiro','in_biblioteca',
    'in_biblioteca_sala_leitura','in_cozinha','in_dormitorio_aluno','in_dormitorio_professor',
    'in_laboratorio_ciencias','in_laboratorio_informatica','in_parque_infantil','in_piscina','in_quadra_esportes',
    'in_refeitorio','in_sala_atelie_artes','in_sala_musica_coral','in_sala_estudio_danca','in_sala_multiuso',
    'in_sala_diretoria','in_sala_leitura','in_sala_professor','in_sala_repouso_aluno','in_secretaria',
    'in_terreirao','in_viveiro','in_dependencias_outras','in_alimentacao','tp_categoria_escola_privada',
    'tp_localizacao','tp_localizacao_diferenciada','tp_ocupacao_galpao','tp_ocupacao_predio_escolar'
]
df[cols_in_estrutura] = df[cols_in_estrutura].astype('category')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 182 entries, no_entidade to nota enem
dtypes: category(79), float64(14), int64(43), object(46)
memory usage: 16.5+ MB


##### Indicadores relacionados à administração

In [6]:
cols_in_administracao = [
    'in_serie_ano','in_periodos_semestrais','in_fundamental_ciclos','in_grupos_nao_seriados',
    'in_modulos','in_formacao_alternancia','in_educacao_indigena','in_exame_selecao','in_reserva_ppi',
    'in_reserva_renda','in_reserva_publica','in_reserva_pcd','in_reserva_outros','in_reserva_nenhuma',
    'in_redes_sociais','in_espaco_atividade','in_espaco_equipamento','in_orgao_ass_pais',
    'in_orgao_ass_pais_mestres','in_orgao_conselho_escolar','in_orgao_gremio_estudantil','in_orgao_outros',
    'in_orgao_nenhum','in_diurno','in_noturno','in_ead','in_bas','in_inf','in_inf_cre','in_inf_pre',
    'in_fund','in_fund_ai','in_fund_af','in_med','in_prof','in_prof_tec','in_eja','in_eja_fund','in_eja_med',
    'in_esp','in_esp_cc','in_esp_ce','tp_convenio_poder_publico','tp_dependencia','tp_lingua'
]
df[cols_in_administracao] = df[cols_in_administracao].astype('category')
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 182 entries, no_entidade to nota enem
dtypes: category(124), float64(14), int64(43), object(1)
memory usage: 10.8+ MB


##### Demais colunas não categoricas/numéricas

O nome da escola não é relevante para determinar qual nota no ENEM a escola obteve, portanto iremos removê-la do nosso dataset.

In [7]:
df.drop(columns='no_entidade',inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 181 entries, tp_dependencia to nota enem
dtypes: category(124), float64(14), int64(43)
memory usage: 10.7 MB


##### Variáveis categoricas para numericas

In [8]:
df = pd.get_dummies(df, drop_first=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19022 entries, 11024968 to 53082001
Columns: 219 entries, qt_salas_utilizadas to tp_lingua_portugues
dtypes: float64(14), int64(43), uint8(162)
memory usage: 11.4 MB


#### Divisão Variáveis Explicativas / Variável Resposta

In [9]:
import numpy as np
df = df.sample(frac=1)
y = df[['nota enem']]
X = df.drop(columns=['nota enem'])

print(X.shape, y.shape)

(19022, 218) (19022, 1)


In [10]:
pd.options.display.max_columns = 300
print(X.columns)

Index(['qt_salas_utilizadas', 'qt_salas_utiliza_climatizadas', 'qt_equip_dvd',
       'qt_equip_som', 'qt_equip_tv', 'qt_equip_lousa_digital',
       'qt_equip_multimidia', 'qt_desktop_aluno', 'qt_comp_portatil_aluno',
       'qt_tablet_aluno',
       ...
       'in_prof_sim', 'in_prof_tec_sim', 'in_eja_sim', 'in_eja_fund_sim',
       'in_eja_med_sim', 'in_esp_sim', 'in_esp_cc_sim', 'in_esp_ce_sim',
       'tp_lingua_indigena', 'tp_lingua_portugues'],
      dtype='object', length=218)


#### Normalização

Como nossos dados possuem valores considerados outlier, e não esses outliers podem indicar algum tipo de relação, decidimos utilizar o RobustScaler para realizar a normalização.

In [11]:
from sklearn.preprocessing import RobustScaler

scaler_X, scaler_y = RobustScaler(), RobustScaler()
scaler_X.fit(X)
scaler_y.fit(y)

X_norm, y_norm = scaler_X.transform(X), scaler_y.transform(y)
X, y = pd.DataFrame(X_norm, columns=X.columns), pd.DataFrame(y_norm, columns=y.columns)

X, y = np.array(X), np.array(y)
print(X.shape, y.shape)

(19022, 218) (19022, 1)


#### Divisão Treino / Teste

In [12]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, shuffle=True, train_size=0.7, random_state=42)
print('Dados Treino', X_train.shape, y_train.shape)
print('Dados Teste', X_test.shape, y_test.shape)

Dados Treino (13315, 218) (13315, 1)
Dados Teste (5707, 218) (5707, 1)


---
### Modelo - Ridge

In [13]:
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_absolute_error, mean_squared_error

model = Ridge()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
MAE = mean_absolute_error(y_pred=y_pred, y_true=y_test)
MSE = mean_squared_error(y_pred=y_pred, y_true=y_test)
print(f'MAE:{MAE}    MSE:{MSE}')

MAE:0.3091003963736741    MSE:0.16826333367824153


In [14]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import cross_validate

model = Ridge()
cv_results = cross_validate(estimator=model, X=X, y=y, cv=10, n_jobs=-1, return_train_score=True, 
    scoring=('neg_mean_absolute_error', 'neg_mean_squared_error'))

print(cv_results['test_neg_mean_absolute_error'])
print(cv_results['test_neg_mean_squared_error'])

[-0.30870251 -0.30755732 -0.30150865 -0.30905349 -0.3063201  -0.30431351
 -0.29832507 -0.37438463 -0.29996835 -0.31852366]
[-0.16818195 -0.1662399  -0.16178907 -0.16971887 -0.166635   -0.16251526
 -0.15703612 -8.62364859 -0.16144477 -0.17977164]


---
### Elastic Net

In [15]:
from sklearn.linear_model import ElasticNet
from sklearn.metrics import mean_absolute_error, mean_squared_error

model = ElasticNet()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
MAE = mean_absolute_error(y_pred=y_pred, y_true=y_test)
MSE = mean_squared_error(y_pred=y_pred, y_true=y_test)
print(f'MAE:{MAE}    MSE:{MSE}')

print(df.columns[np.where(np.abs(model.coef_) > 0)])
print('Indices das variaveis com coeficientes não zerados {}')

MAE:0.6340671173467074    MSE:0.6715513279096137
Index(['qt_equip_multimidia', 'qt_comp_portatil_aluno', 'qt_tablet_aluno',
       'qt_prof_administrativos', 'qt_prof_bibliotecario', 'qt_prof_saude',
       'qt_prof_seguranca', 'qt_prof_monitores', 'qt_doc_eja', 'qt_tur_prof',
       'qt_tur_prof_tec'],
      dtype='object')
Indices das variaveis com coeficientes não zerados {}


In [16]:
from sklearn.linear_model import ElasticNet
from sklearn.model_selection import cross_validate

model = ElasticNet()
cv_results = cross_validate(estimator=model, X=X, y=y, cv=10, n_jobs=-1, return_train_score=True, 
    scoring=('neg_mean_absolute_error', 'neg_mean_squared_error'))

print(cv_results['test_neg_mean_absolute_error'])
print(cv_results['test_neg_mean_squared_error'])

[-0.63528205 -0.64658859 -0.64570349 -0.63387269 -0.62065759 -0.65172926
 -0.64901696 -0.63139226 -0.64798782 -0.63181296]
[-0.67242609 -0.69727891 -0.69000536 -0.6784393  -0.65480552 -0.70244431
 -0.70367381 -0.65586073 -0.70963795 -0.66961076]


---
### Modelo - Lasso

In [17]:
from sklearn.linear_model import Lasso
from sklearn.metrics import mean_absolute_error, mean_squared_error

model = Lasso()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
MAE = mean_absolute_error(y_pred=y_pred, y_true=y_test)
MSE = mean_squared_error(y_pred=y_pred, y_true=y_test)
print(f'MAE:{MAE}    MSE:{MSE}')

print(df.columns[np.where(np.abs(model.coef_) > 0)])
print('Indices das variaveis com coeficientes não zerados {}')

MAE:0.6622400656751583    MSE:0.7269161315309982
Index(['qt_comp_portatil_aluno', 'qt_tablet_aluno', 'qt_prof_saude',
       'qt_prof_seguranca', 'qt_prof_monitores', 'qt_doc_eja'],
      dtype='object')
Indices das variaveis com coeficientes não zerados {}


In [18]:
from sklearn.linear_model import ElasticNet
from sklearn.model_selection import cross_validate

model = ElasticNet()
cv_results = cross_validate(estimator=model, X=X, y=y, cv=10, n_jobs=-1, return_train_score=True, 
    scoring=('neg_mean_absolute_error', 'neg_mean_squared_error'))

print(cv_results['test_neg_mean_absolute_error'])
print(cv_results['test_neg_mean_squared_error'])

[-0.63528205 -0.64658859 -0.64570349 -0.63387269 -0.62065759 -0.65172926
 -0.64901696 -0.63139226 -0.64798782 -0.63181296]
[-0.67242609 -0.69727891 -0.69000536 -0.6784393  -0.65480552 -0.70244431
 -0.70367381 -0.65586073 -0.70963795 -0.66961076]


---
### Modelo - Regressão Linear

In [19]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, mean_squared_error

model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
MAE = mean_absolute_error(y_pred=y_pred, y_true=y_test)
MSE = mean_squared_error(y_pred=y_pred, y_true=y_test)

print(f'MAE:{MAE}    MSE:{MSE}')

MAE:0.30936575252671494    MSE:0.1685665296648453


In [20]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_validate

model = LinearRegression()
cv_results = cross_validate(estimator=model, X=X, y=y, cv=10, n_jobs=-1, return_train_score=True, 
    scoring=('neg_mean_absolute_error', 'neg_mean_squared_error'))

print(cv_results['test_neg_mean_absolute_error'])
print(cv_results['test_neg_mean_squared_error'])

[-0.30892861 -0.30764879 -0.30150855 -0.30935503 -0.30649673 -0.30445288
 -0.29844124 -0.37446353 -0.30000784 -0.31850162]
[-0.16840096 -0.16650002 -0.16181708 -0.1702832  -0.16680112 -0.16263533
 -0.15713629 -8.62301687 -0.16158797 -0.17969304]
