# Descubra as melhores notas de matemática do ENEM 2016

Você deverá criar um modelo para prever a nota da prova de matemática de quem participou do ENEM 2016. Para isso, usará Python, Pandas, Sklearn e Regression.


## Tópicos

Neste desafio você aprenderá:

- Python
- Pandas
- Sklearn
- Regression

## Detalhes

O contexto do desafio gira em torno dos resultados do ENEM 2016 (disponíveis no arquivo train.csv). Este arquivo, e apenas ele, deve ser utilizado para todos os desafios. Qualquer dúvida a respeito das colunas, consulte o [Dicionário dos Microdados do Enem 2016](https://s3-us-west-1.amazonaws.com/acceleration-assets-highway/data-science/dicionario-de-dados.zip).

No arquivo test.csv crie um modelo para prever nota da prova de matemática (coluna `NU_NOTA_MT`) de quem participou do ENEM 2016. 

Salve sua resposta em um arquivo chamado answer.csv com duas colunas: `NU_INSCRICAO` e `NU_NOTA_MT`.

In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression, Ridge, RidgeCV, Lasso, LassoCV
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error

In [None]:
#Leitura dos dados
df_train = pd.read_csv('train.csv')
df_test = pd.read_csv('test.csv')

In [None]:
df_train.head(10)

In [None]:
df_test.head(10)

In [None]:
# criando coluna 'NU_NOTA_MT' no df de teste
df_test['NU_NOTA_MT'] = 0

In [None]:
# Mantendo no df_train somente as colunas também presentes no df_test
df_train = df_train[df_test.columns]

In [None]:
df_train.info()

In [None]:
df_test.info()

In [None]:
# Removendo colunas com muitos dados faltantes
df_train.drop(columns=['TP_ENSINO', 'TP_DEPENDENCIA_ADM_ESC', 'Q027'], inplace=True)
df_test.drop(columns=['TP_ENSINO', 'TP_DEPENDENCIA_ADM_ESC', 'Q027'], inplace=True)

In [None]:
# Removendo colunas com informação repetida, ou visivelmente não relacionadas com a nota de matemática
df_train.drop(columns=['CO_UF_RESIDENCIA', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC', 'CO_PROVA_MT', 'TP_STATUS_REDACAO', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC'], inplace=True)
df_test.drop(columns=['CO_UF_RESIDENCIA', 'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC', 'CO_PROVA_MT', 'TP_STATUS_REDACAO', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC'], inplace=True)

In [None]:
# Separando os números de inscrição no dataFrame de resposta, e removendo-o do dataframe original
answer = df_test[['NU_INSCRICAO']]
df_train.drop(columns=['NU_INSCRICAO'], inplace=True)
df_test.drop(columns=['NU_INSCRICAO'], inplace=True)

In [None]:
# Preenchendo os dados faltantes nas notas com 0, considerando que estes alunos não fizeram a prova
df_train.fillna({'NU_NOTA_CN': 0, 'NU_NOTA_CH': 0, 'NU_NOTA_LC': 0, 'NU_NOTA_COMP1': 0, 'NU_NOTA_COMP2': 0, 'NU_NOTA_COMP3': 0, 'NU_NOTA_COMP4': 0, 'NU_NOTA_COMP5': 0, 'NU_NOTA_REDACAO': 0, 'NU_NOTA_MT': 0}, inplace=True)
df_test.fillna({'NU_NOTA_CN': 0, 'NU_NOTA_CH': 0, 'NU_NOTA_LC': 0, 'NU_NOTA_COMP1': 0, 'NU_NOTA_COMP2': 0, 'NU_NOTA_COMP3': 0, 'NU_NOTA_COMP4': 0, 'NU_NOTA_COMP5': 0, 'NU_NOTA_REDACAO': 0, 'NU_NOTA_MT': 0}, inplace=True)

In [None]:
df_train.isna().sum()

In [None]:
colunas_numericas = ['NU_IDADE', 'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3', 'NU_NOTA_COMP4', 'NU_NOTA_COMP5', 'NU_NOTA_REDACAO', 'NU_NOTA_MT']

In [None]:
# Preparando dataframe para o OneHotEncoding
for coluna in list(df_train.columns):
    if coluna not in colunas_numericas:
        df_train[coluna] = df_train[coluna].astype('object')
        df_test[coluna] = df_train[coluna].astype('object')

In [None]:
# get_dummies com ambos os dataframes para manter mesmo número de categorias
df_dummies = pd.get_dummies(pd.concat([df_train, df_test]))

In [None]:
# Separando novamente após OneHotEncoding
df_train = df_dummies.iloc[:df_train.shape[0]]
df_test = df_dummies.iloc[df_train.shape[0]:]

In [None]:
## LinearRegression
X_train = df_train.drop(columns=['NU_NOTA_MT'])
y_train = df_train['NU_NOTA_MT']

reg = LinearRegression()

reg.fit(X_train, y_train)
y_pred = reg.predict(X_train)
print("mean_squared_error:",mean_squared_error(y_train, y_pred))
print("mean_absolute_error:",mean_absolute_error(y_train, y_pred))
print("r2_score:",r2_score(y_true=y_train, y_pred=y_pred))

In [None]:
## Lasso
X_train = df_train.drop(columns=['NU_NOTA_MT'])
y_train = df_train['NU_NOTA_MT']

reg = Lasso()

reg.fit(X_train, y_train)
y_pred = reg.predict(X_train)
print("mean_squared_error:",mean_squared_error(y_train, y_pred))
print("mean_absolute_error:",mean_absolute_error(y_train, y_pred))
print("r2_score:",r2_score(y_true=y_train, y_pred=y_pred))

In [None]:
## LassoCV
X_train = df_train.drop(columns=['NU_NOTA_MT'])
y_train = df_train['NU_NOTA_MT']

reg = LassoCV()

reg.fit(X_train, y_train)
y_pred = reg.predict(X_train)
print("mean_squared_error:",mean_squared_error(y_train, y_pred))
print("mean_absolute_error:",mean_absolute_error(y_train, y_pred))
print("r2_score:",r2_score(y_true=y_train, y_pred=y_pred))

In [None]:
## Ridge
X_train = df_train.drop(columns=['NU_NOTA_MT'])
y_train = df_train['NU_NOTA_MT']

reg = Ridge()

reg.fit(X_train, y_train)
y_pred = reg.predict(X_train)
print("mean_squared_error:",mean_squared_error(y_train, y_pred))
print("mean_absolute_error:",mean_absolute_error(y_train, y_pred))
print("r2_score:",r2_score(y_true=y_train, y_pred=y_pred))

In [None]:
## RidgeCV
X_train = df_train.drop(columns=['NU_NOTA_MT'])
y_train = df_train['NU_NOTA_MT']

reg = RidgeCV()

reg.fit(X_train, y_train)
y_pred = reg.predict(X_train)
print("mean_squared_error:",mean_squared_error(y_train, y_pred))
print("mean_absolute_error:",mean_absolute_error(y_train, y_pred))
print("r2_score:",r2_score(y_true=y_train, y_pred=y_pred))

In [None]:
## Random Forest
X_train = df_train.drop(columns=['NU_NOTA_MT'])
y_train = df_train['NU_NOTA_MT']

reg = RandomForestRegressor()

reg.fit(X_train, y_train)
y_pred = reg.predict(X_train)
print("mean_squared_error:",mean_squared_error(y_train, y_pred))
print("mean_absolute_error:",mean_absolute_error(y_train, y_pred))
print("r2_score:",r2_score(y_true=y_train, y_pred=y_pred))

In [None]:
# Utilizando somente colunas com 10% ou + de correlação com a nota de matemática
mat_corr_abs = df_train.corr().abs()
colunas_10perc = list(mat_corr_abs[mat_corr_abs['NU_NOTA_MT'] > 0.10]['NU_NOTA_MT'].index)
colunas_10perc.remove('NU_NOTA_MT')
X_train = df_train[colunas_10perc]

reg = LinearRegression()

reg.fit(X_train, y_train)
y_pred = reg.predict(X_train)
print("mean_squared_error:",mean_squared_error(y_train, y_pred))
print("mean_absolute_error:",mean_absolute_error(y_train, y_pred))
print("r2_score:",r2_score(y_true=y_train, y_pred=y_pred))

In [None]:
## Random Forest ## Este foi o regressor utilizado para submeter o desafio
mat_corr_abs = df_train.corr().abs()
colunas_10perc = list(mat_corr_abs[mat_corr_abs['NU_NOTA_MT'] > 0.10]['NU_NOTA_MT'].index)
colunas_10perc.remove('NU_NOTA_MT')
X_train = df_train[colunas_10perc]
y_train = df_train['NU_NOTA_MT']

reg = RandomForestRegressor()

reg.fit(X_train, y_train)
y_pred = reg.predict(X_train)
print("mean_squared_error:",mean_squared_error(y_train, y_pred))
print("mean_absolute_error:",mean_absolute_error(y_train, y_pred))
print("r2_score:",r2_score(y_true=y_train, y_pred=y_pred))

In [None]:
# O erro aumentou na base de treino, porém foi reduzido o overfitting
X_test = df_test[colunas_10perc]
answer['NU_NOTA_MT'] = reg.predict(X_test)

In [None]:
answer

In [None]:
# Corrigindo notas abaixo de 0
answer.NU_NOTA_MT = answer.NU_NOTA_MT.apply(lambda x: 0 if x < 0 else x)

In [None]:
answer.to_csv('/home/klimber/Documentos/Cursos/learning-to-code/AceleraDev/DataScience/Semana 08 - Ciclo de Desenvolvimento/desafio/answer.csv', index=False)