#CodeNation - Descubra as melhores notas de matemática do ENEM 2016

Olá cientista, tudo bem com você? Esse desafio foi proposto pela **CodeNation** e para você ser aceito aos treinamentos, devia obter ao menos **90% de acerto**.

Aqui vou mostrar um guia de como alcancei facilmente **93%** passo a passo.

Caso queira as informações sobre o desafio e os arquivos, basta dar uma olhada no meu repositório do git [CodeNation-Data-Science-2020](https://github.com/lpcaldeira/codenation-data-science)

- Este tutorial foi feito utilizando o Google Colab
- Baixe os arquivos no repositório citado acima e faça upload do **train.csv** e **test.csv** no menu lateral a esquerda em Files > Upload

Não esqueça de acionar a GPU em Runtime > change runtime type > Hardware accelerator > GPU > Save

#Visão geral sobre os dados

Importando as libs que serão utilizadas

In [1]:
import numpy as np
import pandas as pd

Configurações do pandas pra exibirem todas as linhas e colunas dos itens solicitados

In [2]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

Importando os arquivos de treino e teste

In [3]:
df_train = pd.read_csv('train.csv', sep="," , encoding="UTF8" )
df_test = pd.read_csv('test.csv', sep="," , encoding="UTF8" )

FileNotFoundError: [Errno 2] No such file or directory: 'train.csv'

Visualizando as colunas que estão no arquivo de testes

In [None]:
df_test.columns

Identificando quais campos tem mais correlação com o nosso target/NU_NOTA_MT

In [None]:
# Quanto mais próximo a 1, maior a correlação
df_train.corr()['NU_NOTA_MT'].dropna().sort_values(ascending=False)

Criando as colunas que serão utilizadas no modelo

In [None]:
colunas = [
    'CO_UF_RESIDENCIA',
    'SG_UF_RESIDENCIA',
    'NU_IDADE',
    'TP_SEXO',
    'TP_COR_RACA',
    'TP_NACIONALIDADE',
    'TP_ST_CONCLUSAO',
    'TP_ANO_CONCLUIU',
    'TP_ESCOLA',
    'TP_ENSINO',
    'IN_TREINEIRO',
    'TP_DEPENDENCIA_ADM_ESC',
    'IN_BAIXA_VISAO',
    'IN_CEGUEIRA',
    'IN_SURDEZ',
    'IN_DISLEXIA',
    'IN_DISCALCULIA',
    'IN_SABATISTA',
    'IN_GESTANTE',
    'IN_IDOSO',
    'TP_PRESENCA_CN',
    'TP_PRESENCA_CH',
    'TP_PRESENCA_LC',
    'CO_PROVA_CN',
    'CO_PROVA_CH',
    'CO_PROVA_LC',
    'CO_PROVA_MT',
    'NU_NOTA_CN',
    'NU_NOTA_CH',
    'NU_NOTA_LC',
    'TP_LINGUA',
    'TP_STATUS_REDACAO',
    'NU_NOTA_COMP1',
    'NU_NOTA_COMP2',
    'NU_NOTA_COMP3',
    'NU_NOTA_COMP4',
    'NU_NOTA_COMP5',
    'NU_NOTA_REDACAO',
    'Q001',
    'Q002',
    'Q006',
    'Q024',
    'Q025',
    'Q026',
    'Q027',
    'Q047'
]
colunas_corr = [
    'NU_NOTA_MT',
    'CO_UF_RESIDENCIA',
    'SG_UF_RESIDENCIA',
    'NU_IDADE',
    'TP_SEXO',
    'TP_COR_RACA',
    'TP_NACIONALIDADE',
    'TP_ST_CONCLUSAO',
    'TP_ANO_CONCLUIU',
    'TP_ESCOLA',
    'TP_ENSINO',
    'IN_TREINEIRO',
    'TP_DEPENDENCIA_ADM_ESC',
    'IN_BAIXA_VISAO',
    'IN_CEGUEIRA',
    'IN_SURDEZ',
    'IN_DISLEXIA',
    'IN_DISCALCULIA',
    'IN_SABATISTA',
    'IN_GESTANTE',
    'IN_IDOSO',
    'TP_PRESENCA_CN',
    'TP_PRESENCA_CH',
    'TP_PRESENCA_LC',
    'CO_PROVA_CN',
    'CO_PROVA_CH',
    'CO_PROVA_LC',
    'CO_PROVA_MT',
    'NU_NOTA_CN',
    'NU_NOTA_CH',
    'NU_NOTA_LC',
    'TP_LINGUA',
    'TP_STATUS_REDACAO',
    'NU_NOTA_COMP1',
    'NU_NOTA_COMP2',
    'NU_NOTA_COMP3',
    'NU_NOTA_COMP4',
    'NU_NOTA_COMP5',
    'NU_NOTA_REDACAO',
    'Q001',
    'Q002',
    'Q006',
    'Q024',
    'Q025',
    'Q026',
    'Q027',
    'Q047'
]

#Gráficos e correções de valores

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use('ggplot')
%matplotlib inline

Vamos usar estes campos para visualizar os gráficos, pois possuem maior correlação com o target:

> NU_NOTA_LC

> NU_NOTA_CN

> NU_NOTA_CH

Quantidade de campos NULOS de cada campo

In [None]:
df_train[colunas].isnull().sum()

Visualizando campos nulos/NaN nos datasets

In [None]:
x0 = df_train['NU_NOTA_LC']
x1 = df_test['NU_NOTA_LC']
sns.distplot(x0)
sns.distplot(x1)
plt.legend(labels=['Treino','Teste'], ncol=2, loc='upper left');

Pelo visto, temos muitos campo nulos/NaN, então a minha opção foi substituí-los por zero

In [None]:
#Caso queira utilizar média, basta descomentar a linha abaixo
#df_train = df_train.fillna(df_train.median())
#E comentar essa
df_train = df_train.fillna(0)

# Quantidade de linhas no dataset de treino
len(df_train)

 Verifica o gráfico de novo (repare agora a quantidade de valores Zero que temos no dataset de TREINO)

In [None]:
x0 = df_train['NU_NOTA_LC']
x1 = df_test['NU_NOTA_LC']
sns.distplot(x0)
sns.distplot(x1)
plt.legend(labels=['Treino','Teste'], ncol=2, loc='upper left');

In [None]:
# Verifica outro gráfico
x0 = df_train['NU_NOTA_CN']
x1 = df_test['NU_NOTA_CN']
sns.distplot(x0)
sns.distplot(x1)
plt.legend(labels=['Treino','Teste'], ncol=2, loc='upper left');

In [None]:
# Verifica outro gráfico
x0 = df_train['NU_NOTA_CH']
x1 = df_test['NU_NOTA_CH']
sns.distplot(x0)
sns.distplot(x1)
plt.legend(labels=['Treino','Teste'], ncol=2, loc='upper left');

Verificando a quantidade de nulos/NaN no dataset de Teste

In [None]:
# Verificando a quantidade de notas ‘nulls’ na base de test:
df_test.isnull().sum()

Agora, repetimos a mesma substituição aplicada no dataset de Treino ao dataset de Teste

In [None]:
#Caso queira utilizar média, basta descomentar a linha abaixo
#df_test = df_test.fillna(df_test.median())
#E comentar essa
df_test = df_test.fillna(0)

# Quantidade de linhas no dataset de treino
len(df_test)

Vamos verificar novamente como ficaram os gráficos, percebendo que a coluna Azul (que representa o dataset de testes), também cresceu em valores 0 e diminuiu em nulos/NaN

In [None]:
# Verifica outro gráfico
x0 = df_train['NU_NOTA_LC']
x1 = df_test['NU_NOTA_LC']
sns.distplot(x0)
sns.distplot(x1)
plt.legend(labels=['Treino','Teste'], ncol=2, loc='upper left');

In [None]:
# Verifica o gráfico de novo
x0 = df_train['NU_NOTA_CN']
x1 = df_test['NU_NOTA_CN']
sns.distplot(x0)
sns.distplot(x1)
plt.legend(labels=['Treino','Teste'], ncol=2, loc='upper left');

In [None]:
# Verifica outro gráfico
x0 = df_train['NU_NOTA_CH']
x1 = df_test['NU_NOTA_CH']
sns.distplot(x0)
sns.distplot(x1)
plt.legend(labels=['Treino','Teste'], ncol=2, loc='upper left');

#Separando e tratando os dados

Precisamos normalizar os dados tratando/transformando campos do tipo **OBJECT** em **FLOAT**

Primeiro, os encontramos nos 2 datasets

In [None]:
train_colunas_do_tipo_objeto = df_train.select_dtypes(include=[object]).columns
test_colunas_do_tipo_objeto = df_test.select_dtypes(include=[object]).columns

Agora, separamos os valores de cada dataset e os campos que vamos utilizar

In [None]:
# y_train fica com os valores das notas de matemática do Treino
y_train = df_train['NU_NOTA_MT']
# x_train pega todos os valores que o dataset de Teste possui
x_train = df_train[colunas]
# x_test tem todos os campos, menos a Inscrição(NU_INSCRICAO)
x_test = df_test[colunas]

Depois, podemos usar, por exemplo, o LabelEncoder para tratar cada campo do tipo objeto

In [None]:
from sklearn.preprocessing import LabelEncoder

y_train_encoder = LabelEncoder().fit_transform(y_train)

for coluna in train_colunas_do_tipo_objeto:
  if coluna in colunas and coluna != 'NU_INSCRICAO':
    x_train[coluna] = LabelEncoder().fit_transform(x_train[coluna].astype(str))

for coluna in test_colunas_do_tipo_objeto:
  if coluna in colunas and coluna != 'NU_INSCRICAO':
    x_test[coluna] = LabelEncoder().fit_transform(x_test[coluna].astype(str))

Importamos os scalers e aplicamos nos dados para aumentar a velocidade de processamento.

Neste exemplo, apenas apliquei o Standard mas deixei o Robust junto, para caso você queira fazer alguns testes extras.

In [None]:
from sklearn.preprocessing import RobustScaler, StandardScaler
sc = StandardScaler()
rb = StandardScaler()
x_train_scaler = sc.fit_transform(x_train)  
x_test_scaler = sc.transform(x_test)

#Criando os modelos de regressões

Estou utilizando aqui o conceito de Pipeline com RandomizedSearchCV (você pode aplicar o GridSearchCV se quiser) para realizar vários testes de regressão e identificar os melhores parâmetros para o meu modelo alcançar ou chegar o mais próximo de 100%

##O primeiro a ser testado será o AdaBoost

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import AdaBoostRegressor
from sklearn.tree import DecisionTreeRegressor

# Instanciamos o Regressor
ada = AdaBoostRegressor()
# Setamos o Scaler que criamos anteriormente e o Regressor
clf = Pipeline([('scaler', sc), ('ada', ada)])

# Informamos os parâmetros e variações do Regressor que queremos que o RandomizedSearchCV aplique para nós
random_grid = {
    'ada__base_estimator': [DecisionTreeRegressor(max_depth=8), DecisionTreeRegressor(max_depth=3)],
    'ada__random_state': [0, 42],
    'ada__loss': ['linear','square','exponential'],
    'ada__n_estimators': [10, 20, 50, 100, 200]
}

# Informamos mais alguns parâmetros, agora referentes apenas ao RandomizeSearchCV
search = RandomizedSearchCV(estimator = clf, param_distributions = random_grid, 
                            n_iter = 20, cv = 5, verbose = 10, n_jobs = -1)

# Aqui efetivamente roda o processo usando o dataset de Treino para treinar o modelo
results = search.fit(x_train, y_train)

# Aqui mostrará os melhores parâmetros juntamente com o percentual de acerto.
# No teste que fiz, o percentual ficou em 99.99963%
results.best_score_, results.best_params_, results.best_estimator_

0.9235217474934994 %

Regressor com parâmetros:

AdaBoostRegressor(base_estimator=DecisionTreeRegressor(ccp_alpha=0.0,
                                                                         criterion='mse',
                                                                         max_depth=8,
                                                                         max_features=None,
                                                                         max_leaf_nodes=None,
                                                                         min_impurity_decrease=0.0,
                                                                         min_impurity_split=None,
                                                                         min_samples_leaf=1,
                                                                         min_samples_split=2,
                                                                         min_weight_fraction_leaf=0.0,
                                                                         presort='deprecated',
                                                                         random_state=None,
                                                                         splitter='best'),
                                    learning_rate=1.0, loss='exponential',
                                    n_estimators=10, random_state=0)

Então, agora que tenho os parâmetros que já me deram 92% de acerto, vou utilizá-los no dataset de Teste

In [None]:
from sklearn.ensemble import AdaBoostRegressor
ada = AdaBoostRegressor(base_estimator=DecisionTreeRegressor(ccp_alpha=0.0,
                                                                         criterion='mse',
                                                                         max_depth=8,
                                                                         max_features=None,
                                                                         max_leaf_nodes=None,
                                                                         min_impurity_decrease=0.0,
                                                                         min_impurity_split=None,
                                                                         min_samples_leaf=1,
                                                                         min_samples_split=2,
                                                                         min_weight_fraction_leaf=0.0,
                                                                         presort='deprecated',
                                                                         random_state=None,
                                                                         splitter='best'),
                                    learning_rate=1.0, loss='exponential',
                                    n_estimators=10, random_state=0)

# Treinando o nosso modelo com o scaler e encoder que fizemos lá em cima
ada.fit(x_train_scaler, y_train_encoder)
# Realizando a predição das notas com o dataset de Teste
y_pred_test = ada.predict(x_test_scaler)
# Exportando o arquivo com as notas geradas
answer = pd.DataFrame()
answer['NU_INSCRICAO'] = df_test.NU_INSCRICAO
answer['NU_NOTA_MT'] = y_pred_test
answer.to_csv('answer_ada.csv', index=False)

In [None]:
# Teste auxiliar para identificar a acurrácia do modelo usando cross_validation.
# Quanto mais perto de 1.0, melhor
from sklearn.model_selection import cross_val_score
scores = cross_val_score(ada, x_test_scaler, y_pred_test, cv=5)
print(scores)
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

##O segundo a ser testado será o DecisionTree

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import RandomizedSearchCV
from sklearn.tree import DecisionTreeRegressor

dt = DecisionTreeRegressor()
clf = Pipeline([('scaler', sc), ('dt', dt)])

random_grid = {
    'dt__criterion': ['mse', 'friedman_mse', 'mae'],
    'dt__splitter': ['best', 'random'],
    'dt__max_depth': [None, 5, 8, 20],
    'dt__min_samples_split': [0, 2, 5],
    'dt__min_samples_leaf': [0, 1, 5],
    'dt__min_weight_fraction_leaf': [0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0],
    'dt__max_features': [0, None, 5, 10, 'auto', 'sqrt', 'log2'],
    'dt__random_state': [0, None, 5, 42]
}

search = RandomizedSearchCV(estimator = clf, param_distributions = random_grid, 
                            n_iter = 200, cv = 5, verbose = 10, n_jobs = -1)

results = search.fit(x_train, y_train)

results.best_score_, results.best_params_, results.best_estimator_

0.9163452188462285 %

Regressor com os parâmetros:

DecisionTreeRegressor(ccp_alpha=0.0, criterion='mse',
                                        max_depth=8, max_features='auto',
                                        max_leaf_nodes=None,
                                        min_impurity_decrease=0.0,
                                        min_impurity_split=None,
                                        min_samples_leaf=1, min_samples_split=2,
                                        min_weight_fraction_leaf=0.0,
                                        presort='deprecated', random_state=None,
                                        splitter='best')

In [None]:
from sklearn.tree import DecisionTreeRegressor
dt = DecisionTreeRegressor(ccp_alpha=0.0, criterion='mse',
                                        max_depth=8, max_features='auto',
                                        max_leaf_nodes=None,
                                        min_impurity_decrease=0.0,
                                        min_impurity_split=None,
                                        min_samples_leaf=1, min_samples_split=2,
                                        min_weight_fraction_leaf=0.0,
                                        presort='deprecated', random_state=None,
                                        splitter='best')
# Treinando o nosso modelo através do fit:
dt.fit(x_train_scaler, y_train_encoder)
# Realizando a predição das notas da nossa base test:
y_pred_test = dt.predict(x_test_scaler)
answer = pd.DataFrame()
answer['NU_INSCRICAO'] = df_test.NU_INSCRICAO
answer['NU_NOTA_MT'] = y_pred_test
answer.to_csv('answer_dt.csv', index=False)

In [None]:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(dt, x_test_scaler, y_pred_test, cv=5)
print(scores)
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

##O terceiro a ser testado é o RandomForest

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor

rf = RandomForestRegressor()
clf = Pipeline([('scaler', sc), ('rf', rf)])

random_grid = {
    'rf__criterion': ['mse', 'friedman_mse', 'mae'],
    'rf__n_estimators': [10, 100, 200, 300],
    'rf__max_depth': [None, 5, 8, 20],
    'rf__min_samples_split': [0, 2, 5],
    'rf__min_samples_leaf': [0, 1, 5, 10],
    'rf__max_features': [0, 'auto', 'sqrt', 'log2'],
    'rf__n_jobs': [-1],
    'rf__verbose': [10],
    'rf__random_state': [0, None, 5, 42]
}

search = RandomizedSearchCV(estimator = clf, param_distributions = random_grid, 
                            n_iter = 20, cv = 5, verbose = 10, n_jobs = -1)

results = search.fit(x_train, y_train)

results.best_score_, results.best_params_, results.best_estimator_

0.9254360637203654 %

Regressor com os parâmetros:

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0,
                                        criterion='friedman_mse', max_depth=20,
                                        max_features='auto', max_leaf_nodes=None,
                                        max_samples=None,
                                        min_impurity_decrease=0.0,
                                        min_impurity_split=None,
                                        min_samples_leaf=5, min_samples_split=5,
                                        min_weight_fraction_leaf=0.0,
                                        n_estimators=200, n_jobs=-1,
                                        oob_score=False, random_state=5,
                                        verbose=10, warm_start=False)

In [None]:
from sklearn.ensemble import RandomForestRegressor
rf = RandomForestRegressor(bootstrap=True, ccp_alpha=0.0,
                                        criterion='friedman_mse', max_depth=20,
                                        max_features='auto', max_leaf_nodes=None,
                                        max_samples=None,
                                        min_impurity_decrease=0.0,
                                        min_impurity_split=None,
                                        min_samples_leaf=5, min_samples_split=5,
                                        min_weight_fraction_leaf=0.0,
                                        n_estimators=200, n_jobs=-1,
                                        oob_score=False, random_state=5,
                                        verbose=10, warm_start=False)
# Treinando o nosso modelo através do fit:
rf.fit(x_train_scaler, y_train_encoder)
# Realizando a predição das notas da nossa base test:
y_pred_test = rf.predict(x_test_scaler)
answer = pd.DataFrame()
answer['NU_INSCRICAO'] = df_test.NU_INSCRICAO
answer['NU_NOTA_MT'] = y_pred_test
answer.to_csv('answer_rf.csv', index=False)

In [None]:
from sklearn.model_selection import cross_val_score
scores = cross_val_score(rf, x_test_scaler, y_pred_test, cv=5)
print(scores)
print("Accuracy: %0.2f (+/- %0.2f)" % (scores.mean(), scores.std() * 2))

#Caso você queira aplicar mais alguns algoritmos, segue aqui algumas recomendações

In [None]:
# Outra opção de Pipeline
from sklearn.model_selection import GridSearchCV
# Outras opções de Regressores
from sklearn.neural_network import MLPRegressor
from sklearn.linear_model import Perceptron
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDRegressor
from sklearn.ensemble import ExtraTreesRegressor

# Outra opção de scaler
# Primeiro instala
!pip install category_encoders
# Depois o utiliza da mesma forma que usa o StandardScaler
import category_encoders as ce
onehotencoder = ce.OneHotEncoder()
x_train_onehotencoder = onehotencoder.fit_transform(x_train)
x_test_onehotencoder = onehotencoder.fit_transform(x_test)

#Script que não permite que o Google Colab desconecte. Assim, você não perde suas execuções que demoram mais de 30 minutos.

Basta abrir as opções de desenvolvedor (F12 ou ctrl + shift + i), colar o código abaixo na aba Console e dar Enter.

> function ConnectButton(){
    const arraydocolab = document.querySelectorAll('.notebook-content .cell.code .cell-gutter paper-icon-button')
    arraydocolab[arraydocolab.length - 1].click()
    console.log('==== Reconecta a cada 20 minutos ====')
}
var intervaldocolab = setInterval(ConnectButton,1200000);
// se quiser remover isso, basta digitar no console: clearInterval(intervaldocolab)



In [None]:
# Mantenha essa célula aqui para garantir o funcionamento do script