# DESAFIO CODENATION - Notas do ENEM 
## por Matheus Andrade
<hr style='border: 2px solid black;'>

### Instruções da Codenation sobre o desafio


Você deverá criar um modelo para prever a nota da prova de matemática de quem participou do ENEM 2016. 

## Tópicos

Neste desafio você aprenderá:

- Lógica
- Análise de dados
- Estatística
- Regression

## Detalhes

O contexto do desafio gira em torno dos resultados do ENEM 2016 (disponíveis no arquivo train.csv). Este arquivo, e apenas ele, deve ser utilizado para todos os desafios. Qualquer dúvida a respeito das colunas, consulte o [Dicionário dos Microdados do Enem 2016](https://s3-us-west-1.amazonaws.com/acceleration-assets-highway/data-science/dicionario-de-dados.zip).

Muitas universidades brasileiras utilizam o ENEM para selecionar seus futuros alunos e alunas. Isto é feito com uma média ponderada das notas das provas de matemática, ciências da natureza, linguagens e códigos, ciências humanas e redação. Determine os 20 melhores colocados, por ordem, para os pesos abaixo:

- matemática: 3
- ciências da natureza: 2
- linguagens e códigos: 1.5
- ciências humanas: 1
- redação: 3

No arquivo test.csv crie um modelo para prever nota da prova de matemática (coluna **NU_NOTA_MT**) de quem participou do ENEM 2016. 

Salve sua resposta em um arquivo chamado answer.csv com duas colunas: **NU_INSCRICAO** e **NU_NOTA_MT**.

Faça o upload do arquivo answer.csv usando o botão "Submeter resposta".

## Observações

O objetivo do desafio é avaliar a sua capacidade de resolver problemas, então ele pode ser resolvido em qualquer linguagem de programação ou ferramenta que você tenha facilidade. Mas recomendamos o uso de linguagens com maior ferramental de matemática e estatística como Python, R, Scala ou Julia.

## Passos utilizados para resolver o desafio
<hr style='border: 2px solid black;'>

## PARTE 1: 
### Criação e teste do modelo de previsão baseado em Decision Trees


In [18]:
#import de bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns

In [19]:
#Carregando os dados
dados_originais = pd.read_csv('train.csv')
dados_desafio = pd.read_csv('test.csv')


In [20]:
#Verificando as colunas
dados_originais.columns.values

array(['Unnamed: 0', 'NU_INSCRICAO', 'NU_ANO', 'CO_MUNICIPIO_RESIDENCIA',
       'NO_MUNICIPIO_RESIDENCIA', 'CO_UF_RESIDENCIA', 'SG_UF_RESIDENCIA',
       'NU_IDADE', 'TP_SEXO', 'TP_ESTADO_CIVIL', 'TP_COR_RACA',
       'TP_NACIONALIDADE', 'CO_MUNICIPIO_NASCIMENTO',
       'NO_MUNICIPIO_NASCIMENTO', 'CO_UF_NASCIMENTO', 'SG_UF_NASCIMENTO',
       'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO',
       'IN_TREINEIRO', 'CO_ESCOLA', 'CO_MUNICIPIO_ESC',
       'NO_MUNICIPIO_ESC', 'CO_UF_ESC', 'SG_UF_ESC',
       'TP_DEPENDENCIA_ADM_ESC', 'TP_LOCALIZACAO_ESC', 'TP_SIT_FUNC_ESC',
       'IN_BAIXA_VISAO', 'IN_CEGUEIRA', 'IN_SURDEZ',
       'IN_DEFICIENCIA_AUDITIVA', 'IN_SURDO_CEGUEIRA',
       'IN_DEFICIENCIA_FISICA', 'IN_DEFICIENCIA_MENTAL',
       'IN_DEFICIT_ATENCAO', 'IN_DISLEXIA', 'IN_DISCALCULIA',
       'IN_AUTISMO', 'IN_VISAO_MONOCULAR', 'IN_OUTRA_DEF', 'IN_SABATISTA',
       'IN_GESTANTE', 'IN_LACTANTE', 'IN_IDOSO',
       'IN_ESTUDA_CLASSE_HOSPITALAR', 'IN_SEM_RECURSO',

In [21]:
#selecionando apenas as colunas que serão utilizadas nas análises
dados = dados_originais[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_MT', 'NU_NOTA_REDACAO']]
dados_originais.shape

(13730, 167)

In [22]:
#check
dados.head()

Unnamed: 0,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO
0,436.3,495.4,581.2,399.4,520.0
1,474.5,544.1,599.0,459.8,580.0
2,,,,,
3,,,,,
4,,,,,


In [23]:
#todas as notas menos a nota alvo
features = ['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_REDACAO']

dados['MEDIAN']  = dados[features].apply(np.median, axis=1)
dados['MIN']     = dados[features].apply(np.min, axis=1)
dados['MAX']     = dados[features].apply(np.max, axis=1)
dados['AVERAGE'] = dados[features].apply(np.average, axis=1)
dados['STD']     = dados[features].apply(np.std, axis=1)




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexin

In [24]:
#check
dados.head()

Unnamed: 0,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,MEDIAN,MIN,MAX,AVERAGE,STD
0,436.3,495.4,581.2,399.4,520.0,507.7,436.3,581.2,508.225,51.965584
1,474.5,544.1,599.0,459.8,580.0,562.05,474.5,599.0,549.4,47.525309
2,,,,,,,,,,
3,,,,,,,,,,
4,,,,,,,,,,


In [25]:
#removendo notas zero
dados = dados.replace(0, np.NaN).dropna(how='all').fillna(0)

In [26]:
dados.shape

(10375, 10)

## Split train x test para dados

In [27]:
#máscara para test/split em 80% train data e 20% test data
msk = np.random.rand(len(dados)) < 0.8
df_train = dados[msk]
df_test = dados[~msk]

In [28]:
df_train.shape, df_test.shape

((8306, 10), (2069, 10))

## Verificando a correlação dos dados

In [29]:
#Verificando a correlação entre as colunas
df_train.corr()

Unnamed: 0,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_MT,NU_NOTA_REDACAO,MEDIAN,MIN,MAX,AVERAGE,STD
NU_NOTA_CN,1.0,0.665284,0.356594,0.454871,0.402823,0.545023,0.6179,0.580873,0.571577,-0.099017
NU_NOTA_CH,0.665284,1.0,0.452578,0.419391,0.477075,0.636451,0.563342,0.68501,0.634674,0.065799
NU_NOTA_LC,0.356594,0.452578,1.0,0.712439,0.645975,0.90053,0.370034,0.502643,0.875208,0.078347
NU_NOTA_MT,0.454871,0.419391,0.712439,1.0,0.546959,0.731964,0.352473,0.457573,0.726629,0.062014
NU_NOTA_REDACAO,0.402823,0.477075,0.645975,0.546959,1.0,0.754727,0.717152,0.768063,0.846556,-0.045514
MEDIAN,0.545023,0.636451,0.90053,0.731964,0.754727,1.0,0.442512,0.593396,0.978806,0.08376
MIN,0.6179,0.563342,0.370034,0.352473,0.717152,0.442512,1.0,0.593962,0.561787,-0.530062
MAX,0.580873,0.68501,0.502643,0.457573,0.768063,0.593396,0.593962,1.0,0.670766,0.360368
AVERAGE,0.571577,0.634674,0.875208,0.726629,0.846556,0.978806,0.561787,0.670766,1.0,0.027843
STD,-0.099017,0.065799,0.078347,0.062014,-0.045514,0.08376,-0.530062,0.360368,0.027843,1.0


## Criando dados train x,y & test x,y

In [30]:
df_train_x = df_train[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_REDACAO', 'MEDIAN', 'MIN', 'MAX', 'AVERAGE', 'STD' ]]
df_train_y = df_train[['NU_NOTA_MT']]

df_test_x = df_test[['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_REDACAO', 'MEDIAN', 'MIN', 'MAX', 'AVERAGE', 'STD']]
df_test_y = df_test[['NU_NOTA_MT']]

df_train_x.shape, df_train_y.shape, df_test_x.shape, df_test_y.shape

((8306, 9), (8306, 1), (2069, 9), (2069, 1))

##### Seed setada

In [31]:
#Configurando uma seed para que os testes executados tenham sempra a mesma
SEED = 0

##### Transformar em array numpy

In [32]:
#transformando em array numpy
train_x = df_train_x.to_numpy()
train_y = df_train_y.to_numpy()
test_x = df_test_x.to_numpy()
test_y = df_test_y.to_numpy()

In [33]:
#treinando o modelo de Decision Tree e otimizando o max_leaf_nodes com uma função para encontrar o melhor parâmetros baseado no mean_absolute_error

from sklearn.metrics import mean_absolute_error
from sklearn.tree import DecisionTreeRegressor

def get_mae(max_leaf_nodes, train_x, test_x, train_y, te_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=0)
    model.fit(train_x, train_y)
    preds_val = model.predict(test_x)
    mae = mean_absolute_error(test_y, preds_val)
    return(mae)

candidate_max_leaf_nodes = [5, 25,26,27,28,29,30, 50, 100, 250, 500]
# Write loop to find the ideal tree size from candidate_max_leaf_nodes
for max_leaf_nodes in candidate_max_leaf_nodes:
    my_mae = get_mae(max_leaf_nodes, train_x, test_x, train_y, test_y)
    print("Max leaf nodes: %d  \t\t Mean Absolute Error:  %d" %(max_leaf_nodes, my_mae))

scores = {leaf_size: get_mae(leaf_size, train_x, test_x, train_y, test_y) for leaf_size in candidate_max_leaf_nodes}
best_tree_size = min(scores, key=scores.get)
print(best_tree_size)

Max leaf nodes: 5  		 Mean Absolute Error:  60
Max leaf nodes: 25  		 Mean Absolute Error:  58
Max leaf nodes: 26  		 Mean Absolute Error:  58
Max leaf nodes: 27  		 Mean Absolute Error:  58
Max leaf nodes: 28  		 Mean Absolute Error:  58
Max leaf nodes: 29  		 Mean Absolute Error:  58
Max leaf nodes: 30  		 Mean Absolute Error:  58
Max leaf nodes: 50  		 Mean Absolute Error:  59
Max leaf nodes: 100  		 Mean Absolute Error:  60
Max leaf nodes: 250  		 Mean Absolute Error:  62
Max leaf nodes: 500  		 Mean Absolute Error:  65
30


In [35]:
#treinando o modelo de Decision Tree e otimizando o max_leaf_nodes 
#com uma função para encontrar o melhor parâmetros baseado no mean_squared_error
from sklearn.metrics import mean_squared_error

def get_mse(max_leaf_nodes, train_x, test_x, train_y, te_y):
    model = DecisionTreeRegressor(max_leaf_nodes=max_leaf_nodes, random_state=1)
    model.fit(train_x, train_y)
    preds_val = model.predict(test_x)
    mse = mean_squared_error(test_y, preds_val)
    return(mse)

candidate_max_leaf_nodes = [5, 25,26,27,28,29,30, 50, 100, 250, 500]
# Write loop to find the ideal tree size from candidate_max_leaf_nodes
for max_leaf_nodes in candidate_max_leaf_nodes:
    my_mse = get_mse(max_leaf_nodes, train_x, test_x, train_y, test_y)
    print("Max leaf nodes: %d  \t\t Mean Squared Error:  %d" %(max_leaf_nodes, my_mse))

scores = {leaf_size: get_mse(leaf_size, train_x, test_x, train_y, test_y) for leaf_size in candidate_max_leaf_nodes}
best_tree_size = min(scores, key=scores.get)
print(best_tree_size)



Max leaf nodes: 5  		 Mean Squared Error:  5981
Max leaf nodes: 25  		 Mean Squared Error:  5639
Max leaf nodes: 26  		 Mean Squared Error:  5643
Max leaf nodes: 27  		 Mean Squared Error:  5623
Max leaf nodes: 28  		 Mean Squared Error:  5631
Max leaf nodes: 29  		 Mean Squared Error:  5651
Max leaf nodes: 30  		 Mean Squared Error:  5618
Max leaf nodes: 50  		 Mean Squared Error:  5892
Max leaf nodes: 100  		 Mean Squared Error:  6246
Max leaf nodes: 250  		 Mean Squared Error:  6759
Max leaf nodes: 500  		 Mean Squared Error:  7628
30


In [42]:
# Fill in argument to make optimal size and uncomment
final_model = DecisionTreeRegressor(max_leaf_nodes=best_tree_size, random_state=1)

# fit the final model and uncomment the next two lines
final_model.fit(test_x, test_y)
test_y_ = final_model.predict(test_x)

from sklearn.metrics import mean_squared_error
from sklearn.metrics import r2_score

print(mean_squared_error(test_y, test_y_))
print(mean_absolute_error(test_y, test_y_))
print(r2_score(test_y_ , test_y))




4628.70898547483
54.115140761823106
0.530957534027056


## PARTE 2: 
### Previsão dos dados de submissão
Foi necessário o mesmo tratamento de dados realizado anteriormente para que o modelo final pudesse gerar o resultados esperado nos dados do desafio


In [43]:
#Verificação dos dados
dados_desafio.head(10)

Unnamed: 0,NU_INSCRICAO,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q024,Q025,Q026,Q027,Q047,MEDIAN,MIN,MAX,AVERAGE,STD
0,73ff9fcc02f0a99919906c942c2e1a1042cdcf98,41,PR,22,F,3,1,1,5,1,...,A,A,C,C,A,437.65,420.0,464.8,440.025,16.541822
1,71a95f9f1b91a82c65ad94abbdf9f54e6066f968,21,MA,26,F,3,1,1,8,1,...,B,B,B,F,A,519.55,391.1,580.0,502.55,71.792078
2,b38a03232f43b11c9d0788abaf060f7366053b6d,23,CE,21,M,1,1,2,0,2,...,B,B,A,,A,604.75,320.0,622.7,538.05,126.259505
3,70b682d9a3636be23f6120fa9d6b164eb3c6002d,15,PA,27,F,3,1,1,8,1,...,B,B,A,,A,,,,,
4,715494628a50142ce8cb17191cfe6d0f3cae0934,41,PR,18,M,1,1,2,0,2,...,C,B,A,,A,532.0,320.0,592.9,494.225,107.296001
5,e656d6bad65c93fb2880f1eba5037008c8e75774,43,RS,18,M,3,1,1,1,1,...,B,B,A,,A,551.25,414.5,568.5,521.375,62.412313
6,465cd2a6907fb37d9d8ad3c065f0e2dabdba9b13,35,SP,17,F,1,1,2,0,3,...,D,B,A,,D,613.3,485.7,654.6,591.725,63.66967
7,11539e86171bf07d3a36f09377d7f54ebcc8406a,23,CE,17,F,3,2,2,0,2,...,A,A,A,,A,437.5,420.0,521.0,454.0,40.615514
8,043c544a2104aa8a9849f1a703a08d37a2f16839,51,MT,18,F,3,1,2,0,2,...,A,A,B,D,A,563.1,414.4,740.0,570.15,115.78751
9,76ba050e64ad100b856f0eaabd8f539d5c7dd185,15,PA,17,M,3,2,2,0,2,...,A,A,A,,A,503.6,456.8,580.0,511.0,45.420755


In [44]:
#Verificação das colunas
dados_desafio.columns
#dados_desafio.head()

Index(['NU_INSCRICAO', 'CO_UF_RESIDENCIA', 'SG_UF_RESIDENCIA', 'NU_IDADE',
       'TP_SEXO', 'TP_COR_RACA', 'TP_NACIONALIDADE', 'TP_ST_CONCLUSAO',
       'TP_ANO_CONCLUIU', 'TP_ESCOLA', 'TP_ENSINO', 'IN_TREINEIRO',
       'TP_DEPENDENCIA_ADM_ESC', 'IN_BAIXA_VISAO', 'IN_CEGUEIRA', 'IN_SURDEZ',
       'IN_DISLEXIA', 'IN_DISCALCULIA', 'IN_SABATISTA', 'IN_GESTANTE',
       'IN_IDOSO', 'TP_PRESENCA_CN', 'TP_PRESENCA_CH', 'TP_PRESENCA_LC',
       'CO_PROVA_CN', 'CO_PROVA_CH', 'CO_PROVA_LC', 'CO_PROVA_MT',
       'NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_LC', 'TP_LINGUA',
       'TP_STATUS_REDACAO', 'NU_NOTA_COMP1', 'NU_NOTA_COMP2', 'NU_NOTA_COMP3',
       'NU_NOTA_COMP4', 'NU_NOTA_COMP5', 'NU_NOTA_REDACAO', 'Q001', 'Q002',
       'Q006', 'Q024', 'Q025', 'Q026', 'Q027', 'Q047', 'MEDIAN', 'MIN', 'MAX',
       'AVERAGE', 'STD'],
      dtype='object')

In [45]:
#Adcionando estatísticas básicas como colunas
colunas = ['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_REDACAO']

dados_desafio['MEDIAN']  = dados_desafio[colunas].apply(np.median, axis=1)
dados_desafio['MIN']     = dados_desafio[colunas].apply(np.min, axis=1)
dados_desafio['MAX']     = dados_desafio[colunas].apply(np.max, axis=1)
dados_desafio['AVERAGE'] = dados_desafio[colunas].apply(np.average, axis=1)
dados_desafio['STD']     = dados_desafio[colunas].apply(np.std, axis=1)

dados_desafio.head()

  r = func(a, **kwargs)


Unnamed: 0,NU_INSCRICAO,CO_UF_RESIDENCIA,SG_UF_RESIDENCIA,NU_IDADE,TP_SEXO,TP_COR_RACA,TP_NACIONALIDADE,TP_ST_CONCLUSAO,TP_ANO_CONCLUIU,TP_ESCOLA,...,Q024,Q025,Q026,Q027,Q047,MEDIAN,MIN,MAX,AVERAGE,STD
0,73ff9fcc02f0a99919906c942c2e1a1042cdcf98,41,PR,22,F,3,1,1,5,1,...,A,A,C,C,A,437.65,420.0,464.8,440.025,16.541822
1,71a95f9f1b91a82c65ad94abbdf9f54e6066f968,21,MA,26,F,3,1,1,8,1,...,B,B,B,F,A,519.55,391.1,580.0,502.55,71.792078
2,b38a03232f43b11c9d0788abaf060f7366053b6d,23,CE,21,M,1,1,2,0,2,...,B,B,A,,A,604.75,320.0,622.7,538.05,126.259505
3,70b682d9a3636be23f6120fa9d6b164eb3c6002d,15,PA,27,F,3,1,1,8,1,...,B,B,A,,A,,,,,
4,715494628a50142ce8cb17191cfe6d0f3cae0934,41,PR,18,M,1,1,2,0,2,...,C,B,A,,A,532.0,320.0,592.9,494.225,107.296001


In [46]:
#Removendo NAs
dados_des = dados_desafio.replace(0, np.NaN).dropna(how='all').fillna(0)
dados_des.shape, dados_desafio.shape

((4576, 52), (4576, 52))

In [47]:
#Verificando e transformando em numpy
features = ['NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC', 'NU_NOTA_REDACAO','MEDIAN', 'MIN', 'MAX',
       'AVERAGE', 'STD']
X_val= dados_des[features].to_numpy()
X_val.shape

(4576, 9)

**Utilização do modelo gerado na Parte1 nos dados de teste do desafio**

In [48]:
test_preds = final_model.predict(X_val)
test_preds.shape




(4576,)

**Geração do CSV file para upload na página do desafio**

In [49]:
#Gerando o output requerido para submissão do desafio
output = pd.DataFrame({'NU_INSCRICAO': dados_des.NU_INSCRICAO,
                       'NU_NOTA_MT': test_preds})
output.to_csv('answer.csv', index=False)

In [50]:
#verificando o resultado
test_preds

array([426.47348837, 442.53123644, 687.2375    , ..., 421.35      ,
       442.53123644,   0.        ])

### Outros teste feitos com a finalidade comparar os resultados do modelo gerado na Parte 1

In [51]:
#Exemplo de classificação com Dummy
from sklearn.dummy import DummyRegressor


modelo_dummy = DummyRegressor()
modelo_dummy.fit(train_x, train_y)
dummy_predicoes = modelo_dummy.predict(test_x)


print(mean_squared_error(test_y, dummy_predicoes))
print(mean_absolute_error(test_y, dummy_predicoes))
print(r2_score(dummy_predicoes , test_y))


14497.13384707797
84.7659705894299
-1.1216614027610699e+30


In [52]:
#teste rápido com ramdom forests sem otimizar parâmetros
from sklearn.ensemble import RandomForestRegressor
rf_model = RandomForestRegressor()

# fit your model
rf_model.fit(train_x, train_y)

# Calculate the mean absolute error of your Random Forest model on the validation data
rf_val_predictions = rf_model.predict(test_x)

print(mean_squared_error(test_y, rf_val_predictions))
print(mean_absolute_error(test_y, rf_val_predictions))
print(r2_score(rf_val_predictions , test_y))

  """


5868.385320962301
59.9470589656839
0.39928085979055405


In [53]:
dados_desafio.shape

(4576, 52)