# Desafio #QuarentenaDados

Bem-vinda e bem-vindo ao desafio #QuarentenaDados valendo um **Nintendo Switch**!

Esse notebook traz informações dos dados e como você deve configurar seu arquivo final para submissão.

**Caso queira usar esse notebook como exemplo para desenvolver seu projeto, clique em file e escolha a opção Save a copy in Drive**


Vamos trabalhar com uma amostra aleatória da base de dados MICRODADOS ENEM 2018, essa amostra é **diferente da apresentada em aula**. Junto com a divulgação do resultado final estaremos disponibilizando o código que gerou os dados para que você possa analisar e reproduzir os datasets. 

Seu objetivo é prever da melhor forma possível a nota das provas de **linguagens e códigos** (NU_NOTA_LC), dado todas as outras notas. O modelo que tiver o menor **erro quadrático médio (MSE)** vence o desafio.

Para o desafio você tem três bases à disposição, duas para desenvolver seu modelo e uma para submissão da predição. As bases são as seguintes:

- **dados_treino**: São 1500000 linhas contendo a nota das 4 provas + nota de redação.

- **dados_teste**: São 20000 linhas contendo com notas das 4 provas + nota de redação.

- **dados_desafioqt**: São 10000 linhas com nota de 3 provas + nota de redação. A nota da prova de **Linguagem e Codigos** (NU_NOTA_LC) não está disponível nessa base.


As base **dados_treino e dados_teste**, contém as seguintes colunas; **NU_NOTA_CN, NU_NOTA_CH, NU_NOTA_MT, NU_NOTA_REDACAO, NU_NOTA_LC** (Você pode consultar a aula 5, onde o Guilherme explica o significado das siglas). A coluna que você deve realizar a **previsão** é **NU_NOTA_LC**. Você pode manipular os dados da forma que quiser, o importante é que no final submeta o arquivo com as informações corretas (detalhes da submissão serão discutidos no final deste notebook).

A base **dados_desafioqt**, contém as seguintes colunas; **ID, NU_NOTA_CN, NU_NOTA_CH, NU_NOTA_MT, NU_NOTA_REDACAO**. Repare que os dados **NU_NOTA_LC** não estão presentes, essa é justamente a informação que você precisa prever. Nós temos os valores reais das notas, no final do prazo de submissão um script irá avaliar sua previsão e dará uma nota para o seu modelo. Nessa base também temos o **ID**, essa informação é importante para o envio da sua previsão, garanta que a nota prevista corresponda ao respectivo **ID**.

Se você está habituado com o desenvolvimento de modelos de ML, repare que essa divisão de dados é exatamente a mesma que Treino, Teste e Validação. 

Abaixo preparamos um código exemplo para você seguir, sinta-se à vontade para experimentar diversos outros métodos, mas **GARANTA QUE O ARQUIVO DE SUBMISSÃO ESTEJA CONFIGURADO CORRETAMENTE**.

Na primeira parte, estamos lendo a base de dados direto de arquivos no github.






In [0]:
import pandas as pd

URI_TREINO = "https://github.com/tgcsantos/quaretenadados/blob/master/DADOS_TREINO.csv?raw=true"
URI_TESTE = "https://github.com/tgcsantos/quaretenadados/raw/master/DADOS_TESTE.csv"
URI_DESAFIOQT = "https://github.com/tgcsantos/quaretenadados/raw/master/DESAFIOQT.csv"

dados_treino = pd.read_csv(URI_TREINO)
dados_teste = pd.read_csv(URI_TESTE)
dados_desafioqt = pd.read_csv(URI_DESAFIOQT)

erro_treino = "Erro ao carregar dados de treino"
erro_teste = "Erro ao carregar dados de teste"
erro_desafioqt = "Erro ao carregar dados de submissão"

assert dados_treino.shape == (150000, 5), erro_treino
assert dados_teste.shape == (20000, 5), erro_teste
assert dados_desafioqt.shape == (10000, 5), erro_desafioqt

Agora com as bases de dados lidas, vamos separar as informações de cada dataset. X_treino e Y_treino são as **features**, X_teste e Y_teste são as **labels** a serem previstas.

Duas observações nesta parte:

- 1° Como já disponibilizamos os dados de treino e teste separados, você não precisa fazer *train_test_split* feito em aula (porém fique à vontade para trabalhar da forma que achar melhor).

- 2° Transformamos X_treino, Y_treino, X_teste, Y_teste em arrays numpy. Se você quiser usar uma biblioteca que não aceite dataframe como entrada de dados, já deixamos pronto para você.

In [0]:
coluna_label = 'NU_NOTA_LC'
coluna_features = ['NU_NOTA_CN', 'NU_NOTA_CH', 'NU_NOTA_MT', 'NU_NOTA_REDACAO']

X_treino = dados_treino[coluna_features].to_numpy()
Y_treino = dados_treino[coluna_label].to_numpy()
X_teste = dados_teste[coluna_features].to_numpy()
Y_teste = dados_teste[coluna_label].to_numpy()


A seguir criamos um modelo **Dummy** como exemplo e realizamos a avaliação do modelo com o **mean_squared_error**. 

Você pode usar qualquer algoritmo ou biblioteca para criar seus modelos, mas garanta que fará a avaliação com o mean_squared_error, pois usaremos essa métrica para avaliar sua predição final.

In [0]:
#Exemplo de classificação com Dummy
from sklearn.dummy import DummyRegressor
from sklearn.metrics import mean_squared_error

modelo_dummy = DummyRegressor()
modelo_dummy.fit(X_treino, Y_treino)
dummy_predicoes = modelo_dummy.predict(X_teste)

avaliacao_dummy = mean_squared_error(Y_teste, dummy_predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao_dummy}")

Minha avaliação nos dados de teste foi de 5219.286870186777


Depois que você criou testou e validou seu modelo, chegou a hora de preparar seu arquivo para a submissão do resultado.

No código abaixo, estamos realizando a predição das notas de **linguagem e códigos** do dataset **dados_desafioqt**. Feita a previsão, criamos um dataframe novo para a submissão, primeiro crimos a coluna **ID** e adicionamos a coluna **NU_NOTA_LC** com suas respectivas previsões (repare que nosso modelo não alterou as ordens dos ID's, mas se você utilizar algum modelo que embaralhe essa ordem certifique de colocar a previsão correta para o ID correto).

Após isso, salvamos o dataframe com ´.to_csv()´ (**importante, passe o parâmetro index=False para `.to_csv()`, caso contrário nosso script não computará sua nota**) no arquivo **PREDICAO_DESAFIOQT.csv (você precisa submeter o arquivo com esse nome, caso contrário nosso script de avaliação não computará sua nota**)  e utilizamos o `files.download` para baixar o arquivo em sua máquina local.

Feito tudo isso você está quase pronto para finalizar e submeter seu resultado. Você já baixou os dados, treinou e validou seu modelo, salvou sua previsão **no padrão ideal para submissão** e já está com o modelo baixado em sua máquina. Entretanto, ainda falta um detalhe: no momento de preencher o **forms** você precisa enviar seu código. Caso esteja usando os notebooks do colab siga as seguintes instruções para o download:

- Clique em **File** na parte superior esquerda.
- Depois selecione a opção **Download .ipynb** (também aceitaremos o .py caso você prefira desenvolver seu projeto em um arquivo python).


Pronto agora é só submeter seu resultado e torcer para levar um **Nintendo Switch** para casa.

Boa sorte!

## Testes de modelos

Implementando técnicas já estudadas ( regressão linear e árvore de decisão )

In [0]:
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import LinearSVR

### LinearSVR()

In [0]:
modelo1 = LinearSVR()
modelo1.fit(X_treino, Y_treino)



LinearSVR(C=1.0, dual=True, epsilon=0.0, fit_intercept=True,
          intercept_scaling=1.0, loss='epsilon_insensitive', max_iter=1000,
          random_state=None, tol=0.0001, verbose=0)

In [0]:
predicoes = modelo1.predict(X_teste)

avaliacao1 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao1}")

Minha avaliação nos dados de teste foi de 3411.7896247883664


### Árvore de decisão

In [0]:
modelo2 = DecisionTreeRegressor()
modelo2.fit(X_treino, Y_treino)

DecisionTreeRegressor(ccp_alpha=0.0, criterion='mse', max_depth=None,
                      max_features=None, max_leaf_nodes=None,
                      min_impurity_decrease=0.0, min_impurity_split=None,
                      min_samples_leaf=1, min_samples_split=2,
                      min_weight_fraction_leaf=0.0, presort='deprecated',
                      random_state=None, splitter='best')

In [0]:
predicoes = modelo2.predict(X_teste)

avaliacao2 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao2}")

Minha avaliação nos dados de teste foi de 4243.585582


### Regressão linear

Baseado em "https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html"

In [0]:
from sklearn.linear_model import LinearRegression 

In [0]:
modelo3 = LinearRegression()
modelo3.fit(X_treino, Y_treino)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=False)

In [0]:
predicoes = modelo3.predict(X_teste)

avaliacao3 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao3}")

Minha avaliação nos dados de teste foi de 2177.3839304103562


### Regressão linear com normalização

In [0]:
modelo4 = LinearRegression( normalize=True)
modelo4.fit(X_treino, Y_treino)

LinearRegression(copy_X=True, fit_intercept=True, n_jobs=None, normalize=True)

In [0]:
predicoes = modelo4.predict(X_teste)

avaliacao4 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao4}")

Minha avaliação nos dados de teste foi de 2177.3839304103562


### Floresta aleatória de regressão

In [0]:
from sklearn.ensemble import RandomForestRegressor

In [0]:
modelo5 = RandomForestRegressor()
modelo5.fit(X_treino, Y_treino)

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',
                      max_depth=None, max_features='auto', max_leaf_nodes=None,
                      max_samples=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      n_estimators=100, n_jobs=None, oob_score=False,
                      random_state=None, verbose=0, warm_start=False)

In [0]:
predicoes = modelo5.predict(X_teste)

avaliacao5 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao5}")

Minha avaliação nos dados de teste foi de 2211.3640697620494


### Floresta aleatória de regressão com 1000 n_estimators

In [0]:
modelo6 = RandomForestRegressor(n_estimators = 1000)
modelo6.fit(X_treino, Y_treino)

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',
                      max_depth=None, max_features='auto', max_leaf_nodes=None,
                      max_samples=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      n_estimators=1000, n_jobs=None, oob_score=False,
                      random_state=None, verbose=0, warm_start=False)

In [0]:
predicoes = modelo6.predict(X_teste)

avaliacao6 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao6}")

Minha avaliação nos dados de teste foi de 2189.6502591040453


### Floresta aleatória de regressão com 300 n_estimators

In [0]:
modelo6a = RandomForestRegressor(n_estimators = 300)
modelo6a.fit(X_treino, Y_treino)

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',
                      max_depth=None, max_features='auto', max_leaf_nodes=None,
                      max_samples=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      n_estimators=300, n_jobs=None, oob_score=False,
                      random_state=None, verbose=0, warm_start=False)

In [0]:
predicoes = modelo6a.predict(X_teste)

avaliacao6a = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao6a}")

Minha avaliação nos dados de teste foi de 2195.3279158471614


### Support Vector Machine  Regression

In [0]:
from sklearn.svm import SVR

In [0]:
modelo7 = SVR()
modelo7.fit(X_treino, Y_treino)

In [0]:
predicoes = modelo7.predict(X_teste)

avaliacao7 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao7}")

Minha avaliação nos dados de teste foi de 2110.1659855384887


### K-Nearest Neighbors

In [0]:
from sklearn.neighbors import KNeighborsRegressor

In [0]:
modelo8 = KNeighborsRegressor()
modelo8.fit(X_treino, Y_treino)

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
                    metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                    weights='uniform')

In [0]:
predicoes = modelo8.predict(X_teste)

avaliacao8 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao8}")

Minha avaliação nos dados de teste foi de 2455.08526474


### SGDRegressor

In [0]:
from sklearn.linear_model import SGDRegressor

In [0]:
modelo9 = SGDRegressor(max_iter=100)
modelo9.fit(X_treino, Y_treino)



SGDRegressor(alpha=0.0001, average=False, early_stopping=False, epsilon=0.1,
             eta0=0.01, fit_intercept=True, l1_ratio=0.15,
             learning_rate='invscaling', loss='squared_loss', max_iter=100,
             n_iter_no_change=5, penalty='l2', power_t=0.25, random_state=None,
             shuffle=True, tol=0.001, validation_fraction=0.1, verbose=0,
             warm_start=False)

In [0]:
predicoes = modelo9.predict(X_teste)

avaliacao9 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao9}")

Minha avaliação nos dados de teste foi de 4.499924936624421e+27


### K-Nearest Neighbors com distance

In [0]:
modelo10 = KNeighborsRegressor(weights='distance')
modelo10.fit(X_treino, Y_treino)

KNeighborsRegressor(algorithm='auto', leaf_size=30, metric='minkowski',
                    metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                    weights='distance')

In [0]:
predicoes = modelo10.predict(X_teste)

avaliacao10 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao10}")

Minha avaliação nos dados de teste foi de 2500.4742204537565


### XGBOOST

In [0]:
import xgboost as xgb

In [0]:
modelo11 = xgb.XGBRegressor()
modelo11.fit(X_treino, Y_treino)



XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=0,
             importance_type='gain', learning_rate=0.1, max_delta_step=0,
             max_depth=3, min_child_weight=1, missing=None, n_estimators=100,
             n_jobs=1, nthread=None, objective='reg:linear', random_state=0,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
             silent=None, subsample=1, verbosity=1)

In [0]:
predicoes = modelo11.predict(X_teste)

avaliacao11 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao11}")

Minha avaliação nos dados de teste foi de 2046.9509425824888


### Floresta aleatória de regressão com 500 n_estimators

In [0]:
modelo12 = RandomForestRegressor(n_estimators = 500)
modelo12.fit(X_treino, Y_treino)

RandomForestRegressor(bootstrap=True, ccp_alpha=0.0, criterion='mse',
                      max_depth=None, max_features='auto', max_leaf_nodes=None,
                      max_samples=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      n_estimators=500, n_jobs=None, oob_score=False,
                      random_state=None, verbose=0, warm_start=False)

In [0]:
predicoes = modelo12.predict(X_teste)

avaliacao12 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao12}")

Minha avaliação nos dados de teste foi de 2192.1748362008016


### XGBRegressor com n_estimators = 300

In [0]:
modelo13 = xgb.XGBRegressor(base_score=0.5, n_estimators=300)
modelo13.fit(X_treino, Y_treino)



XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=0,
             importance_type='gain', learning_rate=0.1, max_delta_step=0,
             max_depth=3, min_child_weight=1, missing=None, n_estimators=300,
             n_jobs=1, nthread=None, objective='reg:linear', random_state=0,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
             silent=None, subsample=1, verbosity=1)

In [0]:
predicoes = modelo13.predict(X_teste)

avaliacao13 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao13}")

Minha avaliação nos dados de teste foi de 2050.8502572781376


### Regressão com redes neurais

In [0]:
from sklearn.neural_network import MLPRegressor

modelo14 = MLPRegressor()
modelo14.fit(X_treino, Y_treino)

MLPRegressor(activation='relu', alpha=0.0001, batch_size='auto', beta_1=0.9,
             beta_2=0.999, early_stopping=False, epsilon=1e-08,
             hidden_layer_sizes=(100,), learning_rate='constant',
             learning_rate_init=0.001, max_fun=15000, max_iter=200,
             momentum=0.9, n_iter_no_change=10, nesterovs_momentum=True,
             power_t=0.5, random_state=None, shuffle=True, solver='adam',
             tol=0.0001, validation_fraction=0.1, verbose=False,
             warm_start=False)

In [0]:
predicoes = modelo14.predict(X_teste)

avaliacao14 = mean_squared_error(Y_teste, predicoes)

print(f"Minha avaliação nos dados de teste foi de {avaliacao14}")

Minha avaliação nos dados de teste foi de 2169.0016730795314


Comparando os modelos utilizados vendo qual deles apresentou o menor erro quadrático médio (MSE) através da função *min()*.

In [0]:
min(avaliacao1, avaliacao2, avaliacao3, avaliacao4, avaliacao5, avaliacao6, avaliacao7, avaliacao8, avaliacao9, avaliacao10, avaliacao11, avaliacao12, avaliacao13, avaliacao14)

2046.9509425824888

Conforme resultado da linha acima, o melhor modelo foi XGBOOST.

## Gerando arquivo CSV do modelo com melhor desempenho

In [0]:
#atribuir ao MODELO o nome do seu melhor modelo
from google.colab import files

MODELO = modelo11 #modelo_dummy
X_desafioqt = dados_desafioqt[coluna_features].to_numpy()
predicao_desafioqt = MODELO.predict(X_desafioqt)


desafio_df = pd.DataFrame(dados_desafioqt.ID)
desafio_df[coluna_label] = predicao_desafioqt

#NÃO TROCAR O NOME DO ARQUIVO DE SAÍDA (PREDICAO_DESAFIO)
desafio_df.to_csv('PREDICAO_DESAFIOQT.csv', index=False) 
files.download('PREDICAO_DESAFIOQT.csv')

