# Descubra quem fez o ENEM 2016 apenas para treino

Neste desafio deverá descobrir quais estudantes estão fazendo a prova apenas para treino.

## Tópicos

Neste desafio você aprenderá:

- Python
- Pandas
- Sklearn
- Regression
- Classification

## Detalhes

O contexto do desafio gira em torno dos resultados do ENEM 2016 (disponíveis no arquivo train.csv). Este arquivo, e apenas ele, deve ser utilizado para todos os desafios. Qualquer dúvida a respeito das colunas, consulte o [Dicionário dos Microdados do Enem 2016](https://s3-us-west-1.amazonaws.com/acceleration-assets-highway/data-science/dicionario-de-dados.zip).

Alguns estudantes decidem realizar prova do ENEM de forma precoce, como um teste (coluna IN_TREINEIRO). Neste desafio, você deve criar um modelo de classificação binária para inferir a mesma. Os resultados possíveis da sua resposta devem ser “0” ou “1”.

Salve sua resposta em um arquivo chamado answer.csv com duas colunas: `NU_INSCRICAO` e `IN_TREINEIRO`.

In [103]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.impute import SimpleImputer
from sklearn.preprocessing import Normalizer, StandardScaler
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.decomposition import PCA
from imblearn.over_sampling import SMOTE
from sklearn.metrics import classification_report
from sklearn.model_selection import cross_val_predict

In [3]:
# Algumas configurações para o matplotlib.
from IPython.core.pylabtools import figsize
%matplotlib inline


figsize(12, 8)

sns.set()

## Importando os dados de treino e teste

In [4]:
train = pd.read_csv('train.csv')
test = pd.read_csv('test.csv')

## Analise Exploratória e Seleção de Features

Verificar se as colunas do dataset de teste estão no dataset de treino

In [5]:
print(set(test.columns).issubset(set(train.columns)))

True


Verificar a correlação entre as variáveis e optar por aquela maiores que ` > 0.25` ou menores que ` < -0.25`

In [28]:
corr = train.corr()
corr =  corr[(corr['IN_TREINEIRO'] > 0.25) | (corr['IN_TREINEIRO'] < -0.25)]
corr = corr['IN_TREINEIRO']

In [39]:
corr

NU_IDADE          -0.295091
TP_ST_CONCLUSAO    0.533983
TP_ANO_CONCLUIU   -0.257710
IN_TREINEIRO       1.000000
Name: IN_TREINEIRO, dtype: float64

In [35]:
features = corr.index.drop('IN_TREINEIRO')

In [36]:
features

Index(['NU_IDADE', 'TP_ST_CONCLUSAO', 'TP_ANO_CONCLUIU'], dtype='object')

Criando os dataset T (*Test*), X (*Train*), y (*Target*) com as features selecionadas por correlação

In [48]:
y = train['IN_TREINEIRO']

In [49]:
X = train[features]

In [50]:
T = test[features]

Criar o dataset de resposta com os dados das inscrições do dataset de teste

In [51]:
answer = pd.DataFrame()
answer['NU_INSCRICAO'] = test['NU_INSCRICAO']

Analise dos dados nos datasets apos a seleção de features

In [59]:
print(X.shape ,  y.shape)

(13730, 3) (13730,)


In [54]:
T.shape

(4570, 3)

In [61]:
X.dtypes

NU_IDADE           int64
TP_ST_CONCLUSAO    int64
TP_ANO_CONCLUIU    int64
dtype: object

In [62]:
T.dtypes

NU_IDADE           int64
TP_ST_CONCLUSAO    int64
TP_ANO_CONCLUIU    int64
dtype: object

In [63]:
X_pivot = pd.DataFrame({'columns': X.columns,
                        'types': X.dtypes,
                        'nulls': X.isna().sum(),
                        '% nulls': X.isna().sum() / X.shape[0],
                        'size': X.shape[0],
                        'uniques': X.nunique()})
X_pivot

Unnamed: 0,columns,types,nulls,% nulls,size,uniques
NU_IDADE,NU_IDADE,int64,0,0.0,13730,55
TP_ST_CONCLUSAO,TP_ST_CONCLUSAO,int64,0,0.0,13730,4
TP_ANO_CONCLUIU,TP_ANO_CONCLUIU,int64,0,0.0,13730,11


In [64]:
T_pivot = pd.DataFrame({'columns': T.columns,
                        'types': T.dtypes,
                        'nulls': T.isna().sum(),
                        '% nulls': T.isna().sum() / T.shape[0],
                        'size': T.shape[0],
                        'uniques': T.nunique()})
T_pivot

Unnamed: 0,columns,types,nulls,% nulls,size,uniques
NU_IDADE,NU_IDADE,int64,0,0.0,4570,47
TP_ST_CONCLUSAO,TP_ST_CONCLUSAO,int64,0,0.0,4570,4
TP_ANO_CONCLUIU,TP_ANO_CONCLUIU,int64,0,0.0,4570,11


Verificando se os dados das classses estão desbalanceados

In [82]:
y.value_counts()

0    11947
1     1783
Name: IN_TREINEIRO, dtype: int64

* Será necessario aplicar técnicas para classes desbalanceadas, escolhi utilizar a técnica `SMOTE`

## Construção do pipline 
* Escalando os dados `StandardScaler`
* Redução de dimensionalidade
* Classificador Foresta aleátoria `RandomForest`

In [97]:
pipeline = Pipeline(steps=[
    ("Scaler", StandardScaler()),
    ("PCA", PCA()),
    ("RF", RandomForestClassifier(n_estimators=100, random_state=42))
])

Separando os dados para treino e teste

In [98]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

Treinando o modelo

In [99]:
pipe = pipeline.fit(X_train, y_train)

Verificando as metricas e score do modelo

In [117]:
resultados_random = cross_val_predict(pipe, X_train, y_train, cv=5)

In [119]:
print(classification_report(y_train,resultados_random))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00      8370
           1       1.00      0.98      0.99      1241

    accuracy                           1.00      9611
   macro avg       1.00      0.99      0.99      9611
weighted avg       1.00      1.00      1.00      9611



In [111]:
pipe.score(X_test, y_test)

0.9968438941490653

Prevendo os treineiros do conjunto de test

In [120]:
y_pred = pipe.predict(T)

In [122]:
answer['IN_TREINEIRO'] = np.around(y_pred,2)

In [123]:
answer.to_csv('answer.csv', index=False, header=True)

In [124]:
answer.head()

Unnamed: 0,NU_INSCRICAO,IN_TREINEIRO
0,ba0cc30ba34e7a46764c09dfc38ed83d15828897,0
1,177f281c68fa032aedbd842a745da68490926cd2,0
2,6cf0d8b97597d7625cdedc7bdb6c0f052286c334,1
3,5c356d810fa57671402502cd0933e5601a2ebf1e,0
4,df47c07bd881c2db3f38c6048bf77c132ad0ceb3,0
