### Resoluçao do problema: https://www.codenation.com.br/journey/data-science/challenge/enem-4.html

## Definição: 
Neste desafio deverá descobrir quais estudantes estão fazendo a prova apenas para treino.

Alguns estudantes decidem realizar prova do ENEM de forma precoce, como um teste (coluna IN_TREINEIRO). Neste desafio, você deve criar um modelo de classificação binária para inferir a mesma. Os resultados possíveis da sua resposta devem ser “0” ou “1”.

Salve sua resposta em um arquivo chamado answer.csv com duas colunas: NU_INSCRICAO e IN_TREINEIRO.


## Importação das bibliotecas

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np
from sklearn import linear_model
from sklearn import metrics
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import tree
from sklearn import svm
from sklearn import neighbors
from sklearn.ensemble import GradientBoostingClassifier
from sklearn import model_selection

## leitura do arquivo de treino

In [2]:
train = pd.read_csv('train.csv')

In [3]:
columns=[
    'NU_NOTA_CN','NU_NOTA_CH','NU_NOTA_LC','NU_NOTA_REDACAO','TP_ST_CONCLUSAO','IN_TREINEIRO'
]

In [4]:
train = train[columns]

## Visualização dos dados após a filtragem

In [5]:
train.head()

Unnamed: 0,NU_NOTA_CN,NU_NOTA_CH,NU_NOTA_LC,NU_NOTA_REDACAO,TP_ST_CONCLUSAO,IN_TREINEIRO
0,436.3,495.4,581.2,520.0,1,0
1,474.5,544.1,599.0,580.0,2,0
2,,,,,3,0
3,,,,,1,0
4,,,,,1,0


## Tratamento de dados faltantes

In [6]:
print(train.isnull().sum())

NU_NOTA_CN         3389
NU_NOTA_CH         3389
NU_NOTA_LC         3597
NU_NOTA_REDACAO    3597
TP_ST_CONCLUSAO       0
IN_TREINEIRO          0
dtype: int64


In [7]:
train.fillna(0, inplace=True)

In [8]:
print(train.isnull().sum())

NU_NOTA_CN         0
NU_NOTA_CH         0
NU_NOTA_LC         0
NU_NOTA_REDACAO    0
TP_ST_CONCLUSAO    0
IN_TREINEIRO       0
dtype: int64


## Separação dos dados de treino entre treino e teste

In [9]:
X = train.values[:, :-1]
y = train.values[:, -1]

In [10]:
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, 
    test_size=0.3, random_state=1)

## Treinamento e avaliçao dos modelos

## DecisionTree

In [11]:
dt = tree.DecisionTreeClassifier()
dt.fit(X_train, y_train)
resposta_dt = dt.predict(X_test)
print(metrics.classification_report(y_test, resposta_dt))
accuracy_dt = metrics.accuracy_score(y_test, resposta_dt)
print('accuracy: ')
print(accuracy_dt)

             precision    recall  f1-score   support

        0.0       0.98      0.96      0.97      3588
        1.0       0.78      0.85      0.81       531

avg / total       0.95      0.95      0.95      4119

accuracy: 
0.9497450837581938


## LogisticRegression

In [12]:
lr = linear_model.LogisticRegression()
lr.fit(X_train, y_train)
resposta_lr = lr.predict(X_test)
print(metrics.classification_report(y_test, resposta_lr))
accuracy_lr = metrics.accuracy_score(y_test, resposta_lr);
print('accuracy: ')
print(accuracy_lr)

             precision    recall  f1-score   support

        0.0       0.89      0.95      0.91      3588
        1.0       0.33      0.18      0.23       531

avg / total       0.81      0.85      0.83      4119

accuracy: 
0.8468074775430929


## SVC

In [13]:
svc = svm.SVC()
svc.fit(X_train, y_train)
resposta_svc = svc.predict(X_test)
print(metrics.classification_report(y_test, resposta_svc))
accuracy_svc = metrics.accuracy_score(y_test, resposta_svc);
print('accuracy: ')
print(accuracy_svc)

             precision    recall  f1-score   support

        0.0       0.89      0.99      0.93      3588
        1.0       0.61      0.14      0.23       531

avg / total       0.85      0.88      0.84      4119

accuracy: 
0.8778829813061423


## KNN

In [14]:
knn = neighbors.KNeighborsClassifier()
knn.fit(X_train, y_train)
resposta_knn = knn.predict(X_test)
print(metrics.classification_report(y_test, resposta_knn))
accuracy_knn = metrics.accuracy_score(y_test, resposta_knn);
print('accuracy: ')
print(accuracy_knn)

             precision    recall  f1-score   support

        0.0       0.89      0.97      0.93      3588
        1.0       0.46      0.17      0.25       531

avg / total       0.83      0.87      0.84      4119

accuracy: 
0.8676863316338917


## GradientBoostingClassifier

In [15]:
modeloGBC = GGradientBoostingClassifier()
modeloGBC.fit(X_train, y_train)
resposta_gbc = modeloGBC.predict(X_test)
print(metrics.classification_report(y_test, resposta_gbc))
accuracy_gbc = metrics.accuracy_score(y_test, resposta_gbc);
print('accuracy: ')
print(accuracy_gbc)

NameError: name 'GGradientBoostingClassifier' is not defined

## Comparação entre modelos

In [None]:
comparacao = pd.DataFrame(data=[[
    accuracy_dt, accuracy_lr, accuracy_svc, accuracy_knn, accuracy_gbc]],
    columns=['DT', 'LR', 'SVC', 'KNN', 'GBC'])

In [None]:
comparacao.head()

In [None]:
comparacao = comparacao.transpose()

In [None]:
comparacao.plot(kind='bar', grid=True);

## Criação do modelo escolhido

In [None]:
test = pd.read_csv('test.csv')

In [None]:
columns=['NU_NOTA_CN','NU_NOTA_CH', 'NU_NOTA_LC', 'NU_NOTA_REDACAO', 'TP_ST_CONCLUSAO']

In [None]:
test = test[columns]

## Tratamento de dados faltantes

In [None]:
print(test.isnull().sum())

In [None]:
test = test.fillna(0)

In [None]:
print(test.isnull().sum())

## realizando a predição com o modelo

In [None]:
definitivo = tree.DecisionTreeClassifier()
definitivo.fit(X, y)
resposta_definitivo = definitivo.predict(test.values)

## Criação do arquivo csv

In [None]:
answer = pd.DataFrame()
answer['NU_INSCRICAO'] = pd.read_csv('test.csv')['NU_INSCRICAO']
answer['IN_TREINEIRO'] = resposta_definitivo

In [None]:
answer.shape

In [None]:
answer.head()

In [None]:
answer.to_csv('answer.csv', index=False)

## Após submeter o arquivo 'answer.csv' para a codenation, foi obtida a pontuação de 95%