# Trabalho prático II - Classificação

O objetivo deste trabalho é praticar os conceitos de aprendizado supervisionado que vimos em sala.

A sua tarefa será treinar um classificador para um conjunto de dados misterioso (se eu falasses qual é o objetivo do modelo, você encontraria soluções na Internet).

Baixe o arquivo [t2.tar.gz](https://drive.google.com/file/d/125plHKUzFGxHjjCiVJcTQG2bPG_zgDNV/view?usp=sharing). Descoprima este arquivo para encontrar outros quatro. Os arquivos `train_X.csv` e `train_y.csv` possuem os dados que você deve usar para treinar o modelo. O arquivo `test_X.csv` possui os objetos para os quais você deve encontrar as classes (testar o modelo). Por fim, o arquivo `test_example_y.csv` é um exemplo de como sua solução final deve ser organizada.

Cada linha dos arquivos `train_X.csv` e `test_X.csv` tem 15 campos descrevendo um objeto misterioso. O campo `id` representa o identificador do objeto, sendo que este campo não deve ser considerado em seu modelo. Os atributos a serem usados no modelo são os 14 campos rotulados de de `a` até `n`. Desses atributos:
- `b`, `d`, `f`, `g`, `h`, `i`, `j` e `n` são categóricos; e
- `a`, `c`, `e`, `k`, `l` e `m` são numéricos.

Cada linha do arquivo `train_y.csv` possui dois campos. O primeiro é o identificador de um objeto do arquivo `train_X.csv` e o segundo é a classe do respectivo objeto (0 ou 1).

Seu objetivo é encontrar as classes dos objetos do arquivo `test_X.csv` e mostrar como chegou em sua solução! Os dados do arquivo de teste foram obtido a partir de uma amostra aleatório do todo. Ou seja, um modelo bem treinado, e sem _overfitting_, em `train_X.csv` e `train_y.csv` se sairá bem em `test_X.csv`.

**Data de entrega:** dia 4 de julho de 2018.

**Grupo:** de até 3 pessoas, mas duas pessoas do mesmo grupo no trabalho 1 não podem pertencer ao mesmo grupo nesse trabalho.

**Valor:** 20% da nota do semestre.

Os três seguintes pontos descrevem o que obrigatoriamente deve ser entregue, com seu respectivo valor.

1 - **[10 pontos]** Este notebook com todo seu código e resultados (números, tabelas e gráficos). Você pode usar qualquer um dos métodos que estudamos ou alguma de suas variações próximas. Se estiver na dúvida se pode usar um método, basta perguntas no Piazza. Comentários e justificativas no notebook não serão considerados para sua nota.
O notebook deve ser enviado para o email do professor.

2 - **[8 pontos]** Um relatório digitado contendo: capa, introdução, metodologia, resultados, conclusão e referências. O relatório deve ter no máximo 10 páginas, com coluna simples, fonte 11, espaçamento 1.5 e margens de 2cm. A seção de metodologia deve conter uma descrição detalhada dos passos seguidos (não incluir código no relatório). A seção de resultados deve conter obrigatoriamente: uma caracterização descritiva dos dados, matriz de confusão das predições, _precision_, _recall_, _F1 score_ e acurácia. Todas as métricas de predição devem ser calculadas a partir dos arquivos de treinamento por meio de validação cruzada.
O relatório deve ser enviado para o email do professor.

3 - **[2 pontos + equivalente a lista extra pela classificação]** A sua predição final do arquivo `test_X.csv` deve ser enviada para o professor por email. O formato deve ser o mesmo do arquivo `train_y.csv`, assim como exemplificado em `test_example_y.csv` (mas repare que as classes desse último arquivo foram gerados de forma aleatória). Em outras palavras, o arquivo a ser entregue deve ter dois campos. O campo `id` é o identificador do objeto em `test_X.csv` e o campo `label` é a classe que seu modelo encontrou para o objeto em questão. A primeira linha do arquivo deve conter os nomes das colunas.
A entrega desse arquivo é obrigatória e vale dois pontos. Além disso, o trabalho com maior _F1 score_ ganhará o equivalente a 100% de uma lista extra. O trabalho com o pior _F1 score_ não ganhará nota extra alguma. Os demais trabalhos terão nota proporcional.
O professor se reserva o direito de anular esse quesito (nota extra) se houver indícios de má conduta durante a competição.

**Kaggle:** Estou tentando criar uma competição para esse trabalho na plataforma _Kaggle_. Se eu conseguir, compartilho o _link_ com você no _Piazza_.

### Bibliotecas

In [12]:
import pandas as pd
import sklearn.feature_selection as features
from sklearn.naive_bayes import GaussianNB, MultinomialNB
from sklearn.model_selection import GridSearchCV, train_test_split
from sklearn.ensemble import RandomForestClassifier, VotingClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, f1_score, precision_score, recall_score
from sklearn import tree, svm
import numpy as np
import graphviz

### Leitura dos arquivos de dados

In [2]:
X = pd.read_csv("data/pd_trainX.csv")
y = pd.read_csv("data/pd_trainY.csv", header=None)
testX = pd.read_csv("data/pd_testX.csv")

X = X.drop(columns=["id"]).values
y = (y.T).values[0]

### Divisão do conjunto de treino/teste e algoritmos

In [3]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33)

In [13]:
nb = GaussianNB()
nb.fit(X_train, y_train)
            
print(accuracy_score(y_test, nb.predict(X_test)))
print()
print(confusion_matrix(y_test, nb.predict(X_test)))
print()
print(f1_score(y_test, nb.predict(X_test)))
print()
print(precision_score(y_test, nb.predict(X_test)))
print()
print(recall_score(y_test, nb.predict(X_test)))

0.7635226759077897

[[9619  435]
 [2704  516]]

0.2474226804123711

0.5425867507886435

0.16024844720496895


In [14]:
nb_mult = MultinomialNB()
nb_mult.fit(X_train, y_train)

print(accuracy_score(y_test, nb_mult.predict(X_test)))
print()
print(confusion_matrix(y_test, nb_mult.predict(X_test)))
print()
print(f1_score(y_test, nb_mult.predict(X_test)))
print()
print(precision_score(y_test, nb_mult.predict(X_test)))
print()
print(recall_score(y_test, nb_mult.predict(X_test)))

0.7616392948621366

[[9485  569]
 [2595  625]]

0.28318985047575895

0.5234505862646566

0.19409937888198758


In [15]:
dt = tree.DecisionTreeClassifier()
dt.fit(X_train, y_train)

print(accuracy_score(y_test, dt.predict(X_test)))
print()
print(confusion_matrix(y_test, dt.predict(X_test)))
print()
print(f1_score(y_test, dt.predict(X_test)))
print()
print(precision_score(y_test, dt.predict(X_test)))
print()
print(recall_score(y_test, dt.predict(X_test)))

#dot_data = tree.export_graphviz(dt, out_file=None,
#                         filled=True, rounded=True,  
#                         special_characters=True) 
#graph = graphviz.Source(dot_data).view()

0.7186228717794184

[[8036 2018]
 [1717 1503]]

0.4459279038718291

0.4268673672252201

0.46677018633540374


In [16]:
params_rfc = {'n_estimators': list(range(1000, 1001, 500))}

rfc = GridSearchCV(RandomForestClassifier(), params_rfc, n_jobs=-1, verbose = 10) 
rfc.fit(X_train, y_train)

print(accuracy_score(y_test, rfc.predict(X_test)))
print()
print(confusion_matrix(y_test, rfc.predict(X_test)))
print()
print(f1_score(y_test, rfc.predict(X_test)))
print()
print(precision_score(y_test, rfc.predict(X_test)))
print()
print(recall_score(y_test, rfc.predict(X_test)))

Fitting 3 folds for each of 1 candidates, totalling 3 fits


[Parallel(n_jobs=-1)]: Done   3 out of   3 | elapsed:   47.1s remaining:    0.0s
[Parallel(n_jobs=-1)]: Done   3 out of   3 | elapsed:   47.1s finished


0.7938827783637186

[[9078  976]
 [1760 1460]]

0.5162659123055163

0.5993431855500821

0.453416149068323


In [7]:
params_svc = {'C': np.logspace(-10, 10, 5), 'gamma': np.logspace(-10, 10, 5), 'kernel': ['linear', 'rbf', 'poly', 'sigmoid']}

svc = GridSearchCV(svm.SVC(kernel = 'rbf'), params_svc, n_jobs = -1, verbose = 10)
svc.fit(X_train, y_train)

print(accuracy_score(y_test, svc.predict(X_test)))

Fitting 3 folds for each of 1 candidates, totalling 3 fits


[Parallel(n_jobs=-1)]: Done   3 out of   3 | elapsed:  1.5min remaining:    0.0s
[Parallel(n_jobs=-1)]: Done   3 out of   3 | elapsed:  1.5min finished


0.7574205213198735


In [10]:
vc = VotingClassifier(estimators=[('nb', nb), ('nb_mult', nb_mult), ('dt', dt), ('rfc', rfc), ('svc', svc)], 
                      voting='hard', n_jobs=-1)
vc.fit(X_train, y_train)

print(accuracy_score(y_test, vc.predict(X_test)))

0.7865752599065843


  if diff:
