# Lista 07 - Comparando Classificadores

# Exercício 01:

Analise o desempenho do kNN e de uma Regressão Logística Regularizada para **pelo menos um** dos conjuntos de dados abaixo:

* [Avaliação de carros](http://archive.ics.uci.edu/ml/datasets/Car+Evaluation)
* [Avaliação de vinhos](http://archive.ics.uci.edu/ml/datasets/Wine+Quality)
* [Resultados de partidas do jogo Dota](http://archive.ics.uci.edu/ml/datasets/Dota2+Games+Results) (desafiador!)

Para a questão, faça as seguintes tarefas:

* Realize treino, validação e teste
* Compare as métricas no teste
* Reporte a precisão, revocação, F1 e a matriz de confusão

Como já estamos no fim da matéria, você pode agora fazer uso da biblioteca scikit-learn. Afinal, no dia a dia, não implementamos tudo do zero. Abaixo temos os imports que vocês precisam. Leiam a API da biblioteca para saber como fazer uso da mesma.

In [1]:
from sklearn.linear_model import LogisticRegression

from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_recall_fscore_support

from sklearn.neighbors import KNeighborsClassifier

# Um fator importante é que o SKLearn não cria conjuntos de validação para você. Você tem algumas abordagens,
# uma é realizar um novo split no treino. Outra é fazer uso de classificadores com CV no fim.
# Tipo LogisticRegressionCV (ver na API). Por fim, você pode fazer uso da classe GridSearchCV.
# Leia a documentação da mesma.
from sklearn.model_selection import train_test_split

In [2]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.model_selection import cross_validate
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegressionCV
from sklearn.metrics import accuracy_score

%matplotlib inline

plt.rcParams.update({'font.size': 15})

# Base de dados

In [3]:
# Dataset reading
df = pd.read_csv("winequality-red.csv", ';')
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


## Separação dos conjuntos de treino (80%) e teste (20%)

In [4]:
X = df.iloc[:, :-1].copy()
Y = df['quality'].copy()
xTrain, xTest, yTrain, yTest = train_test_split(X, Y, test_size=0.2)

---
# KNN

In [5]:
knn = KNeighborsClassifier()
knn = GridSearchCV(knn, {'n_neighbors':range(1,51)}, cv=5, iid=False)
knn.fit(xTrain, yTrain)
print('Melhor k (entre 1 e 50) encontrado para o KNN: %d'%(knn.best_params_)['n_neighbors'])

Melhor k (entre 1 e 50) encontrado para o KNN: 1


## Métricas

In [6]:
yPred = knn.predict(xTest)
prf1 = precision_recall_fscore_support(yTest, yPred)[:-1]
pd.DataFrame(prf1, columns=range(3,9), index=['Precision', 'Recall', 'F1'])

Unnamed: 0,3,4,5,6,7,8
Precision,0.0,0.0,0.573529,0.601504,0.461538,0.0
Recall,0.0,0.0,0.690265,0.559441,0.473684,0.0
F1,0.0,0.0,0.626506,0.57971,0.467532,0.0


## Matriz de confusão

In [7]:
cm = confusion_matrix(yTest, yPred, labels=range(3,9))
pd.DataFrame(cm, index=range(3,9), columns=range(3,9))

Unnamed: 0,3,4,5,6,7,8
3,0,2,1,0,0,0
4,0,0,6,11,1,1
5,1,1,78,27,5,1
6,0,2,45,80,14,2
7,0,0,5,13,18,2
8,0,0,1,2,1,0


---
# Regressão Logística

In [8]:
lr = LogisticRegressionCV(cv=5, max_iter=10000, multi_class='auto')
lr.fit(xTrain, yTrain)



LogisticRegressionCV(Cs=10, class_weight=None, cv=5, dual=False,
           fit_intercept=True, intercept_scaling=1.0, max_iter=10000,
           multi_class='auto', n_jobs=None, penalty='l2',
           random_state=None, refit=True, scoring=None, solver='lbfgs',
           tol=0.0001, verbose=0)

## Métricas

In [9]:
yPred2 = lr.predict(xTest)
prf12 = precision_recall_fscore_support(yTest, yPred2)[:-1]
pd.DataFrame(prf12, columns=range(3,9), index=['Precision', 'Recall', 'F1'])

  'precision', 'predicted', average, warn_for)


Unnamed: 0,3,4,5,6,7,8
Precision,1.0,0.5,0.539877,0.585366,0.483871,0.0
Recall,0.333333,0.052632,0.778761,0.503497,0.394737,0.0
F1,0.5,0.095238,0.637681,0.541353,0.434783,0.0


## Matriz de confusão

In [10]:
cm = confusion_matrix(yTest, yPred2, labels=range(3,9))
pd.DataFrame(cm, index=range(3,9), columns=range(3,9))

Unnamed: 0,3,4,5,6,7,8
3,1,1,0,1,0,0
4,0,1,11,7,0,0
5,0,0,88,24,1,0
6,0,0,60,72,11,0
7,0,0,4,19,15,0
8,0,0,0,0,4,0


# Comparação

In [11]:
accKNN = accuracy_score(yTest, yPred)
accLR = accuracy_score(yTest, yPred2)

print('Acurácia do KNN: %.2f%%'%(accKNN*100))
print('Acurácia da Regressão Logística: %.2f%%'%(accLR*100))

Acurácia do KNN: 55.00%
Acurácia da Regressão Logística: 55.31%


Explique e discuta sobre os resultados encontrados no campo abaixo.

A acurácia alcançada pelo KNN é superior à acurácia alcançada pela Regressão Logística, mas uma diferença não muito significativa (cerca de 2,5%). Ambos os algoritmos conseguiram uma revocação e precisão boas para vinhos com qualidade mediana (5), porém, o resultado foi ruim para vinhos com qualidade alta (7 e 8).

A Regressão Logística foi executada com 10 mil iterações, porém, não convergiu.