# Lista 07 - Comparando Classificadores

# Exercício 01:

Analise o desempenho do kNN e de uma Regressão Logística Regularizada para **pelo menos um** dos conjuntos de dados abaixo:

* [Avaliação de carros](http://archive.ics.uci.edu/ml/datasets/Car+Evaluation)
* [Avaliação de vinhos](http://archive.ics.uci.edu/ml/datasets/Wine+Quality)
* [Resultados de partidas do jogo Dota](http://archive.ics.uci.edu/ml/datasets/Dota2+Games+Results) (desafiador!)

Para a questão, faça as seguintes tarefas:

* Realize treino, validação e teste
* Compare as métricas no teste
* Reporte a precisão, revocação, F1 e a matriz de confusão

Como já estamos no fim da matéria, você pode agora fazer uso da biblioteca scikit-learn. Afinal, no dia a dia, não implementamos tudo do zero. Abaixo temos os imports que vocês precisam. Leiam a API da biblioteca para saber como fazer uso da mesma.

In [75]:
from sklearn.linear_model import LogisticRegression

from sklearn.metrics import confusion_matrix
from sklearn.metrics import precision_recall_fscore_support

from sklearn.neighbors import KNeighborsClassifier

# Um fator importante é que o SKLearn não cria conjuntos de validação para você. Você tem algumas abordagens,
# uma é realizar um novo split no treino. Outra é fazer uso de classificadores com CV no fim.
# Tipo LogisticRegressionCV (ver na API). Por fim, você pode fazer uso da classe GridSearchCV.
# Leia a documentação da mesma.
from sklearn.model_selection import train_test_split

In [76]:
import pandas as pd

wine_white = pd.read_csv('winequality-white.csv', sep = ';')
wine_red = pd.read_csv('winequality-red.csv', sep = ';')
wines = wine_white
wines = wines.append(wine_red)
wines.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8,6
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5,6
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1,6
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9,6


In [77]:
target = wines.quality
target.head()

0    6
1    6
2    6
3    6
4    6
Name: quality, dtype: int64

In [78]:
wines.quality.unique()

array([6, 5, 7, 8, 4, 3, 9], dtype=int64)

In [79]:
n = wines.quality.unique().size

In [80]:
wines = wines.drop("quality", axis = 1)
wines.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
0,7.0,0.27,0.36,20.7,0.045,45.0,170.0,1.001,3.0,0.45,8.8
1,6.3,0.3,0.34,1.6,0.049,14.0,132.0,0.994,3.3,0.49,9.5
2,8.1,0.28,0.4,6.9,0.05,30.0,97.0,0.9951,3.26,0.44,10.1
3,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9
4,7.2,0.23,0.32,8.5,0.058,47.0,186.0,0.9956,3.19,0.4,9.9


In [81]:
(xTrain, xTest, yTrain, yTest) = train_test_split(wines, target, test_size=0.4)

In [95]:
knn = KNeighborsClassifier(n_neighbors = n)
knn.fit(xTrain, yTrain) 

predictionsKnn = knn.predict(xTest)
predictionsKnn

array([5, 6, 6, ..., 5, 7, 6], dtype=int64)

In [94]:
scoreKnn = knn.score(xTest, yTest)
print("Score: ", scoreKnn)

Score:  0.458637937668334


In [83]:
from sklearn.metrics import precision_score

print("Precisão")
precision_score(yTest, predictionsKnn, average=None)

Precisão


  'precision', 'predicted', average, warn_for)


array([0.        , 0.20833333, 0.441     , 0.48916409, 0.41603053,
       0.23809524, 0.        ])

In [84]:
from sklearn.metrics import recall_score
recall_score(yTest, predictionsKnn, average=None)

array([0.        , 0.05882353, 0.52688172, 0.56478999, 0.24168514,
       0.05813953, 0.        ])

In [85]:
from sklearn.metrics import f1_score
f1_score(yTest, predictionsKnn, average=None)

  'precision', 'predicted', average, warn_for)


array([0.        , 0.09174312, 0.48013065, 0.52426379, 0.30575035,
       0.09345794, 0.        ])

In [92]:
print("Matriz de confusão")
confusion_matrix(yTest, predictionsKnn)

#array([6, 5, 7, 8, 4, 3, 9], dtype=int64)

Matriz de confusão


array([[  0,   0,  10,   8,   1,   0,   0],
       [  0,   5,  42,  34,   4,   0,   0],
       [  0,  10, 441, 336,  44,   6,   0],
       [  0,   8, 381, 632,  91,   7,   0],
       [  0,   1, 103, 235, 109,   3,   0],
       [  0,   0,  23,  45,  13,   5,   0],
       [  0,   0,   0,   2,   0,   0,   0]], dtype=int64)

In [87]:
precision_recall_fscore_support(yTest, predictionsKnn)

  'precision', 'predicted', average, warn_for)


(array([0.        , 0.20833333, 0.441     , 0.48916409, 0.41603053,
        0.23809524, 0.        ]),
 array([0.        , 0.05882353, 0.52688172, 0.56478999, 0.24168514,
        0.05813953, 0.        ]),
 array([0.        , 0.09174312, 0.48013065, 0.52426379, 0.30575035,
        0.09345794, 0.        ]),
 array([  19,   85,  837, 1119,  451,   86,    2], dtype=int64))

In [88]:
logisticRegr = LogisticRegression(penalty = 'l2')
logisticRegr.fit(xTrain, yTrain)

predictionsLr = logisticRegr.predict(xTest)
scoreLr = logisticRegr.score(xTest, yTest)
print("Score: ", scoreLr)



Score:  0.5278953443632166


In [89]:
from sklearn.metrics import precision_score

print("Precisão")
precision_score(yTest, predictionsLr, average=None)

Precisão


  'precision', 'predicted', average, warn_for)


array([0.        , 0.        , 0.57523148, 0.50268017, 0.56363636,
       0.        , 0.        ])

In [90]:
from sklearn.metrics import f1_score
f1_score(yTest, predictionsLr, average=None)

  'precision', 'predicted', average, warn_for)


array([0.        , 0.        , 0.58436214, 0.60328806, 0.12252964,
       0.        , 0.        ])

In [91]:
print("Matriz de confusão")
confusion_matrix(yTest, predictionsLr)

Matriz de confusão


array([[  0,   0,  13,   5,   0,   1,   0],
       [  0,   0,  60,  25,   0,   0,   0],
       [  0,   0, 497, 339,   1,   0,   0],
       [  0,   0, 261, 844,  14,   0,   0],
       [  0,   0,  27, 393,  31,   0,   0],
       [  0,   0,   6,  71,   9,   0,   0],
       [  0,   0,   0,   2,   0,   0,   0]], dtype=int64)

Explique e discuta sobre os resultados encontrados no campo abaixo.

**Matriz de Confusão**
</br>
Analisando a matriz de confusão, podemos observar a presença de um elevado número de falsos positivos (compreendidos abaixo da diagonal principal) bem como elevado número de falsos negativos (compreendidos acima da diagonal principal).
Dessa forma podemos observar que o modelo distingue relativamente bem valores de qualidade diferentes de 7,8,4
</br>

**Precisão** 
</br>
Ao analisar a precisão podemos perceber que o modelo não prevê corretamente vinhos de qualidade 6 ou 9
</br>

**Recall** 
</br>
Os vinhos de classe 6 e 9 não foram corretamente cassificados, vinhos de classe 7 tem baixa taxa de acertiviadade quanto a veracidade em sua classificação. Vinhos das demais classes tem por volta de 40% de acertividade nas classificações.
</br>

**F1**
</br>
A F1 acompanha os dados dos demais valores avaliados, sendo maiores nos vinhos de classe 4, 8 e nulos nos vinhos de classe 6 e 9