<h1>Sklearn</h1>
<br>
O sklearn é uma das principais bibliotecas para aprendizagem de máquinas em Python. Os algorítmos mais populares possuem implementações nessa biblioteca, com excessão de técnicas que envolvam <i>Deep Learning</i>. Para tal, utilize bibliotecas como o <b>Tensorflow</b> ou <b>Pytorch</b>

In [1]:
# -*- coding: utf-8 -*-

<h2>Base de dados de teste</h2>
<br>
Para fins de teste, usaremos alguns conjuntos de dados teste que já estão disponíveis no sklearn. Inicialmente usaremos o iris dataset, que contém dados para a classificação de flores.
<br>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/41/Iris_versicolor_3.jpg/1920px-Iris_versicolor_3.jpg" height="500" width="500">
<i>Fonte da imagem: Wikipedia: https://upload.wikimedia.org/wikipedia/commons/thumb/4/41/Iris_versicolor_3.jpg/1920px-Iris_versicolor_3.jpg</i>

In [6]:
from sklearn import datasets
import numpy as np

iris = datasets.load_iris()
X = iris.data
Y = iris.target

print('SHAPE X', np.shape(X))
print('SHAPE Y', np.shape(Y))

tag_set = set(Y)
print('TAG SET', tag_set)

SHAPE X (150, 4)
SHAPE Y (150,)
TAG SET {0, 1, 2}


<h2>Criando conjuntos de treinamento, teste e validação</h2>

In [9]:
from sklearn.model_selection import train_test_split


X_train_initial, X_test, Y_train_initial, Y_test = train_test_split(X, Y, 
                                                                    test_size=0.30, 
                                                                    stratify=Y,
                                                                    shuffle=True)

print('SHAPE X_train_test', np.shape(X_train_initial))
print('SHAPE X_test', np.shape(X_test))
print('SET Y_train', set(Y_train_initial))
print('SET Y_test', set(Y_test))

X_train, X_validation, Y_train, Y_validation = train_test_split(X_train_initial, Y_train_initial, 
                                                                test_size=0.2, 
                                                                stratify=Y_train_initial,
                                                                shuffle=True)

print('SHAPE train', np.shape(X_train))
print('SHAPE validation', np.shape(X_validation))
print('SHAPE test', np.shape(X_test))

SHAPE X_train_test (105, 4)
SHAPE X_test (45, 4)
SET Y_train {0, 1, 2}
SET Y_test {0, 1, 2}
SHAPE train (84, 4)
SHAPE validation (21, 4)
SHAPE test (45, 4)


<h2>Testando classificadores no conjunto de validação e no conjunto de teste</h2>

In [11]:
from sklearn.naive_bayes import GaussianNB
from sklearn.naive_bayes import BernoulliNB

model_1 = GaussianNB()
model_1.fit(X_train, Y_train)

model_2 = BernoulliNB()
model_2.fit(X_train, Y_train)

accuracy_validation_1 = model_1.score(X_validation, Y_validation)
accuracy_validation_2 = model_2.score(X_validation, Y_validation)

print('GaussianNB - acuracia no conjunto de validacao', accuracy_validation_1)
print('BernoulliNB - acuracia no conjunto de validacao', accuracy_validation_2)

#Para testar o segundo classificador
#accuracy_validation_2 = 1.0

if accuracy_validation_1 > accuracy_validation_2:
    accuracy_test = model_1.score(X_test, Y_test)
    print('GaussianNB - acuracia no conjunto de teste', accuracy_test)
else:
    accuracy_test = model_2.score(X_test, Y_test)
    print('BernoulliNB - acuracia no conjunto de teste', accuracy_test)

GaussianNB - acuracia no conjunto de validacao 0.8571428571428571
BernoulliNB - acuracia no conjunto de validacao 0.3333333333333333
GaussianNB - acuracia no conjunto de teste 0.9555555555555556


<h2>Calculando as demais métricas dos classificadores</h2>

In [13]:
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import confusion_matrix

Y_pred_1 = model_1.predict(X_test)
Y_pred_2 = model_2.predict(X_test)

precision_1 = precision_score(Y_test, Y_pred_1, average=None)
precision_1_average = precision_score(Y_test, Y_pred_1, average='weighted')
print('Precisao do GaussianNB por classe', precision_1)
print('Precisao do GaussianNB na media', precision_1_average)

precision_2 = precision_score(Y_test, Y_pred_2, average=None)
precision_2_average = precision_score(Y_test, Y_pred_2, average='weighted')
print('Precisao do BernoulliNB por classe', precision_2)
print('Precisao do BernoulliNB na media', precision_2_average)

recall_1 = recall_score(Y_test, Y_pred_1, average=None)
recall_1_average = recall_score(Y_test, Y_pred_1, average='weighted')
print('Recall do GaussianNB por classe', recall_1)
print('Recall do GaussianNB na media', recall_1_average)

recall_2 = recall_score(Y_test, Y_pred_2, average=None)
recall_2_average = recall_score(Y_test, Y_pred_2, average='weighted')
print('Recall do BernoulliNB por classe', recall_2)
print('Recall do BernoulliNB na media', recall_2_average)

cm_1 = confusion_matrix(Y_test, Y_pred_1)
print('Matriz de confusao - GaussianNB\n', cm_1)

cm_2 = confusion_matrix(Y_test, Y_pred_2)
print('Matriz de confusao - BernoulliNB\n', cm_2)

Precisao do GaussianNB por classe [1.         0.93333333 0.93333333]
Precisao do GaussianNB na media 0.9555555555555556
Precisao do BernoulliNB por classe [0.33333333 0.         0.        ]
Precisao do BernoulliNB na media 0.1111111111111111
Recall do GaussianNB por classe [1.         0.93333333 0.93333333]
Recall do GaussianNB na media 0.9555555555555556
Recall do BernoulliNB por classe [1. 0. 0.]
Recall do BernoulliNB na media 0.3333333333333333
Matriz de confusao - GaussianNB
 [[15  0  0]
 [ 0 14  1]
 [ 0  1 14]]
Matriz de confusao - BernoulliNB
 [[15  0  0]
 [15  0  0]
 [15  0  0]]


  'precision', 'predicted', average, warn_for)


<h1>Atividade: Teste diversos classificadores utilizando o digits dataset</h1>
<br>
<img src="https://upload.wikimedia.org/wikipedia/commons/2/27/MnistExamples.png" height="500" width="500">
<i>Fonte da imagem: Wikipedia: https://upload.wikimedia.org/wikipedia/commons/2/27/MnistExamples.png</i>
<br>
<h4>Pesquisar classificadores aqui:</h4>
<a href="https://scikit-learn.org/stable/supervised_learning.html" target="_blank">Referência do sklearn</a>
    

In [15]:
iris = datasets.load_digits()
X = iris.data
Y = iris.target

print('SHAPE X', np.shape(X))
print('SHAPE Y', np.shape(Y))

tag_set = set(Y)
print('TAG SET', tag_set)


SHAPE X (1797, 64)
SHAPE Y (1797,)
TAG SET {0, 1, 2, 3, 4, 5, 6, 7, 8, 9}


<h1>Exemplo de classificação de texto com Sklearn</h1>