# Classificação

In [1]:
import os
import numpy as np
from sklearn.datasets import make_moons, make_circles, make_classification

# to make this notebook's output stable across runs
np.random.seed(42)

# To plot pretty figures
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12

def figsize(x, y):
    # Get current size
    fig_size = plt.rcParams["figure.figsize"]
    # Prints: [8.0, 6.0]
    fig_size[0] = x
    fig_size[1] = y
    plt.rcParams["figure.figsize"] = fig_size

In [2]:
X, y = make_classification(n_features=2, n_redundant=0, n_informative=2, random_state=1, n_clusters_per_class=1)
rng = np.random.RandomState(2)
X += 2 * rng.uniform(size=X.shape)

datasets = [make_moons(noise=0.3, random_state=0),
            make_circles(noise=0.2, factor=0.5, random_state=1),
            (X, y)]

In [3]:
def plot_classification(name, clf, X, y, cmap):
    score = clf.score(X, y)

    h = 0.2
    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))    
    
    # Plot the decision boundary. For that, we will assign a color to each
    # point in the mesh [x_min, m_max]x[y_min, y_max].
    if hasattr(clf, "decision_function"):
        Z = clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
    else:
        Z = clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]    

    # Put the result into a color plot
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, cmap=cmap, alpha=.8)

    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Greys)
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.title(name + " - Score %.2f" % score)

In [5]:
def plot_multi_class(name, clf, X, y, cmap=plt.cm.PRGn):
    score = clf.score(X, y)

    h = 0.2
    x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
    y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))    
    
    # Plot the decision boundary. For that, we will assign a color to each
    # point in the mesh [x_min, m_max]x[y_min, y_max].
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    
    # Put the result into a color plot
    Z = Z.reshape(xx.shape)
    plt.contourf(xx, yy, Z, cmap=cmap, alpha=.8)

    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Greys)
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.title(name + " - Score %.2f" % score)

In [6]:
import itertools
import numpy as np
import matplotlib.pyplot as plt

from sklearn import svm, datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix

def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

Considerando os seguintes dados, gerados aleatoriamente:

In [None]:
figsize(14, 5)
for i, (X, y) in enumerate(datasets):
    plt.subplot(1,3,i+1)
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=plt.cm.Greys)

Gostaríamos de criar um **classificador** capaz de apropriadamente **separar** duas classes e corretamente classificar novas entradas.

## Solução usando Máquinas de suporte vetorial (SVM)

In [None]:
from sklearn.svm import SVC

svc = SVC(kernel='linear')
X, y = datasets[0]
svc.fit(X, y) 

In [None]:
figsize(8,8)
plot_classification('SVC linear', svc, X, y, plt.cm.PRGn)

In [None]:
figsize(15, 5)
for dataset_idx, (X, y) in enumerate(datasets):
    plt.subplot(1, 3, dataset_idx+1)
    svc.fit(X, y)
    plot_classification('SVC linear', svc, X, y, plt.cm.PRGn)

In [None]:
svc = SVC(kernel='poly', degree=3)

for dataset_idx, (X, y) in enumerate(datasets):
    plt.subplot(1, 3, dataset_idx+1)
    svc.fit(X, y) 
    plot_classification('SVC Polynomial', svc, X, y, plt.cm.PRGn)

In [None]:
svc = SVC(kernel='rbf')

for dataset_idx, (X, y) in enumerate(datasets):
    plt.subplot(1, 3, dataset_idx+1)
    svc.fit(X, y) 
    plot_classification('SVC RBF', svc, X, y, plt.cm.PRGn)

# Exercício *Iris*

- 50 amostras de 3 espécies diferentes de íris (150 amostras no total)
- Medidas: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala

![](https://raw.githubusercontent.com/justmarkham/scikit-learn-videos/e43b96424ad781f57d492ce36351693aad01902a/images/03_iris.png)

## Aprendizado de máquina no conjunto de dados da íris

Enquadrado como um problema de **aprendizado supervisionado**: Preveja as espécies de uma íris usando as suas medidas. 

- Famoso conjunto de dados para aprendizado de máquina porque a previsão é **fácil**
- Saiba mais sobre o conjunto de dados da íris: [UCI Machine Learning Repository] (http://archive.ics.uci.edu/ml/datasets/Iris)
- Cada linha é uma **observação** (também conhecida como: exemplo, amostra, sample)
- Cada coluna é uma **feature** (também conhecido como: preditor, atributo, variável independente)
- Cada valor que estamos prevendo é a resposta (também conhecida como: target, outcome, label, dependent variable)
- A classificação é um aprendizado supervisionado no qual a resposta é categórica
- Regressão é a aprendizagem supervisionada em que a resposta é ordenada e contínua

In [None]:
from IPython.display import IFrame
IFrame('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', width=300, height=200)

In [None]:
from sklearn.datasets import load_iris
iris = load_iris()

In [None]:
print(type(iris))
print(iris.DESCR)

In [None]:
print(iris.data)

In [None]:
print(type(iris.data))
print(type(iris.target))
print(iris.data.shape)
print(iris.target.shape)

In [None]:
X = iris.data[:,2:] # Features
y = iris.target # Labels

In [None]:
figsize(8,8)
plt.scatter(X[:,0], X[:,1], c=y)

## Exercício:

Crie um classificador capaz de separar as 3 classes de plantas.

Apresente as métricas de validação Matriz de Confusão, Precision/Recall, F1 e ROC para este classificador.