<h1 align=center><font size="5"> SVM (Support Vector Machines)</font></h1>

Nesta aula, você usará a técnica de classificação chamada SVM (Support Vector Machines) para construir e treinar um modelo usando registros de células humanas, classificando as células em benignas ou malignas.

O SVM trabalha mapeando dados para um espaço multi-dimensional onde os pontos (dados) possam ser categorizados, mesmo quando os dados não são separáveis de outra forma. Um separador entre as categorias é encontrado, em seguida, os dados são transformados de tal forma que o separador pode ser desenhado como um hiperplano. Em seguida, as características dos novos dados podem ser usadas para prever o grupo ao qual um novo registro deve pertencer.
# Importando os pacotes necessários

In [None]:
import pandas as pd
import pylab as pl
import numpy as np
import scipy.optimize as opt
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

# Download dos dados

O exemplo é baseado no conjunto de dados público disponível no UCI Machine Learning Repository (Asuncion and Newman, 2007)[http://mlearn.ics.uci.edu/MLRepository.html]. O conjunto de dados consiste em várias centenas de registros de amostras de células humanas, cada um contendo os valores de um conjunto de características de células. Os campos em cada registro são:

|Field name|Description|
|--- |--- |
|ID|Clump thickness|
|Clump|Clump thickness|
|UnifSize|Uniformity of cell size|
|UnifShape|Uniformity of cell shape|
|MargAdh|Marginal adhesion|
|SingEpiSize|Single epithelial cell size|
|BareNuc|Bare nuclei|
|BlandChrom|Bland chromatin|
|NormNucl|Normal nucleoli|
|Mit|Mitoses|
|Class|Benign or malignant|

<br>
<br>

O download dos dados pode ser realizado por meio do IBM Object Storage, disponível em:

https://s3-api.us-geo.objectstorage.softlayer.net/cf-courses-data/CognitiveClass/ML0101ENv3/labs/cell_samples.csv

### Lendo os dados

In [None]:
cell_df = pd.read_csv("cell_samples.csv")
cell_df.head()

O campo ID contém os identificadores do paciente. As características das amostras celulares de cada paciente estão contidas nos campos Clump até Mit. Os valores são classificados de 1 a 10, sendo 1 o mais próximo de benigno.

O campo Classe contém o diagnóstico, confirmado por procedimentos médicos separados, se as amostras são benignas (valor = 2) ou malignas (valor = 4).

Vamos dar uma olhada na distribuição das classes com base na espessura de Clump (aglomerado) e na UnifSize (uniformidade do tamanho) da célula:

In [None]:
ax = cell_df[cell_df['Class'] == 4][0:50].plot(kind='scatter', x='Clump', y='UnifSize', color='DarkBlue', label='malignant');
cell_df[cell_df['Class'] == 2][0:50].plot(kind='scatter', x='Clump', y='UnifSize', color='Yellow', label='benign', ax=ax);
plt.show()

## Pré-processamento dos dados e seleção

Vamos primeiro olhar para os tipos de dados das colunas:

In [None]:
cell_df.dtypes

Parece que a coluna __BareNuc__ inclui alguns valores que não são numéricos. Podemos transformar essas linhas:

In [None]:
cell_df = cell_df[pd.to_numeric(cell_df['BareNuc'], errors='coerce').notnull()]
cell_df['BareNuc'] = cell_df['BareNuc'].astype('int')
cell_df.dtypes

In [None]:
feature_df = cell_df[['Clump', 'UnifSize', 'UnifShape', 'MargAdh', 'SingEpiSize', 'BareNuc', 'BlandChrom', 'NormNucl', 'Mit']]
X = np.asarray(feature_df)
X[0:5]

Queremos que o modelo preveja o valor de __class__ (classe, isto é, benigno (= 2) ou maligno (= 4)). Como esse campo pode ter um dos dois únicos valores possíveis, precisamos alterar seu tipo para refletir isso.

In [None]:
cell_df['Class'] = cell_df['Class'].astype('int')
y = np.asarray(cell_df['Class'])
y [0:5]

## Conjunto de treinamento/validação

Vamos dividir o conjunto de dados:

In [None]:
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=4)
print ('Train set:', X_train.shape,  y_train.shape)
print ('Test set:', X_test.shape,  y_test.shape)

## Modelando (SVM com Scikit-learn)

O algoritmo SVM oferece uma opção de funções do kernel para executar seu processamento. Basicamente, o mapeamento de dados em um espaço dimensional superior é chamado de kernelling. A função matemática usada para a transformação é conhecida como a função do kernel e pode ser de diferentes tipos, como:

     1. Linear
     2. Polinomial
     3. Radial Basis Function (RBF)
     4. Sigmoide
Cada uma dessas funções tem suas características, seus prós e contras e sua equação, mas como não há maneira fácil de saber qual função tem melhor desempenho com qualquer dado, geralmente escolhemos diferentes funções e comparamos os resultados. Vamos apenas usar o padrão, RBF (Radial Basis Function) para este exemplo.

In [None]:
from sklearn import svm
clf = svm.SVC(kernel='rbf')
clf.fit(X_train, y_train) 

Depois de ajustado, o modelo pode ser usado para prever novos valores:

In [None]:
yhat = clf.predict(X_test)
yhat [0:5]

## Validação

In [None]:
from sklearn.metrics import classification_report, confusion_matrix
import itertools

In [None]:
def plot_confusion_matrix(cm, classes,
                          normalize=False,
                          title='Confusion matrix',
                          cmap=plt.cm.Blues):
    """
    This function prints and plots the confusion matrix.
    Normalization can be applied by setting `normalize=True`.
    """
    if normalize:
        cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
        print("Normalized confusion matrix")
    else:
        print('Confusion matrix, without normalization')

    print(cm)

    plt.imshow(cm, interpolation='nearest', cmap=cmap)
    plt.title(title)
    plt.colorbar()
    tick_marks = np.arange(len(classes))
    plt.xticks(tick_marks, classes, rotation=45)
    plt.yticks(tick_marks, classes)

    fmt = '.2f' if normalize else 'd'
    thresh = cm.max() / 2.
    for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
        plt.text(j, i, format(cm[i, j], fmt),
                 horizontalalignment="center",
                 color="white" if cm[i, j] > thresh else "black")

    plt.tight_layout()
    plt.ylabel('True label')
    plt.xlabel('Predicted label')

In [None]:
# Calcula a Matriz de Confusão
cnf_matrix = confusion_matrix(y_test, yhat, labels=[2,4])
np.set_printoptions(precision=2)

print (classification_report(y_test, yhat))

# Exibe a Matriz de Confusão não-normalizada
plt.figure()
plot_confusion_matrix(cnf_matrix, classes=['Benign(2)','Malignant(4)'],normalize= False,  title='Confusion matrix')

Você também pode usar facilmente o __f1_score__ da biblioteca sklearn:

In [None]:
from sklearn.metrics import f1_score
f1_score(y_test, yhat, average='weighted') 

Vamos tentar o índice de jaccard para precisão:

In [None]:
from sklearn.metrics import jaccard_similarity_score
jaccard_similarity_score(y_test, yhat)

## Prática

Você pode reconstruir o modelo, mas desta vez com um kernel __linear__? Você pode usar a opção __kernel = 'linear'__, quando você define o svm. Como a precisão muda com a nova função do kernel?

In [None]:
# Escreva seu código aqui


Duplo-clique __aqui__ para a solução.

<!-- Resposta abaixo:
    
clf2 = svm.SVC(kernel='linear')
clf2.fit(X_train, y_train) 
yhat2 = clf2.predict(X_test)
print("Avg F1-score: %.4f" % f1_score(y_test, yhat2, average='weighted'))
print("Jaccard score: %.4f" % jaccard_similarity_score(y_test, yhat2))

-->

Esta aula foi desenvolvida com base no material disponibilizado por Saeed Aghabozorgi

<p>Copyright &copy; 2018 <a href="https://cocl.us/DX0108EN_CC">Cognitive Class</a>. This notebook and its source code are released under the terms of the <a href="https://bigdatauniversity.com/mit-license/">MIT License</a>.</p>