### conceito

Os **Support Vector Classifiers** são classificadores que funcionam com base na distância de observações próximas ao liminar a ser definido.

A distância mais curta entre as observações e o limiar é chamada de **margem**, e o objetivo do SVM vai ser maximizar essa margem. Em alguns casos, a fim de evitar que o limiar seja afetado por outliers, permite-se que estes sejam classificados de forma errada (misclassification). Neste caso, a margem é chamada de **soft margin**. As observações no limite do limiar e dentro deste, em caso de soft margin, são chamadas de **vetores de suporte**, de onde vem o nome **Support Vector Classifier**.

Para lidar com conjunto de dados que não são linearmente separáveis a princípio, existe o **Support Vector Machine**. O SVM funciona criando uma dimensão superior à dimensão dos dados, de forma que os dados sejam linearmente separáveis por um SVC considerando esta nova dimensão. O SVC na dimensão superior é encontrado utlizando o **kernel**:

- **polynomial kernel**: adiciona *d* graus às observações e calcula a relação de uma com as outra na nova dimensão. 
- **radial kernel**: calcula as relações em infinitas dimensões (como se zerasse o coeficiente do polinômio e somasse infinitos polinômios de graus diferentes), dando mais "peso" aos valores mais próximos ao dado em questão, como se fosse um KNN

Pelo fato de calcular as relações como se elas estivessem em uma dimensão superior sem necessariamente transformar os dados para uma dimensão superior, recebem o nome de **kernel trick**.

No scikit-learn, dois hiper-parâmetros são importantes:o *c*, que é sobre a regularização do algoritmo, isto é, o quanto a margem poderá ser "soft" e permitir misclassification, e o *gamma*, que é sobre o peso que é dado a cada ponto do dataset, isto é, se o valor for alto(?), todos os pontos do dataset serão considerados, de modo que o modelo tenha overfitting.

In [1]:
from sklearn import datasets

cancer = datasets.load_breast_cancer()
cancer.data.shape

(569, 30)

In [2]:
print("Features: ", cancer.feature_names)

print("Labels: ", cancer.target_names)

Features:  ['mean radius' 'mean texture' 'mean perimeter' 'mean area'
 'mean smoothness' 'mean compactness' 'mean concavity'
 'mean concave points' 'mean symmetry' 'mean fractal dimension'
 'radius error' 'texture error' 'perimeter error' 'area error'
 'smoothness error' 'compactness error' 'concavity error'
 'concave points error' 'symmetry error' 'fractal dimension error'
 'worst radius' 'worst texture' 'worst perimeter' 'worst area'
 'worst smoothness' 'worst compactness' 'worst concavity'
 'worst concave points' 'worst symmetry' 'worst fractal dimension']
Labels:  ['malignant' 'benign']


In [3]:
from sklearn.model_selection import train_test_split


X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, test_size=0.3,random_state=109)

In [4]:
from sklearn import svm

clf = svm.SVC(kernel='linear')


clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

In [5]:
from sklearn import metrics

print("Accuracy:",metrics.accuracy_score(y_test, y_pred))
print("Precision:",metrics.precision_score(y_test, y_pred))
print("Recall:",metrics.recall_score(y_test, y_pred))

Accuracy: 0.9649122807017544
Precision: 0.9811320754716981
Recall: 0.9629629629629629


In [6]:
# Model Precision: what percentage of positive tuples are labeled as such?
print("Precision:",metrics.precision_score(y_test, y_pred))

# Model Recall: what percentage of positive tuples are labelled as such?
print("Recall:",metrics.recall_score(y_test, y_pred))

Precision: 0.9811320754716981
Recall: 0.9629629629629629


#### modelo svc simples

In [7]:
import numpy as np

X = np.array([[-1, -1], [-2, -1], [1, 1], [2, 1]])
y = np.array([1, 1, 2, 2])

In [8]:
from sklearn.svm import SVC

clf = SVC(kernel = 'linear')
clf.fit(X, y)

SVC(kernel='linear')

In [9]:
prediction = clf.predict([[0,6]])
print(prediction)

[2]
