# Support Vector Machine (SVM)
[Explicação SVM](https://www.datacamp.com/tutorial/svm-classification-scikit-learn-python)
Conjunto de métodos de aprendizado supervisionado usados para classificação, regressão e detecção de outliers.

Dado um conjunto de dados de treino, SVM cria um modelo que assimila novos exemplos em uma categoria, utilizando um classificador não probabilístico. São mapeados de forma que as categorias são divididas com a maior distância possível entre eles (hiperplano linear: novo plano que os dados pertencem que maximiza a margem entre as classes; os pontos que tocam as linhas das margens são conhecidos como suport vectors).

Para dados não lineares:não há um unico plano para a separação deles. kernel trick -> aplica uma transformação linear (espaço dimensional superior) e aplica-se o hiperplano, em seguida, volta para a aplicação inversa dos dados e volta para o plano de origem.

*   **Vantagens**:
Eficaz nos casos em que o número de dimensões é maior que o número de amostras.

Usa um subconjunto de pontos de treinamento na função de decisão (chamados de vetores de suporte), portanto, também é eficiente em termos de memória.


*   **Desvantagens**:

Se o número de recursos for muito maior que o número de amostras, evite o ajuste excessivo na escolha das funções do Kernel e o termo de regularização é crucial.

 Não fornecem estimativas de probabilidade diretamente, elas são calculadas usando uma validação five-fold cross-validation


In [33]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#plot sem usar o plt.show():
%matplotlib inline      
!pip install scikit-learn

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [34]:
#Dados Iris para Câncer de mama
#Criar um modelo para classificar os tumores em malignos e benignos
 
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()

In [35]:
print(cancer.keys())

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [36]:
print(cancer['DESCR'])


.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [37]:
#Configuração do DF 

df_cancer = pd.DataFrame(cancer['data'],columns=cancer['feature_names'])
print(df_cancer.info()) #dados totalmente numéricos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 569 entries, 0 to 568
Data columns (total 30 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   mean radius              569 non-null    float64
 1   mean texture             569 non-null    float64
 2   mean perimeter           569 non-null    float64
 3   mean area                569 non-null    float64
 4   mean smoothness          569 non-null    float64
 5   mean compactness         569 non-null    float64
 6   mean concavity           569 non-null    float64
 7   mean concave points      569 non-null    float64
 8   mean symmetry            569 non-null    float64
 9   mean fractal dimension   569 non-null    float64
 10  radius error             569 non-null    float64
 11  texture error            569 non-null    float64
 12  perimeter error          569 non-null    float64
 13  area error               569 non-null    float64
 14  smoothness error         5

In [38]:
#Df de target, precisamos passar as respostas (y) para o modelo

df_targets = pd.DataFrame( cancer['target'],columns=['Cancer'])

print(df_targets)

     Cancer
0         0
1         0
2         0
3         0
4         0
..      ...
564       0
565       0
566       0
567       0
568       1

[569 rows x 1 columns]


In [39]:
#Construção do Modelo

#Biblioteca responsável por separar os dados em teste e treino e associar os parâmetros 
from sklearn.model_selection import train_test_split


1.   Faz a divisão dos dados (x e y) em duas partes para manter a 
 relações entre os dados.
 2.   A partir do item anterior,cria-se o modelo :

 *   **Conjunto de treino:** aprende a relação entre os parâmetros com a variável pevista 
 *   **Conjunto de teste:** faz o teste dos conjuntos de dados do item anterior 



In [53]:
X = df_cancer

y = np.ravel(df_targets) #transforma em array
#y = df_targets

In [54]:
#Separação da quantidade de dados destinadas a teste e treino (30% como teste e 70% treino)
#A resposta é uma túpula com 4 elementos: podemos usar o desempacotamento de tupulas(,random_state=101) 

X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.30)

In [None]:
X_train

In [43]:
#Import SVM
from sklearn import svm


model = svm.SVC()

In [44]:
model.fit(X_train,y_train)

print(X_train.shape)
print('\n')
print(y_test.shape)

(398, 30)


(171,)


In [45]:
pred= model.predict(X_test)

In [46]:
from sklearn.metrics import classification_report,confusion_matrix #modelo de classificação de ML, output= target

In [47]:
print(classification_report(y_test,pred))
print('*'*100)
print(confusion_matrix(y_test,pred))

# O modelo está com 98% de precisão 

              precision    recall  f1-score   support

           0       0.98      0.81      0.89        68
           1       0.89      0.99      0.94       103

    accuracy                           0.92       171
   macro avg       0.93      0.90      0.91       171
weighted avg       0.92      0.92      0.92       171

****************************************************************************************************
[[ 55  13]
 [  1 102]]


In [48]:
##Grid search 

from sklearn.model_selection import GridSearchCV,KFold
svc = svm.SVC()

# **Grid Search :**⚡
Testa as possíveis combinações de parâmetros para melhorar o modelo.  Implementa “score_samples”, “predict”, “predict_proba”, “decision_function”, “transform” e “inverse_transform” 

Os parâmetros do estimador usados ​​para aplicar esses métodos são otimizados por busca de grade validada cruzada sobre uma grade de parâmetros.


[GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)


---


*   Alguns Parâmetros modificados aqui:

---



1.   **C:** controla o custo de classificações erradas
2.  Gamma: altera o comportamento da função gauss (tipo de kernel que está sendo utilizado)

3.  **Kernel:** transforma o dataset de input em  outro formato. Ex.: Radial Basis Function (RBF)










In [None]:
print(X_train.shape)
print('\n')
print(y_train.shape)

In [62]:
#---------------------------------------------------
p_grid={'C':[0.1,1,10,100,1000],
            'gamma':[1,0.1,0.01,0.001,0.0001],
            'kernel':['rbf']}
#---------------------------------------------------

#verbose=altera os outputs

grid= GridSearchCV(svc,p_grid,refit=True,verbose=3)

In [64]:
grid.fit(X_train,y_train)

Fitting 5 folds for each of 25 candidates, totalling 125 fits
[CV 1/5] END ........C=0.1, gamma=1, kernel=rbf;, score=0.613 total time=   0.0s
[CV 2/5] END ........C=0.1, gamma=1, kernel=rbf;, score=0.613 total time=   0.0s
[CV 3/5] END ........C=0.1, gamma=1, kernel=rbf;, score=0.613 total time=   0.0s
[CV 4/5] END ........C=0.1, gamma=1, kernel=rbf;, score=0.620 total time=   0.0s
[CV 5/5] END ........C=0.1, gamma=1, kernel=rbf;, score=0.620 total time=   0.0s
[CV 1/5] END ......C=0.1, gamma=0.1, kernel=rbf;, score=0.613 total time=   0.1s
[CV 2/5] END ......C=0.1, gamma=0.1, kernel=rbf;, score=0.613 total time=   0.1s
[CV 3/5] END ......C=0.1, gamma=0.1, kernel=rbf;, score=0.613 total time=   0.0s
[CV 4/5] END ......C=0.1, gamma=0.1, kernel=rbf;, score=0.620 total time=   0.0s
[CV 5/5] END ......C=0.1, gamma=0.1, kernel=rbf;, score=0.620 total time=   0.0s
[CV 1/5] END .....C=0.1, gamma=0.01, kernel=rbf;, score=0.613 total time=   0.0s
[CV 2/5] END .....C=0.1, gamma=0.01, kernel=rbf

GridSearchCV(estimator=SVC(),
             param_grid={'C': [0.1, 1, 10, 100, 1000],
                         'gamma': [1, 0.1, 0.01, 0.001, 0.0001],
                         'kernel': ['rbf']},
             verbose=3)

In [66]:
pred = grid.predict(X_test)

In [67]:
print(classification_report(y_test,pred))
print('*'*100)
print(confusion_matrix(y_test,pred))

# O modelo está com 95% de precisão 

              precision    recall  f1-score   support

           0       0.93      0.93      0.93        59
           1       0.96      0.96      0.96       112

    accuracy                           0.95       171
   macro avg       0.95      0.95      0.95       171
weighted avg       0.95      0.95      0.95       171

****************************************************************************************************
[[ 55   4]
 [  4 108]]
