#SVM
---
**Aula Prática 16**: SVM para classificação


**Objetivo**: Treinar modelo de classificação


Banco de dados:


**Breast cancer wisconsin dataset**


Disponível via sklearn


> Features are computed from a digitized image of a fine needle aspirate (FNA) of a breast mass.  They describe characteristics of the cell nuclei present in the image.
>
> 1) ID number
>
> 2) Diagnosis (0 = malignant, 1 = benign)
>
> 3-32)
>
> Ten real-valued features are computed for each cell nucleus:
>
> a) radius (mean of distances from center to points on the perimeter)
>
> b) texture (standard deviation of gray-scale values)
>
> c) perimeter
>
> d) area
>
> e) smoothness (local variation in radius lengths)
>
> f) compactness (perimeter^2 / area - 1.0)
>
> g) concavity (severity of concave portions of the contour)
>
> h) concave points (number of concave portions of the contour)
>
> i) symmetry
>
> j) fractal dimension ("coastline approximation" - 1)

##Import das principais funções e leitura dos dados


---



In [None]:
import pandas as pd
import numpy as np
from sklearn import datasets

In [None]:
data = datasets.load_breast_cancer()

In [None]:
df = pd.DataFrame(data.data, columns=data.feature_names)

In [None]:
target = pd.DataFrame(data.target, columns=['Target'])
df = pd.concat([df, target], axis=1)

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.dtypes

In [None]:
df.describe().T

##Treino de modelo de decision tree
---


Para treinar um modelo de regressão utilizaremos o pacote sklearn.


### Separação do banco entre treino e teste
O primeiro passo para se treinar um modelo é separar o banco entre treino e teste. Para isso utilizaremos a função train_test_split


``` python
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)
```
No exemplo acima X é um dataframe contendo as features do modelo e Y um dataframe com a variável target.


O parâmetro test_size controla o percentual de dados que será utilizado para teste.


O parâmetro random_state controla a aleatoriedade da geração do dado, permitindo que ao reexecutar o código seja gerado os mesmos bancos de treino e teste.


É importante separar o banco entre treino e teste, pois utilizaremos o banco de treino para treinar modelos e o banco de teste para avaliar os modelos.


### Treino do modelo
Agora que já possuímos os dados de treino e teste vamos treinar o nosso SVM

``` python
from sklearn.svm import SVC
model = SVC(C=1, gamma='scale')
model.fit(X_train, Y_train)
```

No código acima o objeto model é do tipo SVC, nele iremos fazer o ajuste do nosso modelo, realizar predições.


``` python
# Para fazer predições de classes
model.predict(X_test)

```

Parâmetros da KNN:
* C: parâmetro de penalização.
* gamma: parâmetro que controla a distância. Pode ser scale onde gamma será 1/n_features * variancia, ou um valor númerico positivo.
* kernel: linear, poly ou rbf. Default: rbf


### Avaliação do modelo
Para avaliar o modelo treinado utilizaremos as métricas vistas na aula teórica.

``` python
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve, RocCurveDisplay


# Métricas acurácia, precisão, recall, f1-score
print(classification_report(Y_test, Y_predit))


# Matriz de confusão
confusion_matrix(Y_test, Y_predit)


# AUC
roc_auc = roc_auc_score(Y_test, Y_predict)
fpr, tpr, thresholds = roc_curve(Y_test, Y_predict)
display = RocCurveDisplay(fpr=fpr, tpr=tpr, roc_auc=roc_auc)
display.plot()
```


Também é possível se obter cada uma das métricas do report
``` python
from sklearn.metrics import recall_score, precision_score, f1_score, accuracy_score


recall_score(Y_test, Y_predict, pos_label=1)
```


### Primeiro modelo

---


Exercício:


* Separe o banco entre treino e teste. Use 30% do banco para teste. Faça a quebra com todas as variáveis.


* Treine um modelo.
* Faça as análises de apuração do modelo

In [None]:
X = pd.DataFrame(data.data, columns=data.feature_names)
Y = data.target

#### Solução

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=.3, random_state=15)

In [None]:
Y_train.mean()

In [None]:
X_train.shape

In [None]:
from sklearn.svm import SVC
model_1 = SVC(C=10, gamma=0.01)
model_1.fit(X_train, Y_train)

In [None]:
model_1._gamma

In [None]:
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve, RocCurveDisplay

In [None]:
pred_class = model_1.predict(X_test)

In [None]:
print(classification_report(Y_test, pred_class))

In [None]:
from sklearn.metrics import recall_score

In [None]:
recall_score(Y_test, pred_class)

In [None]:
recall_score(Y_test, pred_class, pos_label=0)

In [None]:
confusion_matrix(Y_test, pred_class)