## SVM com Kernel RBF (Radial Basis Function)

Criando superfícies mais tortas:

![image.png](attachment:image.png)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D  # <--- This is important for 3d plotting 

In [3]:
%matplotlib notebook

In [4]:
from sklearn.datasets import make_classification

X,y = make_classification(
    n_samples=10_000,        ## 10k amostras
    n_features=2,            ## 2 colunas (2 caracteristicas)
    n_informative=2,         ## essas duas colunas tem informações importantes sobre o y
    n_redundant=0,           ## gerar colunas correlaciondas; nesse caso, não estamos gerando
    n_classes=2,             ## 
    n_clusters_per_class=2,  ## para cada classe, 2 clusters
    class_sep=2,             ## quão fácil é o meu problema; quão maior o número, melhor as classes estarão separadas
    flip_y=0,                ## número > 0 = inverte um pouco as classes. introduzir ruído
    scale=1.,                ## embaralhar as classes, aleatoriedade
    random_state=61658       ## gerar sempre o mesmo conjunto
)

X

array([[-0.71489687,  0.21752725],
       [-1.44828374,  2.82840112],
       [ 1.83683694, -2.17580213],
       ...,
       [ 1.7230359 ,  2.24056288],
       [ 1.86933573,  1.93551395],
       [-3.1323717 , -4.0221747 ]])

In [9]:
X = pd.DataFrame(X, columns=['feat_1', 'feat_2'])
y = pd.Series(y)

plt.figure(figsize=(7,5))
plt.plot(X.loc[y==0].feat_1, X.loc[y==0].feat_2, 'b.')
plt.plot(X.loc[y==1].feat_1, X.loc[y==1].feat_2, 'r.')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x17aa7b622c8>]

## Separando os dados

In [10]:
from sklearn.model_selection import train_test_split

X_treino, X_teste, y_treino, y_teste = train_test_split(X,y, test_size=.3, random_state=61658)

In [11]:
X_treino

Unnamed: 0,feat_1,feat_2
9057,1.993782,-1.872925
81,2.297040,-0.757671
3433,-1.679824,-1.310663
1768,1.667382,-1.960608
1888,2.892110,2.028374
...,...,...
4368,1.073371,2.663559
9637,-2.481819,-3.194624
8675,-2.234328,1.901544
8806,-1.925093,2.109830


## Testando primeiramente no SVM Linear

In [12]:
from sklearn.svm import SVC

svc = SVC(C=1., kernel="linear", probability=True, random_state=61658)
svc.fit(X_treino, y_treino)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='linear',
    max_iter=-1, probability=True, random_state=61658, shrinking=True,
    tol=0.001, verbose=False)

In [13]:
h=0.01
x_min, x_max = X_treino.values[:, 0].min() - .5, X_treino.values[:, 0].max() + .5
y_min, y_max = X_treino.values[:, 1].min() - .5, X_treino.values[:, 1].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                     np.arange(y_min, y_max, h))

Z = svc.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]
Z = Z.reshape(xx.shape)

plt.figure(figsize=(7,5))
plt.contourf(xx, yy, Z, cmap='RdBu_r', alpha=.8)

plt.plot(X_treino.loc[y_treino==0].feat_1,X_treino.loc[y_treino==0].feat_2,'b.')
plt.plot(X_treino.loc[y_treino==1].feat_1,X_treino.loc[y_treino==1].feat_2,'r.')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x17aa9072ec8>]

In [14]:
Z = svc.decision_function(X_treino)
Z

array([-6.38479456, -3.37635958, -3.22507012, ...,  6.05309523,
        6.50649546,  0.0159815 ])

In [17]:
fig = plt.figure(figsize=(5,5))
ax = fig.add_subplot(111, projection='3d')

plt.plot(X_treino.loc[y_treino==0].feat_1,X_treino.loc[y_treino==0].feat_2, Z[y_treino==0],'b.')
plt.plot(X_treino.loc[y_treino==1].feat_1,X_treino.loc[y_treino==1].feat_2, Z[y_treino==1],'r.')

for angle in range(0, 360):
    ax.view_init(30, angle)
    plt.draw()
    plt.pause(.001);

<IPython.core.display.Javascript object>

## Treinando agora com o Kernel RBF

In [18]:
from sklearn.svm import SVC

svc = SVC(C=1., gamma=1, kernel="rbf", probability=True, random_state=61658)
svc.fit(X_treino, y_treino)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma=1, kernel='rbf', max_iter=-1,
    probability=True, random_state=61658, shrinking=True, tol=0.001,
    verbose=False)

In [19]:
h=0.01
x_min, x_max = X_treino.values[:, 0].min() - .5, X_treino.values[:, 0].max() + .5
y_min, y_max = X_treino.values[:, 1].min() - .5, X_treino.values[:, 1].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                     np.arange(y_min, y_max, h))

Z = svc.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]
Z = Z.reshape(xx.shape)

plt.figure(figsize=(7,5))
plt.contourf(xx, yy, Z, cmap='RdBu_r', alpha=.8)

plt.plot(X_treino.loc[y_treino==0].feat_1,X_treino.loc[y_treino==0].feat_2,'b.')
plt.plot(X_treino.loc[y_treino==1].feat_1,X_treino.loc[y_treino==1].feat_2,'r.')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x17aae5e9bc8>]

In [21]:
%matplotlib notebook

Z = svc.decision_function(X_treino)

fig = plt.figure(figsize=(5,5))
ax = fig.add_subplot(111, projection='3d')

plt.plot(X_treino.loc[y_treino==0].feat_1,X_treino.loc[y_treino==0].feat_2, Z[y_treino==0],'b.')
plt.plot(X_treino.loc[y_treino==1].feat_1,X_treino.loc[y_treino==1].feat_2, Z[y_treino==1],'r.')

<IPython.core.display.Javascript object>

[<mpl_toolkits.mplot3d.art3d.Line3D at 0x17aadbd0608>]

**Kernel trick** - `Truque do Kernel`: Eu preciso fazer uma superfície torta para poder traçar uma reta.
Eu transformo uma reta em "uma coisa torta".

Por trás dos panos, a SVM continua traçando uma reta, mas para o Kernel não linear, ela cria um cálculo de distância que faz com que os pontos classificados como 1 sejam "puxados para cima" e os classificados como 0 "sejam puxados para baixo"; com isso, é possível passar retas por esses "morrinhos". 

Áreas mais densas, com maior quantidade de dados, criará morros maiores.

<br>

## E o parâmetro Gamma?

Quanto maior o Gamma, "mais não linear"; menor e mais enfâtica é essa bolinha que é colocada em torno de cada ponto.
Um Gamma pequeno será uma bola beem larga.
Uma bola bem larga, acaba gerando uma reta.

### Vamos testar para diversos `Gammas` possíveis:

In [22]:
from sklearn.svm import SVC

for gamma in [0.1,1,10]:
    print(gamma)
    svc = SVC(C=1, gamma=gamma, kernel='rbf', probability=True, random_state=61658)
    svc.fit(X_treino,y_treino)
    
    h=0.01
    x_min, x_max = X_treino.values[:, 0].min() - .5, X_treino.values[:, 0].max() + .5
    y_min, y_max = X_treino.values[:, 1].min() - .5, X_treino.values[:, 1].max() + .5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))

    Z = svc.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]
    Z = Z.reshape(xx.shape)

    plt.figure(figsize=(7,5))
    plt.contourf(xx, yy, Z, cmap='RdBu_r', alpha=.8)

    plt.plot(X_treino.loc[y_treino==0].feat_1,X_treino.loc[y_treino==0].feat_2,'b.')
    plt.plot(X_treino.loc[y_treino==1].feat_1,X_treino.loc[y_treino==1].feat_2,'r.')
    
    plt.title(f'gamma = {gamma:.1f}',fontsize=18)

0.1


<IPython.core.display.Javascript object>

1


<IPython.core.display.Javascript object>

10


<IPython.core.display.Javascript object>

### O `Gamma = 1` parece que separar bem as superfícies! 

### Vamos agora variar o parâmetro `C` 

O C ajuda a superfície a ficar com todos os pontos dentro. \
O C também ajuda ao overfitting

In [28]:
from sklearn.svm import SVC

for C in [1e-1,1,10]:
    print(C)
    svc = SVC(C=C, gamma=1., kernel='rbf', probability=True, random_state=61658)
    svc.fit(X_treino,y_treino)
    
    h=0.01
    x_min, x_max = X_treino.values[:, 0].min() - .5, X_treino.values[:, 0].max() + .5
    y_min, y_max = X_treino.values[:, 1].min() - .5, X_treino.values[:, 1].max() + .5
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))

    Z = svc.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]
    Z = Z.reshape(xx.shape)

    plt.figure(figsize=(7,5))
    plt.contourf(xx, yy, Z, cmap='RdBu_r', alpha=.8)

    plt.plot(X_treino.loc[y_treino==0].feat_1,X_treino.loc[y_treino==0].feat_2,'b.')
    plt.plot(X_treino.loc[y_treino==1].feat_1,X_treino.loc[y_treino==1].feat_2,'r.')
    
    plt.title(f'C = {C:.1f}',fontsize=18)

0.1


<IPython.core.display.Javascript object>

1


<IPython.core.display.Javascript object>

10


<IPython.core.display.Javascript object>

### Outro exemplo de Overfitting

Criando datasets com formatos de Lua

Com os classes desbalanceadas: muito mais vermelhos do que azuis

In [29]:
from sklearn.datasets import make_moons

X,y = make_moons(n_samples=2_000,noise=0.3, random_state=0)
idx = np.random.choice(np.where(y==1)[0], size=int(0.9*np.sum(y==0)), replace=False)
X = np.delete(X,idx, axis=0)
y = np.delete(y,idx)
X_treino, X_teste, y_treino, y_teste = train_test_split(X,y, test_size=.3, random_state=61658)

svc = SVC(C=1, gamma=20, kernel='rbf', probability=True, random_state=61658)

svc.fit(X_treino,y_treino)
preds = svc.predict_proba(X_teste)[:,1]

h=0.01
x_min, x_max = X_treino[:, 0].min() - .5, X_treino[:, 0].max() + .5
y_min, y_max = X_treino[:, 1].min() - .5, X_treino[:, 1].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                     np.arange(y_min, y_max, h))

Z = svc.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]
Z = Z.reshape(xx.shape)

plt.figure(figsize=(7,5))
plt.contourf(xx, yy, Z, cmap='RdBu_r', alpha=.8)

plt.plot(X_treino[y_treino==0,0],X_treino[y_treino==0,1],'b.')
plt.plot(X_treino[y_treino==1,0],X_treino[y_treino==1,1],'r.')

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x17abe867c08>]

In [31]:
X,y = make_moons(n_samples=100_000,noise=0.3, random_state=0)

idx = np.random.choice(np.where(y==1)[0], size=int(0.9*np.sum(y==0)), replace=False)
X = np.delete(X,idx, axis=0)
y = np.delete(y,idx)
preds = svc.predict_proba(X)[:,1]

plt.figure(figsize=(7,5))
h=0.01
x_min, x_max = X_treino[:, 0].min() - .5, X_treino[:, 0].max() + .5
y_min, y_max = X_treino[:, 1].min() - .5, X_treino[:, 1].max() + .5
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                     np.arange(y_min, y_max, h))

Z = svc.predict_proba(np.c_[xx.ravel(), yy.ravel()])[:, 1]
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, cmap='RdBu_r', alpha=.8)
plt.plot(X_treino[y_treino==0,0],X_treino[y_treino==0,1],'b.')
plt.plot(X_treino[y_treino==1,0],X_treino[y_treino==1,1],'r.')

plt.figure(figsize=(7,5))
plt.hist(preds[y==0],color='b',density=True,bins=np.linspace(0,1,100),alpha=.3)
plt.hist(preds[y==1],color='r',density=True,bins=np.linspace(0,1,100),alpha=.3)

plt.show()

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Conseguimos criar uma separação boa porque estamos usando dados sintéticos. 

Na vida real, podemos trabalhar com mais dimensões e teremos problemas nas separações das superfíceis. 

___________________________________

## Vamos treinar agora com dados reais:

In [32]:
df = pd.read_csv("./dados/svm.csv")

In [33]:
X = df.drop("Exited", axis=1)
y = df.Exited

### Separação dos dados

In [34]:
from sklearn.model_selection import train_test_split
X_treino, X_teste, y_treino, y_teste = train_test_split(X,y, test_size=.3, random_state=61658)

### Normalização dos dados

In [39]:
from sklearn.preprocessing import RobustScaler

rs = RobustScaler(quantile_range=(5.,95.))
X_treino2 = rs.fit_transform(X_treino)
X_teste2 = rs.transform(X_teste)

### Execução do modelo usando Grid Search

In [45]:
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

params = {
    'C'           : np.logspace(-7,7,10,base=2),
    'gamma'       : np.logspace(-7,3,10,base=2),
    'class_weight': [None, 'balanced'],
    
}

svc = SVC(kernel='rbf', probability=True, random_state=61658)

grid = GridSearchCV(svc, params, cv=5, scoring='roc_auc', verbose=10, n_jobs=-1)

In [46]:
grid.fit(X_treino2, y_treino2)

GridSearchCV(cv=5, error_score=nan,
             estimator=SVC(C=1.0, break_ties=False, cache_size=200,
                           class_weight=None, coef0=0.0,
                           decision_function_shape='ovr', degree=3,
                           gamma='scale', kernel='rbf', max_iter=-1,
                           probability=True, random_state=61658, shrinking=True,
                           tol=0.001, verbose=False),
             iid='deprecated', n_jobs=-1,
             param_grid={'C': array([7.81250000e-03, 2.29646014e-02, 6....
       5.83264520e-01, 1.71448797e+00, 5.03968420e+00, 1.48139954e+01,
       4.35452800e+01, 1.28000000e+02]),
                         'class_weight': [None, 'balanced'],
                         'gamma': array([7.81250000e-03, 1.68759334e-02, 3.64540325e-02, 7.87450656e-02,
       1.70098750e-01, 3.67433623e-01, 7.93700526e-01, 1.71448797e+00,
       3.70349885e+00, 8.00000000e+00])},
             pre_dispatch='2*n_jobs', refit=True, return_tr

In [47]:
y.mean()

0.2037

Um Grid com muitos parâmetros pode fazer com que o nosso modelo demore muito para rodar. No caso acima teremos 1000 modelos diferentes.

Podemos usar o RandomSearch para fazer a busca pelos melhores parâmetros também. Como o próprio nome diz, o Random faz uma busca randômica com valores diferentes.

In [None]:
grid.best_params_

In [None]:
np.log2(0.03645403248675365)

In [None]:
from sklearn.metrics import roc_curve, roc_auc_score

print(roc_auc_score(y_teste, grid.predict_proba(X_teste2)[:,1]))
fpr, tpr, ths = roc_curve(y_teste, grid.predict_proba(X_teste2)[:,1])

plt.figure(figsize=(8,8))
plt.plot(fpr,tpr)
plt.xlim(0,1)
plt.ylim(0,1)
plt.plot((0,1),(0,1),'k:')
plt.grid();

In [None]:
pred = grid.predict_proba(X_teste2)[:,1]

plt.figure(figsize=(7,5))
plt.hist(pred[y_teste==0],color='b',density=True,alpha=.3,rwidth=.8, bins=np.linspace(0,1,30))
plt.hist(pred[y_teste==1],color='r',density=True,alpha=.3,rwidth=.8, bins=np.linspace(0,1,30))

<br>

# Outros Kernels

https://www.csie.ntu.edu.tw/~cjlin/libsvm/

- Polinomial
- Linear
- RBF
- Sigmóide

![image.png](attachment:image.png)

 - Kernel Polinomial é famoso para aplicações onde você tem mais colunas que linhas, como problemas ligados à genética, ou processamento de texto (clássico. Hoje existem técnicas baseadas em redes neurais que performam bem melhores do que SVMs, por mais complexo que seja o kernel)
 - Kernel RBF é genérico para praticamente qualquer outro caso: Com um gamma suficientemente alto, ele overfita qualquer coisa. Com um gama muito baixo, ele é linear, e consegue percorrer qualquer coisa no meio do caminho.