# Реализация машины опорных векторов (SVM)

<div class = 'alert alert-box alert-warning'>

>Машины опорных векторов считаются одними из лучших классификаторов в контролируемом обучении для анализа сложных данных и уменьшения влияния выбросов.
</div>

In [1]:
import pandas as pd
import numpy as np

from sklearn.model_selection import train_test_split
from sklearn.svm import SVC     # support vector classifier
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.model_selection import GridSearchCV

In [2]:
df = pd.read_csv('../datasets/advertising.csv')
df.head()

Unnamed: 0,Daily Time Spent on Site,Age,Area Income,Daily Internet Usage,Ad Topic Line,City,Male,Country,Timestamp,Clicked on Ad
0,68.95,35,61833.9,256.09,Cloned 5thgeneration orchestration,Wrightburgh,0,Tunisia,2016-03-27 00:53:11,0
1,80.23,31,68441.85,193.77,Monitored national standardization,West Jodi,1,Nauru,2016-04-04 01:39:02,0
2,69.47,26,59785.94,236.5,Organic bottom-line service-desk,Davidton,0,San Marino,2016-03-13 20:35:42,0
3,74.15,29,54806.18,245.89,Triple-buffered reciprocal time-frame,West Terrifurt,1,Italy,2016-01-10 02:31:19,0
4,68.37,35,73889.99,225.58,Robust logistical utilization,South Manuel,0,Iceland,2016-06-03 03:36:18,0


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 10 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Daily Time Spent on Site  1000 non-null   float64
 1   Age                       1000 non-null   int64  
 2   Area Income               1000 non-null   float64
 3   Daily Internet Usage      1000 non-null   float64
 4   Ad Topic Line             1000 non-null   object 
 5   City                      1000 non-null   object 
 6   Male                      1000 non-null   int64  
 7   Country                   1000 non-null   object 
 8   Timestamp                 1000 non-null   object 
 9   Clicked on Ad             1000 non-null   int64  
dtypes: float64(3), int64(3), object(4)
memory usage: 78.3+ KB


In [3]:
df = (
    df
    .drop(columns = ['Ad Topic Line', 'Timestamp'])
)
df.head()

Unnamed: 0,Daily Time Spent on Site,Age,Area Income,Daily Internet Usage,City,Male,Country,Clicked on Ad
0,68.95,35,61833.9,256.09,Wrightburgh,0,Tunisia,0
1,80.23,31,68441.85,193.77,West Jodi,1,Nauru,0
2,69.47,26,59785.94,236.5,Davidton,0,San Marino,0
3,74.15,29,54806.18,245.89,West Terrifurt,1,Italy,0
4,68.37,35,73889.99,225.58,South Manuel,0,Iceland,0


In [4]:
df = pd.get_dummies(df, columns = ['Country', 'City'])

In [5]:
df.isna().sum()

Daily Time Spent on Site    0
Age                         0
Area Income                 0
Daily Internet Usage        0
Male                        0
                           ..
City_Youngburgh             0
City_Youngfort              0
City_Yuton                  0
City_Zacharystad            0
City_Zacharyton             0
Length: 1212, dtype: int64

In [6]:
X = df.drop(columns=['Clicked on Ad'])
y = df['Clicked on Ad']

In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=10, shuffle = True)
model = SVC()
model.fit(X_train, y_train)

In [8]:
model_predict = model.predict(X_test)
print(confusion_matrix(y_test, model_predict))
print(classification_report(y_test, model_predict))

[[124  22]
 [ 68  86]]
              precision    recall  f1-score   support

           0       0.65      0.85      0.73       146
           1       0.80      0.56      0.66       154

    accuracy                           0.70       300
   macro avg       0.72      0.70      0.70       300
weighted avg       0.72      0.70      0.69       300



# Поиск по сетке GridSearchCV

>Гиперпараметр C контролирует стоимость неправильной классификации на обучающих данных. Другими словами, C регулирует степень, в которой игнорируются неправильно классифицированные случаи (расположенные по ту сторону границы).

>Такая гибкость модели называется «мягким полем», и игнорирование случаев, которые пересекают мягкое поле, может привести к лучшей подгонке. На практике, чем меньше значение C, тем больше ошибок можно игнорировать в рамках мягкого поля. Значение C, равное '0', не налагает никаких штрафов на неправильно классифицированные случаи.

>Гамма относится к гауссовской радиальной базисной функции и влиянию опорного вектора (звучит жутко). Как правило, при малом значении гаммы получаются модели с высокой смещенностью и низкой дисперсией. И наоборот, большая гамма приводит к низкой смещенности и высокой дисперсии модели.

In [9]:
hiperparameters = {'C': [10, 25, 50], 'gamma':[0.001, 0.0001, 0.00001]}

In [16]:
grid = GridSearchCV(SVC(), param_grid = hiperparameters)

In [18]:
grid.fit(X_train, y_train)

In [19]:
grid.best_params_

{'C': 50, 'gamma': 1e-05}

In [21]:
grid_predict = grid.predict(X_test)

In [22]:
print(confusion_matrix(y_test, grid_predict))

[[129  17]
 [ 15 139]]


In [23]:
print(classification_report(y_test, grid_predict))

              precision    recall  f1-score   support

           0       0.90      0.88      0.89       146
           1       0.89      0.90      0.90       154

    accuracy                           0.89       300
   macro avg       0.89      0.89      0.89       300
weighted avg       0.89      0.89      0.89       300



In [56]:
hiperparameters = {'C': [4500, 5000, 5500], 'gamma':[0.00000001, 0.00000005, 0.00000009]}
grid = GridSearchCV(SVC(), param_grid = hiperparameters)
grid.fit(X_train, y_train)

In [57]:
grid.best_params_

{'C': 5000, 'gamma': 1e-08}

In [58]:
grid_predict = grid.predict(X_test)

In [59]:
print(confusion_matrix(y_test, grid_predict))
print(classification_report(y_test, grid_predict))

[[139   7]
 [  7 147]]
              precision    recall  f1-score   support

           0       0.95      0.95      0.95       146
           1       0.95      0.95      0.95       154

    accuracy                           0.95       300
   macro avg       0.95      0.95      0.95       300
weighted avg       0.95      0.95      0.95       300

