Будем решать задачу классификации вина по его химическим свойствам.

In [1]:
import pandas as pd
from sklearn.datasets import load_wine

data = load_wine(as_frame = True)

X = data.data
X = X[X.columns[:7]]

y = data.target

In [2]:
X.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69


Посмотрим на целевую переменную

In [3]:
y.value_counts()

Unnamed: 0_level_0,count
target,Unnamed: 1_level_1
1,71
0,59
2,48


Классы не очень сбалансированы, поэтому для оценки качества классификации будем использовать метрику $f_1$-score.

Разобъем данные на train и test

In [4]:
from sklearn.model_selection import train_test_split

Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.25, random_state=42)

Приведем признаки к одному масштабу

In [5]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(Xtrain)

Xtrain = pd.DataFrame(scaler.transform(Xtrain), columns=X.columns)
Xtest = pd.DataFrame(scaler.transform(Xtest), columns=X.columns)

Обучим метод опорных векторов на тренировочных данных и оценим качество на тестовых данных

In [6]:
from sklearn.svm import SVC

model = SVC(kernel = 'linear')

model.fit(Xtrain, ytrain)

In [7]:
from sklearn.metrics import f1_score

pred = model.predict(Xtest)

f1_score(ytest, pred, average='weighted')

0.8890522875816994

У SVM как и других линейных моделей есть регуляризация.

Гиперпараметр С регулирует силу регуляризации. Давайте посмотрим, как меняется качество модели при различных С.

In [8]:
import numpy as np
from sklearn.model_selection import cross_val_score

for C in np.arange(0.01, 1.1, 0.1):
    print('C:', C, 'score=', cross_val_score(SVC(kernel = 'linear', C=C), X, y, cv=3, scoring='f1_weighted').mean())

C: 0.01 score= 0.8007977835085888
C: 0.11 score= 0.8813018280615098
C: 0.21000000000000002 score= 0.8983829315052994
C: 0.31000000000000005 score= 0.9040271984570724
C: 0.41000000000000003 score= 0.8981547042711376
C: 0.51 score= 0.9097995167855153
C: 0.6100000000000001 score= 0.915614786294352
C: 0.7100000000000001 score= 0.9147587684891816
C: 0.81 score= 0.9203839689175304
C: 0.91 score= 0.9147219225053939
C: 1.01 score= 0.9147219225053939


In [9]:
model = SVC(kernel = 'linear', C=0.8)

model.fit(Xtrain, ytrain)

pred = model.predict(Xtest)

f1_score(ytest, pred, average='weighted')

0.912826474463303

In [10]:
model.predict_proba(Xtest)

AttributeError: predict_proba is not available when probability=False

Также у SVM можно настраивать и другие гиперпараметры:

*  class_weight - при сильном дисбалансе классов можно ставить значение 'balanced'

*  probability - если требуется предсказывать вероятности классов, то нужно ставить значение True

*  decision_function_shape - по умолчанию 'ovr' (для многоклассовой классификации можно пробовать опцию 'ovo')