In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

In [2]:
X, y = load_breast_cancer(return_X_y=True)

In [3]:
trainX, testX, trainY, testY = train_test_split(X, y, random_state=42, test_size=0.2)
print(trainX.shape, trainY.shape, testX.shape, testY.shape)

(455, 30) (455,) (114, 30) (114,)


In [4]:
print(testY)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 0 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 0 1 1 0 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 1 0]


## Linear SVM

In [5]:
from sklearn.svm import LinearSVC
clf = LinearSVC(random_state=42).fit(trainX, trainY)
out_y = clf.predict(testX)
print(out_y)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 0 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 1 0]




Можно посмотреть сами значения, по которым принимается решение (берется sign)

In [6]:
import numpy as np
scores = clf.decision_function(testX)
print(scores)
print((scores > 0).astype(np.int32) == out_y)

[ 2.20199112e-01 -5.44510530e+00 -1.73157739e+00  1.49225345e+00
  1.50778111e+00 -4.45103422e+00 -6.60160981e+00 -1.25862018e+00
  1.21355320e+00  7.24990425e-01  6.87224990e-01 -2.07217882e+00
  7.33334540e-01 -2.23510745e-02  1.15716280e+00 -1.07365078e+00
  9.78838924e-01  1.57447553e+00  1.20869101e+00 -3.81991213e+00
  7.33938400e-02  8.33705618e-01 -5.18889756e+00  1.09894922e+00
  1.07728268e+00  1.55722177e+00  1.22010492e+00  1.26935574e+00
  1.08007327e+00 -4.78833904e+00  1.24956233e+00  1.23668952e+00
  8.07542797e-01  3.36972989e-01  1.34689079e+00  1.01910645e+00
 -1.74532673e+00  8.15770623e-01 -3.63918828e+00  3.07762569e-01
  1.26803363e+00 -1.61634944e+00  1.48790844e+00  8.63000555e-01
  1.34715674e+00  6.98331207e-01  1.36932245e+00  8.68244575e-01
  6.67476420e-01  1.19805877e+00 -2.95984082e+00 -4.39831710e+00
  8.90577911e-01  1.22829535e+00  1.42915174e+00  5.77103419e-01
  1.35803743e+00 -7.21427259e+00  3.19841081e-01  1.50978914e+00
  8.60457229e-01 -3.73456

Можно распечатать коэффициенты линейного классификатора и его свободный член

In [7]:
print('w =', clf.coef_)
print('w0 =', clf.intercept_)

w = [[ 3.44219635e-02  1.97115581e-02  7.60371027e-02 -3.05689926e-04
  -6.26954948e-04 -4.19723263e-03 -5.65616788e-03 -2.30431018e-03
  -8.79923368e-04 -1.66863334e-04  1.02096647e-03  6.07567357e-03
  -6.41262013e-03 -9.26186533e-03 -2.73042960e-05 -1.03176324e-03
  -1.25630983e-03 -3.28926706e-04 -2.17206220e-04 -7.95815239e-05
   3.54477532e-02 -3.89806144e-02 -1.69124137e-02 -6.26179179e-03
  -1.24404136e-03 -1.48878565e-02 -1.74079894e-02 -4.90243188e-03
  -3.62887290e-03 -1.20270732e-03]]
w0 = [0.00608061]


In [8]:
out_score = clf.score(testX, testY)
print('Linear score:', out_score)

Linear score: 0.9736842105263158


## Kernel SVM

In [9]:
from sklearn.svm import SVC
clf = SVC(random_state=42, C=1.0, kernel='poly', degree=3, gamma='scale').fit(trainX, trainY)
out_y = clf.predict(testX)
print(out_y)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 0 0 1 1 1 0 1 0
 1 1 1 1 1 1 0 1 1 0 0 0 1 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 1 0]


Можно посмотреть количество опорных векторов для каждого класса, их индексы, а также сами опорные вектора

In [10]:
print(clf.n_support_)
print(clf.support_)
print(clf.support_vectors_)

[60 60]
[  5  17  21  25  30  34  36  50  55  71  95 100 106 120 121 130 134 141
 145 147 155 162 183 193 197 202 236 283 285 286 306 309 310 312 323 324
 327 329 332 335 352 353 354 357 360 362 364 365 391 394 397 398 403 409
 413 435 441 445 446 453   6  18  20  24  35  39  44  53  57  59  61  63
  65  66  72  73  82  86 107 117 124 129 133 136 144 149 160 171 180 203
 204 207 223 229 230 239 241 247 262 269 272 281 282 284 290 299 305 334
 355 358 380 382 395 405 415 419 422 436 437 439]
[[1.454e+01 2.754e+01 9.673e+01 ... 1.712e-01 4.218e-01 1.341e-01]
 [1.522e+01 3.062e+01 1.034e+02 ... 2.356e-01 4.089e-01 1.409e-01]
 [1.534e+01 1.426e+01 1.025e+02 ... 2.393e-01 4.667e-01 9.946e-02]
 ...
 [1.499e+01 2.211e+01 9.753e+01 ... 1.308e-01 3.163e-01 9.251e-02]
 [1.785e+01 1.323e+01 1.146e+02 ... 8.341e-02 1.783e-01 5.871e-02]
 [1.350e+01 1.271e+01 8.569e+01 ... 2.210e-02 2.267e-01 6.192e-02]]


In [11]:
i = 0
idx = clf.support_[i]
import numpy as np
print('train vector == support vector: ', np.all(trainX[idx] == clf.support_vectors_[i]))

train vector == support vector:  True


In [12]:
out_score = clf.score(testX, testY)
print('Poly score:', out_score)

Poly score: 0.9473684210526315


## См. также

* **LibSVM** - https://www.csie.ntu.edu.tw/~cjlin/libsvm/ - с++/Java реализация SVM общего вида со множеством интерфейсов в сторонних ЯП
* **LibLinear** - https://www.csie.ntu.edu.tw/~cjlin/liblinear/ - версия LibSVM исключительно для линейного ядра (работает в этом случае гораздо быстрее)

**Задача**: Чему равно $k$ для спрямляющего мономиального отображения степени не больше $m$: $\varphi: \mathbb{R}^n\rightarrow\mathbb{R}^k$

**Дедлайн**: 12.11.2020 23:59

Высылать на почту **mlcoursemm@gmail.com** с темой письма [ML2020A_Seminar06]