In [1]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

In [2]:
X, y = load_breast_cancer(return_X_y=True)

In [3]:
trainX, testX, trainY, testY = train_test_split(X, y, random_state=42, test_size=0.2)
print(trainX.shape, trainY.shape, testX.shape, testY.shape)

(455, 30) (455,) (114, 30) (114,)


In [4]:
print(testY)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 0 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 0 1 1 0 1 0 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 1 0]


## Linear SVM

In [5]:
from sklearn.svm import LinearSVC
clf = LinearSVC(random_state=42).fit(trainX, trainY)
out_y = clf.predict(testX)
print(out_y)

[1 0 0 1 1 0 0 0 1 1 1 0 1 1 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 1 1 1 0 0 1 1 1 0 0 1 1 1 0 1 1
 1 1 1 1 1 1 0 1 1 0 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 1 0]




Можно посмотреть сами значения, по которым принимается решение (берется sign)

In [6]:
import numpy as np
scores = clf.decision_function(testX)
print(scores)
print((scores > 0).astype(np.int32) == out_y)

[  0.69199762  -4.38759904  -1.01912235   1.93128467   1.89234461
  -3.2964059   -5.26378109  -0.40507223   1.70126381   1.27374216
   1.18599942  -1.25734799   1.34757849   0.71183508   1.5975907
  -0.0931177    1.58225202   1.88117675   1.37601957  -2.6630822
   0.63153195   1.26480914  -3.93314904   1.40809652   1.47619635
   2.06311363   1.71906575   1.58762732   1.54328865  -3.88333982
   1.61655342   1.65903265   1.11010878   0.87730645   1.66028412
   1.41409448  -1.00371193   1.22816212  -2.6784796    0.91130064
   1.60156099  -0.93456134   1.87849568   1.27700492   1.75674449
   1.08976397   1.63900489   1.15090368   1.07731746   1.67746488
  -2.09635816  -3.38571881   1.38992968   1.76618642   1.84212336
   1.08090589   1.68059145  -5.58415347   0.85295292   1.8812375
   1.33741148  -2.65809531  -4.32228106   1.23188758   1.42241936
   1.07108724  -1.67409264  -1.76794146   1.62165487   1.3786163
   0.02198963  -2.02151827   1.52016319   0.73570675   0.98269703
   1.66407969 

Можно распечатать коэффициенты линейного классификатора и его свободный член

In [7]:
print('w =', clf.coef_)
print('w0 =', clf.intercept_)

w = [[ 3.43911231e-02  1.94773546e-02  7.65612661e-02  2.75380706e-04
  -6.25380147e-04 -4.17529562e-03 -5.63497625e-03 -2.30135205e-03
  -8.68646191e-04 -1.64102330e-04  1.02674676e-03  6.46553280e-03
  -6.54248109e-03 -9.10916795e-03 -2.66419626e-05 -1.01490971e-03
  -1.24637205e-03 -3.27696470e-04 -2.14486359e-04 -7.67908469e-05
   3.54632257e-02 -3.85380912e-02 -1.62523046e-02 -6.15154097e-03
  -1.24146310e-03 -1.48087301e-02 -1.73480099e-02 -4.89012805e-03
  -3.60320839e-03 -1.19254538e-03]]
w0 = [0.00605701]


In [8]:
out_score = clf.score(testX, testY)
print('Linear score:', out_score)

Linear score: 0.9210526315789473


## Kernel SVM

In [9]:
from sklearn.svm import SVC
clf = SVC(random_state=42, C=1.0, kernel='poly', degree=3, gamma='scale').fit(trainX, trainY)
out_y = clf.predict(testX)
print(out_y)

[1 0 0 1 1 0 0 0 1 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 1 1 0 1 1 1 1 1 1 0
 1 0 1 1 0 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 0 0 1 1 0 0 1 1 1 0 0 1 1 0 0 1 0
 1 1 1 1 1 1 0 1 1 0 0 0 0 0 1 1 1 1 1 1 1 1 0 0 1 0 0 1 0 0 1 1 1 0 1 1 0
 1 0 0]


In [10]:
out_score = clf.score(testX, testY)
print('Poly score:', out_score)

Poly score: 0.9649122807017544


## См. также

* **LibSVM** - https://www.csie.ntu.edu.tw/~cjlin/libsvm/ - с++/Java реализация SVM общего вида со множеством интерфейсов в сторонних ЯП
* **LibLinear** - https://www.csie.ntu.edu.tw/~cjlin/liblinear/ - версия LibSVM исключительно для линейного ядра (работает в этом случае гораздо быстрее)