## $SVM$

Цель алгоритма $SVM$(Supported Vector Machine) состоит в том, чтобы найти гиперплоскость в $N-мерном$ пространстве, которая четко классифицирует точки данных. 
Опорные векторы - это точки данных, которые находятся ближе к гиперплоскости и влияют на положение и ориентацию гиперплоскости. В $SVM$ берем выходные данные линейной функции, и если этот результат больше 1, определяем это с одним классом, и если результат равен -1, то идентифицируем это с другим классом. 

В алгоритме $SVM$ стремимся максимизировать разницу между точками данных и гиперплоскостью. Функция потерь, которая помогает максимизировать маржу - это *hinge loss*.

**Обновление градиента** 

Когда есть функция потерь, берем частные производные по весам, чтобы найти градиенты. Используя градиенты, мы можем обновить веса.

In [2]:
import pandas as pd 
import numpy as np
df = pd.read_csv('breast.csv')
y = df['diagnosis']
y = y.to_numpy()
y = [int(x) for x in y]
y = np.reshape(y, (569,1))
for i in y:
    if i[0] == 0:
        i[0] = -1
        
y
df = df.drop(df.columns[[-1]], axis=1)
X = df.to_numpy()
X
x_train = X[:450]
x_test = X[450:]
y_train = y[:450]
y_test = y[450:]


In [3]:
import numpy as np

train_f1 = x_train[:,0]
train_f2 = x_train[:,1]

train_f1 = train_f1.reshape(450,1)
train_f2 = train_f2.reshape(450,1)

w1 = np.zeros((450,1))
w2 = np.zeros((450,1))

epochs = 1
alpha = 0.0001 #скорость обучения

while(epochs < 10000):
    y = w1 * train_f1 + w2 * train_f2
    prod = y * y_train
    
    #print(epochs)
    count = 0
    for val in prod:
        if(val >= 1):
            cost = 0
            w1 = w1 - alpha * (2 * 1/epochs * w1)
            w2 = w2 - alpha * (2 * 1/epochs * w2)
            
        else:
            cost = 1 - val 
            w1 = w1 + alpha * (train_f1[count] * y_train[count] - 2 * 1/epochs * w1)
            w2 = w2 + alpha * (train_f2[count] * y_train[count] - 2 * 1/epochs * w2)
        count += 1
    epochs += 1

In [4]:
#Извлекаем характеристики из тестовых данных и прогнозируем значения.
#Получаем прогнозы и сравниваем их с фактическими значениями и печатаем точность нашей модели.
import numpy as np
from sklearn.metrics import accuracy_score
index = list(range(119,450))
w1 = np.delete(w1,index)
w2 = np.delete(w2,index)
w1 = w1.reshape(119,1)
w2 = w2.reshape(119,1)
#Извлекаем тестовые данные
test_f1 = x_test[:,0]
test_f2 = x_test[:,1]

test_f1 = test_f1.reshape(119,1)
test_f2 = test_f2.reshape(119,1)
#Predict
y_pred = w1 * test_f1 + w2 * test_f2
predictions = []
for val in y_pred:
    if(val > 1):
        predictions.append(1)
    else:
        predictions.append(-1)

print(accuracy_score(y_test,predictions))

0.7478991596638656


### $ИТОГ$
Точность написанного $SVM$ на **~15%** хуже, чем в sklearn.

In [5]:
from sklearn.svm import SVC #классификатор
from sklearn.metrics import accuracy_score

clf = SVC(kernel='linear')
clf.fit(x_train,y_train)
y_pred = clf.predict(x_test)
print(accuracy_score(y_test,y_pred))

  y = column_or_1d(y, warn=True)


0.8991596638655462
