# Обучение SVM на PyTorch

SVM - это линейная модель со следующей функцией потерь:

$L(x, y) = \max(0, 1 - y (x^Tw + b)) + \frac{1}{2}\lambda \|w\|^2$

где $y$ это метка класса (-1 или 1), $x$ - вектор признаков, $w$ и $b$ - обучаемые параметры модели, а $\lambda$ - гиперпараметр регуляризации.

Предлагается использовать механизм автоматического дифференцирования PyTorch для оптимизации SVM методом градиентного спуска.

In [None]:
import torch
import sklearn.datasets

# Загрузим датасет бинарной классификации.
X, y = sklearn.datasets.load_breast_cancer(return_X_y=True)
X = torch.tensor(X)
y = torch.tensor(y)
X = (X - X.mean(1, keepdim=True)) / X.std(1, keepdim=True)  # Нормализовать признаки.
print("Features:", X.shape)
print("Labels:", y.shape)
print("Num classes:", y.max().item() + 1)

N, D = X.shape
print("Num elements:", N)
print("Num features:", D)

y = y * 2 - 1  # Конвертировать метки из 0, 1 в -1, 1.
print("Sample features:", X.flatten()[:5])
print("Sample targets:", y[-10:])

**Задание 1.** Реализуйте SVM loss на PyTorch для батча данных. Предлагается усреднить значения лосса для всех элементов батча.

Обратите внимание на функции torch.clip, torch.square и torch.linalg.norm.

In [None]:
def svm_loss(X, y, w, b, l=0.001):
    """SVM Loss.
    
    Args:
        X: Входные признаки с размерностью (Batch, Dim).
        y: Входные метки с размерностью (Batch).
        w: Вектор весов с размерностью (Dim).
        b: Смещение (скаляр).
        l: Параметр регуляризации.
        
    Returns:
        Функция возвращает скаляр со значением лосса.
    """
    # Ваше решение здесь.
    return ...


# Проверки.
loss = svm_loss(X, y,
                w=torch.ones(D, requires_grad=True),
                b=torch.full([], 0.5, requires_grad=True))
assert abs(loss.item() - 0.88758) < 1e-5
assert loss.requires_grad
del loss

**Задание 2** Создайте оптимизатор с шагом обучения 0.1.

Обратите внимание на функцию torch.optim.SGD.

In [None]:
def make_optimizer(w, b):
    """Возвращает оптимизатор для параметров w и b."""
    # Ваше решение здесь.
    return ...


# Проверки.
optimizer = make_optimizer(w=torch.ones(D, requires_grad=True),
                           b=torch.full([], 0.5, requires_grad=True))
assert abs(optimizer.param_groups[0]["lr"] - 0.1) < 1e-5
assert len(optimizer.param_groups) == 1
assert sum(p.numel() for p in optimizer.param_groups[0]["params"]) == 31
del optimizer

**Задание 3**. Реализуйте шаг обучения модели.

Не забудьте обнулить градиенты перед backward.

Обратите внимание на функции optimizer.zero_grad и optimizer.step. Чтобы запустить автоматическое дифференцирование нужно выполнить метод backward для значения лосс-функции.

In [None]:
def train_step(optimizer, X, y, w, b, l=0.001):
    """Сделать шаг оптимизации."""
    # Ваш код здесь.

    
# Проверки.
w = torch.ones(D, requires_grad=True)
b = torch.full([], 0.5, requires_grad=True)
w.grad = torch.full_like(w, -1)
optimizer = make_optimizer(w, b)
train_step(optimizer, X, y, w, b)
assert abs(w.grad[0].item() - 0.0560) < 1e-4, w.grad[0]
assert abs(b.grad.item() + 0.2548) < 1e-4, b.grad
assert abs(w[0].item() - 0.9944) < 1e-4, w[0]
assert abs(b.item() - 0.5255) < 1e-4, b
del w, b, optimizer

**Задание 4.** Реализуйте цикл обучения: сделайте 100 шагов из начальной точки.

In [None]:
def get_accuracy(X, y, w, b):
    logits = (X * w).sum(-1) + b
    predictions = (logits > 0).long() * 2 - 1
    return (y == predictions).float().mean().item()


def training_loop(X, y, w, b):
    # Ваш код здесь.


w = torch.arange(D).float()
w.requires_grad = True
b = torch.tensor([0.0], requires_grad=True)

print("Initial accuracy:", get_accuracy(X, y, w, b))
training_loop(X, y, w, b)
print("Final accuracy:", get_accuracy(X, y, w, b))

# Проверки.
assert get_accuracy(X, y, w, b) > 0.9