# Машинное обучение, ШАД
## Домашнее задание 11: Оптимизация нейросетей


In [None]:
from typing import Callable, Iterable, List, Optional, Tuple

import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

import torch
import torch.nn as nn
import torch.optim
from torch.optim import Optimizer
from torch.utils.data import DataLoader, Dataset, Subset
from torchvision import datasets, transforms
from torchvision.datasets import MNIST

...  # допиши необходимые импорты

sns.set(palette="Set2")
device = "cuda:0" if torch.cuda.is_available() else "cpu"
print(device)

### Ссылки на использование ИИ

Если при решении задач использовался ИИ, укажи здесь публичные ссылки на все чаты с ИИ и поясни, для каких целей он применялся. Обрати внимание на <a href="https://thetahat.ru/courses/ai-rules">правила</a>.

**Задача 1**
1. ссылка
    - для чего использована
    - для чего использована
2. ссылка
    - для чего использована

**Задача 2**
1. ссылка
    - для чего использована


---
### Задача 1.

Контест

---
### Задача 2.

Рассмотрим полносвязную нейронную сеть из трех слоев, которая принимает на вход $x \in \mathbb{R}^{d_0}$ и возвращает $y \in \mathbb{R}^{d_3}$:

$$y_\theta(x) = \sigma_2 \big( \sigma_1 \left( x^{\top} W_1 + b_1 \right)^{\top} W_2 + b_2 \big)^{\top} W_3 + b_3,$$

где

* $W_1 \in \mathbb{R}^{d_0 \times d_1}, b_1 \in \mathbb{R}^{d_1}$ &mdash; параметры 1-го слоя,

* $W_2 \in \mathbb{R}^{d_1 \times d_2}, b_2 \in \mathbb{R}^{d_2}$ &mdash; параметры 2-го слоя,

* $W_3 \in \mathbb{R}^{d_2 \times d_3}, b_3 \in \mathbb{R}^{d_3}$ &mdash; параметры 3-го слоя,

* $\theta = (W_1, b_1, W_2, b_2, W_3, b_3)$ — все параметры нейросети,

* $\sigma_1(x), \sigma_1(x)$ &mdash; некоторые функции активации.

  

Пусть все веса инциализированы константой $c_1$, а все смещения &mdash; константой $c_2$. Покажите, что в процессе обучения данной нейросети ее параметры будут меняться следующим образом.
* Веса $W_1$ могут поменяться, и не обязательно будут одинаковыми; аналогично с весами $W_3$ и смещением $b_3$.
* Веса $W_2$ также могут поменять свое значение, но в каждый момент времени это значение будет одинаковым для всех весов $W_2$; аналогично со смещениями $b_1$ и $b_2$.

Обобщите это утверждение на случай большего количества слоев в нейронной сети.

*Это теоретическая задача. Решение в виде кода будет оцениваться 0 баллов*.

...

---
### Задача 3.

**1.** В данной задаче вам предстоит реализовать метод оптимизации **Adam** (Adaptive Moment Estimation) путем создания собственного класса-оптимизатора в PyTorch. Предполагается следующая последовательность действий.


1. Разработайте класс `MyAdam`, наследуемый от `torch.optim.Optimizer`

2. Переопределите метод `step()`, содержащий логику метода `Adam`

3. Реализуйте стандартные параметры метода:

    - `lr` — скорость обучения (learning rate);

    - `betas` — коэффициенты для вычисления скользящих средних моментов;

    - `eps` — малая константа для обеспечения численной стабильности;

    - `weight_decay` — коэффициент L2-регуляризации.

In [None]:
class My_Adam(Optimizer):
    """Класс, реализующий алгоритм Adam (Adaptive Moment Estimation)."""

    def __init__(
        self,
        params: Iterable[torch.Tensor],
        lr: float = 1e-3,
        betas: Tuple[float, float] = (0.9, 0.999),
        eps: float = 1e-8,
        weight_decay: float = 0,
    ) -> None:
        """Инициализирует оптимизатор.

        Параметры:
            params: Итерируемый объект параметров для оптимизации
            lr (float): Learning rate (скорость обучения)
            betas (tuple): Коэффициенты для вычисления скользящих средних
            eps (float): Термин для численной стабильности

        """
        # Проверяем, что параметры корректны
        if lr <= 0:
            raise ValueError(f"Learning rate должен быть положительным: {lr}")
        if not 0 <= betas[0] < 1:
            raise ValueError(f"beta должен быть между 0 и 1: {betas[0] }")
        if not 0 <= betas[1] < 1:
            raise ValueError(f"mu должен быть между 0 и 1: {betas[1]}")
        if eps <= 0:
            raise ValueError(f"eps должен быть положительным: {eps}")

        # Установить параметры по умолчанию
        defaults = dict(...)
        super(My_Adam, self).__init__(params, defaults)

    @torch.no_grad()
    def step(self, closure: Optional[Callable[[], float]] = None) -> Optional[float]:
        """Выполняет один шаг оптимизации.

        Параметры:
            closure (callable, optional): Функция для перерасчета loss

        Возвращает:
            float: Значение loss если closure предоставлена, иначе None
        """

        loss = None

        if closure is not None:
            # Если передана closure функция, вычисляем loss
            with torch.enable_grad():
                loss = closure()

        # Пройти по всем группам параметров
        for group in self.param_groups:
            # Извлечь параметры группы
            lr = group["lr"]
            beta, mu = group["betas"]
            eps = group["eps"]
            weight_decay = group["weight_decay"]

            # Пройти по всем параметрам в группе
            for p in group["params"]:
                if p.grad is None:
                    continue

                ...

        return loss


По аналогии с реализацией класса `Adam` реализуйте метод оптимизации `NAdam` — модификацию Adam с ускорением Нестерова. Для этого добавьте параметр `momentum_decay`, который контролирует влияние момента Нестерова.

In [None]:
class My_NAdam(Optimizer):
    """Класс, реализующий алгоритм NAdam."""

    def __init__(
        self,
        params: Iterable[torch.Tensor],
        lr: float = 1e-3,
        betas: Tuple[float, float] = (0.9, 0.999),
        eps: float = 1e-8,
        weight_decay: float = 0,
        momentum_decay: float = 0.004,
    ) -> None:
        """Инициализирует оптимизатор.

        Параметры:
            params: Итерируемый объект параметров для оптимизации
            lr (float): Learning rate (скорость обучения)
            betas (tuple): Коэффициенты для вычисления скользящих средних
            eps (float): Термин для численной стабильности

        """
        # Проверяем, что параметры корректны
        if lr <= 0:
            raise ValueError(f"Learning rate должен быть положительным: {lr}")
        if not 0 <= betas[0] < 1:
            raise ValueError(f"beta должен быть между 0 и 1: {betas[0]}")
        if not 0 <= betas[1] < 1:
            raise ValueError(f"mu должен быть между 0 и 1: {betas[1]}")
        if eps <= 0:
            raise ValueError(f"eps должен быть положительным: {eps}")
        if momentum_decay < 0:
            raise ValueError(f"momentum_decay должен быть неотрицательным: {momentum_decay}")

        # Установить параметры по умолчанию
        defaults = dict(...)
        super(My_NAdam, self).__init__(params, defaults)

    @torch.no_grad()
    def step(self, closure: Optional[Callable[[], float]] = None) -> Optional[float]:
        """Выполняет один шаг оптимизации.

        Параметры:
            closure (callable, optional): Функция для перерасчета loss

        Возвращает:
            float: Значение loss если closure предоставлена, иначе None
        """

        ...

        return loss

**2.** Проведем серию экспериментов для оценки работоспособности нашего оптимизатора.
Введем вспомогательную функцию.

Функция `make_experiment` визуализирует процесс оптимизации, отображая:

* линии уровня целевой функции в логарифмической шкале,

* траекторию движения алгоритма от начальной до конечной точки,

* стартовую (зеленая) и финальную (синяя) точки.

In [None]:
def make_experiment(
    func: Callable[[torch.Tensor], float],
    trajectory: List[Tuple[float, float]],
    graph_title: str,
    xlim: Tuple[float, float] = (-7, 7),
    ylim: Tuple[float, float] = (-7, 7),
) -> None:
    """
    Функция, которая для заданной функции рисует её линии уровня,
    а также траекторию сходимости метода оптимизации.

    Параметры:
    1) func: Callable[[torch.Tensor], float] - оптимизируемая функция.
       Принимает 2D-тензор (координаты) и возвращает число (значение функции).
    2) trajectory: List[Tuple[float, float]] - траектория метода оптимизации.
       Список кортежей, где каждый кортеж - это (x, y) точка.
    3) graph_title: str - заголовок графика.
    4) xlim: Tuple[float, float] - кортеж с границами оси X (min_x, max_x).
    5) ylim: Tuple[float, float] - кортеж с границами оси Y (min_y, max_y).
    """

    fig, ax = plt.subplots(figsize=(10, 8))

    # Создаем сетку для линий уровня
    mesh_x = np.linspace(xlim[0], xlim[1], 300)
    mesh_y = np.linspace(ylim[0], ylim[1], 300)
    X, Y = np.meshgrid(mesh_x, mesh_y)
    Z = np.zeros((len(mesh_x), len(mesh_y)))

    # Вычисляем значения функции на сетке
    for coord_x in range(len(mesh_x)):
        for coord_y in range(len(mesh_y)):
            Z[coord_y, coord_x] = func(torch.tensor((mesh_x[coord_x], mesh_y[coord_y])))

    # Рисуем линии уровня
    quantile_level = np.linspace((1e-4) ** (1.0 / 3), 0.95 ** (1.0 / 3), 20) ** 3
    contour = np.unique(np.quantile(np.ravel(Z), quantile_level))
    ax.contour(X, Y, np.log(Z), np.log(contour), cmap="winter", linewidths=1.5, alpha=0.6, zorder=1)

    # Рисуем всю траекторию целиком
    xdata = [point[0] for point in trajectory]
    ydata = [point[1] for point in trajectory]
    ax.plot(xdata, ydata, "ro-", markersize=4, linewidth=1, zorder=2)

    # Отмечаем начальную точку
    ax.plot(xdata[0], ydata[0], "go", markersize=8, label="Старт")

    # Отмечаем конечную точку
    ax.plot(xdata[-1], ydata[-1], "bo", markersize=8, label="Финиш")

    ax.set_title(graph_title)
    ax.legend()
    ax.set_xlim(xlim[0], xlim[1])
    ax.set_ylim(ylim[0], ylim[1])

    plt.tight_layout()
    plt.show()

Проведите серию экспериментов по оптимизации. Для этого сравните свои классы `Adam` и `NAdam` с реализациями `Adam` и `NAdam` из `torch`. Для каждого метода попробуйте минимум 2 набора гиперпараметров.

Рассмотрите следующие функции

 $$
 f_1(x, y) = x^2 + y^2 + 10\sin 5x + 10\cos 5y
 $$

 $$
 f_2(x, y) = (1 - x)^2 + 100 \left(y - x^2 \right)^2
 $$

 $$
 f_3(x, y) = \left(x^2 + y - 11\right)^2 + \left(x + y^2 - 7\right)^2
 $$


Для каждой связки (*функция, оптимизатор, стартовая точка*) выполните следующие действия.

1. Создайте тензор `params` со стартовой точкой.

2. Создайте экземпляр оптимизатора, передав ему этот тензор с параметрами.

3. Создайте пустой список `trajectory` для сохранения истории точек $(x, y)$.

4. Проведите цикл оптимизации.

5. Для каждого эксперимента передайте полученный список `trajectory` в функцию `make_experiment`. Это позволит увидеть "путь" алгоритма по ландшафту функции.

6. Сравните поведение оптимизаторов на разных функциях.

In [None]:
...

---
© 2025 команда <a href="https://thetahat.ru/">ThetaHat</a> для курса ML-1 ШАД