# **Важно!**

Домашнее задание состоит из нескольких задач, которые вам нужно решить.
*   Баллы выставляются по принципу выполнено/невыполнено.
*   За каждую выполненую задачу вы получаете баллы (количество баллов за задание указано в скобках).

**Инструкция выполнения:** Выполните задания в этом же ноутбуке (места под решения **КАЖДОЙ** задачи обозначены как **#НАЧАЛО ВАШЕГО РЕШЕНИЯ** и **#КОНЕЦ ВАШЕГО РЕШЕНИЯ**)

**Как отправить задание на проверку:** Вам необходимо сохранить ваше решение в данном блокноте и отправить итоговый **файл .IPYNB** на учебной платформе в **стандартную форму сдачи домашнего задания.**

**Срок проверки преподавателем:** домашнее задание проверяется **в течение 3 дней после дедлайна сдачи** с предоставлением обратной связи

# **Прежде чем проверять задания:**

1. Перезапустите **ядро (restart the kernel)**: в меню, выбрать **Ядро (Kernel)**
→ **Перезапустить (Restart)**
2. Затем **Выполнить** **все ячейки (run all cells)**: в меню, выбрать **Ячейка (Cell)**
→ **Запустить все (Run All)**.

После ячеек с заданием следуют ячейки с проверкой **с помощью assert.**

Если в коде есть ошибки, assert выведет уведомление об ошибке.

Если в коде нет ошибок, assert отработает без вывода дополнительной информации.

---

Adam (Adaptive Moment Estimation) - это оптимизатор, используемый в машинном обучении для обновления параметров модели в процессе обучения. Этот оптимизатор является комбинацией двух других популярных оптимизаторов: градиентного спуска с моментом и адаптивного градиентного спуска.

Основные преимущества Adam:

1. **Адаптивные скорости обучения:** Adam автоматически адаптирует скорость обучения для каждого параметра на основе истории градиентов. Это позволяет эффективно обучать модели с разными скоростями обучения для разных параметров.

2. **Момент:** Adam включает в себя момент (momentum), что помогает ускорить обучение и уменьшить возможность застревания в локальных минимумах.

3. **Скользящее среднее:** Adam поддерживает скользящее среднее градиентов и их квадратов, что улучшает стабильность и сходимость оптимизации.

4. **Регуляризация:** В Adam можно использовать L2-регуляризацию на параметры модели.

Общая формула обновления параметров с использованием оптимизатора Adam выглядит следующим образом:

```
m_t = beta1 * m_{t-1} + (1 - beta1) * g_t  # Экспоненциальное скользящее среднее градиентов
v_t = beta2 * v_{t-1} + (1 - beta2) * g_t^2  # Экспоненциальное скользящее среднее квадратов градиентов
m_hat_t = m_t / (1 - beta1^t)  # Коррекция момента
v_hat_t = v_t / (1 - beta2^t)  # Коррекция среднего квадрата
theta_t = theta_{t-1} - alpha * m_hat_t / (sqrt(v_hat_t) + epsilon)  # Обновление параметров модели
```

Где:
- `g_t` - градиент функции потерь по параметрам модели в момент времени `t`.
- `m_t` и `v_t` - скользящие средние градиентов и квадратов градиентов соответственно.
- `m_hat_t` и `v_hat_t` - скорректированные значения скользящих средних и квадратов градиентов.
- `alpha` - скорость обучения (learning rate).
- `beta1` и `beta2` - коэффициенты сглаживания для скользящих средних.
- `epsilon` - небольшая константа, добавленная для численной стабильности.

Adam является одним из наиболее популярных и эффективных оптимизаторов для обучения глубоких нейронных сетей, и он широко используется в практике машинного обучения и глубокого обучения.

In [None]:
import numpy as np

class AdamOptimizer:
    """
    Задание 1 (1 балл):

    Напишите метод `__init__` для класса `AdamOptimizer`.

    **Описание задания:**

    Вы должны создать конструктор класса `AdamOptimizer`, который инициализирует параметры оптимизатора Adam.

    **Параметры конструктора:**
    1. `learning_rate` (по умолчанию 0.001): Скорость обучения (learning rate) оптимизатора Adam.
    2. `beta1` (по умолчанию 0.9): Коэффициент для экспоненциального скользящего среднего первого порядка.
    3. `beta2` (по умолчанию 0.999): Коэффициент для экспоненциального скользящего среднего второго порядка.
    4. `epsilon` (по умолчанию 1e-8): Малое число для предотвращения деления на ноль.

    **Поля экземпляра класса:**
    1. `learning_rate`: Скорость обучения.
    2. `beta1`: Значение `beta1`.
    3. `beta2`: Значение `beta2`.
    4. `epsilon`: Значение `epsilon`.
    5. `momentums`: Инициализируется как `None`. Здесь будет храниться экспоненциальное скользящее среднее первого порядка.
    6. `running_squared_gradients`: Инициализируется как `None`. Здесь будет храниться экспоненциальное скользящее среднее второго порядка.
    7. `t`: Инициализируется как 0. Это счетчик шагов оптимизации.

    **Пример использования:**

    # Создаем объект AdamOptimizer с заданными параметрами
    optimizer = AdamOptimizer(learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8)
    """
    def __init__(self, learning_rate=1e-3, beta1=0.9, beta2=0.999, epsilon=1e-8):
    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
        self.learning_rate = learning_rate
        self.beta1 = beta1
        self.beta2 = beta2
        self.epsilon = epsilon
        self.momentums = None
        self.running_squared_gradients = None
        self.t = 0
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ

    """
    Задание 2 (2 балла):

    **Задача:** Напишите метод `initialize` для класса `AdamOptimizer`.

    **Описание задания:**

    Вам необходимо реализовать метод `initialize`, который будет выполнять инициализацию моментов первого и второго порядка для каждого параметра оптимизатора Adam.

    **Параметры метода:**
    1. `parameters` - Список, содержащий параметры, которые нужно инициализировать.

    **Действия метода:**
    1. Проверьте, что переданный список `parameters` не пустой. Если список пустой, выбросьте исключение с текстом "Необходимо передать параметры".

    2. Для каждого параметра в списке `parameters` создайте массивы нулей с такой же формой и типом данных, как у соответствующего параметра. Эти массивы будут использоваться для хранения моментов первого и второго порядка.

    3. Присвойте полученные массивы нулей атрибутам `momentums` и `running_squared_gradients` класса `AdamOptimizer`.

    **Пример использования:**
    # Создаем объект AdamOptimizer
    optimizer = AdamOptimizer(learning_rate=0.001)

    # Инициализируем моменты для списка параметров
    parameters = [np.array([1.0, 2.0]), np.array([3.0, 4.0])]
    optimizer.initialize(parameters)
    """
    def initialize(self, parameters):
    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
        if not parameters:
            raise Exception("Необходимо передать параметры")

        self.momentums, self.running_squared_gradients = [], []
        for i in range(len(parameters)):
            self.momentums.append(np.zeros_like(parameters[i]))
            self.running_squared_gradients.append(np.zeros_like(parameters[i]))

        return self.momentums, self.running_squared_gradients
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ

    """
    Задание 3 (4 балла):

    **Задача:** Напишите метод `update` для класса `AdamOptimizer`.

    **Описание задания:**

    Вам необходимо реализовать метод `update`, который будет выполнять обновление параметров с использованием оптимизатора Adam.

    **Параметры метода:**
    1. `parameters` - Список, содержащий параметры модели, которые нужно обновить.
    2. `gradients` - Список, содержащий градиенты параметров, вычисленные на текущем шаге оптимизации.

    **Действия метода:**
    1. Проверьте атрибут `momentums` оптимизатора на равенство `None`.
    Если `momentums` равен `None`, вызовите self.initialize(parameters)

    2. Проверьте, что список `gradients` не пустой.
    Если `gradients` пустой, выбросьте исключение с текстом "Необходимо передать непустой градиент".

    3. Увеличьте значение атрибута `t` на 1.

    4. Вычислите скорость обучения `learning_rate_t` на текущем шаге, используя формулу Adam.
    learning_rate_t = self.learning_rate * np.sqrt(1 - self.beta2 ** self.t) / (1 - self.beta1 ** self.t)

    5. Для каждого параметра в списке `parameters` выполните следующие шаги:
       - Обновите момент первого порядка (экспоненциальное скользящее среднее градиента).
       self.momentums[i] = self.beta1 * self.momentums[i] + (1 - self.beta1) * gradients[i]

       - Обновите момент второго порядка (экспоненциальное скользящее среднее квадрата градиента).
       self.running_squared_gradients[i] = self.beta2 * self.running_squared_gradients[i] + \
                                                (1 - self.beta2) * gradients[i] ** 2

       - Вычислите скорость обучения `learning_rate_i` для данного параметра, используя формулу Adam.
       learning_rate_i = learning_rate_t / (np.sqrt(self.running_squared_gradients[i]) + self.epsilon)

       - Обновите значение параметра, учитывая моменты и скорость обучения.
       parameters[i] -= learning_rate_i * self.momentums[i]

    **Пример использования:**
    # Создаем объект AdamOptimizer с заданными параметрами
    optimizer = AdamOptimizer(learning_rate=0.001, beta1=0.9, beta2=0.999, epsilon=1e-8)

    # Инициализируем моменты для списка параметров
    parameters = [np.array([1.0, 2.0]), np.array([3.0, 4.0])]
    optimizer.initialize(parameters)

    # Вычисляем градиенты
    gradients = [np.array([0.1, 0.2]), np.array([-0.3, -0.4])]

    # Обновляем параметры с использованием метода update
    optimizer.update(parameters, gradients)
    """
    def update(self, parameters, gradients):
    # НАЧАЛО ВАШЕГО РЕШЕНИЯ
        if self.momentums == None:
            self.initialize(parameters)
        if not gradients:
            raise Exception("Необходимо передать непустой градиент")

        self.t += 1
        learning_rate_t = self.learning_rate * np.sqrt(1 - self.beta2 ** self.t) / (1 - self.beta1 ** self.t)
        for i in range(len(parameters)):
            self.momentums[i] = self.beta1 * self.momentums[i] + (1 - self.beta1) * gradients[i]
            self.running_squared_gradients[i] = self.beta2 * self.running_squared_gradients[i] + \
                                                (1 - self.beta2) * gradients[i] ** 2
            learning_rate_i = learning_rate_t / (np.sqrt(self.running_squared_gradients[i]) + self.epsilon)
            parameters[i] -= learning_rate_i * self.momentums[i]

        return parameters
    # КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [None]:
optimizer = AdamOptimizer()
assert optimizer.learning_rate == 0.001
assert optimizer.beta1 == 0.9
assert optimizer.beta2 == 0.999
assert optimizer.epsilon == 1e-8
assert optimizer.momentums is None
assert optimizer.running_squared_gradients is None
assert optimizer.t == 0

optimizer = AdamOptimizer(learning_rate=0.01, beta1=0.95, beta2=0.99, epsilon=1e-6)
assert optimizer.learning_rate == 0.01
assert optimizer.beta1 == 0.95
assert optimizer.beta2 == 0.99
assert optimizer.epsilon == 1e-6
assert optimizer.momentums is None
assert optimizer.running_squared_gradients is None
assert optimizer.t == 0

In [None]:
import numpy as np

# обычное тестирование
optimizer = AdamOptimizer()
parameters = [np.array([1.0, 2.0]), np.array([3.0, 4.0])]
optimizer.initialize(parameters)

for i in range(len(parameters)):
    assert np.all(optimizer.momentums[i] == np.zeros_like(parameters[i]))
    assert np.all(optimizer.running_squared_gradients[i] == np.zeros_like(parameters[i]))

# инициализация параметров не с помощью numpy
optimizer = AdamOptimizer()
parameters = [np.array([1.0, 2.0]), np.array([3.0, 4.0])]
optimizer.initialize(parameters)

for i in range(len(parameters)):
    assert np.all(optimizer.momentums[i] == np.zeros_like(parameters[i]))
    assert np.all(optimizer.running_squared_gradients[i] == np.zeros_like(parameters[i]))

In [None]:

optimizer = AdamOptimizer(learning_rate=0.001)
parameters = [np.array([1.0, 2.0]), np.array([3.0, 4.0])]
gradients = [np.array([0.1, 0.2]), np.array([-0.3, -0.4])]

# Тестовый случай 1: Проверка корректности обновления параметров
optimizer.update(parameters, gradients)

parameters
assert np.allclose(parameters[0], np.array([0.999, 1.999]), rtol=1e-5)
assert np.allclose(parameters[1], np.array([3.001, 4.001]), rtol=1e-5)

# Тестовый случай 2: Проверка корректного инкремента t
assert optimizer.t == 1

# Тестовый случай 3: Проверка правильности вычисления скорости обучения
assert np.isclose(optimizer.learning_rate, 0.001)

# Тестовый случай 4: Проверка возникновения исключения при пустом градиенте
try:
    optimizer.update(parameters, [])
except Exception as e:
    assert str(e) == "Необходимо передать непустой градиент"

# Тестовый случай 5: Проверка возникновения исключения при неинициализированном оптимизаторе
optimizer = AdamOptimizer(learning_rate=0.001)
try:
    optimizer.update([], [np.array([0.1, 0.2])])
except Exception as e:
    assert str(e) == "Необходимо передать параметры"
