# **Оптимизаторы**

- ## Теория

## 1. Доступные оптимизаторы в tensorflow.keras:
- SGD
- RMSProp
- Adam
- AdamW
- Adadelta 
- Adagrad
- Adamax
- Adafactor
- Nadam
- Ftrl

Рассмотрим каждый из оптимизаторов отдельно

### 1. SGD
- СУТЬ: обновление весовых коэффициентов нейронной сети с использованием единственного примера i обучающей выборки на каждом шаге.
- ПРЕИМУЩЕСТВА:
    - Не производит лишних вычислений (в отличие от классического градиентного спуска)
- НЕДОСТАТКИ:
    - Может быть медленным на большом количестве данных обучения
    - Застревает в локальных оптимумах
    - Сильно колеблется во время обучения
    - Сложно подобрать оптимальные параметры: слишком маленькие будут замедлять обучение, слишком большие будут препятствовать сходимости
    
Чтобы эти минусы исправить, необходимо понижать скорость обучения модели, но это явно не эффективно (проигрывает другим оптимизаторам)

**ВЫВОД**: скорее всего, на больших данных он сработает плохо, но возможно стоит проверить

Далее будут описаны оптимизаторы, друг из друга вытекающие

### 2.  Adagrad (адаптивный градиент)
- СУТЬ: адаптация SGD: алгоритм уменьшает обновления для элементов, которые и так часто обновляются, и увеличивает обновления для параметров, которые почти не обновлялись.
- ПРЕИМУЩЕСТВА:
    - исключает необходимость изменения скорости обучения вручную (как это было в SGD)
- НЕДОСТАТКИ:
    - Накопление суммы квадратов градиентов, отчего уменьшается коэффициент обучения, и в итоге процесс обучения останавливается

**Вывод**: неэффективный оптимизатор, дальнейшие его улучшения покажут себя лучше

### 3. RMSProp
- СУТЬ: расширение AdaGrad, где адаптируется размер шага индивидуально для каждого веса, чтобы модель не привыкала к определенным параметрам. Нормы градиентов не просто складываются, а усредняются в скользящем режиме.
- ПРЕИМУЩЕСТВА:
    - Эффективнее AdaGrad
    - Тоже не требует ручной настройки скорости обучения
- НЕДОСТАТКИ:
    - Новых недостатков относительно AdaGrad не возникает

**Вывод**: стоит проверить на практике

### 4. Adadelta
- СУТЬ: расширение AdaGrad, в котором вместо суммы градиентов сохраняется усредненный квадрат истории градиента, чтобы избежать замедления обучения
- ПРЕИМУЩЕСТВА:
    - Эффективнее AdaGrad
    - Тоже не требует ручной настройки скорости обучения
- НЕДОСТАТКИ:
    - Новых недостатков относительно AdaGrad не возникает

**Вывод**: стоит проверить на практике

### 5. Adam
- СУТЬ: Adam = Momentum(метод моментов для ускорения процесса обучения) + RMSprop.
- ПРЕИМУЩЕСТВА:
    - Включает в себя все достоинства вышеперечисленных оптимизаторов
    - Часто используется на практике
- НЕДОСТАТКИ:
    - Может требоваться большой объём памяти, так как Adam нужно много различных параметров
    - Чтобы восстановить модель из чекпоинта, необходимо сохранять не только веса модели, но и накопленные параметры Adam, чтобы он не считал их заново
    
**Вывод**: скорее всего, этот оптимизатор будет показывать себя лучше остальных. Стоит проверить на практике.

### 6. Adamax
- СУТЬ: вариант оптимизации по Adam, но без ограничений по норме

Благодаря способности регулировать скорость обучения на основе характеристик данных, он подходит для изучения изменяющегося во времени процесса, например, речевых данных с динамически изменяющимися шумовыми условиями. 

**Вывод**: скорее всего, этот вариант нам не подойдет

### 7. AdamW
- СУТЬ: добавление l2-регуляризации к adam

**Вывод**: Этот оптимизатор работает не лучше adam. В данной ситуации регуляризация работает хуже, чем для SGD. Тем более, показательно, что этот оптимизатор почти не используется на практике.

### 8. Adafactor
- СУТЬ: то же самое, что adam, но затрачивает меньше памяти, потому что сохраняет только частичную информацию о предыдущих градиентах

**Вывод**: стоит проверить на практике: затрата меньшего количества памяти звучит хорошо

### 9. Nadam
- СУТЬ: развитие оптимизатора Adam – добавление момента Нестерова при вычислении градиентов.

**Вывод**: стоит проверить на практике, потому что очевидных минусов у этого оптимизатора нет

### 10. Ftrl

Разработан в Google для прогнозирования рейтинга кликов в начале 2010-х годов. Он больше всего подходит для неглубоких моделей с большими и разреженными пространственными элементами.

**Вывод**: этот оптимизатор не будет показывать себя хорошо на больших данных, поэтому он нам вряд ли подходит

## Вывод: 

Были выбраны следующие оптимизаторы для проверки на практике: SGD, RMSProp, AdaDelta, Adam, Adafactor, Nadam.

 ## 2. Рассмотрим параметры выбранных оптимизаторов:

### 1. SGD
Самые важные параметры:
- Learning Rate
- Momentum
- Nesterov

### 2. RMSProp
Самые важные параметры:
- Learning Rate
- RHO
- Momentum

### 3. AdaDelta
Самые важные параметры:
- Learning Rate
- RHO

### 4. Adam
Самые важные параметры:
- Learning Rate
- beta_1
- beta_2

### 5. AdaFactor
Самые важные параметры:
- Learning Rate

### 6. Nadam
Самые важные параметры:
- Learning Rate
- beta_1
- beta_2

\# TODO - объяснение каждого параметра и его важности

Learning Rate играет огромную роль в любом оптимизаторе. Его эффективнее писать не через floating point, a через LearningRateSchedule.

\# TODO объяснение всего

Его проще реализовать через класс с методами __init__ и __call__

Пример представлен ниже

In [None]:
class MyLRSchedule(tf.keras.optimizers.schedules.LearningRateSchedule):

  def __init__(self, initial_learning_rate):
    self.initial_learning_rate = initial_learning_rate

  def __call__(self, step):
     return self.initial_learning_rate / (step + 1)

optimizer = tf.keras.optimizers.SGD(learning_rate=MyLRSchedule(0.1))

## 3. Напишем модели, которые покажут каждый оптимизатор на практике