# **Дополнительные методы оптимизации. Практика**

✍ В этом и предыдущем модулях мы рассмотрели большой спектр методов оптимизации, но, разумеется, их существует гораздо больше — мы же разобрали только основные и самые эффективные.

Давайте кратко рассмотрим ещё два метода, которые не включаются в классы с большим количеством алгоритмов (как, например, класс методов, основанных на градиентном спуске, или класс квазиньютоновских методов), но, тем не менее, иногда встречаются в практических заданиях.

***
## **МЕТОД ИМИТАЦИИ ОТЖИГА**

В первую очередь познакомимся с **методом имитации отжига (simulated annealing)**.

Данный метод можно использовать, когда нужно оптимизировать достаточно сложную и «неудобную» функцию, то есть, такую, для которой не получится применить градиентные или другие оптимизационные методы.

Метод имитации отжига удобен для применения, так как это **метод нулевого порядка**, а значит у него намного меньше ограничений.

Метод отжига используется также в ускорении обучения нейронных сетей.

*Идея для алгоритма имитации отжига взята из реальной жизни. Во время отжига материал (обычно это металл) нагревают до определённой температуры, а затем медленно охлаждают. Когда материал горячий, у него снижается твёрдость и его проще обрабатывать. Когда он остывает, то становится более твёрдым и менее восприимчивым к изменениям.*

*Наша задача — получить максимально холодный твёрдый материал. Для этого нужна крепкая кристаллическая решётка, в которой все атомы находятся на местах с минимальной энергией. Смысл в том, что, когда металл сильно нагревается, атомы его кристаллической решётки вынужденно покидают свои положения. Когда начинается охлаждение, они стремятся вернуться в состояние, где будет минимальный уровень определённой энергии. То есть нам было нужно, чтобы металл стал холодным и твёрдым, но мы сначала нагрели его (то есть «ухудшили» ситуацию относительно необходимой), чтобы в итоге (после охлаждения) получить намного более крепкую кристаллическую решётку.*

* Метод имитации отжига относится к **эвристическим методам**. Это алгоритмы, которые основаны на некоторой математической и логической интуиции и возникают без фундаментальных теоретических предпосылок.

Для таких методов обычно нет исследований и доказательств эффективности для различных случаев, однако есть практические наблюдения, демонстрирующие высокую эффективность. Случается и такое, что эвристический метод доказанно ложный с точки зрения математики, но его всё равно используют в отдельных случаях, где он внезапно показывает высокое качество.

Обобщая, можно сказать, что эвристический подход — это подход, не имеющий под собой математического обоснования (а возможно, даже имеющий опровержение для каких-то случаев), но при этом являющийся эффективным и полезным.

Метод отжига является именно таким: с одной стороны, он может быстро находить решения экспоненциально сложных задач, а с другой — не всегда сходится к решению, а также может приводить к поиску только локальных минимумов. Однако метод отжига — действенное средство для решения многих сложных оптимизационных задач. Давайте познакомимся с ним ↓
***
* **Идея метода** заключается в том, чтобы иногда позволять значению функции в точке «ухудшаться» (то есть удаляться от минимума) по аналогии с отжигом, где мы «ухудшали» состояние металла (т. е. нагревали его), чтобы в итоге достичь наилучшего результата.
***

Зачем это нужно?

Представим, что мы ищем минимум для такой функции:

![](https://lms.skillfactory.ru/assets/courseware/v1/1acef8c9b8c2b2a5804f57ecbe2d1203/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md6_7_1.png)

Если мы будем минимизировать такую функцию с помощью градиентного спуска, то неизбежно застрянем в локальном минимуме. Метод отжига может позволить функции удалиться от минимума, и тогда мы сможем «перепрыгнуть» препятствие и достичь глобального минимума.

**АЛГОРИТМ**

1. **Выбор изначальной точки**. Обычно начальная точка выбирается случайным образом. Также нужно выбрать начальную и конечную температуру.
2. Основной алгоритм:
   1. **Выбираем случайную точку рядом с нашей точкой**.
   2. **Оцениваем, переходим ли мы в эту новую точку**:
      * Если значение функции в новой точке «лучше» значения функции в нашей точке, то переходим.
      * Если значение функции в новой точке «хуже» значения функции в нашей точке, то всё равно с некоторой вероятностью переходим. **Чем ниже температура, тем ниже эта вероятность**.
3. **Уменьшаем температуру**. Если температура стала ниже конечной, алгоритм прекращает работу.

**Математически** и в более строгом виде это можно записать следующим образом:

![](data/41.PNG)

***

Если мы применяем этот метод, то нам предстоит ответить на два вопроса:

* Как выбирать начальную точку x0?
* Как выбирать функцию температуры T(k)?

Первое значение, как правило, определяется случайно. Второе — в зависимости от того, насколько долго мы хотим, чтобы наш алгоритм работал. Главное правило: функция температуры T(k) обязательно должна быть убывающей.

У метода отжига есть ряд плюсов и минусов.

ПЛЮСЫ:

* Не использует градиент. Это значит, что его можно использовать для функций, которые не являются непрерывно дифференцируемыми.
* Можно использовать даже **для дискретных функций**. Причём именно для дискретных функций метод подходит очень хорошо.
* Прост в реализации и использовании.

МИНУСЫ:

* Сложно настраивать под задачу из-за множества параметров.
* Нет гарантий сходимости.
* Выполнение может занимать много времени.

Метод отжига используется не очень часто, однако он довольно известен, и следует иметь о нём общее представление.

Если вам интересно подробнее узнать про метод отжига и посмотреть на его имплементацию в Python, рекомендуем ознакомиться со следующей [**статьёй**](https://dev.to/cesarwbr/how-to-implement-simulated-annealing-algorithm-in-python-4gid).

***
## **МЕТОД КООРДИНАТНОГО СПУСКА**

Ещё один метод, про который необходимо узнать и с которым вы сталкивались ранее, — это **метод координатного спуска**.

* Это тип алгоритма оптимизации, который обычно используется для «сильно выпуклого» случая регрессии — регрессионной функции **Lasso** и для регрессионной модели **Elastic Net**.

Метод координатного спуска можно считать одним из простейших методов оптимизации, который в целом достаточно эффективно ищет локальные минимумы для **гладких** функций.

При поиске минимума с помощью этого метода мы всегда изменяем положение точки в направлении осей координат, т. е. всегда изменяется только одна координата, и благодаря этому задача становится одномерной.

Если визуализировать работу алгоритма, то мы увидим, что за счёт того, что каждый шаг происходит параллельно одной или другой координатной оси, ход алгоритма становится похож на «лесенку»:

![](https://lms.skillfactory.ru/assets/courseware/v1/f66f0f045d0b035c5b350af50329dc85/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md6_7_2.png)

По сути, мы просто выбираем некоторую точку и правило изменения координаты и движемся в соответствии с ним до локального минимума.

Посмотрим на основные **отличия координатного и градиентного спусков**:

![](data/42.PNG)

***
## **ПРАКТИКА**

Предыдущий модуль мы завершили тем, что посмотрели на прописанный без готовых функций алгоритм классического градиентного спуска, чтобы построить прогностическую модель для продаж некоторого продукта на основе количества денег, потраченных на рекламу.

Пришло время попрактиковаться и попробовать самостоятельно реализовать алгоритмы, с которыми вы познакомились для решения той же задачи.

**Вам необходимо:**

1. Скачать файл с данными.
2. Открыть ноутбук-шаблон с заданием.
3. Загрузить данные и определить целевую переменную и предикторы.
4. Нормализовать признаки, с помощью которых вы будете осуществлять предсказание.
5. Реализовать координатный спуск, следуя подсказкам в файле-шаблоне.
6. Реализовать стохастический градиентный спуск, следуя подсказкам в файле-шаблоне.
7. Оценить качество обеих полученных моделей с помощью MSE и MAE.
8. Сделать содержательные выводы.

**Важно:**

* Вариант реализации алгоритмов, который будет предложен в подсказках, не единственно верный. Будет здорово, если вы сможете придумать полностью самостоятельную реализацию. Однако если будет сложно, можете воспользоваться нашим вариантом.
* Пожалуйста, оформите ваше решение в соответствии со следующими требованиями:
  * Решение оформляется только в Jupyter Notebook.
  * Решение оформляется в соответствии с ноутбуком-шаблоном.
  * Каждое задание выполняется в отдельной ячейке, выделенной под задание (в шаблоне они помечены как «ваш код здесь»). Не создавайте дополнительные ячейки.
  * Решение не должно содержать функции из библиотек для машинного обучения и оптимизации, кроме тех ячеек, где это указано явным образом.
  * Код должен быть читаемым и понятным: имена переменных и функций отражают их сущность, отсутствуют многострочные конструкции и условия.
    * Пользуйтесь руководством PEP-8.