# Продвинутая оптимизация

> Оценка качества модели для каждой комбинации гиперпараметров является дорогостоящей частью оптимизации — на приведённых крохотных сетках по нескольким параметрам это занимает минуты, но в реальных масштабах это занимает часы и сутки. Поэтому в идеале мы хотим оптимизировать гиперпараметры самым эффективным образом. 

Один из способов  — это **байесовская оптимизация**. Она отличается от случайного поиска или поиска по сетке тем, что учитывает предыдущие результаты, а не выбирает комбинации из вариантов, не имеющих информации о прошлых оценках. Во многих случаях это позволяет найти лучшие значения гиперпараметров модели за меньшее количество времени. Таким образом, мы получаем и более быструю оптимизацию, и более качественный результат. Это два желаемых результата, особенно когда мы работаем с настройкой гиперпараметров моделей МО.

Существует несколько разных алгоритмов для этого типа оптимизации, но особенно используемым является **Tree-Structured Parzen Estimators (TPE)**.

## Tree-Structured Parzen Estimators (TPE)

1. На каждой итерации алгоритм *TPE* учитывает информацию о прошлых опробованных комбинациях гиперпараметров и только потом принимает решение, какой набор следует попробовать дальше. 

Чтобы приступить к использованию *TPE*, необходимо выполнить несколько итераций с помощью случайного поиска. 

2. На следующем шаге происходит разделение собранных наборов на две группы:

- в первую группу входят наборы, дающие наилучшие результаты после оценки;
- во вторую — все остальные.

На изображении ниже: первая группа — **красные точки** находятся в области минимума целевой функции; вторая группа — **синие точки**, все остальные.

![image.png](attachment:image.png)

> Основная цель алгоритма — найти набор гиперпараметров, который с большей вероятностью будет в первой группе и с меньшей вероятностью во второй группе. Таким образом, для принятия следующего решения используется целое распределение наилучших комбинаций — **красные точки** на графике.

3. Далее TPE моделирует вероятности правдоподобия для каждой из групп, используя формулу Байеса:

![image-2.png](attachment:image-2.png)

где ***x*** — гиперпараметры, ***y*** — соответствующая оценка качества модели.

Подробнее про теорему [Байеса](https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%BE%D1%80%D0%B5%D0%BC%D0%B0_%D0%91%D0%B0%D0%B9%D0%B5%D1%81%D0%B0) можно прочитать по ссылке.

4. Затем, используя вероятность правдоподобия из первой группы, отбирается набор комбинаций, которые с большей вероятностью попадут в первую группу и с меньшей вероятностью — во вторую.

![image-3.png](attachment:image-3.png)

где ***p(x|y)*** — это вероятность гиперпараметров с учётом оценки целевой функции, ***l(x)*** — вероятность быть в первой группе, ***g(x)*** — вероятность быть во второй группе

Определяем ожидаемое улучшение для каждой комбинации:

![image-4.png](attachment:image-4.png)

где **E** — это знак математического ожидания.

5. Шаги 2-4  будет выполняться до тех пор, пока не будет достигнуто максимальное количество итераций. 

В итоге мы найдём наилучшую комбинацию гиперпараметров.

Более подробное описание алгоритма с математическими выкладками вы можете найти [здесь.](https://academy.yandex.ru/handbook/ml/article/podbor-giperparametrov)