# Оптимизация
Оптимизация — это процесс нахождения точки экстремального значения некоторой заданной целевой функции $f(\mathbf{x})$.
Применение в ML: всевозможные регрессии и нейроные сети пытаются минимизировать ошибку между предсказанием и реальными данными.

Экстремум может быть как минимумом, так и максимумом. Обычно принято искать минимум, т.к. любая максимизация эквивалентна минимизации из-за возможности поменять знак перед целевой функцией: $f(\mathbf{x})\to -f(\mathbf{x})$. 

## Типы оптимизаций

### Безусловная vs условная

**Условная**: при нахождении минимума должны выполняться некоторые условия, например, равенства и/или неравенства.\
$\begin{cases}\underset{x}{\min} (x-1)^2 \\ x\leqslant 0\end{cases}$ имеет решение решение $x = 0$.

**Безусловная**: минимум определяется по всей области определения функции.\
$\underset{x}{\min} (x-1)^2$ является безусловной и имеет решение $x = 1$, 


### Локальная vs глобальная
**Глобальная оптимизация**: фактический минимум функции в всей области.\
**Локальная оптимизация** касается только поиска локального минимума — любого из множества.\

### Однокритериальная и многокритериальная оптимизация
**Однокритериальная** - оптимизация по одному критерию\
**Многокритериальная** - оптимизация по нескольким критериям

## Характеристики методов

**Глобальная сходимость**. Метод имеет свойство глобальной сходимости, если его итерации сходятся к локальному минимизатору независимо от начального положения 

**Скорость локальной сходимости** показывает, насколько быстро метод «настигает» минимизатор, когда он уже достаточно близко подошёл к нему. 

## Классиификация методов оптимизации
* Локальные и глобальные
* Детерминированные и стохастические
* На основе производных и прямые методы
* и др.

## Метод Нелдера-Мида
Или метод деформируемого многогранника\
Прямой детерминированный метод локальной оптимизации

https://habr.com/ru/post/332092/

##  Методы линейного поиска
Или методы линий. Основная суть: на каждой итерации выполняется поиск одномерного минимизатора в заданном направлении, которое было вычислено ранее. Грубо говоря, их алгоритмы имеют следующий паттерн:

k = 0\
Пока градиент $\nabla f(\mathbf{x})$ не достигнет заданной точности $\epsilon$\
$|\nabla f(\mathbf{x})|\geqslant \epsilon$
1. рассчитать направление $\mathbf{p}_k$
2. найти такое $\alpha_k>0$, что функция $g(\alpha_k) := f(\mathbf{x}_k + \alpha_k \mathbf{p}_k)$ минимизируется ($\alpha_k$ - размер шага, в ML — скорость обучения)
3. $\mathbf{x}_{k+1} := \mathbf{x}_k + \alpha_k \mathbf{p}_k$
4. k = k + 1

Методы этого класса между собой различаются, как правило, тем:
- как они генерируют направление $\mathbf{p}_k$ на шаге 1, 
- как они реализуют шаг 2. \
Объединяет эти методы то, что все они пытаются рассчитать так называемое направление спуска $\mathbf{p}_k$. Это такое направление, которое обеспечивает мгновенное уменьшение целевой функции, если $\mathbf{x}$ движется вдоль него.

### Метод градиентного спуска
Или метод наискорейшего спуска

1. Выбираем случайно начальную точку $x_k$
2. Вычисляем градиент в этой точке $\nabla f(x_k)$ 
3. Идем в сторону отрицательного градиента на заданный шаг $x_{k+1}=x_k-\alpha_k\nabla f(x_k)$. 
4. Повторяем предыдущие шаги пока градиент не станет достаточно близок к нулю

Используется первая производная функции

Плюсы:
- Простота
- Дешевизна реализации

Минусы:
- Проблема локальных минимумов: градиентный спуск, попав на дно локального минимума, где градиент равен нулю, там и остается, глобальный минимум остается ненайденным
- Многое зависит от выбора начальной точки

![image.png](attachment:image.png)

#### Модификации градиентного спуска

* Инерционные или ускоренные градиентные методы
* Метод Чебышева
* Метод сопряженных градиентов
* Метод Нестерова
* Стохастический градиентный спуск
* Субградиентный спуск

### Метод Ньютона

### Методы квази-Ньютона

Наиболее известные методы из этого семейства — DFP, BFGS, SR1,

## Стохастические методы

В основе - генерация случайных чисел в процессе поиска.

Минусы:
- большое число итераций

Плюсы:
- больше шансов найти глобальный максимум

### Случайный поиск по сфере
1. Вокруг начальной точки строится сфера.
2. На поверхности сферы генерируется несколько случайных точек. 
3. В каждой их этих точек вычисляется  значение целевой функции 
4. Делается шаг в сторону наименьшего из них.
В новой точке повторются шаги. До тех пор пока не дойдем до минимума.

![image.png](attachment:image.png)
