# Семинар 12

# Введение в численные методы оптимизации 

 1. Обзор материала весеннего семестра
 2. Постановка задачи
 3. Общая схема решения
 4. Сравнение методов оптимизации
 5. Методы одномерной минимизации


## Обзор материала весеннего семестра

Также на [странице курса](https://github.com/amkatrutsa/MIPT-Opt#Весенний-семестр).

1. Методы решения задач **безусловной** оптимизации
    - Одномерная минимизация (уже сегодня!)
    - Градиентный спуск
    - Метод Ньютона
    - Квазиньютоновские методы
    - Метод сопряжённых градиентов  
    - Опционально:
        - Решение задачи наименьших квадратов
        - Оптимальные методы и нижние оценки
2. Методы решения задач **условной** оптимизации
    - Линейное программирование
    - Методы проекции градиента и условного градиента
    - Методы штрафных и барьерных функций
    - Метод модифицированой функции Лагранжа

## Организация работы в семестре

1. Семинар и лекция раз в неделю
2. Два задания в течение семестра
3. Итоговая контрольная в конце семестра
4. Экзамен в конце семестра (схема выставлении оценки будет объявлена позже)
5. Миниконтрольные в начале каждого семинара
6. Домашнее задание почти каждую неделю: $\TeX$ или Jupyter Notebook

## Постановка задачи

\begin{equation}
\begin{split}
& \min_{x \in S} f_0(x)\\
\text{s.t. } & f_j(x) = 0, \; j = 1,\ldots,m\\
& g_k(x) \leq 0, \; k = 1,\ldots,p
\end{split}
\end{equation}
где $S \subseteq \mathbb{R}^n$, $f_j: S \rightarrow \mathbb{R}, \; j = 0,\ldots,m$, $g_k: S \rightarrow \mathbb{R}, \; k=1,\ldots,p$

<span style="color:red;"> 
Важный факт</span>: задачи **нелинейной** оптимизации в их самой общей форме являются **численно неразрешимыми**!

## Аналитические результаты
- Необходимое условие первого порядка: если $x^*$ точка локального минимума дифференцируемой функции $f(x)$, тогда $$
f'(x^*) = 0
$$
- Необходимое условие второго порядка: если $x^*$ точка локального минимума дважды дифференцируемой функции $f(x)$, тогда 
$$
f'(x^*) = 0 \quad \text{и} \quad f''(x^*) \succeq 0
$$
- Достаточное условие: пусть $f(x)$ дважды дифференцируемая функция, и пусть точка $x^*$ удовлетворяет условиям
$$
f'(x^*) = 0 \quad f''(x^*) \succ 0,
$$
тогда $x^*$ является точкой строго локального минимума функции $f(x)$.

**Замечание**: убедитесь, что Вы понимаете, как доказывать эти результаты!

## Особенности численного решения

1. Точно решить задачу принципиально невозможно из-за погрешности машинной арифметики
2. Необходимо задать критерий обнаружения решения
3. Необходимо определить, какую информацию о задаче использовать

## Общая итеративная схема

Дано: начальное приближение $x$, требуемая точность $\varepsilon$.

```python
def GeneralScheme(x, epsilon):
    while stop_criterion(x) > epsilon:
        OracleResponse = request_oracle(x)
        update_information(I, x, OracleResponse)
        x = next_point(I, x)
    return x
```

### Вопросы
1. Какие критерии основа могут быть?
2. Что такое оракул и зачем он нужен?
3. Что такое информационная модель?
4. Как вычисляется новая точка?

#### Критерии останова
1. Сходимость по аргументу: 
$$
\| x_k - x^*  \|_2 < \varepsilon
$$ 
2. Сходимость по функционалу: 
$$
\| f_k - f^* \|_2 < \varepsilon
$$ 
3. Выполнение необходимого условия для дифференцируемой функции 
$$
\| f'(x_k) \|_2 < \varepsilon
$$

**Замечание**: лучше использовать относительные изменения этих величин!

#### Что такое оракул?
**Определение**: оракулом называют некоторое абстрактное устройство, которое отвечает на последовательные вопросы метода

**Концепция чёрного ящика**
1. Единственной информацией, получаемой в ходе работы итеративного метода, являются ответы оракула
2. Ответы оракула являются *локальными*

#### Информация о задаче
1. Каждый ответ оракула даёт локальную информацию о поведении функции в точке
2. Агрегируя все полученные ответы оракула, обновляем информацию о глобальном виде целевой функции:
    - кривизна
    - направление убывания
    - etc

#### Вычисление следующей точки

Стандартная схема вычисления следующей точки:
$$
x_{k+1} = x_{k} + \alpha_k h_k
$$
Вопросы:
1. Как выбирать $\alpha_k$?
2. Как выбирать $h_k$?

## Как сравнивать методы оптимизации?
1. Сложность
    - аналитическая: число обращений к оракулу для решения задачи с точностью $\varepsilon$
    - арифметическая: общее число всех вычислений, необходимых для решения задачи с точностью $\varepsilon$
2. Скорость сходимости
3. Эксперименты

### Скорости сходимости 
1. Сублинейная
$$
\| x_k - x^* \|_2 \leq C k^{\alpha},
$$
где $\alpha < 0$ и $ 0 < C < \infty$
2. Линейная (геометрическая прогрессия)
$$
\| x_k - x^* \|_2 \leq Cq^k, 
$$
где $q \in (0, 1)$ и $ 0 < C < \infty$

3. Квадратичная
$$
\| x_{k+1} - x^* \|_2 \leq C\| x_k - x^* \|^2_2,
$$
где $ 0 < C < \infty$

### Значение теорем сходимости (Б.Т. Поляк Введение в оптимизацию, гл. 1, $\S$ 6)
1. Что дают теоремы сходимости
     - класс задач, для которых можно рассчитывать на применимость метода (важно не завышать условия!)
         - выпуклость
         - гладкость
     - качественное поведение метода
         - существенно ли начальное приближение
         - по какому функционалу есть сходимость
     - оценку скорости сходимости
         - теоретическая оценка поведения метода без проведения экспериментов
         - определение факторов, которые влияют на сходимость (обусловленность, размерность, etc)
         - иногда заранее можно выбрать число итераций для достижения заданной точности 

2. Что НЕ дают теоремы сходимости
    - сходимость метода ничего не говорит о целесообразности его применения
    - оценки сходимости зависят от неизвестных констант - неконструктивный характер
    - учёт ошибок округления и точности решения вспомогательных задач
    
**Мораль**: нужно проявлять разумную осторожность и здравый смысл!

## Классификация задач
1. Безусловная оптимизация
    - целевая функция липшицева
    - градиент целевой функции липшицев
2. Условная оптимизация
    - многогранник
    - множество простой структуры

## Классификация методов
1. Методы нулевого порядка: оракул возвращает только значение функции $f(x)$

2. Методы первого порядка: оракул возвращает значение функции $f(x)$ и её градиент $f'(x)$

3. Методы второго порядка: оракул возвращает значение функции $f(x)$, её градиент $f'(x)$ и гессиан $f''(x)$.

**Вопрос**: существуют ли методы более высокого порядка?

1. Одношаговые методы 
$$
x_{k+1} = \Phi(x_k)
$$
2. Многошаговые методы
$$
x_{k+1} = \Phi(x_k, x_{k-1}, ...)
$$

## Одномерная минимизация

### Метод дихотомии

### Метод золотого сечения

### Метод Фибоначчи 

## Резюме
1. Введение в численные методы оптимизации
2. Общая схема работы метода
3. Как сравнивать методы оптимизации?
4. Зоопарк задач и методов
5. Одномерная минимизация