# **Введение**

✍ Мы подошли к заключительной части раздела, посвящённого математическому анализу и оптимизации. В предыдущих модулях мы уже познакомились с функциями и их исследованием, научились находить минимальные и максимальные значения для функций, а также применять эти значения для решения реальных задач. В данном модуле мы продолжим углубляться в методы оптимизации, сравним их и обсудим, для каких случаев какие алгоритмы подходят лучше всего.

In [9]:
# Пусть прибыль в вашей компании выражается следующей функцией,
# которая зависит от параметра  — количества производимых товаров:
from sympy import *
x,y = symbols('x y', Real=true)
f = -x**4 +6*(x**3) - 4*(x**2) + 80
f_diff_x = f.diff(x)
print(f_diff_x)
sol = solveset(Eq(f_diff_x, 0), x)
print(sol)
x_sol = f.subs([(x,4)])
x_sol

-4*x**3 + 18*x**2 - 8*x
{0, 1/2, 4}


144

In [24]:
# Допустим, вы хотите произвести некоторое количество товара,
# которое зависит от часов работы двух ключевых сотрудников следующим образом:
# x**2 + y**2. Однако вы можете оплатить этим сотрудникам не более 20 часов работы.
# Какое наибольшее количество товаров вы сможете произвести в таком случае?

x,y,w=symbols('x y w')
orig = x**2+2*(y**2)
f = x**2+2*(y**2)+w*(x+y-20)
f_diff_x = f.diff(x)
f_diff_y = f.diff(y)
f_diff_w = f.diff(w)
sols = solve([f_diff_x,f_diff_y,f_diff_w],x,y,w)
print(round(orig.subs([(x,sols[x]),(y,sols[y])]),0))

267.000000000000


**ЭТОТ МОДУЛЬ МЫ ПОСВЯТИМ ИЗУЧЕНИЮ НОВЫХ МЕТОДОВ ОПТИМИЗАЦИИ:**

* рассмотрим, какие вариации существуют у уже известного вам алгоритма градиентного спуска, и узнаем, в чём суть **обратного распространения ошибки**;
* познакомимся с **методом Ньютона и квазиньютоновскими методами BFGS и L-BFGS**;
* разберём область применения задач **линейного программирования** и попрактикуемся в их решении;
* узнаем, что такое **метод отжига** и **метод координатного спуска**.

Из предыдущего модуля вы помните, что в каких-то методах оптимизации мы использовали лишь значение функции, где-то — считали градиент, а где-то — находили матрицы производных. Эти особенности дают возможность поделить все алгоритмы на **три группы**:

1. **методы нулевого порядка** (их работа основана на оценке значений самой целевой функции в разных точках);
2. **методы первого порядка** (при работе они используют первые производные в дополнение к информации о значении функции);
3. **методы второго порядка** (для них необходимо оценивать и значение функции, и значение градиента, и гессиан (матрицу Гессе).

*Примечание. Иногда в литературе можно встретить термины «оракул первого порядка» или «оракул нулевого порядка». Так обозначают **компоненты алгоритма**, которые находят информацию на каждом шаге для метода соответствующего порядка.*

В данном модуле мы будем рассматривать методы разных порядков и практически в каждом юните будем практиковаться в их применении. В конце мы обобщим полученные знания и сравним, какие методы и в каких случаях показывают наилучшие результаты.

→ Важно отметить, что некоторые алгоритмы оптимизации мы пока не сможем использовать по прямому назначению: мы опробуем их на известных вам моделях линейной или логистической регрессии или на функциях одной или нескольких переменных, но основная сфера их применения — это искусственные нейронные сети. Тем не менее, понимание всего пула алгоритмов поможет вам в будущем без проблем подбирать необходимый метод вне зависимости от того, задачу какой сложности вы решаете: минимизируете простейшую функцию или обучаете нейронную сеть со сложной архитектурой.