# 1. Вступление к модулю
Машинное обучение — это процесс, в ходе которого система сама обрабатывает большое число примеров, выявляет закономерности и использует их, чтобы спрогнозировать характеристики новых данных. А градиентный спуск является одним из способов обучения. Более подробно об алгоритмах машинного обучения пойдет речь в следующих модулях нашего курса. Сейчас мы изучаем математические принципы, лежащие в основе этой области.

Задача оптимизации — найти максимум или минимум функции:
![image-2.png](attachment:image-2.png)

При этом функция f на вход может принимать одну переменную, вектор из нескольких переменных, или другой объект, но возвращать всегда число. Функция может быть абсолютно любой:

- элементарная функция;
- функция потерь модели предсказаний, например, количество топлива, которое потратит грузовик, если будет ехать по маршруту х, или заработная плата в зависимости от времени, потраченного на обучение.

Как правило, нужно найти значение функции и х, который приводит к оптимальному значению.

Иногда накладывается какое-нибудь дополнительное условие на х.
![image-3.png](attachment:image-3.png)
Например, нельзя потратить на обучение отрицательное количество часов. Точно также проблематично тратить больше 22 часов в сутки. Чаще всего ограничение выражается равенством или неравенством на другую функцию от х. Например, грузовики должны проехать по всем пунктам, т.е. имеем ограничение: «Количество посещённых пунктов равно 10» или «Количество посещённых пунктов минус 10 = 0».

Задачу на нахождение максимума можно свести к задаче на нахождение минимума, т.к. максимум функции соответствует минимуму функции со знаком минус
![image-4.png](attachment:image-4.png)
В этом модуле мы будем говорить только о минимизации. Формулировка достаточно общая, но за счёт такой общей постановки задачи её применение встречается во всех областях, где есть математика.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# 2. Метод Лагранжа
В случае безусловной оптимизации в модуле 3 мы решали задачи, приравнивая к нулю производную функции одной переменной или все частные производные в многомерном случае; далее находили экстремумы и выбирали минимум.

Что делать, если есть условие? Рассмотрим задачу оптимизации с ограничениями.

Для того, чтобы найти минимум функции f(x) при условии, что имеется ограничение φi(х) = 0
![image.png](attachment:image.png)
Составляется функция Лагранжа:
![image-2.png](attachment:image-2.png)
И вычисляются частные производные построенной функции Лагранжа по x и дополнительной переменной λ, далее знакомым образом находятся точки, в которых производные равны нулю, и точки экстремума. Так задача условной оптимизации сводится к задаче безусловной оптимизации. Самое сложное в оптимизации — сформулировать задачу на языке математики.
![image-3.png](attachment:image-3.png)
![image-4.png](attachment:image-4.png)
Получаем искомые x1 и x2, т.е. наибольшая площадь будет у квадрата 5 × 5. И максимальная площадь, которую можно огородить, равна 25 м2.

### Почему метод Лагранжа работает?
Рассмотрим частную производную функции Лагранжа по λi
![image-5.png](attachment:image-5.png)
Заметим, что если частная производная равна нулю, то и функция ограничения φi равна нулю — ограничение выполняется.

В точках, где все ограничения выполняются:
![image-6.png](attachment:image-6.png)
Таким образом, минимизация функции Лагранжа означает, что все ограничения выполняются и f(x) минимизируются.

Необходимое условие выполнения метода: функции f(x) и φi(x) и их производные непрерывны и дифференцируемы во всех исследуемых точках.

Примечание:  На самом деле существует множество методов Лагранжа в разных областях, мы же говорим в этом модуле о методе множителей Лагранжа.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# 3. Метод Лагранжа. Ограничения ─ неравенства
Что делать, если ограничения заданы в виде неравенств?
![image.png](attachment:image.png)
Решаем задачу оптимизации с полученным ограничением–равенством уже известным образом.

Вернёмся к предыдущей задаче, добавив условие, что хотя бы одна сторона должна быть не меньше 6.
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
 Вы можете решить эту систему в качестве дополнительного упражнения к модулю.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# 4. Линейное программирование
Один из самых часто встречающихся случаев задачи условной оптимизации — это задача линейного программирования.

Определение:  Задача линейного программирования — это задача оптимизации, в которой целевая функция и функции–ограничения линейны, а все переменные неотрицательны:
![image.png](attachment:image.png)
Здесь c и x — векторы.

Определение:  Целочисленным линейным программированием (ЦЛП) называется вариация задачи линейного программирования, когда все переменные — целые числа.
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
![image-4.png](attachment:image-4.png)
![image-5.png](attachment:image-5.png)
![image-6.png](attachment:image-6.png)
![image-7.png](attachment:image-7.png)
Получается, что задача точно такая же, как предыдущая? Нет, здесь есть ещё одно условие.

И в качестве дополнительного упражнения:
1. Приведите пример, когда все эти условия будут выполняться, но при этом xij не будут задавать валидный путь;
2. Запишите недостающее условие.

Самое главное здесь — сформулировать задачу как ЛП и потом загрузить её в библиотеку, которая её решит. Задачи ЦЛП намного дольше вычисляются, чем задачи обычного ЛП — есть примеры с 10 000 переменных и 10 000 ограничений, для которых неизвестно оптимальное решение.

### Продолжение решения задачи коммивояжёра (комментарий к упражнению)
Не учтён случай, когда маршрут разбивается на два. В этом случае выполняется условие, что в каждую точку можно заехать только один раз и выехать только один раз, однако маршрут получается несвязным.
![image-8.png](attachment:image-8.png)
Чтобы наложить ограничение на связность, нужно добавить дополнительные переменные ui — порядок точки i в пути, если начинать с точки 1. То есть если путь начинается с 1 точки, а потом идёт 3-я, а затем 6-я, то u3 = 2, u6 = 3 и т.д. Таким образом, 0 ≤ ui ≤ n−1, где n — количество точек, которые нужно посетить (если индексация идет с нуля). Также нужно добавить ещё одно условие:
![image-9.png](attachment:image-9.png)
Почему последнее условие будет выполняться для связных маршрутов: если xij = 0 (вершины i и j не соединены), то это уравнение принимает вид ui − uj ≤ n−1 и выполняется всегда, так как 0 ≤ ui ≤ n−1. Если xij = 1, то вершина j идёт после вершины i в пути, а значит ui − uj = −1 и условие также выполняется.

Почему последнее условие не будет выполняться для несвязных маршрутов: на примере выше есть цикл (4,7,6,5), в который не входит вершина 1. Рассмотрим условия для четырех рёбер этого цикла (n = 7):
![image-10.png](attachment:image-10.png)
Складываем эти неравенства и получаем 28 ≤ 24. Противоречие. Аналогично для общего случая. Таким образом, правильная формулировка задачи коммивояжёра как линейного программирования выглядит так:
![image-11.png](attachment:image-11.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# Дополнительные материалы
В качестве дополнительного источника рекомендуем вам обратиться к бесплатному курсу «Combinatorial Optimization»(https://ocw.mit.edu/courses/mathematics/18-433-combinatorial-optimization-fall-2003/) и поработать с визуализацией некоторых методов (к задаче коммивояжера)(https://visualgo.net/ru/tsp).

# 5. --> Практика. Линейное программирование
Используемый в видео notebook: Linear_Programming.ipynb(https://lms.skillfactory.ru/assets/courseware/v1/46849c41467b6d095a660e2214d0ca84/asset-v1:Skillfactory+DST-WEEKLY-2.0+08JULY2020+type@asset+block/Linear_Programming.ipynb)
![image.png](attachment:image.png)

In [1]:
values = [4, 2, 1, 7, 3, 6]
weights = [5, 9, 8, 2, 6, 5]
C = 15
n = 6

# Решение:
![image.png](attachment:image.png)

In [3]:
import numpy as np
c = - np.array(values)
A = np.array(weights)         #shape = (6,)
A = np.expand_dims(A, 0)      #shape = (1,6)
b = np.array([C])

И закидываем переменные в оптимизатор scipy. Получаем искомое значение функции = 52, 5 и x = (0, 0, 0, 7.5, 0, 0). Т.е. мы взяли только самую дорогую четвёртую вещь.

Используемый в видео notebook: Linear_Programming.ipynb(https://lms.skillfactory.ru/assets/courseware/v1/46849c41467b6d095a660e2214d0ca84/asset-v1:Skillfactory+DST-WEEKLY-2.0+08JULY2020+type@asset+block/Linear_Programming.ipynb)

Предположим, что товары в задаче нельзя дробить и решим задачу целочисленного линейного программирования.

Scipy этого делать не умеет. Будем использовать новую библиотеку cvxpy. Для этого в х создаём переменную, которую будем оптимизировать, размер её будет n = 6, а числа должны быть целыми:

In [1]:
!pip install cvxpy

Collecting cvxpy

  ERROR: Command errored out with exit status 1:
   command: 'D:\Programs\anaconda3\python.exe' -u -c 'import sys, setuptools, tokenize; sys.argv[0] = '"'"'C:\\Users\\User\\AppData\\Local\\Temp\\pip-install-_daj8cto\\ecos_dcd05746a77944c0b62f090854c7025f\\setup.py'"'"'; __file__='"'"'C:\\Users\\User\\AppData\\Local\\Temp\\pip-install-_daj8cto\\ecos_dcd05746a77944c0b62f090854c7025f\\setup.py'"'"';f=getattr(tokenize, '"'"'open'"'"', open)(__file__);code=f.read().replace('"'"'\r\n'"'"', '"'"'\n'"'"');f.close();exec(compile(code, __file__, '"'"'exec'"'"'))' bdist_wheel -d 'C:\Users\User\AppData\Local\Temp\pip-wheel-d2zfpfat'
       cwd: C:\Users\User\AppData\Local\Temp\pip-install-_daj8cto\ecos_dcd05746a77944c0b62f090854c7025f\
  Complete output (12 lines):
  running bdist_wheel
  running build
  running build_py
  creating build
  creating build\lib.win-amd64-3.8
  creating build\lib.win-amd64-3.8\ecos
  copying src\ecos\ecos.py -> build\lib.win-amd64-3.8\ecos
  copying src\ecos\version.p


  Using cached cvxpy-1.1.15-cp38-cp38-win_amd64.whl (847 kB)
Collecting osqp>=0.4.1
  Using cached osqp-0.6.2.post0-cp38-cp38-win_amd64.whl (162 kB)
Collecting scs>=1.1.6
  Using cached scs-2.1.4.tar.gz (6.6 MB)
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
    Preparing wheel metadata: started
    Preparing wheel metadata: finished with status 'done'
Collecting ecos>=2
  Using cached ecos-2.0.7.post1.tar.gz (126 kB)
Collecting qdldl
  Using cached qdldl-0.1.5.post0-cp38-cp38-win_amd64.whl (74 kB)
Building wheels for collected packages: ecos, scs
  Building wheel for ecos (setup.py): started
  Building wheel for ecos (setup.py): finished with status 'error'
  Running setup.py clean for ecos
  Building wheel for scs (PEP 517): started
  Building wheel for scs (PEP 517): finished with status 'error'
Failed to build ecos

      the LAPACK environment variable.
    if getattr(self, '_calc_info_{}'.format(lapack))():
      Lapack (http://www.netlib.org/lapack/) sources not found.
      Directories to search for the sources can be specified in the
      numpy/distutils/site.cfg file (section [lapack_src]) or by setting
      the LAPACK_SRC environment variable.
    if getattr(self, '_calc_info_{}'.format(lapack))():
  {}
  {}
  error: Microsoft Visual C++ 14.0 or greater is required. Get it with "Microsoft C++ Build Tools": https://visualstudio.microsoft.com/visual-cpp-build-tools/
  ----------------------------------------
  ERROR: Failed building wheel for scs
ERROR: Could not build wheels for scs which use PEP 517 and cannot be installed directly


In [2]:
import cvxpy
x = cvxpy.Variable(shape=n, integer = True)

ModuleNotFoundError: No module named 'cvxpy'

In [13]:
# Создаём ограничения, используя матричное умножение @:
constraint = (A @ x <= b)
total_value = c * x

NameError: name 'x' is not defined

In [None]:
#Создаём задачу:
problem = cvxpy.Problem(cvxpy.Minimize(total_value), constraints=[constraint])

Получим, что нам можно взять 138 412 039 товаров с собой. А х получились отрицательными. Цифры получились очень нереалистичными.

х ≥ 0

Будем рассматривать только положительные x, добавив новое ограничение. Получим реалистичные цифры: берём четвёртый товар в количестве = 7.

х = 0 или 1

А что, если мы можем брать не любое количество товаров, а только один или не брать вовсе? Задача превратиться в задачу о рюкзаке. Теперь задаём х типа boolean.

Получим стоимость = 17, взяв 1-й, 4-й и 6-й товар.

Обратим внимание, что используя scipy, мы могли не указывать явно, что x только положительные, т.к. в линейном программировании считаются только неотрицательные x.

А вот cvxpy универсален. Мы, не указывая, что это линейное программирование, просто задали функцию. А он понял, что это задача оптимизации и использовал нужные алгоритмы. Поэтому здесь ограничение на положительные х мы указывали явно.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# 6. Градиентный спуск
Решение задачи оптимизации методом множителей Лагранжа заключается в решении общей системы уравнений. Для этого метода может не существовать решений, или они будут сложными. Другой подход к нахождению минимума функции — метод градиентного спуска.

Градиентный спуск — самый используемый алгоритм(https://neurohive.io/ru/osnovy-data-science/gradient-descent/) обучения, он применяется почти в каждой модели машинного обучения и является наиболее простым в реализации из всех методов локальной оптимизации. 

Представим, что нам нужно найти глубину озера. Но мы не видим дна и можем замерить глубину на небольшом участке.
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
![image-4.png](attachment:image-4.png)
Темп обучения — основной параметр алгоритма, он определяет то, на сколько сильно мы будем двигать нашу точку. Градиент указывает направление роста функции, а нам интересен минимум, то есть противоположное направление,поэтому в формуле градиент использован со знаком минус
![image-5.png](attachment:image-5.png)
Как бороться:
1. Начинать из нескольких точек.
2. Уменьшать и увеличивать темп обучения в процессе работы.
3. Рандомизировать градиент.

В ML оптимизируют функции потерь и градиент функции потерь можно брать не по всей выборке, а по её случайной части (она называется батчем). В таком случае градиентный спуск называется стохастическим.
![image-6.png](attachment:image-6.png)
![image-7.png](attachment:image-7.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# Дополнительные материалы
В качестве дополнительной литературы рекомендуем обзор разных методов на основе градиентного спуска(https://ruder.io/optimizing-gradient-descent/).

# 7. --> Практика. Градиентный спуск
Используемый в видео notebook: Gradient_Descent.ipynb(https://lms.skillfactory.ru/assets/courseware/v1/87edef595a2c6b0a13ec7949bab345ca/asset-v1:Skillfactory+DST-WEEKLY-2.0+08JULY2020+type@asset+block/Gradient_Descent.ipynb)

В этой практической части модуля мы реализуем метод градиентного спуска на Python без использования библиотек. Посмотрим, как он ведёт себя при разных параметрах и критериях остановки.
![image.png](attachment:image.png)

In [None]:
 x_new = (x_cur[0] - gamma * grad(*x_cur)[0],
            x_cur[1] - gamma * grad(*x_cur)[1])

Запустив градиентный спуск, заметим, что уже на 6-й итерации числа становятся очень большими. С помощью библиотеки matplotlib.pyplot попробуем порисовать графики значений функции и текущей точки. На втором рисунке мы явно видим, что темп обучения γ был задан очень большим, и точка просто выпрыгнула из рассматриваемой нами зоны. Красным на рисунке 2 изображён искомый минимум — точка (1, 1).
![image.png](attachment:image.png)
Посмотрим, как работает код, рисующий вторую картинку. Он рисует линии уровня, на которых функция принимает одинаковые значения.

Попробуем задать значение γ = 0.000001. По графику заметим, что от начальной точки мы никуда и не ушли. Всё дело в малом количестве итераций. Условием остановки зададим теперь 50 000 000 итераций. И будем печатать каждую 100 000-ую итерацию. Видим, что функция сошлась уже к 5 000 000 итераций.
![image-2.png](attachment:image-2.png)

Используемый в видео notebook: Gradient_Descent.ipynb(https://lms.skillfactory.ru/assets/courseware/v1/87edef595a2c6b0a13ec7949bab345ca/asset-v1:Skillfactory+DST-WEEKLY-2.0+08JULY2020+type@asset+block/Gradient_Descent.ipynb)

В этом видео мы рассмотрим несколько другой метод.  
Хорошо видно, что функция f(x, y) положительная. Поэтому условие остановки мы можем записать так:

In [None]:
if f(*x_cur) < 0.01

Зададим γ = 0.001 и будем печатать все итерации. Теперь для того, чтобы функция сошлась, нам понадобится 3 000 итераций. На графике видно, что мы далеко от оптимальной точки. Но такие условия остановки алгоритма используют на практике.
![image.png](attachment:image.png)
Попробуем сделать то же самое, но начнём из точки (0, 2). Обратим внимание, как резко теперь стало падать значение функции. Точка же изначально двигается перпендикулярно линиям уровня.
![image-2.png](attachment:image-2.png)
Заметим, что последние 2 000 итераций точка практически не изменялась. Мы можем отслеживать расстояние между точками как условие остановки. Квадрат расстояния между точками x1, x2 рассчитаем с помощью функции:

In [3]:
def dist(x1, x2):
    return (x1[0] - x2[0]) ** 2 + (x1[1] - x2[1]) ** 2

Зададим условие остановки как:

In [None]:
if dist(x_new, x_cur) < 1e-9:

![image.png](attachment:image.png)
Для реализации градиентного спуска можно использовать библиотеку scipy с модулем optimize.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# Дополнительные материалы
	
Предлагаем вам поработать со статьёй(http://www.machinelearning.ru/wiki/index.php?title=Метод_градиентного_спуска) «Метод градиентного спуска» в специализированной вики по машинному обучению.

# 8. Градиентный спуск с momentum
Чем хорошо градиентный спуск:

1. Нет никаких ограничений на функцию — нужно только уметь вычислять градиент.
2. Можно придумать много хаков, которые помогут сходимости (начинать из разных точек, уменьшать и увеличивать темп обучения в процессе работы, рандомизировать градиент).

На практике сегодня все нейронные сети обучают именно градиентным спуском и его вариациями (например, Adam, SGD и др.).

## Градиентный спуск с momentum
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# 9. Метод Ньютона
Рассмотрим еще один численный метод. Метод Ньютона изначально появился как метод решения уравнений вида f(x) = 0.
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
![image-4.png](attachment:image-4.png)
Методы, которые используют и градиент, и гессиан, называются методами второго порядка.

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# 10. Метод отжига
Рассмотрим ещё один метод — метод отжига. Отметим, что градиентный спуск хорош, но работает очень плохо, если у функции много локальных минимумов. Ниже проиллюстрирована работа метода отжига:
![image.png](attachment:image.png)
Идея заключается в том, чтобы позволить значению функции в точке иногда ухудшаться.
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# Дополнительные материалы
В качестве дополнительного источника рекомендуем вам поработать с визуализацией(https://michalfudala.com/projects/simanneal/) (к задаче коммивояжёра).

# 11. Заключение
В этом модуле мы рассмотрели спектр задач оптимизации.

И увидели, что знать, КАК РЕШАТЬ задачи, — не так важно. Намного важнее знать, КАК СФОРМУЛИРОВАТЬ задачу и КАКОЙ АЛГОРИТМ к ней применить. А всё остальное, как правило, уже реализовано.

Важно представлять, какие методы оптимизации подходят для решения той или иной задачи. Например, если функция выпукла, то метод Ньютона или градиентный спуск её решат на 100%. Если задача требует длительных расчётов — то только градиентный спуск.

Из примеров задач вы могли заметить, что оптимизация — это универсальный инструмент, который позволяет решить большой спектр задач.

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

# Дополнительные материалы
В качестве дополнительных источников рекомендуем вам:

- обратиться к бесплатному курсу «Convex Optimization»(https://online.stanford.edu/lagunita-learning-platform);
- полистать книги(https://stanford.edu/~boyd/cvxbook/);
- поработать с визуализацией некоторых методов оптимизации(https://www.benfrederickson.com/numerical-optimization/).