Методы оптимизации можно разделить на 3 группы:

* методы нулевого порядка (их работа основана на оценке значений самой целевой функции в разных точках);
* методы первого порядка (при работе они используют первые производные в дополнение к информации о значении функции);
* методы второго порядка (для них необходимо оценивать и значение функции, и значение градиента, и гессиан (матрицу Гессе).

**ВАРИАЦИИ ГРАДИЕНТНОГО СПУСКА**

*Основные проблемы при реализации градиентного спуска:*

* Классический градиентный спуск склонен застревать в точках локального минимума и даже в седловых точках, словом — везде, где градиент равен нулю. Это мешает найти глобальный минимум.
* Обычно у оптимизируемой функции очень сложный ландшафт: где-то она совсем пологая, где-то более крутой обрыв. В таких ситуациях градиентный спуск показывает не лучшие результаты. Так происходит потому, что в алгоритме градиентного спуска фиксированный шаг, а нам в идеале хотелось бы его изменять в зависимости от формы функции прямо в процессе обучения.
* Много проблем возникает из-за темпа обучения: при низком алгоритм сходится невероятно медленно, при быстром — «пролетает» мимо минимумов.
* При обучении градиентного спуска координаты в некоторых измерениях могут резко изменяться, что приводит к плохой обобщающей способности алгоритма. Можно попытаться придать каждого признаку бόльшую важность, но в таком случае есть серьёзный риск переобучить модель.

*Три основных вариации градиентного спуска:*

* Batch Gradient Descent;
* Stochastic Gradient Descent;
* Mini-batch Gradient Descent.

**BATCH GRADIENT DESCENT (пакентны/ванильный градиентный спуск)**

По сути это и есть классический (ванильный) градиентный спуск

Такой градиентный спуск достаточно хорошо работает, если мы рассматриваем выпуклые или относительно гладкие функции ошибки. Такие, к примеру, мы можем наблюдать у линейной или логистической регрессии. Мы обсуждали, что градиентный спуск не умеет находить глобальный минимум среди прочих, но, например, для выпуклой функции он может это сделать. Поэтому с выпуклыми функциями (допустим, со среднеквадратичной ошибкой для линейной регрессии) нам удобнее всего использовать именно его.

Но всё усложняется, когда мы хотим применить его при обучении нейронных сетей. Как уже говорилось, у таких моделей функция потерь имеет много локальных экстремумов, в каждом из которых градиентный спуск может застрять. Когда данных очень много, а оптимизируемая функция очень сложная, данный алгоритм применять затруднительно, так как поиск градиента по всем наблюдениям делает задачу очень затратной в плане вычислительных ресурсов.

**STOCHASTIC GRADIENT DESCENT (стохастический градиентный спуск)**

При реализации стохастического спуска вычисляются градиенты не для всей выборки, а только для случайно выбранной единственной точки.

$\theta=\theta-\eta \cdot \nabla_{\theta} J\left(\theta ; x^{(i)} ; y^{(i)}\right)$

Стохастический градиентный спуск очень часто используется в нейронных сетях и сокращает время машинных вычислений, одновременно повышая сложность и производительность крупномасштабных задач.

**MINI-BATCH GRADIENT DESCENT (мини-пакетныq градиентныq спуск)**

На данный момент это наиболее популярная реализация градиентного спуска, которая используется в глубоком обучении (т. е. в обучении нейронных сетей).

В ходе обучения модели с помощью мини-пакетного градиентного спуска обучающая выборка разбивается на пакеты (батчи), для которых рассчитывается ошибка модели и пересчитываются веса.

То есть, с одной стороны, мы используем все преимущества обычного градиентного спуска, а с другой — уменьшаем сложность вычислений и повышаем их скорость по аналогии со стохастическим спуском. Кроме того, алгоритм работает ещё быстрее за счёт возможности применения векторизованных вычислений.

$\theta=\theta-\eta \cdot \nabla_{\theta} J\left(\theta ; x^{(i: i+n)} ; y^{(i: i+n)}\right)$ т.е. мы применияем обычный спучк, но к части данных для n наблюдений

In [127]:
#Задание 2.7
#Давайте потренируемся применять стохастический градиентный спуск для решения задачи линейной регрессии. 
# Мы уже рассмотрели его реализацию «с нуля», однако для решения практических задач можно использовать готовые библиотеки.

#Загрузите стандартный датасет об алмазах из библиотеки Seaborn:

In [128]:
import pandas as pd
import numpy as np

In [129]:
import seaborn as sns
df = sns.load_dataset('diamonds')

In [130]:
df.drop(['depth', 'table', 'x', 'y', 'z'], axis=1, inplace=True)

In [131]:
df = pd.get_dummies(df, drop_first=True)

In [132]:
df['carat'] = np.log(1+df['carat'])
df['price'] = np.log(1+df['price'])

In [133]:
X = df.drop(columns="price")
y = df["price"]

Разделите выборку на обучающую и тестовую (объём тестовой возьмите равным 0.33), значение random_state должно быть равно 42.

Теперь реализуйте алгоритм линейной регрессии со стохастическим градиентным спуском (класс SGDRegressor). Отберите с помощью GridSearchCV оптимальные параметры по следующей сетке:

In [134]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.33, random_state=42)

In [135]:
from sklearn.linear_model import SGDRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import mean_squared_error
model = SGDRegressor()

grid = {"loss": ["squared_error", "epsilon_insensitive"],
    "penalty": ["elasticnet"],
    "alpha": np.logspace(-3, 3, 15),
    "l1_ratio": np.linspace(0, 1, 11),
    "max_iter": np.logspace(0, 3, 10).astype(int),
    "random_state": [42],
    "learning_rate": ["constant"],
    "eta0": np.logspace(-4, -1, 4)}

grid_search = GridSearchCV(
    estimator=model,
    param_grid=grid, 
    n_jobs = -1
)  
#grid_search.fit(X_train, y_train) 
#y_test_pred = grid_search.predict(X_test)
#mean_squared_error(y_test_pred, y_test)
#0.04349853776551417


**АЛГОРИТМЫ, ОСНОВАННЫЕ НА ГРАДИЕНТНОМ СПУСКЕ**

Иногда в данных присутствуют очень редко встречающиеся входные параметры.

Например, если мы классифицируем письма на «Спам» и «Не спам», таким параметром может быть очень специфическое слово, которое встречается в спаме намного реже других слов-индикаторов. Или, если мы говорим о распознавании изображений, это может быть какая-то очень редкая характеристика объекта.

В таком случае нам хотелось бы иметь для каждого параметра свою скорость обучения: чтобы для часто встречающихся она была низкой (для более точной настройки), а для совсем редких — высокой (это повысит скорость сходимости). То есть нам очень важно уметь обновлять параметры модели, учитывая то, насколько типичные и значимые признаки они кодируют.

Решение этой задачи предложено в рамках алгоритма AdaGrad (его название обозначает, что это адаптированный градиентный спуск). В нём обновления происходят по следующему принципу:

$G_t = G_t + g^2_t$

$\theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{G_t + \epsilon}} g_t$

Здесь мы храним сумму квадратов градиентов для каждого параметра. Таким образом, параметры, которые сильно обновляются каждый раз, начинают обновляться слабее. Скорость обучения в таком алгоритме будет постоянно затухать. Мы будем начинать с больших шагов, и с приближением к точке минимума шаги будут уменьшаться — это улучшит скорость сходимости.

Данный алгоритм достаточно популярен и работает лучше стохастического градиентного спуска. Его использует и компания Google в своих алгоритмах классификации изображений.

Однако снижение скорости обучения в AdaGrad иногда происходит слишком радикально, и она практически обнуляется. Чтобы решить эту проблему, были созданы алгоритмы RMSProp, AdaDelta, Adam и некоторые другие.

**МЕТОД НЬЮТОНА**

Идея такая. Решаем уравнение f(x)=0. x0 - какая-то начальная точка. 
Строим касательную в x0 и считаем, где она пересечет ось x. Это точка будет x1. И т.д. Алгоритм заканчивается когда мы получили x(n) = x(n+1) с требуемой точностью

$x_{n+1} = x_n - f(x_n)/f'(x_n)$

In [136]:
#Задание 3.1
#Найдите третий корень полинома
#f(x) = 6x^5 - 5x^4 - 4x^3 + 3x^2
#взяв за точку старта 0.7. Введите получившееся значение с точностью до трёх знаков после точки-разделителя.

In [137]:
def f(x):
    return 6*x**5 - 5*x**4 - 4*x**3 + 3*x**2

def df(x):
    return 30*x**4 - 20*x**3 - 12*x**2 + 6*x

In [138]:
def find_zero(f,df,x0,acc):
    x_old = x0
    while True:
        x_new = x_old - f(x_old)/df(x_old)
        if round(x_new,acc) == round(x_old,acc):
            return round(x_old,acc)
        x_old = x_new

In [139]:
find_zero(f,df,0.7,3)

0.629

Теперь, если мы будем решать $f'(x) = 0$, то сможем найти точки подозрительные на экстремум.

А многомерном случае это выглядит так:

$x^{(n+1)} = x^{(n)} - \left [Hf(x^{(n)})  \right ]^{-1} \nabla f(x^{(n)})$

где $Hf(x^{(n)})$ - значение Геccиана (матрицы из вторых производных) в $x^{(n)}$

Можно заметить, что эта формула совпадает с формулой для градиентного спуска, но вместо умножения на learning rate (темп обучения) используется умножение на обратную матрицу к гессиану. Благодаря этому функция может сходиться за меньшее количество итераций, так как мы учитываем информацию о выпуклости функции через гессиан.

In [140]:
def func1(x):
    return 3*x**2 - 6*x -45
def func2(x):
    return 6*x - 6

In [141]:
initial_value = 42
iter_count = 0
x_curr = initial_value
epsilon = 0.0001
f = func1(x_curr)

while (abs(f) > epsilon):
    f = func1(x_curr)
    f_prime = func2(x_curr)
    x_curr = x_curr - (f)/(f_prime)
    iter_count += 1
    print(x_curr)


21.695121951219512
11.734125501243229
7.1123493600499685
5.365000391507974
5.015260627016227
5.000029000201801
5.000000000105126
5.000000000000001


In [142]:
def newtons_method(f, der, eps, init):
    iter_count = 0
    x_curr = init
    f = f(x_curr)
    while (abs(f) > eps):
        f = f(x_curr)
        f_der = der(x_curr)
        x_curr = x_curr - (f)/(f_prime)
        iter_count += 1
    return x_curr
 
from scipy.optimize import newton
newton(func=func1,x0=50,fprime=func2, tol=0.0001)

5.0

*Плюсы метода Ньютона*

* Если мы минимизируем квадратичную функцию, то с помощью метода Ньютона можно попасть в минимум целевой функции за один шаг.
* Также этот алгоритм сходится за один шаг, если в качестве минимизируемой функции выступает функция из класса поверхностей вращения (т. е. такая, у которой есть симметрия).
* Для несимметричной функции метод не может обеспечить сходимость, однако скорость сходимости  всё равно превышает скорость методов, основанных на градиентном спуске.

*Минусы метода Ньютона*

* Этот метод очень чувствителен к изначальным условиям.

При использовании градиентного спуска мы всегда гарантированно движемся по антиградиенту в сторону минимума. В методе Ньютона происходит подгонка параболоида к локальной кривизне, и затем алгоритм движется к неподвижной точке данного параболоида. Из-за этого мы можем попасть в максимум или седловую точку. Особенно ярко это видно на невыпуклых функциях с большим количеством переменных, так как у таких функций седловые точки встречаются намного чаще экстремумов.

Поэтому здесь необходимо обозначить ограничение: метод Ньютона стоит применять только для задач, в которых целевая функция выпуклая.

Впрочем, это не является проблемой. В линейной регрессии или при решении задачи классификации с помощью метода опорных векторов или логистической регрессии мы как раз ищем минимум у выпуклой целевой функции, то есть данный алгоритм подходит нам во многих случаях.

* Также метод Ньютона может быть затратным с точки зрения вычислительной сложности, так как требует вычисления не только градиента, но и гессиана и обратного гессиана (при делении на матрицу необходимо искать обратную матрицу).

Если у задачи много параметров, то расходы на память и время вычислений становятся астрономическими. Например, при наличии 50 параметров нужно вычислять более 1000 значений на каждом шаге, а затем предстоит ещё более 500 операций нахождения обратной матрицы. Однако метод всё равно используют, так как выгода от быстрой сходимости перевешивает затраты на вычисления.

In [143]:
#Задание 3.6

#Дана функция f(x) = x^3 - 72x - 220. Найдите корень в окрестностях точки x0 = 12. 
#Ответ округлите до трёх знаков после точки-разделителя.

In [144]:
def f3(x):
    return x**3 - 72*x - 220
def df3(x):
    return 3*x**2 - 72

find_zero(f3,df3,12,3)

9.727

In [145]:
#Задание 3.7
#Найдите положительный корень для уравнения x^2 + 9x - 5 = 0
#В качестве стартовой точки возьмите x0=2.2 .

In [146]:
def f4(x):
    return x**2 + 9*x - 5
def df4(x):
    return 2*x+9

find_zero(f4,df4,2.2,2)

0.52

In [147]:
#Задание 3.9

#С помощью метода Ньютона найдите точку минимума для функции f(x) = 8x^3 - 2x^2 - 450
#В качестве стартовой точки возьмите 42, точность примите за 0.0001
#Ответ округлите до трёх знаков после точки-разделителя.

In [148]:
def f5(x):
    return 24*x**2 - 4*x
def df5(x):
    return 48*x-4

find_zero(f5,df5,42,4)

0.1667

**Квазиньютоновские методы**

В квазиньютоновских методах вместо вычисления гессиана мы просто аппроксимируем его матрицей, которая обновляется от итерации к итерации с использованием информации, вычисленной на предыдущих шагах. Так как вместо вычисления большого количества новых величин мы использует найденные ранее значения, квазиньютоновский алгоритм тратит гораздо меньше времени и вычислительных ресурсов.

$x_{k+1} = x_k - H_k \nabla f(x_k)$

В данном случае вместо обратного гессиана появляется матрица $H_k$, которая строится таким образом, чтобы максимально точно аппроксимировать настоящий обратный гессиан.

$H_k - \left [\nabla^2 f(x_k) \right ]^{-1} \to 0 \ при \ k \to \infty$

Эта матрица обновляется на каждом шаге, и для этого существуют разные способы. Для каждого из способов есть своя модификация квазиньютоновского метода. Эти способы объединены ограничением: процесс обновления матрицы должен быть достаточно эффективным и не должен требовать вычислений гессиана. То есть, по сути, на каждом шаге мы должны получать информацию о гессиане, не находя непосредственно сам гессиан.

Три самые популярные схемы аппроксимации:

* симметричная коррекция ранга 1 (SR1);
* схема Дэвидона — Флетчера — Пауэлла (DFP);
* схема Бройдена — Флетчера — Гольдфарба — Шанно (BFGS).

In [149]:
import numpy as np
from scipy.optimize import minimize

In [150]:
def func(x):
    return x[0]**2.0 + x[1]**2.0

In [151]:
def grad_func(x):
    return np.array([x[0] * 2, x[1] * 2])

In [152]:
x_0 = [1.0, 1.0]

In [153]:
result = minimize(func, x_0, method='BFGS', jac=grad_func)

In [154]:
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))

Статус оптимизации Optimization terminated successfully.
Количество оценок: 3
Решение: f([0. 0.]) = 0.00000


In [155]:
# определяем нашу функцию
def func(x):
    return x[0]**2.0 + x[1]**2.0
 
#  определяем градиент функции
def grad_func(x):
    return np.array([x[0] * 2, x[1] * 2])
 
# определяем начальную точку
x_0 = [1, 1]
# реализуем алгоритм L-BFGS-B
result = minimize(func, x_0, method='L-BFGS-B', jac=grad_func)
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))

Статус оптимизации CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL
Количество оценок: 3
Решение: f([0. 0.]) = 0.00000


In [156]:
#Задание 4.1

#Найдите точку минимума для функции f(x,y) = x^2 - xy + y^2 + 9x - 6y + 20.
#В качестве стартовой возьмите точку (-400,-400).
#Значения координат округлите до целого числа.

In [157]:
# определяем нашу функцию
def func(x):
    return x[0]**2.0 - x[0]*x[1]+ x[1]**2.0 + 9*x[0] - 6*x[1] + 20
 
#  определяем градиент функции
def grad_func(x):
    return np.array([2*x[0] - x[1] + 9, -x[0] + 2* x[1] - 6])
 
# определяем начальную точку
x_0 = [-400, -400]
# реализуем алгоритм 
result = minimize(func, x_0, method='BFGS', jac=grad_func)
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))

Статус оптимизации Optimization terminated successfully.
Количество оценок: 11
Решение: f([-4.  1.]) = -1.00000


In [158]:
#Задание 4.4
#Найдите минимум функции f(x) = x**2 - 3x + 45 с помощью квазиньютоновского метода BFGS.
#В качестве стартовой точки возьмите x = 0.
#В качестве ответа введите минимальное значение функции в достигнутой точке.

In [159]:
# определяем нашу функцию
def func(x):
    return x**2-3*x+45
 
#  определяем градиент функции
def grad_func(x):
    return 2*x-3
 
# определяем начальную точку
x_0 = 0

# реализуем алгоритм 
result = minimize(func, x_0, method='BFGS', jac=grad_func)
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))

Статус оптимизации Optimization terminated successfully.
Количество оценок: 3
Решение: f([1.5]) = 42.75000


In [160]:
#Задание 4.5
#Решите предыдущую задачу, применяя модификацию L-BFGS-B.
#В каком случае получилось меньше итераций?

result = minimize(func, x_0, method='L-BFGS-B', jac=grad_func)
# получаем результат
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))

Статус оптимизации CONVERGENCE: NORM_OF_PROJECTED_GRADIENT_<=_PGTOL
Количество оценок: 3
Решение: f([1.5]) = 42.75000


In [161]:
#Задание 4.7
#Найдите минимум функции f(x,y) = x^4 + 6*y^2 + 10, взяв за стартовую точку (100,100).
#Какой алгоритм сошелся быстрее?

In [162]:
# определяем нашу функцию
def func(x):
    return x[0]**4.0 + 6*x[1]**2 +10
 
#  определяем градиент функции
def grad_func(x):
    return np.array([4*x[0]**3, 12*x[1]])
 
# определяем начальную точку
x_0 = [100, 100]
# реализуем алгоритм 
result = minimize(func, x_0, method='BFGS', jac=grad_func)
# получаем результат
print('BFGS')
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))

result = minimize(func, x_0, method='L-BFGS-B', jac=grad_func)
# получаем результат
print('L-BFGS-B')
print('Статус оптимизации %s' % result['message'])
print('Количество оценок: %d' % result['nfev'])
solution = result['x']
evaluation = func(solution)
print('Решение: f(%s) = %.5f' % (solution, evaluation))

BFGS
Статус оптимизации Optimization terminated successfully.
Количество оценок: 37
Решение: f([1.31617159e-02 6.65344582e-14]) = 10.00000
L-BFGS-B
Статус оптимизации CONVERGENCE: REL_REDUCTION_OF_F_<=_FACTR*EPSMCH
Количество оценок: 40
Решение: f([-9.52718297e-03 -2.32170510e-06]) = 10.00000


**Линейное программирование**

*Линейное программирование* — это метод оптимизации для системы линейных ограничений и линейной целевой функции. Целевая функция определяет оптимизируемую величину, и цель линейного программирования состоит в том, чтобы найти значения переменных, которые максимизируют или минимизируют целевую функцию.

Задача линейного программирования — это задача оптимизации, в которой целевая функция и функции-ограничения линейны, а все переменные неотрицательны.

**Целочисленным линейным программированием (ЦЛП)** называется вариация задачи линейного программирования, когда все переменные — целые числа.

В языке Python есть множество библиотек, с помощью которых можно решить задачу линейного программирования. Вот основные, которые мы рассмотрим в данном юните:

* SciPy (scipy.optimize.linprog);
* CVXPY; 
* PuLP.

**Линейное программирование в SciPy**

*Задача*

У нас есть 6 товаров с заданными ценами на них и заданной массой.
Вместимость сумки, в которую мы можем положить товары, заранее известна и равна 15 кг.
Какой товар и в каком объёме необходимо взять, чтобы сумма всех цен товаров была максимальной?

In [163]:
values = [4, 2, 1, 7, 3, 6] #стоимости товаров
weights = [5, 9, 8, 2, 6, 5] #вес товаров
C = 15 #вместимость сумки
n = 6 #количество товаров

In [164]:
c = - np.array(values) #изменяем знак, чтобы перейти от задачи максимизации к задаче минимизации
A = np.array(weights)  #конвертируем список с весами в массив
A = np.expand_dims(A, 0) #преобразуем размерность массива
b = np.array([C]) #конвертируем вместимость в массив

In [165]:
from scipy.optimize import linprog
linprog(c=c, A_ub=A, b_ub=b)

           con: array([], dtype=float64)
 crossover_nit: 0
         eqlin:  marginals: array([], dtype=float64)
  residual: array([], dtype=float64)
           fun: -52.5
       ineqlin:  marginals: array([-3.5])
  residual: array([0.])
         lower:  marginals: array([13.5, 29.5, 27. ,  0. , 18. , 11.5])
  residual: array([0. , 0. , 0. , 7.5, 0. , 0. ])
       message: 'Optimization terminated successfully. (HiGHS Status 7: Optimal)'
           nit: 0
         slack: array([0.])
        status: 0
       success: True
         upper:  marginals: array([0., 0., 0., 0., 0., 0.])
  residual: array([inf, inf, inf, inf, inf, inf])
             x: array([0. , 0. , 0. , 7.5, 0. , 0. ])

**Линейное программирование в CVXPY**

Снова решим задачу из примера № 1, но уже предположим, что товары нельзя дробить, и будем решать задачу целочисленного линейного программирования.

SciPy не умеет решать такие задачи, поэтому будем использовать новую библиотеку CVXPY.

In [166]:
import cvxpy

In [167]:
x = cvxpy.Variable(shape=n, integer = True)

In [168]:
constraint = (A @ x <= b)
total_value = c * x
x_positive = (x >= 0)

This use of ``*`` has resulted in matrix multiplication.
Using ``*`` for matrix multiplication has been deprecated since CVXPY 1.1.
    Use ``*`` for matrix-scalar and vector-scalar multiplication.
    Use ``@`` for matrix-matrix and matrix-vector multiplication.
    Use ``multiply`` for elementwise multiplication.
This code path has been hit 11 times so far.



In [169]:
problem = cvxpy.Problem(cvxpy.Minimize(total_value), constraints=[constraint, x_positive])

In [170]:
problem.solve()

-49.0

In [171]:
x.value

array([-0., -0., -0.,  7., -0.,  0.])

In [172]:
x = cvxpy.Variable(shape = n, boolean = True)
constraint = (A @ x <= b)
total_value = c * x
x_positive = (x >= 0)
problem = cvxpy.Problem(cvxpy.Minimize(total_value), constraints=[constraint, x_positive])

This use of ``*`` has resulted in matrix multiplication.
Using ``*`` for matrix multiplication has been deprecated since CVXPY 1.1.
    Use ``*`` for matrix-scalar and vector-scalar multiplication.
    Use ``@`` for matrix-matrix and matrix-vector multiplication.
    Use ``multiply`` for elementwise multiplication.
This code path has been hit 12 times so far.



In [173]:
problem.solve()

-17.0

In [174]:
x.value

array([1., 0., 0., 1., 0., 1.])

Обратите внимание, что, используя SciPy, мы могли не указывать явно, что  только положительные, так как в линейном программировании считаются только неотрицательные .

А вот CVXPY универсальна. Мы просто задали функцию, не указывая, что это линейное программирование. CVXPY «поняла», что это задача оптимизации, и использовала нужные алгоритмы. Поэтому здесь ограничение на положительные  мы указывали явно.

**Линейное программирование в PuLP**

*Задача*

В нашей каршеринговой компании две модели автомобилей: модель A и модель B. Автомобиль A даёт прибыль в размере 20 тысяч в месяц, а автомобиль B — 45 тысяч в месяц. Мы хотим заказать на заводе новые автомобили и максимизировать прибыль. Однако на производство и ввод в эксплуатацию автомобилей понадобится время:

* Проектировщику требуется 4 дня, чтобы подготовить документы для производства каждого автомобиля типа A, и 5 дней — для каждого автомобиля типа B.
* Заводу требуется 3 дня, чтобы изготовить модель A, и 6 дней, чтобы изготовить модель B.
* Менеджеру требуется 2 дня, чтобы ввести в эксплуатацию в компании автомобиль A, и 7 дней —  автомобиль B.
* Каждый специалист может работать суммарно 30 дней.


In [175]:
from pulp import *
problem = LpProblem('Выбор моделе авто для каршеринга', LpMaximize)
A = LpVariable('Модель А', lowBound=0, cat=LpInteger)
B = LpVariable('Модель B', lowBound=0, cat=LpInteger)

problem += 20000*A+45000*B
problem += 4*A + 5*B <= 30
problem += 3*A + 6*B <= 30
problem += 2*A + 7*B <= 30

problem.solve()

print('A:', A.varValue, 'B:', B.varValue, 'Доход:', value(problem.objective))




A: 1.0 B: 4.0 Доход: 200000.0


Задание 6.1

Составьте оптимальный план перевозок со склада № 1 и склада № 2 в три торговых центра с учётом тарифов, запасов на складах и потребностей торговых центров, которые указаны в таблице:

img

Сформулируйте предложенную задачу как задачу линейного программирования и решите её любым способом (желательно программным).

В качестве ответа введите минимальную суммарную стоимость поставки. Ответ округлите до целого числа.

In [176]:


x = cvxpy.Variable(shape=(2,3), integer = True)
total_value = x[0,:]@np.array([2,5,3]) + x[1,:]@np.array([7,7,6])
con1 = (x[0,:]@np.ones(3) <= 180)
con2 = (x[1,:]@np.ones(3) <= 220)
con3 = (x[:,0]@np.ones(2) == 110)
con4 = (x[:,1]@np.ones(2) == 150)
con5 = (x[:,2]@np.ones(2) == 140)
con6 = (x >= 0)

problem = cvxpy.Problem(cvxpy.Minimize(total_value), constraints=[con1,con2,con3,con4,con5,con6])


In [177]:
problem.solve()

1900.0

In [178]:
x.value

array([[110.,   0.,  70.],
       [ -0., 150.,  70.]])

Задание 6.2

В прошлом юните мы обсуждали задачу о назначениях исполнителей задач - теперь пришло время решить её.

Напомним суть: необходимо распределить пять задач между пятью исполнителями таким образом, чтобы суммарные затраты на работы были наименьшими.

In [179]:
A = np.array([
    [1000,12,10,19,8],
    [12,1000,3,7,2],
    [10,3,1000,6,20],
    [19,7,6,1000,4],
    [8,2,20,4,1000]])

B = np.ones((5,5))
A*(B+B)
A.sum()

5182

In [182]:
A = np.array([
    [1000,12,10,19,8],
    [12,1000,3,7,2],
    [10,3,1000,6,20],
    [19,7,6,1000,4],
    [8,2,20,4,1000]])

x = cvxpy.Variable(shape=(5,5), integer = True)
total_value = x[0,:]@A[0,:] + x[1,:]@A[1,:] + x[2,:]@A[2,:] + x[3,:]@A[3,:] + x[4,:]@A[4,:] #не хотел он принмать выражение типа (np.array(x*A)).sum()

con1 = (x >= 0)
con2 = (x <= 1)

con3 = (x[0,:]@np.ones(5) == 1)
con2 = (x[1,:]@np.ones(5) == 1)
con3 = (x[2,:]@np.ones(5) == 1)
con4 = (x[3,:]@np.ones(5) == 1)
con5 = (x[4,:]@np.ones(5)== 1)

con6 = (x[:,0]@np.ones(5) == 1)
con7 = (x[:,1]@np.ones(5) == 1)
con8 = (x[:,2]@np.ones(5) == 1)
con9 = (x[:,3]@np.ones(5) == 1)
con10 = (x[:,4]@np.ones(5)== 1)

problem = cvxpy.Problem(cvxpy.Minimize(total_value), constraints=[con1,con2,con3,con4,con5,con6,con7,con8,con9,con10])

In [None]:
problem.solve()

32.0

Задание 6.3

Найдите кратчайший маршрут из точки A, который проходит через все другие точки и возвращается в A.

In [183]:
A = np.array([
    [1000,10,8,19,12],
    [10,1000,20,6,3],
    [8,20,1000,4,2],
    [19,6,4,1000,7],
    [12,3,2,7,1000]])

x = cvxpy.Variable(shape=(5,5), integer = True)
total_value = x[0,:]@A[0,:] + x[1,:]@A[1,:] + x[2,:]@A[2,:] + x[3,:]@A[3,:] + x[4,:]@A[4,:] #не хотел он принмать выражение типа (np.array(x*A)).sum()

con1 = (x >= 0)
con2 = (x <= 1)

con3 = (x[0,:]@np.ones(5) == 1)
con2 = (x[1,:]@np.ones(5) == 1)
con3 = (x[2,:]@np.ones(5) == 1)
con4 = (x[3,:]@np.ones(5) == 1)
con5 = (x[4,:]@np.ones(5)== 1)

con6 = (x[:,0]@np.ones(5) == 1)
con7 = (x[:,1]@np.ones(5) == 1)
con8 = (x[:,2]@np.ones(5) == 1)
con9 = (x[:,3]@np.ones(5) == 1)
con10 = (x[:,4]@np.ones(5)== 1)

problem = cvxpy.Problem(cvxpy.Minimize(total_value), constraints=[con1,con2,con3,con4,con5,con6,con7,con8,con9,con10])

In [184]:
problem.solve()

32.0

In [185]:
x.value

array([[-0.,  1., -0., -0., -0.],
       [-0., -0., -0., -0.,  1.],
       [ 1., -0., -0., -0., -0.],
       [-0., -0.,  1., -0., -0.],
       [-0., -0., -0.,  1., -0.]])