### Дано

Список рекламных блоков на месяц по заданному каналу вещания. 
Для каждого рекламного блока дана следующая информация:
*	BlockID – уникальный идентификатор блока
*	ChannelId – уникальный идентификатор канала вещания
*	ChannelName – название канала вещания
*	BlockDateTime – дата и время выхода рекламного блока в эфир
*	ProgramId – уникальный идентификатор передачи, в которой выходит рекламный блок
*	ProgramName – название передачи, в которой выходит рекламный блок
*	IsPrime – признак выхода рекламного блока в прайм-тайм
*	AvailableSeconds – количество секунд, свободных в рекламном блоке для постановки
*	BlockRate – рейтинг рекламного блока в баинговых рейтингах (рейтинг, по которой продаётся рекламный блок)
*	TargetRate – рейтинг рекламного блока в целевых рейтингах (рейтинг, который определяет качество рекламного блока для нашей целевой аудитории)

Два ролика которые надо разместить на каналах:

*	Clip1 – рекламный ролик хронометражом 30 секунд
*	Clip2 – рекламный ролик хронометражом 30 секунд

Стоимость пункта рейтинга (поле BlockRate) на канале:

*	Для рекламных блоков в прайм-тайм (IsPrime = 1) – 6 рублей
*	Для рекламных блоков не в прайм-тайм (IsPrime = 0) – 3 рубля

### Задача

Реализовать на Python алгоритм, выбирающий рекламные блоки для размещения рекламных роликов Clip1 и Clip2 с учётом свободного места в рекламных блоках и максимизирующий сумму целевых рейтингов (поле TargetRate) выбранных блоков с учётом следующих ограничений:
*	Ролик Clip1 должен быть размещён на 100 рейтингов (сумма по колонке BlockRate), причём 58-60% размещения (58-60 рейтингов) должно быть размещено в прайм-тайм (IsPrime = 1). Допустимое отклонение размещения по рейтингам ±2%.
*	Ролик Clip2 должен быть размещён на 60 рейтингов (сумма по колонке BlockRate), причём 48-50% размещения (28.8-30 рейтингов) должно быть размещено в прайм-тайм (IsPrime = 1). Допустимое отклонение размещения по рейтингам ±2%.
*	Общая сумма размещения по двум роликам должна быть равна 750 рублям. Допустимое отклонение бюджета в меньшую сторону – 5 рублей. В большую сторону отклонение недопустимо.
*	Ролики должны быть максимально равномерно распределены по всему месяцу размещения.

### Загрузим данные

In [1]:
import plotly
import plotly.graph_objs as go
import plotly.express as px
import numpy as np
import pandas as pd
from plotly.offline import init_notebook_mode
init_notebook_mode(connected=True)
plotly.io.templates.default = "none"

In [2]:
data = pd.read_excel('./TvBreaksData_toSend.xlsx')
data.head()

Unnamed: 0,BlockID,ChannelId,ChannelName,BlockDateTime,ProgramId,ProgramName,IsPrime,AvailableSeconds,BlockRate,TargetRate
0,1696668767,1,Первый,2018-04-01 06:12:00,263640,Р/б после новостей,0,60,0.25,0.286084
1,1696668723,1,Первый,2018-04-01 06:30:00,428390,"Худ. фильм / Сериал (Х/ф ""Два билета на дневно...",0,240,0.25,0.24715
2,1696668724,1,Первый,2018-04-01 06:45:00,428390,"Худ. фильм / Сериал (Х/ф ""Два билета на дневно...",0,240,0.25,0.266853
3,1696668727,1,Первый,2018-04-01 07:15:00,428390,"Худ. фильм / Сериал (Х/ф ""Два билета на дневно...",0,230,0.25,0.376078
4,1696668830,1,Первый,2018-04-01 07:45:30,428005,Р/б до Мультфильма,0,205,0.281,0.438114


Обратим внимание, что переменная **`AvailableSeconds`** содержит отрицательные значения. Хотя по смыслу она должна быть положительна. Поскольку рекламные ролики имеют длинну 30 секунд, то мы можем сразу убрать записи в таблице с **`AvailableSeconds < 30`**.

In [3]:
fig = px.histogram(data, x = 'AvailableSeconds')
fig.update_layout(bargap = 0.1)
fig

In [4]:
# Убираем рекламные вставки короче тридцати секунд
data.query('AvailableSeconds >= 30', inplace = True)
data.sort_values(by = 'BlockDateTime', inplace=True)

Посмотрим, как меняются со временем значения `BlockRate` и `TargetRate`. Видно, что переменные имеют высокую корреляцию. В основном они сильно расходятся в прайм тайм.

In [5]:
fig = go.Figure()
fig.add_traces([
    go.Scatter(
        x = data['BlockDateTime'],
        y = data['BlockRate'],
        name = 'BlockRate',
        text = data['ProgramName'],
    ),
    go.Scatter(
        x = data['BlockDateTime'],
        y = data['TargetRate'],
        name = 'TargetRate',
        text = data['ProgramName'],
    )
]
)
fig.update_layout(xaxis = dict(title = 'Время'), yaxis = dict(title = 'Значение показателей'))
fig

### Перейдем к математической постановке задачи

Всего есть 1249 возможных вариантов размещения рекламных роликов. Нам необходимо выбрать такое размещение рекламы, которое бы максимизировало `TargetRate` и удовлетворяло всем условиям. 

 $\text{Пусть}~\text{clip1 и } \text{clip2 }–\text{ бинарные векторы длинны } 1249$, т.е. $\text{clip}{i}[j] = 1$, если было выбрано рекламное предложение $j$ для $i$-ого рекламного ролика и $\text{clip}{i}[j] = 0$ в противном случае. Нам необходимо найти такие вектора $\text{clip1 и } \text{clip2}$, которые бы максимизировали сумму целевых рейтингов при заданных ограничениях. Т.о. задача будет сформулирована так:
 
__Обозначения:__

* $\text{tr} \in R^{1249}$ – вектор рекламного блоков в целевых рейтингах
* $\text{br} \in R^{1249}$ – вектор рекламного блоков в баинговых рейтингах
* $\text{ip} \in R^{1249}$ – вектор признака выхода рекламного блока в прайм-тайм
* $\text{as} \in R^{1249}$ – вектор свободных секунд в рекламном блоке для постановки
* $\text{price} \in R^{1249}$ – вектор стоимости в рекламных блоках

$$ 
\begin{cases}
    & \text{tr}^T\left(\text{clip1} + \text{clip2}\right) \rightarrow \max\limits_{\text{clip1},\text{clip2}} \\
    & 100 * 0.98 \le \text{br}^T\text{clip1} \le 100 * 1.02 \\
    & 60 * 0.98 \le \text{br}^T\text{clip2} \le 60 * 1.02 \\
    & 58 \le \text{ip}^T\text{clip1} \le 60 \\
    & 28.8 \le \text{ip}^T\text{clip2} \le 30 \\
    & 745 \le \text{price}^T\left(\text{clip1} + \text{clip2}\right) \le 750
    & \text{clip1} + \text{clip2} \le as \\
\end{cases}
$$

Еще необходимо поставить условие на максимально равномерное размещение рекламы, к сожалению, я не смог придумать, как его сформулировать. Мы получили __бинарную задачу линейного программирования__. Решение этой задачи найдем с помощью библиотеки `cvxpy`.

In [6]:
# Вычислим стоимость размещения рекламного блока, учитывая prime time
price = 6 * data['BlockRate'].values * data['IsPrime'].values + \
        3 * data['BlockRate'].values * (1 - data['IsPrime'].values)
data['price'] = price

In [7]:
import cvxpy

selection = cvxpy.Variable((data.shape[0], 2), boolean=True)
total_utility = data['TargetRate'].values * cvxpy.sum(selection, axis=1)
problem = cvxpy.Problem(
    objective = cvxpy.Maximize(total_utility),
    constraints = [
        data['BlockRate'].values * selection <= np.array([100*1.02, 60*1.02]),
        data['BlockRate'].values * selection >= np.array([100*0.98, 60*0.98]),
        data['IsPrime'].values * selection <= np.array([60, 30]),
        data['IsPrime'].values * selection >= np.array([58, 28.8]),
        data['price'].values * cvxpy.sum(selection, axis=1) <= 750,
        data['price'].values * cvxpy.sum(selection, axis=1) >= 745,
        data['AvailableSeconds'].values/30 - cvxpy.sum(selection, axis=1) >= 0
    ]
)

В такой постановке `cvxpy` не может решить задачу. Последнее условие $\text{clip1} + \text{clip2} \le as$ добавляет большое число ограничений и метод оптимизации не может решить задачу за разумное время.

In [8]:
# Ставим условие, которое в любом случае позволит поставить два рекламных ролика одновременно
# Это позволит убрать дополнительные ограничения и решить задачу, путь не оптимально
data.query('AvailableSeconds > 60', inplace = True)

In [9]:
import cvxpy

selection = cvxpy.Variable((data.shape[0], 2), boolean=True)
total_utility = data['TargetRate'].values * cvxpy.sum(selection, axis=1)
problem = cvxpy.Problem(
    objective = cvxpy.Maximize(total_utility),
    constraints = [
        data['BlockRate'].values * selection <= np.array([100*1.02, 60*1.02]),
        data['BlockRate'].values * selection >= np.array([100*0.98, 60*0.98]),
        data['IsPrime'].values * selection <= np.array([60, 30]),
        data['IsPrime'].values * selection >= np.array([58, 28.8]),
        data['price'].values * cvxpy.sum(selection, axis=1) <= 750,
        data['price'].values * cvxpy.sum(selection, axis=1) >= 745,
    ]
)

In [10]:
problem.solve(solver=cvxpy.GLPK_MI)

299.8120549779734

#### Проверим, что найденное решение удовлетворяет всем условиям

In [11]:
data['BlockRate'].values.dot(selection.value)

array([101.996,  61.198])

In [12]:
data['IsPrime'].values.dot(selection.value)

array([58., 29.])

In [13]:
data['price'].values.dot(selection.value.sum(axis = 1))

749.943

In [14]:
# Список BlockID для первого и второго рекламных роликов
sel = selection.value.astype(int)
clip1 = data.iloc[np.where(sel[:, 0] == 1)[0]]['BlockID'].values
clip1 = data.iloc[np.where(sel[:, 1] == 1)[0]]['BlockID'].values

#### Посмотрим, как размещены рекламные ролики по месяцу 

In [15]:
px.bar(data.iloc[np.where(sel[:, 0] == 1)[0]], x = 'BlockDateTime', y = 'TargetRate')

К сожалению, разместить ролики максимально равномерно по месяцу не удалось. Есть дни, когда не было показано ни одного ролика, а есть моменты времени, когда рекламные ролики показывались друго за другом.