#### Лабораторная работа 2. Задача распределения ресурсов
Реализовать метод динамического программирования для решения задачи о распределении ресурсов.

$----------------------------------------------$

In [82]:
import numpy as np

<b>Шаг 1.</b> Определим начальные данные для задачи динамического программирования: $Q$ — кол-во единиц ресурса, $P$ — кол-во агентов. Функция прибыли (вида которой мы не знаем) задается в виде матрицы $A$

In [83]:
P = 3
Q = 3

A = np.array([
    [0, 1, 2, 3],
    [0, 0, 1, 2],
    [0, 2, 2, 3]
])

<b>Шаг 2.</b> Инициируем матрицу B (функция Беллмана — максимальная прибыль от распределения $j$ ресурсов между первыми $i$ агенами) и матрицу C (количество ресурсов для $i$-го агента в оптимальном распределнии $j$ ресурсов между первыми $i$ агентами)

In [84]:
B = np.zeros((P + 1, Q + 1))
C = np.zeros((P + 1, Q + 1))

<b>Шаг 3.</b> Для дальнейшего решения задачи необходимо будет составить рекуррентное соотношение Беллмана. Рассмотрим два случая распределения.

<i>Случай 1.</i> Ресурсы распределяются между одним агентом ($p = 1$). Очевидно, что наибольшая прибыль в этом случае будет получена при передаче всех ресурсов данному агенту. То есть:

$$
\forall q \in \{0, 1, \ldots, Q\} \space B(p,q) = A(p,q) \space\space\space *
$$

<i>Случай 2.</i> Если ресурсы распределяются между несколькими агентами $(p \geq 2)$, то можно применить циклическую логику к составлению соотношений.

Так например, если мы отдаем $p$-му агенту 0 единиц ресурсов, то получаем от него $A(p, 0)$ прибыли. Разделив остаток ресурсов ($q$) между оставшимися агентами ($p-1$, в порядке номера) мы получим $B(p-1, q)$ максимальной прибыли. Итого будет прибыли:

$$
A(p, 0) + B(p-1, q)
$$

Аналогичный ход мысли в случае с передачей 1 единицы ресурса $p$-му агенту, получим: 

$$
A(p, 1) + B(p-1, q - 1)
$$

Составим универсальное выражение:

$$
A(p, i) + B(p-1, q - i)
$$

Данные выражения справедливы вплоть до выдачи $p$-му агенту $q$ единиц ресурсов. Следовательно, максимальное значение прибыли это максимальное из значений полученных в рассмотренной цепочке. Имеем:

$$
\forall q \in \{0, 1, \ldots, Q\} \space B(p,q) = \max_{i \in \{0, 1, \ldots, q\}} (A(p, i) + B(p - 1, q - i)) \space\space\space **
$$


Реккурентное соотношение Беллмана состоит из уравнений * и **

<b>Прямой ход метода динамического программирования:</b>

In [85]:
for p in range(1, P + 1):
        for q in range(Q + 1):
            if p == 1:
                B[p, q] = A[p - 1, q]
                C[p, q] = q
            else:
                max_val_index = max(range(q + 1), key=lambda i: A[p - 1, i] + B[p - 1, q - i])
                C[p, q] = max_val_index
                
                max_profit = A[p - 1, max_val_index] + B[p - 1, q - max_val_index]
                B[p, q] = max_profit
                
print(f"B={B}\nC={C}")

B=[[0. 0. 0. 0.]
 [0. 1. 2. 3.]
 [0. 1. 2. 3.]
 [0. 2. 3. 4.]]
C=[[0. 0. 0. 0.]
 [0. 1. 2. 3.]
 [0. 0. 0. 0.]
 [0. 1. 1. 1.]]


<b>Шаг 4.</b> Для нахождения вектора оптимального распределения $Q$ единиц ресурсов между $P$ агентами необходимо вместе со значениями $B(p, q)$ вычислять значения $C(p, q)$.  

<b>Обратный ход метода динамического программирования:</b>

In [86]:
p_buff = P
q_buff = Q

agent_vec = np.zeros(P)
while P > 0:
    agent_vec[P - 1] = C[P, Q]
    Q -= int(C[P, Q])
    P -= 1

Имеем следующие результаты:

In [87]:
print(f"Максимальная общая прибыль: {B[p_buff, q_buff]}")
print(f"Распределение ресурсов между агентами: {agent_vec}")

Максимальная общая прибыль: 4.0
Распределение ресурсов между агентами: [2. 0. 1.]
