# 1. Азартная игра
Вращается колесо, по периметру которого нанесены числа 1 ... n. Вероятность того, что колесо в результате одного вращения остановится на цифре i, равна $p_i$. Игрок платит x долларов за возможность осуществить не более m вращений колеса. Игрок получит сумму, равную удвоенному числу, которое выпало при последнем вращении колеса. Требуется разработать оптимальную стратегию для игрока.

$f_i(j)$ - ожидаемый выигрыш при условии, что игра находится на этапе (вращении) i, исходом последнего вращения было число j, и в дальнейшем мы будем действовать оптимально.

Тогда:

$f_m(j) = 2j$

$f_i(j) = max[2j, \sum \limits_{k = 1} ^ {n} p_k f_{i + 1}(k)]$, i = 1, 2, ..., m - 1

Иначе говоря:
\begin{equation}
f_i(j) = max[2j, E(f_{i + 1})],
\end{equation}
где $E(f_{i + 1})$ - мат ожидание $f_{i + 1}$.

<p>Будем решать все задачки раздела 15.2 с помощью динамического программирования: перебирая этапы <i>с конца</i> (от m до 0), где i-ый этап - момент времени <i>после i-го вращения, но до (i + 1)-го</i>. Т. к. для определения $f_i(j)$ нам достаточно $\forall k$ знать вероятность выпадания k на рулетке и $f_{i + 1}(k)$, то идя с конца и находя на каждом этапе i все возможные $f_i(j)$, мы найдём $f_0(0)$ - ожидаемую прибыль при оптимальной игре.</p>
<p>Если при этом для каждой возможной ситуации мы будем запоминать ход, который нужно сделать, чтобы прийти к наилучшему возможному результату, то будет построено <i>дерево оптимальной стратегии</i>, т. е. на каждом этапе для любого возможного события, мы будем знать, что делать дальше для достижения оптимального результата.</p>

In [2]:
import numpy as np

## Пример 1.1
Предположим, что по периметру колеса русской рулетки расставлены числа от 1 до 5. Вероятности $p_i$ остановки колеса на числе i соответсвенно равны следующему: $p_1 = 0.3$, $p_2 = 0.25$, $p_3 = 0.2$, $p_4 = 0.15$, $p_5 = 0.1$. Игрок платит 5 долларов за возможность сделать не более 4 вращений колеса.

Найти: оптимальную стратегию игрока и ожидаемый ваигрыш.

##### Дано: 

n = 5, m = 4,

$p_1 = 0.3$, $p_2 = 0.25$, $p_3 = 0.2$, $p_4 = 0.15$, $p_5 = 0.1$

x = 5.

In [11]:
f = {} # f[i, j] - ожидаемый выигрыш, если при i-м вращении выпало j

n = int(input()) # сколько чисел
m = int(input()) # сколько вращений
p = [0]
p += list(map(float, input().split())) # вероятности
x = int(input()) # цена игры

def Ef(i): # считаем E(f(i))
    res = 0
    for k in range(1, n + 1) :
        res += p[k] * f[i, k]
    return res

for j in range(1, n + 1): # определяем f для всех исходов последнего вращения
    f[m, j] = 2 * j

for i in range(m - 1, -1, -1): # динамически определяем f для всех i и j
    if i == 0:
        f[i, 0] = Ef(i + 1)
        break

    print('Вращение', i, ':')
    for j in range(1, n + 1):
        f[i, j] = max(2 * j, Ef(i + 1))
        print('     Если выпало', j, 'то выгодней', end=' ')
        if (2 * j > Ef(i + 1)):
            print('закончить')
        else:
            print('продолжить')

prof = f[0, 0] - x # находим прибыль, которую мы ожидаем получить при оптимальной стратегии игры
print('Ожидание прибыли:', prof)

5
4
0.3 0.25 0.2 0.15 0.1
5
Вращение 3 :
     Если выпало 1 то выгодней продолжить
     Если выпало 2 то выгодней продолжить
     Если выпало 3 то выгодней закончить
     Если выпало 4 то выгодней закончить
     Если выпало 5 то выгодней закончить
Вращение 2 :
     Если выпало 1 то выгодней продолжить
     Если выпало 2 то выгодней продолжить
     Если выпало 3 то выгодней продолжить
     Если выпало 4 то выгодней закончить
     Если выпало 5 то выгодней закончить
Вращение 1 :
     Если выпало 1 то выгодней продолжить
     Если выпало 2 то выгодней продолжить
     Если выпало 3 то выгодней продолжить
     Если выпало 4 то выгодней закончить
     Если выпало 5 то выгодней закончить
Ожидание прибыли: 2.309375


## Упражнение 1.1

Условия аналогичны примеру 15.2-1. Требуется найти опримальную стратегию игрока и ожидаемый выигрыш.
##### Дано:
n = 8, m = 5,

$p_1 = p_2 = ... = p_8 = \frac{1}{8}$

x = 5.

In [10]:
f = {} # f[i, j] - ожидаемый выигрыш, если при i-м вращении выпало j

n = int(input()) # сколько чисел
m = int(input()) # сколько вращений
p = [0]
p += list(map(float, input().split())) # вероятности
x = int(input()) # цена игры

def Ef(i): # считаем E(f(i))
    res = 0
    for k in range(1, n + 1) :
        res += p[k] * f[i, k]
    return res

for j in range(1, n + 1): # определяем f для всех исходов последнего вращения
    f[m, j] = 2 * j

for i in range(m - 1, -1, -1): # динамически определяем f для всех i и j
    if i == 0:
        f[i, 0] = Ef(i + 1)
        break

    print('Вращение', i, ':')
    for j in range(1, n + 1):
        f[i, j] = max(2 * j, Ef(i + 1))
        print('     Если выпало', j, 'то выгодней', end=' ')
        if (2 * j > Ef(i + 1)):
            print('закончить')
        else:
            print('продолжить')

prof = f[0, 0] - x # находим прибыль, которую мы ожидаем получить при оптимальной стратегии игры
print('Ожидание прибыли:', prof)

8
5
0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125
5
Вращение 4 :
     Если выпало 1 то выгодней продолжить
     Если выпало 2 то выгодней продолжить
     Если выпало 3 то выгодней продолжить
     Если выпало 4 то выгодней продолжить
     Если выпало 5 то выгодней закончить
     Если выпало 6 то выгодней закончить
     Если выпало 7 то выгодней закончить
     Если выпало 8 то выгодней закончить
Вращение 3 :
     Если выпало 1 то выгодней продолжить
     Если выпало 2 то выгодней продолжить
     Если выпало 3 то выгодней продолжить
     Если выпало 4 то выгодней продолжить
     Если выпало 5 то выгодней продолжить
     Если выпало 6 то выгодней закончить
     Если выпало 7 то выгодней закончить
     Если выпало 8 то выгодней закончить
Вращение 2 :
     Если выпало 1 то выгодней продолжить
     Если выпало 2 то выгодней продолжить
     Если выпало 3 то выгодней продолжить
     Если выпало 4 то выгодней продолжить
     Если выпало 5 то выгодней продолжить
     Если выпало 6 то выгодней п

## Упражнение 1.2
Человек хочет продать свой подержанный автомобиль тому, кто предложит наивысшую цену. Изучая автомобильный рынок, он пришёл к выводу, что с равными вероятостями ему за автомобиль могут предложить очень низкую цену (1050 долларов), просто низкую цену (1900 долларов), среднюю цену (2500 долларов), либо высокую цену (3000 долларов). Человек решил помещать объявление о продаже автомобиля на протяжении не более трёх дней подряд. В конце каждого дня ему нужно решить принимать, принять ли наилучшее предложение, поступившее в течение этого дня.

Найти: оптимальную стратегию поведения для продавца автомобиля.

Запишем все возможные предложения покупателей в массив w (индексация с 1): $w[j]$ - кол-во денег в предложении № j.
Задача решается динамическим программированием аналогично задаче про рулетку (перебираем дни с конца и считаем $f_i(j)$ $\forall i, j$, где $f_i(j)$ - максимум ожидаемой прибыли при условии, что в i-ый день наилучшее предложение - предложение № j). Соответсвенно при вычислении $f_i(j)$ будем пользоваться ф-лой:
\begin{equation}
\begin{aligned}
f_i(j) = max(w[j], E(f_{i + 1}))
\end{aligned}
\end{equation}

##### Дано:
m = 3, n = 4

$w[1] = 1050$, $w[2] = 1900$, $w[3] = 2500$, $w[4] = 3000$

$p_1 = p_2 = p_3 = p_4 = \frac{1}{4}$

In [13]:
f = {} # f[i, j] - ожидаемый доход, если в день i наилучшее предложение - это j

m = int(input()) # кол-во дней
w = [0]
w += list(map(float, input().split())) # предложения (нумерация с 1)
n = len(w) - 1 # кол-во предложений
p = [0.0] * (n + 1) # вер-ти предложений
for i in range(1, n + 1):
    p[i] = 1 / n

print('Вероятности:', p[1:])

def Ef(i): # считаем E(f(i))
    res = 0
    for k in range(1, n + 1) :
        res += p[k] * f[i, k]
    return res

for j in range(1, n + 1): # определяем f для всех исходов последнего дня
    f[m, j] = w[j]

for i in range(m - 1, 0, -1): # динамически определяем f для всех i и j
    print('День', i, ':')
    for j in range(1, n + 1):
        f[i, j] = max(w[j], Ef(i + 1))
        print('     Если предложили', w[j], 'то выгодней', end=' ')
        if (w[j] > Ef(i + 1)):
            print('закончить')
        else:
            print('продолжить')

f[0, 0] = Ef(1)

prof = f[0, 0] # находим прибыль, которую мы ожидаем получить при оптимальной стратегии игры
print('Ожидание прибыли:', prof)

3
1050 1900 2500 3000
Вероятности: [0.25, 0.25, 0.25, 0.25]
День 2 :
     Если предложили 1050.0 то выгодней продолжить
     Если предложили 1900.0 то выгодней продолжить
     Если предложили 2500.0 то выгодней закончить
     Если предложили 3000.0 то выгодней закончить
День 1 :
     Если предложили 1050.0 то выгодней продолжить
     Если предложили 1900.0 то выгодней продолжить
     Если предложили 2500.0 то выгодней закончить
     Если предложили 3000.0 то выгодней закончить
Ожидание прибыли: 2590.625


# 2. Задача инвестирования

Некто планирует заработать деньги на фондовой бирже за последующие n лет и у него есть С тысяч долларов начального капитала. Инвестиционный план состоит в покупке акций в начале года и продаже их в конце этого же года. Накопленные деньги затем могут быть снова инвестированы (все или их часть) в начале слудующего года. Степень риска инвестиции представлена тем, что прибыль имеет вероятностный характер. Изучение рынка свидетельствует о том, что
возможно m случаев (произойдёт ровно 1 из этих случаев). Случай k происходит с вероятностью $p_k$ ($\sum \limits_{k = 1} ^ {m} p_k$ = 1) и приводит к прибыли $r_k$ (считается в долях).

Вопрос: как следует инвестировать С тысяч долларов для наибольшего накопления к концу n лет?

##### Введём некоторые обозначения

Пусть $x_i$ - сумма денежных средств, доступных для инвестирования в начале i-го года ($x_1 = С$),

$у_i$ - сумма реальной инвестиции в начале i-го года ($y_i \leq x_i$),

а $f_i(x_i)$ - полученный капитал, ожидаемый при оптимальном инвестировании к концу n-го года при условии, что в начале i-го года капитал равен $x_i$

##### В учебнике, из которого взята эта задача, приведены следующие размышления:

Для k-го условия рынка имеем следующее:

$x_{i + 1} = (1 + r_k)y_i + (x_i - y_i) = r_ky_i + x_i$, k = 1, 2, .., m

Тогда рекурентное уравнение динамического программирования имеет следующий вид:

$f_i(x_i) = \max \limits_{0 \leq y_i \leq x_i} \left \{ \sum \limits_{k = 1} ^ {m} p_k f_{i + 1}(x_i + r_k y_i)\right \}$, i = 1, 2, ..., n,

где $f_{n + 1}(x_{n + 1}) = x_{n + 1}$, т. к. после n-го года инвестиции нет. Отсюда следует, что

$f_n(x_n) = \max \limits_{0 \leq y_n \leq x_n} \left \{ \sum \limits_{k = 1} ^ {m} p_k (x_n + r_k y_n) \right \} = x_n \sum \limits_{k = 1} ^ {m} p_k (1 + r_k) = x_n (1 + p_1 r_1 + p_2 r_2 + ... + p_m r_m)$,

поскольку функция в фигурных скобках является линейной по $y_n$ и, следовательно, достигает своего максимума при $y_n = x_n$.

##### Если продолжить размышления автора, можно получить интересный результат:

Во-первых, заметим, что последняя фолмула $\left( f_n(x_n) = x_n(1 + \sum \limits_{k = 1}^{m} p_k r_k) \right)$ справедлива только если $\forall k$: $r_k \geq 0$, т. к. иначе мы не можем быть уверены, что функция в фигурных скобках достигает своего максимума при $y_n = x_n$. В дальнейших задачах, как и в реальной жизни, возникают ситуации, когда прибыль может быть отрицательна (неудачное инвестирование, потеря части или всех вложенных средств), поэтому рассмотрим случай, когда $\forall k$: $r_k$ может принимать любые значения из отрезка $[-1; +\infty)$.

1. Помним, что $f_{n + 1}(x_{n + 1}) = x_{n + 1}$
 
2. $f_n(x_n) = \max \limits_{0 \leq y_n \leq x_n} \left \{ \sum \limits_{k = 1} ^ {m} p_k (x_n + r_k y_n) \right \}$.
Рассмотрим выражение в фигурных скобках:

$\sum \limits_{k = 1} ^ {m} p_k (x_n + r_k y_n)$

Пусть $\frac{y_n}{x_n} = c_n$, $0 \leq c_n \leq 1$. Тогда $y_n = c_n x_n$

$\sum \limits_{k = 1} ^ {m} p_k (x_n + r_k c_n x_n) = x_n \sum \limits_{k = 1} ^ {m} p_k (1 + r_k c_n ) = x_n (p_1 + ... + p_m + p_1 r_1 c_n + ... p_m r_m c_n) = x_n (1 + c_n \sum \limits_{k = 1} ^ {m} p_k r_k)$

Обозначим $\sum \limits_{k = 1} ^ {m} p_k r_k$ как $E(r)$ (ведь это ни что иное как мат ожидание прибыли) Тогда получаем:
 
 \begin{equation}
    f_n(x_n) = \max \limits_{0 \leq c_n \leq 1} \left \{ x_n (1 + c_n E(r)) \right \} = 
    \left\{\begin{aligned}
        &x_n(1 + E(r)), \text{ } E(r) > 0\\
        &x_n, \text{ } E(r) \leq 0\\
    \end{aligned}\right.
\end{equation}

Т. е. если $E(r) > 0$, то нужно вкладывать все имеющиеся деньги ($y_n = x_n$), иначе не вкладывать их вообще ($y_n = 0$).

В дальнейшем будем рассматривать 2 отдельных случая: ($I$) когда $E(r) > 0$ и ($II$) когда $E(r) \leq 0$.

###### $I$.
*Предложение 1.* Если $E(r) > 0$, то $\forall i \in \{1, 2, ..., n + 1\} \rightarrow$ $f_i(x_i) = x_i(1 + E(r)) ^ {n - i + 1}$.

Докажем его методом обратной математической индукции. База уже есть.

Шаг индукции: пусть $f_j(x_j) = x_j(1 + E(r)) ^ {n - j + 1}$. 

<p style="text-align: center;"> Проверим, что $f_{j - 1}(x_{j - 1}) = x_{j - 1}(1 + E(r)) ^ {n - j + 2}$.</p>

$f_{j - 1}(x_{j - 1}) = \max \limits_{0 \leq y_{j - 1} \leq x_{j - 1}} \left \{ \sum \limits_{k = 1} ^ {m} p_k f_{j}(x_{j - 1} + r_k y_{j - 1}) \right \}$

Снова рассмотрим выражение в фигурных скобках, сделав замену $\frac{y_{j - 1}}{x_{j - 1}} = c_{j - 1}$ ($0 \leq c_{j - 1} \leq 1$).

$\sum \limits_{k = 1} ^ {m} p_k f_{j}(x_{j - 1} + r_k c_{j - 1} x_{j - 1}) = \sum \limits_{k = 1} ^ {m} p_k x_{j - 1} (1 + r_k c_{j - 1}) (1 + E(r)) ^ {n - j + 1} = x_{j - 1} (1 + E(r)) ^ {n - j + 1} \sum \limits_{k = 1} ^ {m} p_k (1 + r_k c_{j - 1}) = x_{j - 1} (1 + E(r)) ^ {n - j + 1} \left( \sum \limits_{k = 1} ^ {m} p_k + c_{j - 1} \sum \limits_{k = 1} ^ {m} p_k r_k) \right) = x_{j - 1} (1 + E(r)) ^ {n - j + 1} (1 + c_{j - 1} E(r))$

Т. к. $E(r) > 0$, то максимум $f_{j - 1}(x_{j - 1})$ достигается при $c_{j - 1} = 1$. Тогда имеем:

\begin{equation}
f_{j - 1}(x_{j - 1}) = x_{j - 1} (1 + E(r)) ^ {n - j + 1} (1 + E(r)) = x_{j - 1} (1 + E(r)) ^ {n - j + 2}
\end{equation}
ч. т. д.

###### $II$.
*Предложение 2.* Если $E(r) \leq 0$, то $\forall i \in \{1, 2, ..., n + 1\} \rightarrow$ $f_i(x_i) = x_i$.

Как и в прошлом пункте, докажем его методом обратной индукции. База уже есть.

Шаг индукции: пусть $f_j(x_j) = x_j$. 

<p style="text-align: center;"> Проверим, что $f_{j - 1}(x_{j - 1}) = x_{j - 1}$.</p>

$f_{j - 1}(x_{j - 1}) = \max \limits_{0 \leq y_{j - 1} \leq x_{j - 1}} \left \{ \sum \limits_{k = 1} ^ {m} p_k f_{j}(x_{j - 1} + r_k y_{j - 1}) \right \}$

После замены $\frac{y_{j - 1}}{x_{j - 1}} = c_{j - 1}$ ($0 \leq c_{j - 1} \leq 1$) имеем:

$f_{j - 1}(x_{j - 1}) = \max \limits_{0 \leq с_{j - 1} \leq 1} \left \{ \sum \limits_{k = 1} ^ {m} p_k f_{j}(x_{j - 1} + r_k с_{j - 1} x_{j - 1}) \right \} = \max \limits_{0 \leq с_{j - 1} \leq 1} \left \{ \sum \limits_{k = 1} ^ {m} p_k (x_{j - 1} + r_k с_{j - 1} x_{j - 1}) \right \} = \max \limits_{0 \leq с_{j - 1} \leq 1} \left \{ x_{j - 1} \sum \limits_{k = 1} ^ {m} p_k (1 + r_k с_{j - 1}) \right \} = \max \limits_{0 \leq с_{j - 1} \leq 1} \left \{ x_{j - 1} (1 + \sum \limits_{k = 1} ^ {m} p_k r_k с_{j - 1}) \right \} = \max \limits_{0 \leq с_{j - 1} \leq 1} \left \{ x_{j - 1} (1 + с_{j - 1} E(r)) \right \}$

Т. к. $E(r) \leq 0$, то максимум $f_{j - 1}(x_{j - 1})$ достигается при $c_{j - 1} = 0$. Тогда:

\begin{equation}
f_{j - 1}(x_{j - 1}) = x_{j - 1}
\end{equation}
ч. т. д.

###### Таким образом,
для любого i $f_i(x_i)$ может быть найденa по формуле:
\begin{equation}
    f_i(x_i) = \left \{
    \begin{aligned}
    &x_i(1 + E(r)) ^ {n - i + 1}, \text{ } E(r) > 0\\
    &x_i, \text{ } E(r) \leq 0
    \end{aligned} \right .
\end{equation}

Эта формула говорит о том, что если использовать данную математическую модель в данной задаче, то оптимальная стратегия состоит либо в том, чтобы каждый год инвестировать все имеющиеся средства, либо в том, чтобы не инвестирвовать ничего, и выбор наилучшей из этих противоположных стратегий зависит только от значения $E(r)$. Причём эта зависимость согласована со здравым смыслом.
Если $E(r) > 0$, то мы ожидаем положительную прибыль. Значит, чем больше денег мы вложим в начале года, тем больше получим в конце. Следовательно, стоит инвестировать максимально возможное количесво денег, т. е. каждый год все имеющиеся деньги. Если же $E(r) \leq 0$, то мы ожидаем, что вложенная сумма денег не увеличится или даже уменьшится. Тогда логично инвестировать как можно меньше, т. е. не инвестировать вообще.

*Замечание.* Случай $E(r) = 0$ неслучайно отнесён к ситуации, когда не надо вкладывать деньги (могло показаться, что всё равно, к какой ситуации его отнести). Дело в том, что в реальной жизни, если от инвестирования не ожидается дохода, его не делают, потому что эти деньги можно вложить во что-то другое, что уже принесёт доход.

Таким образом, выяснилось, что иногда задача с вероятностной неопределённостью, содержащая рекурсивные вычисления, может быть решена не динамическим программированием, а нахождением формулы, сразу дающий ответ.

## Пример 2.1

Решим пример к вышепредставленной математической модели. Перед началом инвестирования имеется С = 10 000 долларов. Всего на инвестироваине есть 4 года. Каждый год существует 40%-ная вероятность удвоить вложенные деньги, 20%-ная - остаться при своих деньгах и 40%-ная - потерять весь объём инвестиции. 

Необходимо разработать оптимальную стратегию инвестирования.

##### Дано:
С = 10 000, n = 4, m = 3,

$p_1 = 0.4$, $p_2 = 0.2$, $p_3 = 0.4$,

$r_1 = 2$, $r_2 = 0$, $r_3 = -1$.

In [5]:
d = {} # d[i, x] - fi(x) - ожидаемый чрез n лет капитал, если в i-м году капитал равен x
# f(i, x) - ожидаемое кол-во денег в конце игры если в начале i-го года: х руб

C = int(input()) # начальный капитал
n = int(input()) # кол-во лет
m = int(input()) # кол-во условий
p = [0] # вероятности
p += list(map(float, input().split()))
r = [0] # процентные ставки, зависящие от условий
r += list(map(float, input().split()))

const = 1 + np.dot(p, r) # 1 + E(r)
cap = 0 # капитал через n лет
if const <= 1:
    print('Выгодней вообще не инвестировать')
    сap = C
else:
    print('Выгодней инвестировать каждый год все имеющиеся деньги')
    cap = C * const ** n # x * (1 + E(r)) ^ n
print('При оптимальном инвестировании капитал к концу n-го года:', round(cap, 4))
    
print('')

if const > 1:
    def k(i): # (1 + E(r)) ^ (n - i + 1)
        return const ** (n - i + 1)

    for i in range (1, n + 1):
        print('Коэффициент увелечения С после', i, 'года:', round(k(n - i + 1), 4))

10000
4
3
0.4 0.2 0.4
2 0 -1
Выгодней инвестировать каждый год все имеющиеся деньги
При оптимальном инвестировании капитал к концу n-го года: 38416.0

Коэффициент увелечения С после 1 года: 1.4
Коэффициент увелечения С после 2 года: 1.96
Коэффициент увелечения С после 3 года: 2.744
Коэффициент увелечения С после 4 года: 3.8416


## Упражнение 2.1
Задача отличается от предыдущей тем, что каждый год условия, определяющие прирост капитала, меняются. Так что каждый год будем принимать решение, вкладывать все имеющиеся деньги или не вкладывать ничего, в зависимости от того, больше 1 + E(r) единицы в этом году, или нет. Корректность решения следует из математической модели предыдущей задачи (каждый год можно рассмотреть как отдельную задачу, аналогичную примеру 15.3-1, с n = 1).

##### Дано:
С = $10 000, n = 4, m = 3,

1-ый год:
$r_1 = 2$, $r_2 = 1$, $r_3 = 0.5$; $p_1 = 0.1$, $p_2 = 0.4$, $p_3 = 0.5$

2-ой год:
$r_1 = 1$, $r_2 = 0$, $r_3 = -1$; $p_1 = 0.4$, $p_2 = 0.4$, $p_3 = 0.2$

3-ий год:
$r_1 = 4$, $r_2 = -1$, $r_3 = -1$; $p_1 = 0.2$, $p_2 = 0.4$, $p_3 = 0.4$

4-ый год:
$r_1 = 0.8$, $r_2 = 0.4$, $r_3 = 0.2$; $p_1 = 0.6$, $p_2 = 0.2$, $p_3 = 0.2$

In [6]:
C = int(input()) # начальный капитал
n = int(input()) # кол-во лет
m = int(input()) # кол-во условий
p = [[0]] # вероятности
r = [[0]] # # процентные ставки, зависящие от условий
for i in range (1, n + 1):
    p.append([0])
    p[i] += list(map(float, input().split()))
    r.append([0])
    r[i] += list(map(float, input().split()))

const = [0] * (n + 1)
for i in range(1, n + 1):
    const[i] = 1 + np.dot(p[i], r[i]) # 1 + E(r_i)

fut = 1
for i in range(n, 0, -1):
    if const[i] <= 1:
        print(i, 'год: лучше не инвестировать')
    else:
        fut *= const[i] # инвестируем все деньги в те года, в которые E(r) > 0
        print(i, 'год: нужно инвестировать все деньги')

print('Капитал после инвестирования:', round(fut * C, 4))

1000
4
3
0.1 0.4 0.5
2 1 0.5
0.4 0.4 0.2
1 0 -1
0.2 0.4 0.4
4 -1 -1
0.6 0.2 0.2
0.8 0.4 0.2
4 год: нужно инвестировать все деньги
3 год: лучше не инвестировать
2 год: нужно инвестировать все деньги
1 год: нужно инвестировать все деньги
Капитал после инвестирования: 3552.0


###### Входные данные:

10000

4

3

0.1 0.4 0.5

2 1 0.5

0.4 0.4 0.2

1 0 -1

0.2 0.4 0.4

4 -1 -1

0.6 0.2 0.2

0.8 0.4 0.2

## Упражнение 2.2
Фирма производит квантовые суперкомпьютеры. Цена одного такого компьютера составляет 5 млн долларов. Максимально фирма может производить 3 компьютера в год. Спрос на компьютеры в каждом году определяется вероятностным распределнием ($p(D = 1) = 0.5$, $p(D = 2) = 0.3$, $p(D = 3) = 0.2$). Если компьютер был произведён, но не продан, то на его хранение и содержание тратится по 1 млн долларов каждый год. Если же количество произведённых компьютеров меньше, чем величина спроса на них в этом году, то поставки "недопроизведённых компьютеров" откладываются на следующий год, причём при переносе поставки компания несёт убытки в 2 млн долларов за каждый компьютер. Фирма планирует работать в течение 4-х лет, т. е. после 4-го года заказы приниматься не будут, но фирма будет продолжать выпускать "недопроизведённые" за прошлые года компьютеры. Требуется определить оптимальную стратегию производства, т. е. сколько компьютеров компания должна производить каждый год.

###### Дано:
- n = 4
- $p(D = 1) = 0.5$, $p(D = 2) = 0.3$, $p(D = 3) = 0.2$
- $c_i \in \{0, 1, 2, 3\}$ - произвели компьютеров за i-ый год
- price = 5, over_fine = 1, lack_fine = 2

###### Описание алгоритма (версия 1)
Пусть:

$OverCount_i$ - кол-во компьютеров, произведенных в i-ом году и нереализованных в i-ом году (избыток производства).

$LackCount_i$ - кол-во компьютеров, затребованых клиентами, но не произведенных в i-ом году (недостаток производства).

$D_i$ - число компьютеров, которое надо произвести в i-ом году, чтобы идеально удовлетворить спрос (учитывая наши избытки и долги с прошлого года).

$
    \Delta D_{i} = 
    \left\{\begin{aligned}
        &LackCount_{i}, \text{ если } D_i > c_i\\
        &0, \text{ если } D_i = c_i\\
        &-OverCount_{i}, \text{ если } D_i < c_i\\
      \end{aligned}\right. = D_{i} - c_{i}
    $ - разница между "идеальным объёмом производста" и тем, сколько компания произвела.

$prof = \sum \limits_{i = 1} ^ 4 \Delta prof_i$ - итоговая прибыль компании, которую мы хотим максимизировать.

 $\Delta prof_i = c_i * price - OverCount_i * \text{over_fine} - LackCount_i * \text{lack_fine}$ - прибыль за i-ый год.

Будем решать задачу жадно, т. е. действуя максимально эффективно на каждом шаге. Каждый год будем стараться максимизировать $\Delta prof_i$ - прибыль за этот год. Для этого нужно максимально возможно приблизить $c_i$ к $D_i$. Но $D_i$ может быть дробным числом, в то время как $c_i$ обязано быть целым. Тогда пусть $f(D_i)$ - ф-ия, которая будет округлять $D_i$ до целого числа, так чтобы $\Delta prof_i$ была максимальна. Также разумно считать, что $D_i = ED + \Delta D_{i - 1}$, где ED - мат. ожидание спроса.

Тогда будем поддерживать следующие инварианты:

1) $D_i = ED + \Delta D_{i - 1}$

$
    \text{2) } с_i = 
    \left\{\begin{aligned}
        &0, \text{ если } f(D_i) < 0\\
        &f(D_i), \text{ если } 0 \leq f(D_i) \leq 3\\
        &3, \text{ если } f(D_i) > 3\\
    \end{aligned}\right.
$

3) $\Delta D_{i} = D_{i} - c_{i}$

4) $OverCount_i = max(0, - \Delta D_i)$

5) $LackCount_i = max(0, \Delta D_i)$

6) $\Delta prof_i = c_i * price - OverCount_i * \text{over_fine} - LackCount_i * \text{lack_fine}$

Осталось определить ф-ию $f(D_i)$:
\begin{equation}
    f(D_i) = 
    \left\{\begin{aligned}
        &\lfloor D_i \rfloor, \text{ если } \Delta prof_i(c_i = \lfloor D_i \rfloor) > 
            \Delta prof_i(c_i = \lceil D_i \rceil) \\
        &\lceil D_i \rceil, иначе\\
    \end{aligned}\right.
\end{equation}
Неравенство $\Delta prof_i(c_i = \lfloor D_i \rfloor) > \Delta prof_i(c_i = \lceil D_i \rceil)$ для простоты будем проверять простой подстановкой.

In [10]:
def E(p): # ED
    M = 0
    for i in range(len(p)):
        M += i * p[i]
    return round(M, 4)

p = [0, 0.5, 0.3, 0.2]
ED = E(p)
print('Мат ожидание спроса:', ED)

Мат ожидание спроса: 1.7


In [11]:
import math

n = 4 # кол-во лет
price = 5
c_min = 0 # минимально возможное число произведен. комп. в год
c_max = 3 # максимально возможное число произведен. комп. в год
over_fine = 1
lack_fine = 2

OverCount = [0] * (n + 2)
LackCount = [0] * (n + 2)
D = [0] * (n + 2)
delta_D = [0] * (n + 2)
c = [0] * (n + 2)

In [12]:
def delta_prof(i):
    return c[i] * price - OverCount[i] * over_fine - LackCount[i] * lack_fine


def f(i): # f(D_i)
    c[i] = math.floor(D[i])
    delta_D[i] = D[i] - c[i]
    OverCount[i] = max(0, -delta_D[i])
    LackCount[i] = max(0, delta_D[i])
    Prof1 = delta_prof(i)

    c[i] = math.ceil(D[i])
    delta_D[i] = D[i] - c[i]
    OverCount[i] = max(0, -delta_D[i])
    LackCount[i] = max(0, delta_D[i])
    Prof2 = delta_prof(i)

    if Prof1 > Prof2:
        return math.floor(D[i])
    return math.ceil(D[i])


def determine_c(i): # определяем c_i по f(D_i)
    if f(i) < 0:
        return 0
    elif f(i) > 3:
        return 3
    else:
        return f(i)

def process():
    prof = 0
    for i in range(1, n + 2): # динамически вычисляем с_i Для всех i
        if i == n + 1:
            D[i] = delta_D[i - 1]  # в последний год фирма не принимает новые заказы
        else:
            D[i] = ED + delta_D[i - 1]
        c[i] = determine_c(i)
        delta_D[i] = round(D[i] - c[i], 4)
        OverCount[i] = max(0, -delta_D[i])
        LackCount[i] = max(0, delta_D[i])
        prof += round(delta_prof(i), 4) # прибавляем прибыль за i-ый год
        print('Ожидание спроса за', i, 'год:', D[i])
        print('В', i, 'год производим:', c[i])
        print('Перепроизвели в', i, 'год:', OverCount[i])
        print('Недопроизвели в', i, 'год:', LackCount[i])
        print('Прибыль за', i, 'год:', delta_prof(i))
        print('')
    
    prof = round(prof, 4) # итоговая прибыль
    print('Итоговая прибыль:', prof)

process()

Ожидание спроса за 1 год: 1.7
В 1 год производим: 2
Перепроизвели в 1 год: 0.3
Недопроизвели в 1 год: 0
Прибыль за 1 год: 9.7

Ожидание спроса за 2 год: 1.4
В 2 год производим: 2
Перепроизвели в 2 год: 0.6
Недопроизвели в 2 год: 0
Прибыль за 2 год: 9.4

Ожидание спроса за 3 год: 1.1
В 3 год производим: 2
Перепроизвели в 3 год: 0.9
Недопроизвели в 3 год: 0
Прибыль за 3 год: 9.1

Ожидание спроса за 4 год: 0.7999999999999999
В 4 год производим: 1
Перепроизвели в 4 год: 0.2
Недопроизвели в 4 год: 0
Прибыль за 4 год: 4.8

Ожидание спроса за 5 год: -0.2
В 5 год производим: 0
Перепроизвели в 5 год: 0.2
Недопроизвели в 5 год: 0
Прибыль за 5 год: -0.2

Итоговая прибыль: 32.8


В математической модели обнаружились неточности. Во-первых, мы дали не совсем правильные определения переменным $OverCount_i$ и $LackCount_i$:

- $OverCount_i$ - кол-во компьютеров, нереализованных компанией к концу i-го года (избыток производства).

- $LackCount_i$ - кол-во компьютеров, которое компания "задолжала" клиентам к концу i-го года (недостаток производства).

Во-вторых, при рассчёте $\Delta prof_i$ при заданном $c_i$ мы пользовались ф-лой:
<p style="text-align: center;">$\Delta prof_i = c_i * price - OverCount_i * \text{over_fine} - LackCount_i * \text{lack_fine}$</p>
В ней мы считаем, что продадим ровно $c_i$ компьютеров. Но ведь это не гарантированно так: мы произвели $c_i$ компьютеров, но купить у нас могут и меньше. На самом деле, мы можем ожидать, что у нас купят $min(D_i, c_i)$  компьютеров, т. е. число, равное минимуму из величены спроса на новые компьютеры в этот год и кол-ва произведенных в этот год компьютеров (минимумум из того, сколько новых компьютеров люди ходят купить, и того, сколько их есть у компании).
Также, внесём поправку: $D_i$ может быть только больше или равно 0 (т. к. велична спроса не может быть отрицательной). 

В-третьих, мы можем найти более простой способ определять, чему равна $f(D_i)$, чем высчитывать значения нескольких параметров для двух случаев и подставлять их в формулу для $\Delta prof_i$.

Пусть $\Delta prof_i(c_i = \lfloor D_i \rfloor) = (*)$, $\Delta prof_i(c_i = \lceil D_i \rceil) = (**)$.

Пусть $m = \lfloor D_i \rfloor$, $q = D_i - \lfloor D_i \rfloor$. $D_i = m + q$

$(*) = min(m + q, m) * price - q * \text{lack_fine} = m * price - q * \text{lack_fine}$

$(**) = min(m + q, m + 1) * price - (1 - q) * \text{over_fine} = (m + q) * price - \text{over_fine} + q * \text{over_fine}$

$(**) - (*) = q * price - \text{over_fine} + q(\text{over_fine} - \text{lack_fine}) = q(price + \text{over_fine} - \text{lack_fine}) - \text{over_fine}$

Таким образом, чтобы определить $f(D_i)$ достаточно сравнить $q(price + \text{over_fine} - \text{lack_fine}) - \text{over_fine}$ c 0.

###### Описание алгоритма (версия 2)
1) $D_i = max(0, ED + \Delta D_{i - 1})$

$
    \text{2) } с_i = 
    \left\{\begin{aligned}
        &0, \text{ если } f(D_i) < 0\\
        &f(D_i), \text{ если } 0 \leq f(D_i) \leq 3\\
        &3, \text{ если } f(D_i) > 3\\
    \end{aligned}\right.
$

$
   \text{Где } f(D_i) = 
    \left\{\begin{aligned}
        &\lfloor D_i \rfloor, \text{ если } (D_i - \lfloor D_i \rfloor)(price + \text{over_fine} - \text{lack_fine}) -       \text{over_fine} \leq 0\\
        &\lceil D_i \rceil, иначе\\
    \end{aligned}\right.
$

3) $\Delta D_{i} = D_{i} - c_{i}$

4) $OverCount_i = max(0, - \Delta D_i)$

5) $LackCount_i = max(0, \Delta D_i)$

6) $\Delta prof_i = min(D_i, c_i) * price - OverCount_i * \text{over_fine} - LackCount_i * \text{lack_fine}$

In [13]:
def delta_prof(i):
    return min(D[i], c[i]) * price - OverCount[i] * over_fine - LackCount[i] * lack_fine


def f(i): # f(D_i)
    q = D[i] - math.floor(D[i])
    if q * (price + over_fine - lack_fine) <= over_fine:
        return math.floor(D[i])
    return math.ceil(D[i])


def determine_c(i): # определяем c_i по f(D_i)
    if f(i) < 0:
        return 0
    elif f(i) > 3:
        return 3
    else:
        return f(i)

def process():
    prof = 0
    for i in range(1, n + 2): # динамически вычисляем с_i Для всех i
        if i == n + 1:
            D[i] = delta_D[i - 1]  # в последний год фирма не принимает новые заказы
        else:
            D[i] = max(0, ED + delta_D[i - 1])
        c[i] = determine_c(i)
        delta_D[i] = round(D[i] - c[i], 4)
        OverCount[i] = max(0, -delta_D[i])
        LackCount[i] = max(0, delta_D[i])
        prof += round(delta_prof(i), 4) # прибавляем прибыль за i-ый год
        print('Ожидание спроса за', i, 'год:', D[i])
        print('В', i, 'год производим:', c[i])
        print('Перепроизвели в', i, 'год:', OverCount[i])
        print('Недопроизвели в', i, 'год:', LackCount[i])
        print('Прибыль за', i, 'год:', delta_prof(i))
        print('')
    
    prof = round(prof, 4) # итоговая прибыль
    print('Итоговая прибыль:', prof)

process()

Ожидание спроса за 1 год: 1.7
В 1 год производим: 2
Перепроизвели в 1 год: 0.3
Недопроизвели в 1 год: 0
Прибыль за 1 год: 8.2

Ожидание спроса за 2 год: 1.4
В 2 год производим: 2
Перепроизвели в 2 год: 0.6
Недопроизвели в 2 год: 0
Прибыль за 2 год: 6.4

Ожидание спроса за 3 год: 1.1
В 3 год производим: 1
Перепроизвели в 3 год: 0
Недопроизвели в 3 год: 0.1
Прибыль за 3 год: 4.8

Ожидание спроса за 4 год: 1.8
В 4 год производим: 2
Перепроизвели в 4 год: 0.2
Недопроизвели в 4 год: 0
Прибыль за 4 год: 8.8

Ожидание спроса за 5 год: -0.2
В 5 год производим: 0
Перепроизвели в 5 год: 0.2
Недопроизвели в 5 год: 0
Прибыль за 5 год: -1.2

Итоговая прибыль: 27.0


С поправками получился совсем другой результат!

# Модель 2. Максимизация вероятности достижения цели

Пришло время обратиться ко второй модели стохастического динамического программирования, рассматриваемой в моей работе - максимизации вероятности достижения цели. До этого мы заменяли вероятностную неопределённость математическим ожиданием (на каждом шаге динамического программирования вместо величины, заданной её вероятностным распределением, мы подставляли её математическое ожидание). Но алгоритмы с использованием мат. ожиданий ориентируются
на средние значения, и, по большому счёту, не дают никаких гарантий. Дело в том, что мы не учитываем, наксколько и с какой вероятностью реальные значения могут отклоняться от прогнозируемых. Например, пусть X - такая случайная величина, что:
$ \left\{\begin{aligned}
        &P(X = 1) = 0.99\\
        &P(X = 1000) = 0.01\\
    \end{aligned}\right. .
$
Тогда $EX = 0.99 \cdot 1 + 0.01 \cdot 1000 = 10.99$, и именно на это значение мы будем "рассчитывать" в программах, написанных по первой модели. Но при этом в 99% случаев X = 1. Таким образом, есть потребность в методе, дающем большие гарантии.

Все рассматриваемые нами задачи сводятся к максимизации (или минимизации) значения некоторой переменной. Пусть требуется максимизировать X. Выберем $X_{inf}$ - наименьшее удовлетворяющее нас значение X и будем стараться максимизировать $P(X \geq X_{inf})$ - вероятность того, что X не меньше, чем $X_{inf}$. В особых случаях (в задачах с повышенными требованиями к "надёжности" решения) можно даже потребовать, чтобы $P(X \geq X_{inf})$ была не меньше некоторого значения $P_{wish}$, и тогда алгоритм должен будет искать стратегию для достижения $P(X \geq X_{inf}) \geq P_{wish}$. Аналогично в задаче минимизации будем максимизировать $P(X \leq X_{sup})$, где $X_{sup}$ - наибольшее удовлетворяющее нас значение X. Эта модель и называется ***максимизация вероятности достижения цели***. Перейдём к конкретным примерам.

 # 3. Инвестирование продолжается
 Продолжают действовать все обозначения из параграфа "2. Задача инвестирования". Пусть S - кол-во денег после n лет инвестирования. 