# Динамическое программирование (Dynamic programming)

## Введение

**Определение:** Дискретная управляемая система (Discrete control system) $\Omega$ - это упорядоченный набор $\langle D, q, F, V(x), f(x, v), s(x, v)\rangle$, где:
1. $D$ - конечное множество возможных состояний
2. $q \in D$ - начальное состояние
3. $F \subset D$ - множество финальных состояний
4. $V(x)$ - конечное множество возможных в состоянии $x$ управлений
5. $f(x, v)$ - функция перехода из состояния $x$ под воздействием управления $v$ в состояние $x' = f(x, v)$
6. $s(x, v)$ - функция стоимости за переход

**Определение:** Последовательность $T = \{x_0, x_1, ... , x_n\}$ называется траекторией системы, если $x_i = f(x^{i - 1}, v_i)$, где $v_i \in V(x_{i - 1})$

**Определение:** Траектория называется заключительной x-траекторией, если $x_0 = x \in D$, а $x_n \in F$

**Определение:** Траектория называется начальной x-траекторией, если $x_0 = q$, а $x_n = x \in D$

**Определение:** Траектория называется полной, если $x_0 = q$, а $x_n \in F$

**Определение:** Введем отношение $P(x, y)$ : $x$ и $y$ называются достижимыми, если существует траектория из $x$ в $y$
Очевидно, что отношение P рефлексивно, т. е. $P(x, x)$ и транзитивно, т. е. $P(x, y), P(y, z) \Rightarrow P(x, z)$
Так же, для простоты будем рассматривать только дискретные управляемые системы, на которых отношение $P(x, y)$ будет еще и антисимметричным, т. е. $P(x, y), P(y, x) \Rightarrow x = y$. Это означает, что в траекториях между состояниями системы не будет циклов

**Определение:** Функция стоимости траектории $C(T)$ - некоторая численная мера траектории. Зависит от функции стоимости перехода $s(x, v)$

**Определение:** Функция Беллмана -

Восходящее/нисходящее дп

**Принцип:** Беллмана (Bellman principle)
Если из оптимальности траектории $T = \{x_0, x_1, ..., x_n\}$ относительно функции стоимости $С(T)$ следует оптимальность траектории $T(x_i) = \{x_i, ..., x_n\}$, то к задаче оптимизации управляющей системы можно применить метод динамического программирования

Графовое представление

Эмпирическое введение задачи дп + замечания

## Задача генерации чисел Фибоначчи

Рекуррентные формулы для чисел Фибоначчи:
$F_n = F_{n - 1} + F_{n - 2}$
$F_0 = 0$
$F_1 = 1$

Наивный алгоритм:

In [11]:
def F(n: int) -> int:
    if n == 0:
        return 0
    elif n == 1:
        return 1

    return F(n - 1) + F(n - 2)

F(10)

55

**Теорема:** Асимптотика F - $O(\phi^n)$
$\square$
$\frac{F_n}{F_{n - 1}} < \phi$

$F_n < \phi^n$

Так как в дереве рекурсии F значениями листов будут являться только $F(0)$ и $F(1)$, количество листов $h \le F_n < \phi^n$
$\blacksquare$

Воспользуемся методом динамического программирования:

In [15]:
def F(n: int) -> int:
    if n == 0:
        return 0
    elif n == 1:
        return 1

    prev1 = 0
    prev2 = 1

    for i in range(2, n + 1):
        F_i = prev1 + prev2
        prev1 = prev2
        prev2 = F_i

    return prev2

print(F(10))

55


Асимптотика F - $O(n)$

## Задача генерации биномиальные коэффициенты

Формула для числа сочетаний $C_n^k = \frac{n!}{(n - k)! \cdot k!}$. Проблема в том, что при вычислении по этой формуле при достаточно больших $n$ можно получить переполнение в целочисленном типе или потерю точности в типе с плавающей точкой.

Так же есть рекуррентная формула для чисел сочетаний: $C_n^k = C_{n - 1}^{k - 1} + C_{n - 1}^k$.

Посмотрим на нее, как на функцию Беллмана и воспользуемся методом динамического программирования:

In [63]:
def C(n: int, k: int) -> int:
    dp = [None] * (n + 1)
    for i in range(n + 1):
        dp[i] = [0] * (k + 1)
        dp[i][0] = 1
    for i in range(k + 1):
        dp[i][i] = 1

    for i in range(1, n + 1):
        for j in range(1, min(i, k + 1)):
            dp[i][j] = dp[i - 1][j - 1] + dp[i - 1][j]

    return dp[n][k]

print(C(3, 2))

3


Асимптотика С - $O(n \cdot k)$

## Задача разрезания стержня

Формулировка задачи: Имеются стержень длиной $n$ и таблица цен $p_i$. Необходимо найти разрезание стержня, которое принесет максимальную прибыль $r(n)$

In [86]:
def cut_rod(p: list, n: int):
    r = [0] * (n + 1)
    s = [0] * (n + 1)

    for i in range(1, n + 1):
        q = float("-inf")
        for j in range(1, i + 1):
            if q < p[j] + r[i - j]:
                q = p[j] + r[i - j]
                s[i] = j
        r[i] = q


    return r[-1]

cut_rod([0, 1, 5, 8, 9, 10, 17, 17, 20, 24, 30], 10)

[0, 1, 5, 8, 10, 13, 17, 18, 22, 40, 41]
[0, 1, 2, 3, 2, 2, 6, 1, 2, 9, 1]


41

## Задача оптимальной расстановки скобок в матричном произведении

In [None]:
def matrix_chain_order(p: list):
    pass


## Расстояние редактирования

Пусть в пространстве всевозможных слов $L$ определены 3 операции:
1. Замена символа $a$ на $b$
2. Вставка элемента $a$ на позицию $\epsilon$
3. Удаление элемента $a$ с позиции $\epsilon$

И для каждой из них определена цена $w$:
1. $w(a, b)$ - цена замены
2. $w(\epsilon, b)$ - цена вставки
3. $w(a, \epsilon)$ - цена удаления

**Определение:** Расстояние редактирования в пространстве $L$ - это $d(A, B) = \sum_{i = 1}^n w_i$, где $w_n$ - это минимальная по количеству элементов последовательность операций редактирования

Будем рассматривать только те расстояния редактирования $d$, которые являются метриками в пространстве $L$, т.е.:
1. $w(a, a) = 0$
2. $w(a, b) = w(b, a)$
3. $w(a, c) \le w(a, b) + w(b, c)$

**Определение:** Расстояние Левенштейна - расстояние редактирования такое что:
1. $w(a, a) = 0$
2. $w(a, b) = 1$
3. $w(\epsilon, b) = 1$
4. $w(a, \epsilon) = 1$

Уравнение Беллмана для расстояния редактирования:
$d_{A, B}(i, j)= $
1. $0$, $i = j$
2. $i \cdot deleteCost$, $i > 0, j = 0$
3. $j \cdot insertCost$, $i = 0, j > 0$
4. $d(i - 1, j - 1)$, $A_i = B_i$
5. $min(d(i, j - 1) + insertCost, d(i - 1, j) + deleteCost, d(i - 1, j - 1) + replaceCost)$

In [53]:
def redaction_d(A: str, B: str, insertionCost: int = 1, deleteCost: int = 1, replaceCost: int = 1) -> int:
    dp = [None] * (len(B) + 1)
    for i in range(len(B) + 1):
        dp[i] = [0] * (len(A) + 1)
    for i in range(1, (len(B) + 1)):
        dp[i][0] = i * deleteCost
    for i in range(1, (len(A) + 1)):
        dp[0][i] = i * insertionCost

    for i in range(1, (len(B) + 1)):
        for j in range(1, (len(A) + 1)):
            if B[i - 1] == A[j - 1]:
                dp[i][j] = dp[i - 1][j - 1]
            else:
                dp[i][j] = min(dp[i][j - 1] + insertionCost, dp[i - 1][j] + deleteCost, dp[i - 1][j - 1] + replaceCost)

    return dp[len(B)][len(A)]

redaction_d("wlhauodia", "wwahauobrt")

5