![](rooms_map.png)

# Пример Q-обучения

## Описание задачи
Простым примером, демонстрирующим использование Q-обучения, может служить пример поиска выхода из системы комнат [Teknomo K. Q-Learning by Examples](http://people.revoledu.com/kardi/tutorial/ReinforcementLearning/index.html). Этот пример здесь несколько усложнен. 

Пусть имеется система комнат, как показано на рисунке ниже. Агент начинает движение в комнате «B» и его цель – выйти наружу, в область «G».

![](room_map.png)

Схему можно представить в виде графа, где вершины – комнаты, дуги – возможные пути перехода из комнаты в комнату. При этом все переходы могут выполняться в обе стороны, кроме выхода наружу, так как «G» является конечным пунктом. Граф на рисунке ниже можно считать графом состояний агента. Имеется один параметр состояния – текущий идентификатор комнаты, в которой находится агент: «B», «C», «D», «E», «F», «G». Набор действий задается таким же образом, действие – это идентификатор комнаты, в которую перейдет агент при реализации действия. 

![](room_graph.png)

Для завершения постановки задачи необходимо определить выгоду от действий агента. Так как он стремится достичь выхода, имеет смысл указать положительную величину выгоды при переходе в целевое состояние «G» и небольшие отрицательные значения выгоды при каждом прочем переходе, которые показывают затраты времени на движение. Пусть при этом значения определены как показано на графе.

Выгоды переходов расставлены с определенным смыслом, суть которого – показать, что выбор краткосрочной выгоды может в итоге привести к не самым эффективным траекториям управления. Так, начиная в состоянии «B», самым выгодным действием является переход в состояние «F», так как потери минимальны (выгода -10), а переход в «С» кажется наименее выгодным, так как потери намного больше (выгода -200). Но из «C» в «G» можно попасть с итоговой выгодой равной (-200) + (-20) + (2000) = 1780. А при движении из «F» в «G» максимальная возможная выгода составит лишь (-10) + (-70) + (1000) = 920, почти в два раза меньше.

Очень важно отметить, что агент заранее не знает, сколько он получит, выбрав то или иной действие, то есть веса дуг графа на рисунке 8.6 для него не известны. Более того, в общем случае эти веса могут изменяться с течением времени.

Для применения Q-обучения необходимо начать с инициализации 
Q-функции. Поскольку количество возможных состояний и действий невелико, проще всего задать Q-функцию в виде матрицы, ее форма и начальные значения элементов приведены в таблице ниже. Строки - состояния, столбцы - действия. Прочерки в ячейках указывают на невозможность данного действия в данном состоянии.

 S/A | B | C | D | E | F | G |
--| --- | --- | --- | --- | --- | --- |
B | - | 0 | - | 0 | - | - |
C | 0 | - | 0 | - | - | - |
D | - | 0 | - | - | 0 | - |
E | 0 | - | 0 | - | 0 | - |
F | 0 | - | - | 0 | 0 | - |
G | - | - | - | - | - | - |

### Краткое описание алгоритма Q-обучения

Алгоритм Q-обучения в случае матричной (табличной) формы Q-функции можно записать в следующем виде.

1\. Инициализация матрицы нулями или случайными значениями. 

2\. Цикл обучения. Выполнить заданное количество раз (эпох).  

2.1. Номер шага i = 1 

2.2. Агент помещается в начальное состояние s(1).

2.3. Цикл взаимодействия агента и среды. Выполняется до достижения агентом конечного (терминального) состояния.

2.3.1. Выбор действия a(i) согласно политике. Для ε-жадной политики генерация случайного числа ξ от 0,0 до 1,0, если ξ > ε, то:

$$a(i)=\arg\max_{a^* \in A_{allow}(i)}  Q(s(i), a^*(i)).$$
        
иначе выбрать действие среди доступных действий путем розыгрыша по жребию.

2.3.2. Реализация действия a(i), получение результатов: выгоды r(i) и нового состояния s(i+1).

2.3.3. Обновление матрицы Q-функции согласно:
$$ Q(s(i), a(i))\leftarrow Q(s(i), a(i)) + \alpha [r(i) + \gamma \max_{a^* \in A_{allow}(i)}  Q(s(i+1), a^*(i)) - Q(s(i), a(i))] .$$
        

2.3.4. Если s(i+1) – конечное, то завершить цикл 2.2., иначе i = i + 1, перейти к шагу 2.3.1.

3\. Полученное значение элементов матрицы Q-функции – результат Q-обучения. В дальнейшем агент может выбирать действия, используя обученную Q-функцию, согласно приведенному выше выражению

$$a(i)=\arg\max_{a^* \in A_{allow}(i)}  Q(s(i), a^*(i)).$$


Q-обучение не завершается после выполнения всего цикла обучения, оно может продолжаться уже в реальной жизни, когда агент начинает взаимодействовать со средой. В результате агент становится непрерывно самообучаемым, а его обучение, по сути, становится адаптацией к условиям изменяющейся среды. Единственное отличие самообучения в реальности от процесса первоначального обучения на модели заключается в том, что при самообучении лучше снизить величину ε до нуля, чтобы агент никогда не совершал случайных действий, которые могут привести к катастрофическим последействиям. Иными словам, нужно только изменить политику агента. 

## Пример реализации на Python

### Подготовка данных и вспомогательных функций

В нижеследующем фрагменте Python кода в первой строке выполняется подключение модуля для работы со случайными числами, во второй – установка начального значения генератора случайных чисел, чтобы результаты работы программы были одинаковыми при каждом запуске. В строке 4 определяется константа, которая используется затем как признак невозможности выполнения действия. В строке 5 приведена матрица выгод (весов графа), в строке 12 – начальное значения матрицы Q-функции. Далее в строках 14–31 определяются вспомогательные функции для перевода символьных имен состояний в числовые индексы матрицы и обратно, а также для чтения матрицы выгод и чтения-записи матрицы Q-функции.

In [8]:
import random
random.seed(0)

none = -9e999
r_map = [  [none,  -200,  none,   -70,   -10,  none]
         , [-200,  none,   -20,  none,  none,  none]
         , [none,   -20,  none,  none,  none,  2000]
         , [ -70,  none,  none,  none,   -70,  1000]
         , [ -10,  none,  none,   -70,  none,  none]
         , [none,  none,  none,  none,  none,  none]]

q_map = [[0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0]]

def label_to_id(c):
    return ord(c) - ord('b')
li = label_to_id

def id_to_label(i):
    return chr(i + ord('b'))    
il = id_to_label

def is_treminal(s):
    return s == 'g'

def get_Q(s, a):
    return q_map[li(s)][li(a)]

def get_R(s, a):
    return r_map[li(s)][li(a)]

def set_Q(s, a, value):
    q_map[li(s)][li(a)] = value

### Обновление Q-функции

Следующий фрагмент содержит код алгоритма обновления Q-функции согласно выражению $$ Q(s(i), a(i))\leftarrow Q(s(i), a(i)) + \alpha [r(i) + \gamma \max_{a^* \in A_{allow}(i)}  Q(s(i+1), a^*(i)) - Q(s(i), a(i))] .$$ 

На входе алгоритма три аргумента: 
* текущее состояние s;
* уже выбранное в этом состоянии действие агента a;
* состояние s_, в которое агент перешел из s при действии a.

Если состояние s_ не является конечным, то определяется наиболее выгодное действие для него, согласно выражению $$a(i)=\arg\max_{a^* \in A_{allow}(i)}  Q(s(i), a^*(i)).$$ (строки 2–10). При этом задано правило, при котором агент, перейдя из s в s_ не может вернуться обратно (строка 8, «a != s»). Для подробного изучения работы алгоритма здесь и далее все промежуточные результаты выводятся в консоль командой print(). Строка 17 содержит вычисление нового значения Q-функции согласно выражению
$$ Q(s(i), a(i))\leftarrow Q(s(i), a(i)) + \alpha [r(i) + \gamma \max_{a^* \in A_{allow}(i)}  Q(s(i+1), a^*(i)) - Q(s(i), a(i))] .$$


При этом для более простого вывода результатов выполнится округление до ближайшего целого. В данном алгоритме фактор скорости обучения α и фактор дисконтирования γ равны 0.7 и 0.8 соответственно.

In [9]:
def update_q(s, a, s_):
    if not is_treminal(s_):
        max_q = none
        max_a = '-'
        for k in range(0, 6):
            a_ = il(k)
            q = get_Q(s_, a_)
            if q > max_q and get_R(s_, a_) != none and a_ != s:
                max_q = q
                max_a = a_
        print ('max_q = ' + str(max_q) + '; max_a = ' + max_a) 
    else:
        max_q = 0
        max_a = '-'
        
    print ('Q(' + s + ',' + a + ') <-- ' + str(get_Q(s, a)) + ' + 0.7 * (' + str(get_R(s, a)) + ' + 0.8 * ' + str(max_q) + ' - ' + str(get_Q(s, a)) + ')')
    new_value = int(round(get_Q(s, a) + 0.7 * (get_R(s, a) + 0.8 * max_q - get_Q(s, a))))
    print ('Q(' + s + ',' + a + ') = ' + str(new_value))
    set_Q(s, a, new_value)

### Моделирование действий агента

Моделирование действий агента выполняется итеративно, итерация называется эпохой, как принято в машинном обучении. Всего задано 200 эпох (строка 1). Одна эпоха предполагает помещение агента в начальное состояние (строка 3) и движение агента из состояния в состояние до достижения финального состояния (строка 6).

В строке 44 в соответствии с ε-жадной политикой проверяется – выбрать действие, используя Q-функцию согласно выражению $$a(i)=\arg\max_{a^* \in A_{allow}(i)}  Q(s(i), a^*(i)).$$ (строки 8–16), или случайное действие (строки 18–20). Первые 20 эпох отводятся на начальную разведку, и действие выбирается полностью случайно, то есть ε равно 1, затем ε снижается до 0,1.

При выборе действия, как сказано выше, агент не может перейти в состояние, из которого только что вышел, хотя может вернуться в него через один шаг. Выбранное действие a переведет агента в состояние s_ = a (строка 23), после чего можно выполнить обучающее обновление Q-функции (строка 24). Затем выполняется обновление номера шага и сведений о предыдущем состоянии и текущего состояния.

In [10]:
epoch = 200
for i in range(1, epoch + 1):
    s = 'b'
    s_prev = 'b'
    j = 1
    while not is_treminal(s):
        if (i > 20 and random.random() < 0.9):
            max_q = none
            max_a = '-'
            for k in range(0, 6):
                a_ = il(k)
                q = get_Q(s, a_)
                if (max_a == '-' or q > max_q) and get_R(s, a_) != none and a_ != s_prev:
                    max_q = q
                    max_a = a_
            a = max_a
        else:
            a = chr(random.randint(ord('b'), ord('g')))
            while get_R(s, a) == none or a == s_prev:
                a = chr(random.randint(ord('b'), ord('g')))
        print('')
        print(str(i) + " " + str(j) + ": " + s + " --> " + a + "; r = " + str(get_R(s, a)))
        s_ = a
        update_q(s, a, s_)
        j += 1
        s_prev = s
        s = s_
    print('')


1 1: b --> e; r = -70
max_q = 0; max_a = f
Q(b,e) <-- 0 + 0.7 * (-70 + 0.8 * 0 - 0)
Q(b,e) = -49

1 2: e --> f; r = -70
max_q = 0; max_a = b
Q(e,f) <-- 0 + 0.7 * (-70 + 0.8 * 0 - 0)
Q(e,f) = -49

1 3: f --> b; r = -10
max_q = 0; max_a = c
Q(f,b) <-- 0 + 0.7 * (-10 + 0.8 * 0 - 0)
Q(f,b) = -7

1 4: b --> c; r = -200
max_q = 0; max_a = d
Q(b,c) <-- 0 + 0.7 * (-200 + 0.8 * 0 - 0)
Q(b,c) = -140

1 5: c --> d; r = -20
max_q = 0; max_a = g
Q(c,d) <-- 0 + 0.7 * (-20 + 0.8 * 0 - 0)
Q(c,d) = -14

1 6: d --> g; r = 2000
Q(d,g) <-- 0 + 0.7 * (2000 + 0.8 * 0 - 0)
Q(d,g) = 1400


2 1: b --> e; r = -70
max_q = 0; max_a = g
Q(b,e) <-- -49 + 0.7 * (-70 + 0.8 * 0 - -49)
Q(b,e) = -64

2 2: e --> f; r = -70
max_q = -7; max_a = b
Q(e,f) <-- -49 + 0.7 * (-70 + 0.8 * -7 - -49)
Q(e,f) = -68

2 3: f --> b; r = -10
max_q = -64; max_a = e
Q(f,b) <-- -7 + 0.7 * (-10 + 0.8 * -64 - -7)
Q(f,b) = -45

2 4: b --> e; r = -70
max_q = 0; max_a = g
Q(b,e) <-- -64 + 0.7 * (-70 + 0.8 * 0 - -64)
Q(b,e) = -68

2 5: e --> f; 

max_q = 1580; max_a = d
Q(b,c) <-- 1064 + 0.7 * (-200 + 0.8 * 1580 - 1064)
Q(b,c) = 1064

74 2: c --> d; r = -20
max_q = 2000; max_a = g
Q(c,d) <-- 1580 + 0.7 * (-20 + 0.8 * 2000 - 1580)
Q(c,d) = 1580

74 3: d --> g; r = 2000
Q(d,g) <-- 2000 + 0.7 * (2000 + 0.8 * 0 - 2000)
Q(d,g) = 2000


75 1: b --> e; r = -70
max_q = 1000; max_a = g
Q(b,e) <-- 730 + 0.7 * (-70 + 0.8 * 1000 - 730)
Q(b,e) = 730

75 2: e --> g; r = 1000
Q(e,g) <-- 1000 + 0.7 * (1000 + 0.8 * 0 - 1000)
Q(e,g) = 1000


76 1: b --> c; r = -200
max_q = 1580; max_a = d
Q(b,c) <-- 1064 + 0.7 * (-200 + 0.8 * 1580 - 1064)
Q(b,c) = 1064

76 2: c --> d; r = -20
max_q = 2000; max_a = g
Q(c,d) <-- 1580 + 0.7 * (-20 + 0.8 * 2000 - 1580)
Q(c,d) = 1580

76 3: d --> g; r = 2000
Q(d,g) <-- 2000 + 0.7 * (2000 + 0.8 * 0 - 2000)
Q(d,g) = 2000


77 1: b --> c; r = -200
max_q = 1580; max_a = d
Q(b,c) <-- 1064 + 0.7 * (-200 + 0.8 * 1580 - 1064)
Q(b,c) = 1064

77 2: c --> d; r = -20
max_q = 2000; max_a = g
Q(c,d) <-- 1580 + 0.7 * (-20 + 0.8 * 2

142 1: b --> c; r = -200
max_q = 1580; max_a = d
Q(b,c) <-- 1064 + 0.7 * (-200 + 0.8 * 1580 - 1064)
Q(b,c) = 1064

142 2: c --> d; r = -20
max_q = 2000; max_a = g
Q(c,d) <-- 1580 + 0.7 * (-20 + 0.8 * 2000 - 1580)
Q(c,d) = 1580

142 3: d --> g; r = 2000
Q(d,g) <-- 2000 + 0.7 * (2000 + 0.8 * 0 - 2000)
Q(d,g) = 2000


143 1: b --> c; r = -200
max_q = 1580; max_a = d
Q(b,c) <-- 1064 + 0.7 * (-200 + 0.8 * 1580 - 1064)
Q(b,c) = 1064

143 2: c --> d; r = -20
max_q = 2000; max_a = g
Q(c,d) <-- 1580 + 0.7 * (-20 + 0.8 * 2000 - 1580)
Q(c,d) = 1580

143 3: d --> g; r = 2000
Q(d,g) <-- 2000 + 0.7 * (2000 + 0.8 * 0 - 2000)
Q(d,g) = 2000


144 1: b --> c; r = -200
max_q = 1580; max_a = d
Q(b,c) <-- 1064 + 0.7 * (-200 + 0.8 * 1580 - 1064)
Q(b,c) = 1064

144 2: c --> d; r = -20
max_q = 2000; max_a = g
Q(c,d) <-- 1580 + 0.7 * (-20 + 0.8 * 2000 - 1580)
Q(c,d) = 1580

144 3: d --> g; r = 2000
Q(d,g) <-- 2000 + 0.7 * (2000 + 0.8 * 0 - 2000)
Q(d,g) = 2000


145 1: b --> c; r = -200
max_q = 1580; max_a = d


Запуск кода в ячейке выше дает лог работы Q-обучения. Далее этот лог будет подробно проанализирован.
Если при запуске кода произошла ошибка, проверьте, сделали ли вы запуск последовательно всех предыдущих фрагментов кода 

### Анализ процесса Q-обучения

Здесь скопированы результаты работы (лог) алгоритма Q-обучения с пояснениями.

Агент, начав в состоянии «B», случайно переходит в состояние «E» с потерями равными 70. Сведений о дальнейшей выгоде в Q-функции пока нет, в итоге Q(b,e) получит значение, равное произведению потерь на коэффициент обучения, -70 · 0.7 = -49. Это говорит о том, что переход из «B» в «E» пока оценен как убыточный. На втором шаге агент переходит из «E» в «F» с аналогичным результатом. Далее проходит последовательно «B», «С», «D», «G». Выгоду получает только при переходе из «D» в «G».

1 1: b --> e; r = -70
max_q = 0; max_a = f
Q(b,e) <-- 0 + 0.7 * (-70 + 0.8 * 0 - 0)
Q(b,e) = -49

1 2: e --> f; r = -70
max_q = 0; max_a = b
Q(e,f) <-- 0 + 0.7 * (-70 + 0.8 * 0 - 0)
Q(e,f) = -49

1 3: f --> b; r = -10
max_q = 0; max_a = c
Q(f,b) <-- 0 + 0.7 * (-10 + 0.8 * 0 - 0)
Q(f,b) = -7

1 4: b --> c; r = -200
max_q = 0; max_a = d
Q(b,c) <-- 0 + 0.7 * (-200 + 0.8 * 0 - 0)
Q(b,c) = -140

1 5: c --> d; r = -20
max_q = 0; max_a = g
Q(c,d) <-- 0 + 0.7 * (-20 + 0.8 * 0 - 0)
Q(c,d) = -14

1 6: d --> g; r = 2000
Q(d,g) <-- 0 + 0.7 * (2000 + 0.8 * 0 - 0)
Q(d,g) = 1400



На второй эпохе обучения у агента уже есть минимальный опыт.

На первом шаге агент снова случайным образом переходит из «B» в «E», теряет 70 единиц выгоды, что укрепляет его негативный опыт. В целом вторая эпоху не требуется подробно разбирать. 

2 1: b --> e; r = -70
max_q = 0; max_a = g
Q(b,e) <-- -49 + 0.7 * (-70 + 0.8 * 0 - -49)
Q(b,e) = -64

2 2: e --> f; r = -70
max_q = -7; max_a = b
Q(e,f) <-- -49 + 0.7 * (-70 + 0.8 * -7 - -49)
Q(e,f) = -68

2 3: f --> b; r = -10
max_q = -64; max_a = e
Q(f,b) <-- -7 + 0.7 * (-10 + 0.8 * -64 - -7)
Q(f,b) = -45

2 4: b --> e; r = -70
max_q = 0; max_a = g
Q(b,e) <-- -64 + 0.7 * (-70 + 0.8 * 0 - -64)
Q(b,e) = -68

2 5: e --> f; r = -70
max_q = -45; max_a = b
Q(e,f) <-- -68 + 0.7 * (-70 + 0.8 * -45 - -68)
Q(e,f) = -95

2 6: f --> b; r = -10
max_q = -68; max_a = e
Q(f,b) <-- -45 + 0.7 * (-10 + 0.8 * -68 - -45)
Q(f,b) = -59

2 7: b --> e; r = -70
max_q = 0; max_a = g
Q(b,e) <-- -68 + 0.7 * (-70 + 0.8 * 0 - -68)
Q(b,e) = -69

2 8: e --> g; r = 1000
Q(e,g) <-- 0 + 0.7 * (1000 + 0.8 * 0 - 0)
Q(e,g) = 700

В третьей эпохе уже проявляется учет долгосрочной выгоды.

Агент впервые переходит из «B» в «F», получает небольшой негативный опыт. Затем переходит из «F» в «E», и только теперь срабатывает учет долгосрочного опыта. Ведь агент знает по второй эпохе, что переход из «E» в «G» приносит выгоду 1000 единиц и достижение цели. Значит, и действие по переходу из «F» в «E» получает положительную оценку выгоды, которая складывается из краткосрочного убытка в 70 единиц и долгосрочной оценки выгоды в 700 единиц, что после умножения на факторы обучения и дисконтирования дают итоговое значение 343. Это очень важный момент: переход из «F» в «E» сам по себе в настоящий момент несет убыток, но получает положительную оценку, так как в будущем после этого из состояния «E» можно будет достичь цели. 

3 1: b --> f; r = -10
max_q = 0; max_a = e
Q(b,f) <-- 0 + 0.7 * (-10 + 0.8 * 0 - 0)
Q(b,f) = -7

3 2: f --> e; r = -70
max_q = 700; max_a = g
Q(f,e) <-- 0 + 0.7 * (-70 + 0.8 * 700 - 0)
Q(f,e) = 343

3 3: e --> g; r = 1000
Q(e,g) <-- 700 + 0.7 * (1000 + 0.8 * 0 - 700)
Q(e,g) = 910


Следующая эпоха, четвертая. Переход из «B» в «C» все еще получает негативную оценку, но следующий переход из «C» в «D» уже меняет оценку с –14 на 766 снова из-за учета будущей выгоды от перехода из «D» в «G».

4 1: b --> c; r = -200
max_q = -14; max_a = d
Q(b,c) <-- -140 + 0.7 * (-200 + 0.8 * -14 - -140)
Q(b,c) = -190

4 2: c --> d; r = -20
max_q = 1400; max_a = g
Q(c,d) <-- -14 + 0.7 * (-20 + 0.8 * 1400 - -14)
Q(c,d) = 766

4 3: d --> g; r = 2000
Q(d,g) <-- 1400 + 0.7 * (2000 + 0.8 * 0 - 1400)
Q(d,g) = 1820


Последняя подробно раскрытая эпоха – пятая.
Случайные переходы уже на каждом шаге меняют оценки выгод с учетом будущих результатов. Особенно важен шаг 10, на котором оценка перехода из «B» в «C» меняется с отрешительной (–190) на положительную (+1235) благодаря тому, что уже агенту известно, что из «С» можно перейти в «D», а из «D» в конечное состояние «G» с большой выгодой. Таким образом, косвенно происходит учет выгоды перехода из «B» в «C» на два шага вперед.

5 1: b --> f; r = -10
max_q = 343; max_a = e
Q(b,f) <-- -7 + 0.7 * (-10 + 0.8 * 343 - -7)
Q(b,f) = 183

5 2: f --> e; r = -70
max_q = 910; max_a = g
Q(f,e) <-- 343 + 0.7 * (-70 + 0.8 * 910 - 343)
Q(f,e) = 564

5 3: e --> b; r = -70
max_q = 183; max_a = f
Q(e,b) <-- 0 + 0.7 * (-70 + 0.8 * 183 - 0)
Q(e,b) = 53

5 4: b --> f; r = -10
max_q = 564; max_a = e
Q(b,f) <-- 183 + 0.7 * (-10 + 0.8 * 564 - 183)
Q(b,f) = 364

5 5: f --> e; r = -70
max_q = 910; max_a = g
Q(f,e) <-- 564 + 0.7 * (-70 + 0.8 * 910 - 564)
Q(f,e) = 630

5 6: e --> b; r = -70
max_q = 364; max_a = f
Q(e,b) <-- 53 + 0.7 * (-70 + 0.8 * 364 - 53)
Q(e,b) = 171

5 7: b --> f; r = -10
max_q = 630; max_a = e
Q(b,f) <-- 364 + 0.7 * (-10 + 0.8 * 630 - 364)
Q(b,f) = 455

5 8: f --> e; r = -70
max_q = 910; max_a = g
Q(f,e) <-- 630 + 0.7 * (-70 + 0.8 * 910 - 630)
Q(f,e) = 650

5 9: e --> b; r = -70
max_q = 455; max_a = f
Q(e,b) <-- 171 + 0.7 * (-70 + 0.8 * 455 - 171)
Q(e,b) = 257

5 10: b --> c; r = -200
max_q = 766; max_a = d
Q(b,c) <-- -190 + 0.7 * (-200 + 0.8 * 766 - -190)
Q(b,c) = 232

5 11: c --> d; r = -20
max_q = 1820; max_a = g
Q(c,d) <-- 766 + 0.7 * (-20 + 0.8 * 1820 - 766)
Q(c,d) = 1235

5 12: d --> g; r = 2000
Q(d,g) <-- 1820 + 0.7 * (2000 + 0.8 * 0 - 1820)
Q(d,g) = 1946

### Вывод полученной Q-функции в матричном виде
Последний фрагмент кода содержит вывод результатов обучения, то есть полученных значений матрицы Q-функции. 

In [11]:
for i in range(0, 6):
    print(il(i) + ": ", end = '')
    for j in range(0, 6):
        print('\t' + il(j) + " "+ (str(get_Q(il(i), il(j))) if get_R(il(i), il(j)) != none else '----'), end = ';')
    print('')

b: 	b ----;	c 1064;	d ----;	e 730;	f 574;	g ----;
c: 	b 0;	c ----;	d 1580;	e ----;	f ----;	g ----;
d: 	b ----;	c 0;	d ----;	e ----;	f ----;	g 2000;
e: 	b 574;	c ----;	d ----;	e ----;	f 226;	g 1000;
f: 	b 754;	c ----;	d ----;	e 730;	f ----;	g ----;
g: 	b ----;	c ----;	d ----;	e ----;	f ----;	g ----;


Конечный результат работы в виде графа оценок переходов показан на рисунке ниже, в скобках показаны непосредственные (краткосрочные) выгоды от переходов. Утолщением выделены переходы, имеющие наибольшую величину оценки.

![](result_graph.png)

Из полученных результатов видно, что Q-функция будет рекомендовать агенту из начального состоянии «B» перейти в состояние «С», несмотря на кажущуюся убыточность этого перехода на первый взгляд. Также интересно, что Q-обучение смогло определить, что если агент все-таки попал в состояние «F», то ему нужно вернуться в «B», чтобы в итоге пройти по наиболее выгодному пути «B – C – D – G», хотя путь «E – G» требует намного меньшего числа переходов. А из состояния «E» рекомендация все-таки перейти напрямую в целевое состояние «G», хотя на самом деле это не самый выгодный вариант. Но, как сказано выше, Q-обучение не гарантирует определение наилучшего управления для каждого состояния, а так как в реальности условия обычно меняются, то, может быть, гарантированное достижение цели по пути «E – G» действительно предпочтительнее, чем движение по пути «E – B – C – D – G». 