# Описание задания

Сетчатый мир представляет собой некоторое поле размера M x N, в одной из клеток которого находится агент.

Агент может двигаться по сетчатому миру в четырёх направлениях: вверх, вниз, влево и вправо. Однако мир является стохастическим, т.е. с некоторой вероятностью агент может оказаться не в той клетке, где он планировал, а в соседней.

Цель агента – прийти в определенную клетку мира, в которой он получает награду.

![Сетчатый мир](Pic1.png)

В данном задании мы рассмотрим поле размера 10 x 10. Каждая клетка имеет порядковый номер от 1 до 100.
* Возможные действия пронумерованы от 1 до 4.

Агенту удалось собрать опыт взаимодействия с сетчатым миром, который он сохранил в формате записей (𝑠, 𝑎, 𝑟, 𝑠').

Требуется определить какое оптимальное действие агент должен предпринять в каждой клетке мира, чтобы максимизировать свою совокупную награду.
* Коэффициент дисконтирования будущих наград равен 0.95.

# Задание

### Загрузка библиотек

In [1]:
import pandas as pd
from tabulate import tabulate

### Параметры обучения

In [2]:
# Коэффициент дисконтирования будущих наград
gamma = 0.95

# Параметр скорости обучения
learning_rate = 0.5

# Критерий сходимости алгоритма
tol = 1e-3
print(tol)

0.001


### Загрузка experience buffer

In [3]:
experience_buffer = pd.read_csv('Grid_world.csv', dtype = int)
print(experience_buffer[:10])

    s  a  r  s'
0  12  3  0  22
1  12  2  0  11
2  12  3  0  11
3  21  3  0  31
4  22  2  0  23
5  92  4  0  82
6  73  1  0  72
7  82  4  0  72
8  72  1  0  71
9  93  4  0  94


### Определение множеств возможных состояний и допустимых действий

In [4]:
# Множество возможных состояний
state_space = sorted(list(set(experience_buffer['s'])))
print(state_space)

# Множество допустимых действий
action_space = sorted(list(set(experience_buffer['a'])))
print(action_space)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100]
[1, 2, 3, 4]


### Создание Q-матрицы

In [5]:

# Создайте Q-матрицу, в которой строки соответствуют возможным состояниям, а столбцы - допустимым действиям
#Q_matrix = pd.DataFrame(0.0, index=None, columns=None)
import numpy as np
#nda1 = np.zeros(400).reshape(100,4)
nda1 = np.arange(400).reshape(100,4)
Q_matrix = pd.DataFrame(nda1, index=np.arange(1, 101, 1),columns=[1,2,3,4])
print(Q_matrix[:10])
 

     1   2   3   4
1    0   1   2   3
2    4   5   6   7
3    8   9  10  11
4   12  13  14  15
5   16  17  18  19
6   20  21  22  23
7   24  25  26  27
8   28  29  30  31
9   32  33  34  35
10  36  37  38  39


### Реализация алгоритма Q-обучения

In [13]:
#####################################################################
#Создание Q-матрицы
#################### Начало оцениваемого задания ####################
#####################################################################

# Создайте Q-матрицу, в которой строки соответствуют возможным состояниям, а столбцы - допустимым действиям
#Q_matrix = pd.DataFrame(0.0, index=None, columns=None)
import numpy as np
nda1 = np.zeros(400).reshape(100,4) 
Q_matrix = pd.DataFrame(nda1,index=np.arange(1, 101, 1),columns=[1,2,3,4]) 
print(Q_matrix[:12])
#####################################################################
#################### Конец оцениваемого задания #####################
#####################################################################
# Копия Q-матрицы на предыдущей итерации для проверки сходимости алгоритма
Q_old = Q_matrix.copy()  

continue_condition = True
i = 0

# Итерационный цикл
while (continue_condition):
    
    # Счетчик количества итераций
    i += 1
    
    # Последовательно обрабатываем каждое наблюдение в experience buffer
    for index, experience in experience_buffer.iterrows():

        # Текущее состояние
        s = experience["s"]
        
        # Выбранное действие
        a = experience["a"]
        
        # Полученная награда
        r = experience["r"]
        
        # Следующее состояние
        s_next = experience["s'"]

        #####################################################################
        #################### Начало оцениваемого задания ####################
        #####################################################################
        
        # Вычислите значение Q-матрицы при совершении действия a в состоянии s. Используйте метод loc.
        #Q_s_a = None
        Q_s_a = Q_matrix.loc[s,a] 
        #print('>',s,a,Q_s_a,'>',s_next) 
        
        # Вычислите максимальное значение Q-матрицы в состоянии s_next. Используйте методы loc и max.
        #Q_next_max = None
        Q_next_max = max(Q_matrix.loc[s_next])
        # print('>>>>',Q_matrix.loc[s_next])
        #print(max(Q_matrix.loc[s_next]))
        
        # Запишите уравнение обновления Q-матрицы. Не забудьте учесть параметр скорости обучения.
        #Q_matrix.loc[s,a] = None 
        Q_matrix.loc[s,a]=(r+Q_s_a+Q_next_max*gamma)*learning_rate
        #break

        #####################################################################
        #################### Конец оцениваемого задания #####################
        #####################################################################
         
    # Вычисление коэффициента сходимости. После окончания первой итерации он должен быть равен 16009.8365. 
    convergence_rate = (Q_matrix - Q_old).abs().sum().sum()
    print ('Итерация %d завершена. Коэффициент сходимости: %.4f ' % (i, convergence_rate))
    #continue_condition = False
    # Проверка выполнения условия сходимости
    if (convergence_rate < tol):
        continue_condition = False
    else:
        Q_old = Q_matrix.copy()

# Завершение алгоритма. Алгоритм должен завершиться после 8 итераций.
print ('\nНеобходимый коэффициент сходимости был достигнут.')
print(Q_matrix)

      1    2    3    4
1   0.0  0.0  0.0  0.0
2   0.0  0.0  0.0  0.0
3   0.0  0.0  0.0  0.0
4   0.0  0.0  0.0  0.0
5   0.0  0.0  0.0  0.0
6   0.0  0.0  0.0  0.0
7   0.0  0.0  0.0  0.0
8   0.0  0.0  0.0  0.0
9   0.0  0.0  0.0  0.0
10  0.0  0.0  0.0  0.0
11  0.0  0.0  0.0  0.0
12  0.0  0.0  0.0  0.0
Итерация 1 завершена. Коэффициент сходимости: 16009.8365 
Итерация 2 завершена. Коэффициент сходимости: 1582.0720 
Итерация 3 завершена. Коэффициент сходимости: 120.3533 
Итерация 4 завершена. Коэффициент сходимости: 9.2693 
Итерация 5 завершена. Коэффициент сходимости: 0.7137 
Итерация 6 завершена. Коэффициент сходимости: 0.0550 
Итерация 7 завершена. Коэффициент сходимости: 0.0042 
Итерация 8 завершена. Коэффициент сходимости: 0.0003 

Необходимый коэффициент сходимости был достигнут.
             1          2          3          4
1    29.292660  30.486111  30.833048  29.362522
2    31.083152  31.541518  32.568162  31.020135
3    31.059737  32.090145  33.490575  31.558117
4    32.201437  3

### Вывод оптимальной стратегии

In [14]:
# Для каких состояний вывести оптимальные действия?
output_states = [41,42,43,44,45,46,47,48,49,50]

# Вывод оптимальных действий
optimal_strategy = Q_matrix.idxmax(axis=1).loc[output_states].reset_index()
#print(tabulate(optimal_strategy.values, headers = ['Состояние', 'Оптимальное действие']))
print(optimal_strategy.values)

[[41  2]
 [42  1]
 [43  3]
 [44  2]
 [45  3]
 [46  1]
 [47  4]
 [48  3]
 [49  4]
 [50  1]]
