In [1]:
import numpy as np 
import matplotlib.pyplot as plt
import gym
from tqdm import tqdm

# ************************************ БАЗОВЫЙ АГЕНТ *****************************************
all_reward=[]
parameter=[]
class BasicAgent:
    '''
    Базовый агент, от которого наследуются стратегии обучения
    '''

    # Наименование алгоритма
    ALGO_NAME = '---'

    def __init__(self, env, eps=0.1):
        # Среда
        self.env = env
        # Размерности Q-матрицы
        self.nA = env.action_space.n
        self.nS = env.observation_space.n
        #и сама матрица
        self.Q = np.zeros((self.nS, self.nA))
        # Значения коэффициентов
        # Порог выбора случайного действия
        self.eps=eps
        # Награды по эпизодам
        self.episodes_reward = []


    def print_q(self):
        # print('Вывод Q-матрицы для алгоритма ', self.ALGO_NAME)
        # print(self.Q)
        all_reward.append(np.sum(self.Q))
        print('Суммарная награда:',np.sum(self.Q))


    def get_state(self, state):
        '''
        Возвращает правильное начальное состояние
        '''
        if type(state) is tuple:
            # Если состояние вернулось с виде кортежа, то вернуть только номер состояния
            return state[0]
        else:
            return state 


    def greedy(self, state):
        '''
        <<Жадное>> текущее действие
        Возвращает действие, соответствующее максимальному Q-значению
        для состояния state
        '''
        return np.argmax(self.Q[state])


    def make_action(self, state):
        '''
        Выбор действия агентом
        '''
        if np.random.uniform(0,1) < self.eps:
            
            # Если вероятность меньше eps
            # то выбирается случайное действие
            return self.env.action_space.sample()
        else:
            # иначе действие, соответствующее максимальному Q-значению
            return self.greedy(state)


    def draw_episodes_reward(self):
        # Построение графика наград по эпизодам
        fig, ax = plt.subplots(figsize = (15,10))
        y = self.episodes_reward
        x = list(range(1, len(y)+1))
        plt.plot(x, y, '-', linewidth=1, color='green')
        plt.title('Награды по эпизодам')
        plt.xlabel('Номер эпизода')
        plt.ylabel('Награда')
        plt.show()


    def learn():
        '''
        Реализация алгоритма обучения
        '''
        pass

# ************************************ Q-обучение *****************************************

class QLearning_Agent(BasicAgent):
    '''
    Реализация алгоритма Q-Learning
    '''
    # Наименование алгоритма
    ALGO_NAME = 'Q-обучение'

    def __init__(self, env, eps=0.4, lr=0.1, gamma=0.98, num_episodes=1000):
        # Вызов конструктора верхнего уровня
        super().__init__(env, eps)
        # Learning rate
        self.lr=lr
        # Коэффициент дисконтирования
        self.gamma = gamma
        # Количество эпизодов
        self.num_episodes=num_episodes
        # Постепенное уменьшение eps
        self.eps_decay=0.00005
        self.eps_threshold=0.01


    def learn(self):
        '''
        Обучение на основе алгоритма Q-Learning
        '''
        self.episodes_reward = []
        # Цикл по эпизодам
        for ep in tqdm(list(range(self.num_episodes))):
            # Начальное состояние среды
            state = self.get_state(self.env.reset())
            # Флаг штатного завершения эпизода
            done = False
            # Флаг нештатного завершения эпизода
            truncated = False
            # Суммарная награда по эпизоду
            tot_rew = 0

            # По мере заполнения Q-матрицы уменьшаем вероятность случайного выбора действия
            if self.eps > self.eps_threshold:
                self.eps -= self.eps_decay

            # Проигрывание одного эпизода до финального состояния
            while not (done or truncated):

                # Выбор действия
                # В SARSA следующее действие выбиралось после шага в среде 
                action = self.make_action(state) 
                
                # Выполняем шаг в среде
                next_state, rew, done, truncated, _ = self.env.step(action)

                # Правило обновления Q для SARSA (для сравнения)
                # self.Q[state][action] = self.Q[state][action] + self.lr * \
                #     (rew + self.gamma * self.Q[next_state][next_action] - self.Q[state][action])

                # Правило обновления для Q-обучения
                self.Q[state][action] = self.Q[state][action] + self.lr * \
                    (rew + self.gamma * np.max(self.Q[next_state]) - self.Q[state][action])

                # Следующее состояние считаем текущим
                state = next_state
                # Суммарная награда за эпизод
                tot_rew += rew
                if (done or truncated):
                    self.episodes_reward.append(tot_rew)

def play_agent(agent):
    '''
    Проигрывание сессии для обученного агента
    '''
    env2 = gym.make('CliffWalking-v0', render_mode='human')
    state = env2.reset()[0]
    done = False
    while not done:
        action = agent.greedy(state)
        next_state, reward, terminated, truncated, _ = env2.step(action)
        env2.render()
        state = next_state
        if terminated or truncated:
            done = True

In [2]:
def run_q_learning():
    env = gym.make('CliffWalking-v0')
    for i in np.arange(0.01,0.2,0.02):
        for j in np.arange(0.95,1,0.1):
            for n in np.arange(100,2001,200):
                agent = QLearning_Agent(env,lr=i, gamma=j, num_episodes=n)
                agent.learn()
                agent.print_q()
                #agent.draw_episodes_reward()
                parameter.append([i,j,n])
    

def main():
    run_q_learning()
    print(all_reward)
    print('Максимальная награда:',np.max(all_reward),'Значения гиперпараметров(lr, gamma, num_episodes):',parameter[np.argmax(np.max(all_reward))])    
    #play_agent(agent)


if __name__ == '__main__':
    main()

  if not isinstance(terminated, (bool, np.bool8)):
100%|██████████| 100/100 [00:01<00:00, 78.74it/s]


Суммарная награда: -925.480074856451


100%|██████████| 300/300 [00:02<00:00, 142.96it/s]


Суммарная награда: -1305.5388121280512


100%|██████████| 500/500 [00:02<00:00, 186.70it/s]


Суммарная награда: -1472.87992013234


100%|██████████| 700/700 [00:02<00:00, 235.33it/s]


Суммарная награда: -1609.6603274710199


100%|██████████| 900/900 [00:03<00:00, 288.27it/s]


Суммарная награда: -1688.2110491932995


100%|██████████| 1100/1100 [00:03<00:00, 331.13it/s]


Суммарная награда: -1761.3166331693121


100%|██████████| 1300/1300 [00:03<00:00, 370.93it/s]


Суммарная награда: -1785.6592056279542


100%|██████████| 1500/1500 [00:04<00:00, 368.37it/s]


Суммарная награда: -1864.0746827641387


100%|██████████| 1700/1700 [00:03<00:00, 430.70it/s]


Суммарная награда: -1904.7407263129455


100%|██████████| 1900/1900 [00:04<00:00, 451.20it/s]


Суммарная награда: -1931.3394145881903


100%|██████████| 100/100 [00:00<00:00, 162.59it/s]


Суммарная награда: -1299.8384603828135


100%|██████████| 300/300 [00:01<00:00, 294.98it/s]


Суммарная награда: -1718.6196409139175


100%|██████████| 500/500 [00:01<00:00, 389.09it/s]


Суммарная награда: -1883.531050069499


100%|██████████| 700/700 [00:01<00:00, 443.33it/s]


Суммарная награда: -2000.0514936379686


100%|██████████| 900/900 [00:01<00:00, 496.96it/s]


Суммарная награда: -2038.9979293406666


100%|██████████| 1100/1100 [00:02<00:00, 457.94it/s]


Суммарная награда: -2072.0867282094805


100%|██████████| 1300/1300 [00:02<00:00, 559.86it/s]


Суммарная награда: -2089.8343630847135


100%|██████████| 1500/1500 [00:02<00:00, 628.13it/s]


Суммарная награда: -2097.538574711849


100%|██████████| 1700/1700 [00:02<00:00, 608.88it/s]


Суммарная награда: -2109.3311271527346


100%|██████████| 1900/1900 [00:03<00:00, 593.01it/s]


Суммарная награда: -2115.9436680453323


100%|██████████| 100/100 [00:00<00:00, 200.40it/s]


Суммарная награда: -1512.5878445471594


100%|██████████| 300/300 [00:00<00:00, 314.80it/s]


Суммарная награда: -1916.268861229447


100%|██████████| 500/500 [00:01<00:00, 417.71it/s]


Суммарная награда: -2028.2229250398364


100%|██████████| 700/700 [00:01<00:00, 521.30it/s]


Суммарная награда: -2088.5118918570856


100%|██████████| 900/900 [00:01<00:00, 545.65it/s]


Суммарная награда: -2109.094631824114


100%|██████████| 1100/1100 [00:01<00:00, 553.60it/s]


Суммарная награда: -2121.0541161912115


100%|██████████| 1300/1300 [00:02<00:00, 576.76it/s]


Суммарная награда: -2124.428700055093


100%|██████████| 1500/1500 [00:02<00:00, 654.44it/s]


Суммарная награда: -2128.9899804002553


100%|██████████| 1700/1700 [00:02<00:00, 645.41it/s]


Суммарная награда: -2133.8182481982885


100%|██████████| 1900/1900 [00:02<00:00, 736.44it/s]


Суммарная награда: -2136.4516130930697


100%|██████████| 100/100 [00:00<00:00, 215.04it/s]


Суммарная награда: -1710.28842158432


100%|██████████| 300/300 [00:00<00:00, 416.09it/s]


Суммарная награда: -2000.7443843827464


100%|██████████| 500/500 [00:01<00:00, 492.37it/s]


Суммарная награда: -2089.5681567597817


100%|██████████| 700/700 [00:01<00:00, 582.76it/s]


Суммарная награда: -2120.600733621655


100%|██████████| 900/900 [00:01<00:00, 620.26it/s]


Суммарная награда: -2126.5818574638115


100%|██████████| 1100/1100 [00:01<00:00, 671.55it/s]


Суммарная награда: -2132.488301098992


100%|██████████| 1300/1300 [00:01<00:00, 657.56it/s]


Суммарная награда: -2139.2885168198372


100%|██████████| 1500/1500 [00:02<00:00, 724.22it/s]


Суммарная награда: -2141.4364343032667


100%|██████████| 1700/1700 [00:02<00:00, 745.29it/s]


Суммарная награда: -2144.934285700624


100%|██████████| 1900/1900 [00:02<00:00, 766.75it/s]


Суммарная награда: -2144.2086764299847


100%|██████████| 100/100 [00:00<00:00, 243.31it/s]


Суммарная награда: -1754.3796326951915


100%|██████████| 300/300 [00:00<00:00, 487.81it/s]


Суммарная награда: -2070.776016397407


100%|██████████| 500/500 [00:00<00:00, 578.69it/s]


Суммарная награда: -2112.951933590163


100%|██████████| 700/700 [00:01<00:00, 635.19it/s]


Суммарная награда: -2129.356497879893


100%|██████████| 900/900 [00:01<00:00, 674.16it/s]


Суммарная награда: -2138.202476710425


100%|██████████| 1100/1100 [00:01<00:00, 660.66it/s]


Суммарная награда: -2144.5389586688107


100%|██████████| 1300/1300 [00:01<00:00, 708.72it/s]


Суммарная награда: -2146.1809670039315


100%|██████████| 1500/1500 [00:01<00:00, 755.66it/s]


Суммарная награда: -2147.1392480265026


100%|██████████| 1700/1700 [00:02<00:00, 753.98it/s]


Суммарная награда: -2148.839233533121


100%|██████████| 1900/1900 [00:02<00:00, 746.56it/s]


Суммарная награда: -2149.035315252183


100%|██████████| 100/100 [00:00<00:00, 250.00it/s]


Суммарная награда: -1862.8187580871006


100%|██████████| 300/300 [00:00<00:00, 509.31it/s]


Суммарная награда: -2086.580584548959


100%|██████████| 500/500 [00:00<00:00, 602.39it/s]


Суммарная награда: -2127.347128886173


100%|██████████| 700/700 [00:01<00:00, 633.47it/s]


Суммарная награда: -2138.320162350603


100%|██████████| 900/900 [00:01<00:00, 674.68it/s]


Суммарная награда: -2144.033938120837


100%|██████████| 1100/1100 [00:01<00:00, 683.66it/s]


Суммарная награда: -2147.8069638586458


100%|██████████| 1300/1300 [00:01<00:00, 747.97it/s]


Суммарная награда: -2149.7947049547474


100%|██████████| 1500/1500 [00:02<00:00, 740.01it/s]


Суммарная награда: -2150.384206837266


100%|██████████| 1700/1700 [00:02<00:00, 766.80it/s]


Суммарная награда: -2150.967475042206


100%|██████████| 1900/1900 [00:02<00:00, 798.31it/s]


Суммарная награда: -2151.76870273867


100%|██████████| 100/100 [00:00<00:00, 326.80it/s]


Суммарная награда: -1915.0162406124334


100%|██████████| 300/300 [00:00<00:00, 540.54it/s]


Суммарная награда: -2112.492579918494


100%|██████████| 500/500 [00:00<00:00, 618.79it/s]


Суммарная награда: -2132.73330347878


100%|██████████| 700/700 [00:01<00:00, 678.95it/s]


Суммарная награда: -2142.282109614607


100%|██████████| 900/900 [00:01<00:00, 697.12it/s]


Суммарная награда: -2147.4274960573653


100%|██████████| 1100/1100 [00:01<00:00, 698.40it/s]


Суммарная награда: -2150.762327243083


100%|██████████| 1300/1300 [00:01<00:00, 688.55it/s]


Суммарная награда: -2152.7145056140994


100%|██████████| 1500/1500 [00:01<00:00, 776.38it/s]


Суммарная награда: -2152.9630536904447


100%|██████████| 1700/1700 [00:02<00:00, 772.03it/s]


Суммарная награда: -2153.4555222610825


100%|██████████| 1900/1900 [00:02<00:00, 817.54it/s] 


Суммарная награда: -2154.10297424919


100%|██████████| 100/100 [00:00<00:00, 324.68it/s]


Суммарная награда: -1948.4623669250057


100%|██████████| 300/300 [00:00<00:00, 531.88it/s]


Суммарная награда: -2121.3228187870113


100%|██████████| 500/500 [00:00<00:00, 622.67it/s]


Суммарная награда: -2141.295609658261


100%|██████████| 700/700 [00:01<00:00, 669.86it/s]


Суммарная награда: -2147.0673483498826


100%|██████████| 900/900 [00:01<00:00, 705.33it/s]


Суммарная награда: -2150.1103909496737


100%|██████████| 1100/1100 [00:01<00:00, 739.75it/s]


Суммарная награда: -2152.74327246399


100%|██████████| 1300/1300 [00:01<00:00, 727.65it/s]


Суммарная награда: -2153.459637406034


100%|██████████| 1500/1500 [00:01<00:00, 785.59it/s]


Суммарная награда: -2153.7172352791376


100%|██████████| 1700/1700 [00:02<00:00, 816.91it/s] 


Суммарная награда: -2154.111404163171


100%|██████████| 1900/1900 [00:02<00:00, 851.02it/s] 


Суммарная награда: -2154.2927166166664


100%|██████████| 100/100 [00:00<00:00, 366.32it/s]


Суммарная награда: -1965.1527063328715


100%|██████████| 300/300 [00:00<00:00, 553.50it/s]


Суммарная награда: -2129.8112155697927


100%|██████████| 500/500 [00:00<00:00, 595.24it/s]


Суммарная награда: -2146.6390004951436


100%|██████████| 700/700 [00:01<00:00, 664.77it/s]


Суммарная награда: -2149.541287451482


100%|██████████| 900/900 [00:01<00:00, 684.39it/s]


Суммарная награда: -2152.3580490303466


100%|██████████| 1100/1100 [00:01<00:00, 696.19it/s]


Суммарная награда: -2152.3605678008416


100%|██████████| 1300/1300 [00:01<00:00, 757.13it/s]


Суммарная награда: -2153.4958297159583


100%|██████████| 1500/1500 [00:01<00:00, 797.39it/s] 


Суммарная награда: -2154.826138440968


100%|██████████| 1700/1700 [00:02<00:00, 800.00it/s] 


Суммарная награда: -2154.0677590491964


100%|██████████| 1900/1900 [00:02<00:00, 848.87it/s] 


Суммарная награда: -2154.42853095829


100%|██████████| 100/100 [00:00<00:00, 387.56it/s]


Суммарная награда: -1955.783667608528


100%|██████████| 300/300 [00:00<00:00, 600.00it/s]


Суммарная награда: -2131.726356775865


100%|██████████| 500/500 [00:00<00:00, 646.83it/s]


Суммарная награда: -2146.122852099053


100%|██████████| 700/700 [00:01<00:00, 672.43it/s]


Суммарная награда: -2152.5966864245593


100%|██████████| 900/900 [00:01<00:00, 700.39it/s]


Суммарная награда: -2152.346195547687


100%|██████████| 1100/1100 [00:01<00:00, 733.48it/s]


Суммарная награда: -2154.188272529252


100%|██████████| 1300/1300 [00:01<00:00, 784.75it/s]


Суммарная награда: -2154.6309028386995


100%|██████████| 1500/1500 [00:01<00:00, 800.43it/s] 


Суммарная награда: -2154.601869341583


100%|██████████| 1700/1700 [00:01<00:00, 852.99it/s] 


Суммарная награда: -2154.405316954083


100%|██████████| 1900/1900 [00:02<00:00, 846.31it/s] 

Суммарная награда: -2155.219110663911
[-925.480074856451, -1305.5388121280512, -1472.87992013234, -1609.6603274710199, -1688.2110491932995, -1761.3166331693121, -1785.6592056279542, -1864.0746827641387, -1904.7407263129455, -1931.3394145881903, -1299.8384603828135, -1718.6196409139175, -1883.531050069499, -2000.0514936379686, -2038.9979293406666, -2072.0867282094805, -2089.8343630847135, -2097.538574711849, -2109.3311271527346, -2115.9436680453323, -1512.5878445471594, -1916.268861229447, -2028.2229250398364, -2088.5118918570856, -2109.094631824114, -2121.0541161912115, -2124.428700055093, -2128.9899804002553, -2133.8182481982885, -2136.4516130930697, -1710.28842158432, -2000.7443843827464, -2089.5681567597817, -2120.600733621655, -2126.5818574638115, -2132.488301098992, -2139.2885168198372, -2141.4364343032667, -2144.934285700624, -2144.2086764299847, -1754.3796326951915, -2070.776016397407, -2112.951933590163, -2129.356497879893, -2138.202476710425, -2144.5389586688107, -2146.1809670


