# Value Iteration. Policy Iteration.

In [None]:
import gym
import os
import numpy as np
import itertools
from collections import defaultdict
from gym.envs import toy_text
import matplotlib.pyplot as plt
from IPython.display import Image
from IPython import display
%matplotlib inline
gym.__version__

![](https://drive.google.com/uc?export=view&id=1xtAOEGDsVjjoY13z16gUGNGHoqscSq0m)

## Value Iteration

На лекции мы рассмотрели, как мы можем выучить оптимальную политику, используя алгоритм Value Iteration, если нам известна динамика среды, а также если пространства состояний и действий не большие и дискретные.

![](https://drive.google.com/uc?export=view&id=1YMBt1zrWJLNUZ6F-He9XVnIHRpYkJXbq)


Попробуем выучить оптимальную политику в среде <a href=https://gymnasium.farama.org/environments/toy_text/frozen_lake/>FrozenLake-v1</a>. Это простая среда с маленькими пространствами состояний и действий, а также с известной динамикой.

Создадим среду и выведем её описание.

In [None]:
env = gym.make('FrozenLake-v1')
env.reset()

print("Observation space:", env.observation_space)
print("Action space:", env.action_space)

In [None]:
print(env.env.__doc__)

Как видно среда представляет собой поле 4 на 4, по которому нужно добраться от начала (клетка *S*) до цели (клетка *G*). При этом среда является недетерменированный - с определенной вероятностью при совершения действия агент подскользнется и попадет не в ту клетку, в которую направлялся. Клетка *H* обозначает прорубь. Игра закначивается, когда агент попадает в клетку *G* или в клету *H*. Если агент проваливается в прорубь, то он получает награду *0*, если достигает клетки цели *1*. 

Посмотрим, сколько в среднем очков награды за 100 эпизодов получит наш агент, если будет выполнять случайные действия.

In [None]:
env.seed(42);

In [None]:
total_reward = []
for episode in range(100):
    episode_reward = 0
    observation = env.reset()
    for t in range(100):
        # Ваш код здесь

        if done:
            print("Episode {} finished after {} timesteps".format(episode+1, t+1))
            break
    total_reward.append(episode_reward)

In [None]:
plt.plot(total_reward)

In [None]:
print(np.mean(total_reward))

Как видим, только в 2 эпизодах из 100 агену удалось добраться до цели.

Из среды OpenAI Gym мы можем получить элементы MDP (Markov Decision Process).

В env.env.P хранится двухуровневый словарь, в котором первый ключ является состояние, а второй - действием.
Клетки ассоциированыс индексами [0, 1, 2, ..., 15] слева направо и сверху вниз.

Индексы действией [0, 1, 2, 3] соответствуют движению на Запад, Юг, Восток и Север.
env.env.P[state][action] возвращает лист кортежей (probability, nextstate, reward). Например, состояние 0 - это начальное состояние и информация о веротностях перехода для s=0 и a=0 содержит:

In [None]:
env.env.P[0][0]

Другой пример - состояние 5 сооветсвует проруби, и все действия в данном состоянии приводят к тому же состоянию с вероятностью 1 и наградой 0.

In [None]:
for i in range(4):
    print("P[5][%i] =" % i, env.env.P[5][i])

Вспомним, что из себя представляет алгоритм Value Iteration 
![](https://drive.google.com/uc?export=view&id=1klIcBCbPCZMp5strcJFpkgGBePYdSNqr)

Задание считается решенным, если агент доходит до цели в среднем в 70% эпизодов.

Напишем несклько вспомогательных функций.

Запомним число состояний и действий в среде.

In [None]:
n_states = 16
n_actions = 4
print("Number of states: {}".format(n_states))
print("Number of actions: {}".format(n_actions))

Поскольку алгоритм Value Iteration возвращает нам оптимальную V-функцию, то нам необходимо извлекать из нее оптимальную политику (как указано в последней строке псевдокода алгоритма).

In [None]:
def extract_policy(v, gamma = 1.0):
    # Ваш код здесь
    
    return policy

Также напишем функцию для оценки нашей найденной политики.

In [None]:
def evaluate_policy(env, policy, gamma=1.0, n=100):
    total_reward = []
    for episode in range(n):
        episode_reward = 0
        observation = env.reset()
        step = 0
        for _ in range(100):
            # env.render()
            action = int(policy[observation])
            observation, reward, done, _ = env.step(action)
            episode_reward += gamma**step*reward
            step += 1
            if done:
                break
        total_reward.append(episode_reward)
    return np.mean(total_reward)

Нам остается написать основную функцию, которая вернет оптимальную V-функцию.

In [None]:
def value_iteration(env, gamma=1.0, max_iterations=100000):
    # Ваш код здесь
    
    return v

Теперь мы можем найти оптимальную V-функцию, извлечь из нее оптимальную политику и оцениь ее.

In [None]:
optimal_v = value_iteration(env)
optimal_policy = extract_policy(optimal_v)
optimal_policy_score = evaluate_policy(env, optimal_policy, n=100)

In [None]:
print(optimal_v.reshape(4,4))

In [None]:
print(optimal_policy.reshape(4,4))

In [None]:
print(optimal_policy_score)

По сравнению со "случайным" агентом, который доходил до цели в 3 случаях из 100, наша новая политика позволяет добирться до цели в ~70% эпизодов.

## Policy Iteration

Вспомним, что из себя представляет алгоритм Policy Iteration
![](https://drive.google.com/uc?export=view&id=1hphERFsRFKpNcBYTSVXgInMXO1WPXKT2)

![](https://drive.google.com/uc?export=view&id=1GnuNFBQ-ns1Bczg1QqgF6Dh6jW_ETf2Y)

Напишем необходимые вспомогательные функции.

Начнем с основного цикла алгоритма, который вернет нам оптимальную политику.

In [None]:
def policy_iteration(env, gamma=1.0, max_iterations = 200000):
    # Ваш код здесь
    
    return policy

Остается написать 2 функции, которые используются в основном цикле алгоритма Policy Iteration согласно псевдокоду.

In [None]:
def policy_evaluation(env, policy, gamma=1.0, eps=1e-10):
    v = np.zeros(n_states)
    # Ваш код здесь
   
    return v

In [None]:
def policy_improvement(v, gamma=1.0):
    policy = np.zeros(n_states)
    # Ваш код здесь
    
    return policy

Теперь мы также можем найти оптимальную V-функцию, извлечь из нее оптимальную политику и оцениь ее.

In [None]:
optimal_policy = policy_iteration(env)
optimal_policy_score = evaluate_policy(env, optimal_policy)

In [None]:
print(optimal_policy.reshape(4,4))

In [None]:
print(optimal_policy_score)

![](https://drive.google.com/uc?export=view&id=1bDuP3J1RcC16P_igo3zLWgpY18h1VgzE)