# RL and Advanced DL: Домашнее задание 1

Первое ДЗ связано с обучением с подкреплением, и оно придумано для ситуации, когда
нейронные сети ещё не нужны, и пространство состояний в целом достаточно маленькое,
чтобы можно было обучить хорошую стратегию методами TD-обучения или другими
методами обучения с подкреплением. Задание получилось, надеюсь, интересное, но в том
числе и достаточно техническое, так что для решения придётся немножко
попрограммировать. Поэтому в качестве решения ожидается ссылка на jupyter-ноутбук
на вашем github (или публичный, или с доступом для snikolenko); ссылку
обязательно нужно прислать в виде сданного домашнего задания на портале
Академии. Любые комментарии, новые идеи и рассуждения на тему, как всегда,
категорически приветствуются.

## Часть первая, с блекджеком и стратегиями

Мы будем обучаться играть в очень простую, но знаменитую и популярную игру: блекджек. Правила блекджека достаточно просты; давайте начнём с самой базовой версии, которая
реализована в OpenAI Gym:

* численные значения карт равны от 2 до 10 для карт от двойки до десятки, 10 для
валетов, дам и королей;
* туз считается за 11 очков, если общая сумма карт на руке при этом не превосходит
21 (по-английски в этом случае говорят, что на руке есть usable ace), и за 1 очко,
если превосходит;
* игроку раздаются две карты, дилеру — одна в открытую и одна в закрытую;
* игрок может совершать одно из двух действий:
    * hit — взять ещё одну карту;
    * stand — не брать больше карт;
* если сумма очков у игрока на руках больше 21, он проигрывает (bust);
* если игрок выбирает stand с суммой не больше 21, дилер добирает карты, пока
сумма карт в его руке меньше 17;
*  после этого игрок выигрывает, если дилер либо превышает 21, либо получает
сумму очков меньше, чем сумма очков у игрока; при равенстве очков объявляется
ничья (ставка возвращается);
*  в исходных правилах есть ещё дополнительный бонус за natural blackjack: если
игрок набирает 21 очко с раздачи, двумя картами, он выигрывает не +1, а +1.5
(полторы ставки).


Именно этот простейший вариант блекджека реализован в OpenAI Gym:
https://github.com/openai/gym/blob/master/gym/envs/toy_text/blackjack.py

In [1]:
import tqdm
import random
import numpy as np
from itertools import product
from blackjack_env_0 import BlackjackEnv

In [2]:
def make_env():
    env = BlackjackEnv(natural=True)
    env.reset()
    return env

In [3]:
def run_episode(env, pi, eps=0.0, max_steps=1000000):
    env.reset()
    for step in range(max_steps):
        prev_state_id = env.get_obs_id(env._get_obs())
        action = pi[prev_state_id] if random.random() > eps else env.action_space.sample()
        _, reward, done, _ = env.step(action)
        if done:
            return None, reward
    return None, None

### 1.1 Рассмотрим очень простую стратегию: говорить stand, если у нас на руках комбинация в 19, 20 или 21 очко, во всех остальных случаях говорить hit. Используйте методы Монте-Карло, чтобы оценить выигрыш от этой стратегии.


In [4]:
def get_pi_simple(env):
    nS = env.get_states_count()
    pi = np.zeros(nS, dtype=int)
    for obs in env.get_all_states():
        player_card_sum, dealer_card, usable_ace = obs
        if player_card_sum in (19, 20, 21):
            action = 0 # stand
        else:
            action = 1 # hit
        pi[env.get_obs_id(obs)] = action
    return pi

In [5]:
def monte_carlo_reward(env, pi, episode_runner, episodes=100000, verbose=True, *args, **kwargs):
    total_reward = 0
    for _ in tqdm.tqdm(range(episodes)):
        _, reward = episode_runner(env, pi, *args, **kwargs)
        total_reward += reward
    return total_reward / episodes

In [6]:
def test():
    env = make_env()
    pi = get_pi_simple(env)
    return monte_carlo_reward(env, pi, run_episode)
test()

100%|█████████████████████████████████| 100000/100000 [00:13<00:00, 7293.74it/s]


-0.18099

### 1.2 Реализуйте метод обучения с подкреплением без модели (можно Q-обучение, но рекомендую попробовать и другие, например Monte Carlo control) для обучения стратегии в блекджеке, используя окружение Blackjack-v0 из OpenAI Gym.

In [12]:
def compute_policy_by_Q(Q):
    return np.argmax(Q, axis=1)


def run_Q_learning_episode(env, pi, Q, alpha=0.05, epsilon=0.05, gamma=0.9, max_steps=1000000):
    env.reset()
    s = env.get_obs_id(env._get_obs())
    a = pi[s] if random.random() > epsilon else env.action_space.sample()
    for _ in range(1000):    
        obs, reward, done, info = env.step(a)
        s_prime = env.get_obs_id(obs)
        a_prime = pi[s_prime] if random.random() > epsilon else env.action_space.sample()
        Q[s][a] = Q[s][a] + alpha * (reward + gamma * np.max( Q[s_prime] ) - Q[s][a])
        s, a = s_prime, a_prime
        if done:
            return Q, reward
    return None, None


def q_learning(env, alpha=0.1, epsilon=0.1, gamma=0.9, episodes=100000, dump_reward_hist=False):
    nS = env.get_states_count()
    nA = env.get_actions_count()
    Q = np.zeros((nS, nA), dtype=float)
    pi = compute_policy_by_Q(Q)
    
    reward_hist = [] if dump_reward_hist else None
    msg = f'Train (a={alpha:.2f}, e={epsilon:.2f}, g={gamma:.2f})'
    for i in tqdm.tqdm(range(episodes), desc=msg):
        Q, _ = run_Q_learning_episode(env, pi, Q, alpha, epsilon, gamma)
        pi = compute_policy_by_Q(Q)
        if dump_reward_hist:
            reward = monte_carlo_reward(env, pi, run_Q_learning_episode, episodes=100000, verbose=False,
                                        Q=Q, alpha=alpha, epsilon=epsilon, gamma=gamma)
            reward_hist.append(reward)
    
    return pi, Q, reward_hist


def test():
    env=make_env()
    alpha = 0.0014975518853093716
    epsilon = 0.9684817205319124
    gamma = 1
    pi, Q, _ = q_learning(env, alpha=alpha, epsilon=epsilon, gamma=gamma, episodes=100000)
    return monte_carlo_reward(env, pi, run_Q_learning_episode, episodes=10000, verbose=True,
                              Q=Q, alpha=alpha, epsilon=epsilon, gamma=gamma)
test()

Train (a=0.00, e=0.97, g=1.00):   0%|      | 5/100000 [00:00<00:35, 2782.48it/s]


KeyError: (24, 7, False)

### 1.3 Сколько выигрывает казино у вашей стратегии? Нарисуйте графики среднего дохода вашего метода (усреднённого по крайней мере по 100000 раздач, а лучше больше) по ходу обучения. Попробуйте подобрать оптимальные гиперпараметры.

In [9]:
def best_params(env, train_episodes, eval_episodes):
    alpha_value = np.arange(0.1, 0.2, 0.05)
    epsilon_values = np.arange(0.05, 0.65, 0.1)
    gamma_values = [0.9] # np.arange(0.1, 1.0, 0.4)
    best_reward, best_pi, best_alpha, best_epsilon, best_gamma = -1000, None, None, None, None
    for i, (alpha, epsilon, gamma) in enumerate(product(alpha_value, epsilon_values, gamma_values)):
        pi, Q, _ = q_learning(
            env=env,
            alpha=alpha,
            epsilon=epsilon,
            gamma=gamma,
            episodes=train_episodes,
        )
        avg_reward = monte_carlo_reward(
            env, pi, run_Q_learning_episode,
            episodes=eval_episodes, verbose=False,
            Q=Q, alpha=alpha, epsilon=epsilon, gamma=gamma)
        print(avg_reward)
        if avg_reward > best_reward:
            best_reward = avg_reward
            best_pi = pi
            best_alpha = alpha
            best_epsilon = epsilon
            best_gamma = gamma
            
        print(f'Best reward: {best_reward:.4f}.')
        print(f'alpha = {best_alpha:.2f}' \
          f', epsilon = {best_epsilon:.2f}' \
          f', gamma = {best_gamma:.1f}.')
    
best_params(env=make_env(), train_episodes=100000, eval_episodes=10000)

Train (a=0.10, e=0.05, g=0.90): 100%|█| 100000/100000 [00:12<00:00, 8234.19it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 8061.73it/s]


-0.166
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.


Train (a=0.10, e=0.15, g=0.90): 100%|█| 100000/100000 [00:11<00:00, 8427.42it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 8046.41it/s]


-0.19965
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.


Train (a=0.10, e=0.25, g=0.90): 100%|█| 100000/100000 [00:12<00:00, 8252.29it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 7360.03it/s]


-0.19755
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.


Train (a=0.10, e=0.35, g=0.90): 100%|█| 100000/100000 [00:12<00:00, 8110.41it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 7896.50it/s]


-0.21315
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.


Train (a=0.10, e=0.45, g=0.90): 100%|█| 100000/100000 [00:12<00:00, 7969.30it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 8090.79it/s]


-0.249
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.


Train (a=0.10, e=0.55, g=0.90): 100%|█| 100000/100000 [00:12<00:00, 8007.52it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 6831.08it/s]


-0.24755
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.


Train (a=0.15, e=0.05, g=0.90): 100%|█| 100000/100000 [00:11<00:00, 8456.58it/s]
100%|███████████████████████████████████| 10000/10000 [00:03<00:00, 2528.81it/s]


-0.1745
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.


Train (a=0.15, e=0.15, g=0.90): 100%|█| 100000/100000 [00:12<00:00, 8274.71it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 8410.48it/s]


-0.1678
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.


Train (a=0.15, e=0.25, g=0.90): 100%|█| 100000/100000 [00:14<00:00, 6737.77it/s]
100%|███████████████████████████████████| 10000/10000 [00:04<00:00, 2499.43it/s]


-0.2196
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.


Train (a=0.15, e=0.35, g=0.90): 100%|█| 100000/100000 [00:15<00:00, 6353.05it/s]
100%|███████████████████████████████████| 10000/10000 [00:03<00:00, 2675.78it/s]


-0.2054
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.


Train (a=0.15, e=0.45, g=0.90): 100%|█| 100000/100000 [00:12<00:00, 7868.42it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 7900.43it/s]


-0.22855
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.


Train (a=0.15, e=0.55, g=0.90): 100%|█| 100000/100000 [00:12<00:00, 7816.09it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 7292.87it/s]

-0.25775
Best reward: -0.1660.
alpha = 0.10, epsilon = 0.05, gamma = 0.9.





In [None]:
import matplotlib.pyplot as plt
from itertools import product

FIGSIZE = (16, 8)
FONTSIZE = 16


def plot(env, alpha, epsilon, gamma, train_episodes=100000, plot_every=10000):

    fig, ax = plt.subplots(1, 1, figsize=FIGSIZE)
    
    pi, rewards = q_learning(
        env=env,
        alpha=alpha,
        epsilon=epsilon,
        gamma=gamma,
        episodes=train_episodes,
    )
    avg_reward = monte_carlo_reward(env, pi, episodes=eval_episodes)
    
    # Visualization:
    ys = [
        sum(rewards[i:i + plot_every]) / plot_every
        for i in range(0, len(rewards), plot_every)
    ]
    xs = np.arange(1, len(ys) + 1)
    ax.plot(
        xs, ys,
        label=f'alpha = {alpha:.2f}, epsilon = {epsilon:.2f}, gamma = {gamma:.1f}.',
        color=f'C{i}'
    )

    plt.title('Average reward during training')
    plt.xlabel('Episode number')
    plt.xticks(xs, xs * plot_every)
    plt.ylabel('Current reward')
    plt.legend(loc='upper left')
    plt.grid()

plot(make_env(), alpha=0.01, epsilon=0.2, gamma=0.9, train_episodes=100000, plot_every=10000)