# Advanced DL and RL: Домашнее задание 1

Первое ДЗ связано с обучением с подкреплением, и оно придумано для ситуации, когда нейронные сети ещё не нужны, и пространство состояний в целом достаточно маленькое, чтобы можно было обучить хорошую стратегию методами TD-обучения или другими методами обучения с подкреплением. Задание получилось, надеюсь, интересное, но в том числе и достаточно техническое, так что для решения придётся немножко попрограммировать. Поэтому в качестве решения ожидается ссылка на jupyter-ноутбук на вашем github (или публичный, или с доступом для snikolenko); ссылку обязательно нужно прислать в виде сданного домашнего задания на портале Академии. Любые комментарии, новые идеи и рассуждения на тему, как всегда, категорически приветствуются.


## Часть первая, с блекджеком и стратегиями

Мы будем обучаться играть в очень простую, но всё-таки знаменитую и популярную игру: блекджек. Правила блекджека достаточно просты; давайте начнём с самой базовой версии, которая реализована в OpenAI Gym:

* численные значения карт равны от 2 до 10 для карт от двойки до десятки, 10 для валетов, дам и королей;
* туз считается за 11 очков, если общая сумма карт на руке при этом не превосходит 21 (по-английски в этом случае говорят, что на руке есть usable ace), и за 1 очко, если превосходит;
* игроку раздаются две карты, дилеру — одна в открытую и одна в закрытую;
* игрок может совершать одно из двух действий:
-- hit  — взять ещё одну карту;
-- stand — не брать больше карт;
* если сумма очков у игрока на руках больше 21, он проигрывает (bust);
* если игрок выбирает stand с суммой не больше 21, дилер добирает карты, пока сумма карт в его руке меньше 17;
* после этого игрок выигрывает, если дилер либо превышает 21, либо получает сумму очков меньше, чем сумма очков у игрока; при равенстве очков объявляется ничья (ставка возвращается);
* в исходных правилах есть ещё дополнительный бонус за natural blackjack: если игрок набирает 21 очко с раздачи, двумя картами, он выигрывает не +1, а +1.5 (полторы ставки).


Именно этот простейший вариант блекджека реализован в OpenAI Gym:
https://github.com/openai/gym/blob/38a1f630dc9815a567aaf299ae5844c8f8b9a6fa/gym/envs/toy_text/blackjack.py


1. Рассмотрим очень простую стратегию: говорить stand, если у нас на руках комбинация в 19, 20 или 21 очко, во всех остальных случаях говорить hit. Используйте методы Монте-Карло, чтобы оценить выигрыш от этой стратегии.

2. Реализуйте метод обучения с подкреплением без модели (можно Q-обучение, но рекомендую попробовать и другие, например Monte Carlo control) для обучения стратегии в блекджеке, используя окружение Blackjack-v0 из OpenAI Gym.

3. Сколько выигрывает казино у вашей стратегии? Нарисуйте графики среднего дохода вашего метода (усреднённого по крайней мере по 100000 раздач, а лучше больше) по ходу обучения. Попробуйте подобрать оптимальные гиперпараметры.

In [1]:
import gym
from collections import defaultdict
import numpy as np
import matplotlib.pyplot as plt
from tqdm import tqdm

%matplotlib inline

In [2]:
env = gym.make('Blackjack-v0')

In [3]:
def simple_strategy(state):
    return True if (state[0] > 18) else False

rewards = []
n = 100000

for i in tqdm(range(n)):
    current_state = env.reset()
    done = 0
    while not done:
        if simple_strategy(current_state):
            next_state, reward, done, info = env.step(0)
        else:
            next_state, reward, done, info = env.step(1)
        current_state = next_state
        rewards.append(reward)

print(f"Reward = {np.mean(rewards)}")

100%|██████████| 100000/100000 [00:13<00:00, 7609.81it/s]

Reward = -0.11344051520638049





In [4]:
# Пользовался https://towardsdatascience.com/learning-to-win-blackjack-with-monte-carlo-methods-61c90a52d53e

In [5]:
def get_probs(Q_s, epsilon, nA):
    policy_s = np.ones(nA) * epsilon / nA
    best_a = np.argmax(Q_s)
    policy_s[best_a] = 1 - epsilon + (epsilon / nA)
    return policy_s


def update_Q(env, episode, Q, alpha, gamma):
    for s, a, r in episode:
        first_occurence_idx = next(i for i,x in enumerate(episode) if x[0] == s)
        G = sum([x[2]*(gamma**i) for i,x in enumerate(episode[first_occurence_idx:])])
        Q[s][a] = Q[s][a] + alpha*(G - Q[s][a])
    
    return Q

def play_game(env, Q, epsilon, nA):
    episode = []
    state = env.reset()
    done = 0
    while not done:
        probs = get_probs(Q[state], epsilon, nA)
        action = np.random.choice(np.arange(nA), p=probs) \
                                    if state in Q else env.action_space.sample()
        next_state, reward, done, info = env.step(action)
        episode.append((state, action, reward))
        state = next_state

    return episode

In [6]:
def mc_control(env, num_episodes, epsilon = 1.0, alpha = 0.001, gamma = 1.0, nA=2):
    Q = defaultdict(lambda: np.zeros(nA))
    
    for i_episode in tqdm(range(0, num_episodes)):
        episode = play_game(env, Q, epsilon, nA)
        Q = update_Q(env, episode, Q, alpha, gamma)
    
    return Q

In [7]:
eps = [0.7, 0.8, 0.85, 0.9, 0.95, 1.0]
alph = [0.0001, 0.001, 0.01, 0.1]
for i in eps:
    for j in alph:
        Q = mc_control(env, 100000, epsilon=i, alpha=j)
        print(f"Epsilon = {i}\t Alpha ={j}\nReward = {np.mean(list(np.max(v) for k, v in Q.items()))}")

100%|██████████| 100000/100000 [00:23<00:00, 4339.24it/s]
  0%|          | 319/100000 [00:00<00:31, 3183.92it/s]

Epsilon = 0.7	 Alpha =0.0001
Reward = -0.0018257768969188646


100%|██████████| 100000/100000 [00:22<00:00, 4543.58it/s]
  0%|          | 359/100000 [00:00<00:27, 3588.32it/s]

Epsilon = 0.7	 Alpha =0.001
Reward = -0.01097752302130196


100%|██████████| 100000/100000 [00:21<00:00, 4663.40it/s]
  0%|          | 394/100000 [00:00<00:25, 3931.87it/s]

Epsilon = 0.7	 Alpha =0.01
Reward = -0.03812607213808521


100%|██████████| 100000/100000 [00:23<00:00, 4342.01it/s]
  0%|          | 455/100000 [00:00<00:21, 4547.04it/s]

Epsilon = 0.7	 Alpha =0.1
Reward = -0.06503280414255827


100%|██████████| 100000/100000 [00:26<00:00, 3751.27it/s]
  1%|          | 730/100000 [00:00<00:27, 3586.12it/s]

Epsilon = 0.8	 Alpha =0.0001
Reward = -0.0020148708674595124


100%|██████████| 100000/100000 [00:23<00:00, 4331.18it/s]
  0%|          | 270/100000 [00:00<00:36, 2698.95it/s]

Epsilon = 0.8	 Alpha =0.001
Reward = -0.013171777268768382


100%|██████████| 100000/100000 [00:22<00:00, 4419.21it/s]
  0%|          | 422/100000 [00:00<00:23, 4216.13it/s]

Epsilon = 0.8	 Alpha =0.01
Reward = -0.04011648116259256


100%|██████████| 100000/100000 [00:24<00:00, 4125.92it/s]
  0%|          | 340/100000 [00:00<00:29, 3396.67it/s]

Epsilon = 0.8	 Alpha =0.1
Reward = -0.04316217547521262


100%|██████████| 100000/100000 [00:29<00:00, 3338.79it/s]
  0%|          | 360/100000 [00:00<00:28, 3499.49it/s]

Epsilon = 0.85	 Alpha =0.0001
Reward = -0.0023732830064374746


100%|██████████| 100000/100000 [00:25<00:00, 3850.10it/s]
  0%|          | 443/100000 [00:00<00:22, 4427.66it/s]

Epsilon = 0.85	 Alpha =0.001
Reward = -0.015370651854945397


100%|██████████| 100000/100000 [00:24<00:00, 4008.18it/s]
  0%|          | 457/100000 [00:00<00:21, 4567.40it/s]

Epsilon = 0.85	 Alpha =0.01
Reward = -0.031203108419205688


100%|██████████| 100000/100000 [00:24<00:00, 4164.81it/s]
  0%|          | 320/100000 [00:00<00:31, 3197.03it/s]

Epsilon = 0.85	 Alpha =0.1
Reward = -0.04051959412288699


100%|██████████| 100000/100000 [00:26<00:00, 3834.99it/s]
  0%|          | 373/100000 [00:00<00:26, 3729.51it/s]

Epsilon = 0.9	 Alpha =0.0001
Reward = -0.0023187824731115453


100%|██████████| 100000/100000 [00:21<00:00, 4668.22it/s]
  0%|          | 324/100000 [00:00<00:30, 3239.65it/s]

Epsilon = 0.9	 Alpha =0.001
Reward = -0.016706156120547072


100%|██████████| 100000/100000 [00:20<00:00, 4829.99it/s]
  0%|          | 361/100000 [00:00<00:27, 3609.75it/s]

Epsilon = 0.9	 Alpha =0.01
Reward = -0.044879376479584995


100%|██████████| 100000/100000 [00:21<00:00, 4752.27it/s]
  0%|          | 183/100000 [00:00<00:54, 1829.91it/s]

Epsilon = 0.9	 Alpha =0.1
Reward = -0.028234280042845096


100%|██████████| 100000/100000 [00:24<00:00, 4008.79it/s]
  0%|          | 344/100000 [00:00<00:28, 3437.66it/s]

Epsilon = 0.95	 Alpha =0.0001
Reward = -0.002334805886648607


100%|██████████| 100000/100000 [00:24<00:00, 4070.30it/s]
  0%|          | 357/100000 [00:00<00:27, 3568.18it/s]

Epsilon = 0.95	 Alpha =0.001
Reward = -0.015837634110983028


100%|██████████| 100000/100000 [00:20<00:00, 4884.61it/s]
  0%|          | 344/100000 [00:00<00:29, 3435.29it/s]

Epsilon = 0.95	 Alpha =0.01
Reward = -0.04400344534301899


100%|██████████| 100000/100000 [00:20<00:00, 4893.76it/s]
  1%|          | 811/100000 [00:00<00:23, 4190.10it/s]

Epsilon = 0.95	 Alpha =0.1
Reward = -0.05215027256083667


100%|██████████| 100000/100000 [00:21<00:00, 4734.31it/s]
  0%|          | 329/100000 [00:00<00:30, 3289.89it/s]

Epsilon = 1.0	 Alpha =0.0001
Reward = -0.002390379332378679


100%|██████████| 100000/100000 [00:20<00:00, 4796.31it/s]
  0%|          | 140/100000 [00:00<01:11, 1389.76it/s]

Epsilon = 1.0	 Alpha =0.001
Reward = -0.01657265193507249


100%|██████████| 100000/100000 [00:28<00:00, 3458.95it/s]
  0%|          | 266/100000 [00:00<00:37, 2656.89it/s]

Epsilon = 1.0	 Alpha =0.01
Reward = -0.048771285156329065


100%|██████████| 100000/100000 [00:26<00:00, 3787.20it/s]

Epsilon = 1.0	 Alpha =0.1
Reward = -0.07538160439066714





## Часть вторая, удвоенная


В базовый блекджек, описанный в предыдущем разделе, обыграть казино вряд ли получится. Но, к счастью, на этом история не заканчивается. Описанные выше правила были упрощёнными, а на самом деле у игрока есть ещё и другие возможности. Реализовывать split может оказаться непросто, поэтому давайте ограничимся удвоением ставки. Итак, у игрока появляется дополнительное действие:

* double — удвоить ставку; при этом больше действий делать нельзя, игроку выдаётся ровно одна дополнительная карта, а выигрыш или проигрыш удваивается.
4. Реализуйте новый вариант блекджека на основе окружения Blackjack-v0 из OpenAI Gym, в котором разрешено удвоение ставки.
5. Реализуйте метод обучения с подкреплением без модели для этого варианта, постройте графики, аналогичные п.2.


In [8]:
import gym
from gym import spaces
from gym.utils import seeding

def cmp(a, b):
    return float(a > b) - float(a < b)

# 1 = Ace, 2-10 = Number cards, Jack/Queen/King = 10
deck = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 10, 10, 10]


def draw_card(np_random):
    return int(np_random.choice(deck))


def draw_hand(np_random):
    return [draw_card(np_random), draw_card(np_random)]


def usable_ace(hand):  # Does this hand have a usable ace?
    return 1 in hand and sum(hand) + 10 <= 21


def sum_hand(hand):  # Return current hand total
    if usable_ace(hand):
        return sum(hand) + 10
    return sum(hand)


def is_bust(hand):  # Is this hand a bust?
    return sum_hand(hand) > 21


def score(hand):  # What is the score of this hand (0 if bust)
    return 0 if is_bust(hand) else sum_hand(hand)


def is_natural(hand):  # Is this hand a natural blackjack?
    return sorted(hand) == [1, 10]


class BlackjackDoubleEnv(gym.Env):
    """Simple blackjack environment
    Blackjack is a card game where the goal is to obtain cards that sum to as
    near as possible to 21 without going over.  They're playing against a fixed
    dealer.
    Face cards (Jack, Queen, King) have point value 10.
    Aces can either count as 11 or 1, and it's called 'usable' at 11.
    This game is placed with an infinite deck (or with replacement).
    The game starts with dealer having one face up and one face down card, while
    player having two face up cards. (Virtually for all Blackjack games today).
    The player can request additional cards (hit=1) until they decide to stop
    (stick=0) or exceed 21 (bust).
    After the player sticks, the dealer reveals their facedown card, and draws
    until their sum is 17 or greater.  If the dealer goes bust the player wins.
    If neither player nor dealer busts, the outcome (win, lose, draw) is
    decided by whose sum is closer to 21.  The reward for winning is +1,
    drawing is 0, and losing is -1.
    The observation of a 3-tuple of: the players current sum,
    the dealer's one showing card (1-10 where 1 is ace),
    and whether or not the player holds a usable ace (0 or 1).
    This environment corresponds to the version of the blackjack problem
    described in Example 5.1 in Reinforcement Learning: An Introduction
    by Sutton and Barto.
    http://incompleteideas.net/book/the-book-2nd.html
    """
    def __init__(self, natural=False):
        self.action_space = spaces.Discrete(2)
        self.observation_space = spaces.Tuple((
            spaces.Discrete(32),
            spaces.Discrete(11),
            spaces.Discrete(2)))
        self.seed()

        # Flag to payout 1.5 on a "natural" blackjack win, like casino rules
        # Ref: http://www.bicyclecards.com/how-to-play/blackjack/
        self.natural = natural
        # Start the first game
        self.reset()

    def seed(self, seed=None):
        self.np_random, seed = seeding.np_random(seed)
        return [seed]

    def step(self, action):
        if action == 1:  # hit: add a card to players hand and return
            self.player.append(draw_card(self.np_random))
            if is_bust(self.player):
                done = True
                reward = -1.
            else:
                done = False
                reward = 0.
        elif action == 0:  # stick: play out the dealers hand, and score
            done = True
            while sum_hand(self.dealer) < 17:
                self.dealer.append(draw_card(self.np_random))
            reward = cmp(score(self.player), score(self.dealer))
            if self.natural and is_natural(self.player) and reward == 1.:
                reward = 1.5
        elif action == 2:
            self.player.append(draw_card(self.np_random))
            done = True
            while sum_hand(self.dealer) < 17:
                self.dealer.append(draw_card(self.np_random))
            reward = cmp(score(self.player), score(self.dealer))
            if self.natural and is_natural(self.player) and reward == 1.:
                reward = 1.5
            reward *= 2
        return self._get_obs(), reward, done, {}

    def _get_obs(self):
        return (sum_hand(self.player), self.dealer[0], usable_ace(self.player))

    def reset(self):
        self.dealer = draw_hand(self.np_random)
        self.player = draw_hand(self.np_random)
        return self._get_obs()

In [9]:
double_env = BlackjackDoubleEnv()

In [10]:
def get_probs(Q_s, epsilon):
    policy_s = np.ones(3) * epsilon / 3
    best_a = np.argmax(Q_s)
    policy_s[best_a] = 1 - epsilon + (epsilon / 3)
    return policy_s


def update_Q(env, episode, Q, alpha, gamma):
    for s, a, r in episode:
        first_occurence_idx = next(i for i,x in enumerate(episode) if x[0] == s)
        G = sum([x[2]*(gamma**i) for i,x in enumerate(episode[first_occurence_idx:])])
        Q[s][a] = Q[s][a] + alpha*(G - Q[s][a])
    
    return Q

def play_game(env, Q, epsilon):
    episode = []
    state = env.reset()
    done = 0
    while not done:
        probs = get_probs(Q[state], epsilon)
        action = np.random.choice(np.arange(3), p=probs) \
                                    if state in Q else env.action_space.sample()
        next_state, reward, done, info = env.step(action)
        episode.append((state, action, reward))
        state = next_state

    return episode

In [11]:
def mc_control(env, num_episodes, epsilon = 1.0, alpha = 0.001, gamma = 1.0):
    Q = defaultdict(lambda: np.zeros(3))
    
    for i_episode in tqdm(range(0, num_episodes)):
        episode = play_game(env, Q, epsilon)
        Q = update_Q(env, episode, Q, alpha, gamma)
    
    return Q

In [14]:
eps = [0.7, 0.8, 0.85, 0.9, 0.95, 1.0]
alph = [0.0001, 0.001, 0.01, 0.1]
for i in eps:
    for j in alph:
        Q = mc_control(double_env, 100000, epsilon=i, alpha=j)
        print(f"Epsilon = {i}\t Alpha ={j}\nReward = {np.mean(list(np.max(v) for k, v in Q.items()))}")

100%|██████████| 100000/100000 [00:20<00:00, 4813.77it/s]
  0%|          | 350/100000 [00:00<00:28, 3496.49it/s]

Epsilon = 0.7	 Alpha =0.0001
Reward = -0.00021582405037602286


100%|██████████| 100000/100000 [00:19<00:00, 5055.97it/s]
  0%|          | 349/100000 [00:00<00:28, 3479.05it/s]

Epsilon = 0.7	 Alpha =0.001
Reward = -0.001544441806075449


100%|██████████| 100000/100000 [00:20<00:00, 4991.52it/s]
  0%|          | 496/100000 [00:00<00:20, 4941.07it/s]

Epsilon = 0.7	 Alpha =0.01
Reward = 0.02543871640514988


100%|██████████| 100000/100000 [00:20<00:00, 4992.67it/s]
  1%|          | 813/100000 [00:00<00:26, 3745.92it/s]

Epsilon = 0.7	 Alpha =0.1
Reward = 0.052975830483178096


100%|██████████| 100000/100000 [00:20<00:00, 4934.45it/s]
  0%|          | 388/100000 [00:00<00:25, 3869.28it/s]

Epsilon = 0.8	 Alpha =0.0001
Reward = -0.0005373318950394633


100%|██████████| 100000/100000 [00:24<00:00, 4139.98it/s]
  0%|          | 408/100000 [00:00<00:24, 4078.40it/s]

Epsilon = 0.8	 Alpha =0.001
Reward = -0.001555726977560458


100%|██████████| 100000/100000 [00:27<00:00, 3577.33it/s]
  1%|          | 581/100000 [00:00<00:38, 2597.81it/s]

Epsilon = 0.8	 Alpha =0.01
Reward = 0.019207189684852854


100%|██████████| 100000/100000 [00:25<00:00, 3955.14it/s]
  0%|          | 385/100000 [00:00<00:25, 3846.93it/s]

Epsilon = 0.8	 Alpha =0.1
Reward = 0.0701452376230715


100%|██████████| 100000/100000 [00:21<00:00, 4600.81it/s]
  1%|          | 746/100000 [00:00<00:25, 3828.18it/s]

Epsilon = 0.85	 Alpha =0.0001
Reward = -0.0007963688659419395


100%|██████████| 100000/100000 [00:20<00:00, 4945.80it/s]
  0%|          | 386/100000 [00:00<00:25, 3856.14it/s]

Epsilon = 0.85	 Alpha =0.001
Reward = -0.0028595616748872976


100%|██████████| 100000/100000 [00:19<00:00, 5127.26it/s]
  1%|          | 881/100000 [00:00<00:25, 3838.28it/s]

Epsilon = 0.85	 Alpha =0.01
Reward = 0.015429982930300202


100%|██████████| 100000/100000 [00:19<00:00, 5019.36it/s]
  1%|          | 925/100000 [00:00<00:22, 4431.68it/s]

Epsilon = 0.85	 Alpha =0.1
Reward = 0.10237091930565612


100%|██████████| 100000/100000 [00:20<00:00, 4900.33it/s]
  1%|          | 885/100000 [00:00<00:22, 4335.26it/s]

Epsilon = 0.9	 Alpha =0.0001
Reward = -0.0008206738380557489


100%|██████████| 100000/100000 [00:19<00:00, 5070.95it/s]
  0%|          | 367/100000 [00:00<00:27, 3664.84it/s]

Epsilon = 0.9	 Alpha =0.001
Reward = -0.004056941002541495


100%|██████████| 100000/100000 [00:20<00:00, 4979.22it/s]
  0%|          | 403/100000 [00:00<00:24, 4028.84it/s]

Epsilon = 0.9	 Alpha =0.01
Reward = 0.01203994948647839


100%|██████████| 100000/100000 [00:21<00:00, 4571.83it/s]
  0%|          | 302/100000 [00:00<00:33, 3018.88it/s]

Epsilon = 0.9	 Alpha =0.1
Reward = 0.09909442022280256


100%|██████████| 100000/100000 [00:22<00:00, 4370.94it/s]
  0%|          | 366/100000 [00:00<00:27, 3658.42it/s]

Epsilon = 0.95	 Alpha =0.0001
Reward = -0.000609794877598562


100%|██████████| 100000/100000 [00:20<00:00, 4847.08it/s]
  0%|          | 293/100000 [00:00<00:34, 2929.62it/s]

Epsilon = 0.95	 Alpha =0.001
Reward = -0.004341756944017241


100%|██████████| 100000/100000 [00:21<00:00, 4740.02it/s]
  0%|          | 366/100000 [00:00<00:27, 3653.51it/s]

Epsilon = 0.95	 Alpha =0.01
Reward = 0.011515571556055966


100%|██████████| 100000/100000 [00:20<00:00, 4774.16it/s]
  0%|          | 403/100000 [00:00<00:24, 4025.37it/s]

Epsilon = 0.95	 Alpha =0.1
Reward = 0.07247711461626052


100%|██████████| 100000/100000 [00:20<00:00, 4977.55it/s]
  0%|          | 462/100000 [00:00<00:21, 4618.79it/s]

Epsilon = 1.0	 Alpha =0.0001
Reward = -0.0006825074795277032


100%|██████████| 100000/100000 [00:20<00:00, 4940.98it/s]
  0%|          | 386/100000 [00:00<00:25, 3846.88it/s]

Epsilon = 1.0	 Alpha =0.001
Reward = -0.005369861550728268


100%|██████████| 100000/100000 [00:20<00:00, 4939.48it/s]
  0%|          | 456/100000 [00:00<00:21, 4559.68it/s]

Epsilon = 1.0	 Alpha =0.01
Reward = 0.005518438091750532


100%|██████████| 100000/100000 [00:19<00:00, 5087.85it/s]

Epsilon = 1.0	 Alpha =0.1
Reward = 0.0844147848265624





## Часть третья, в главной роли — Дастин Хоффман


А теперь давайте вспомним, как играют в блекджек настоящие профессионалы. Дело в том, что в оффлайн-казино обычно не перемешивают колоду после каждой раздачи — это слишком замедляло бы игру. После раздачи карты просто раздаются дальше с верха колоды до тех пор, пока карт не останется слишком мало, и только тогда колода перемешивается; давайте для определённости считать, что наше казино будет перемешивать колоду, в которой осталось меньше 15 карт.

Действительно, если вы будете запоминать, какие карты уже вышли, у вас будет информация о том, какие карты ещё остались, а это позволяет лучше понять, когда нужно удваивать ставку или делать split, а когда лучше не стоит. В настоящем казино могут раздавать карты сразу из нескольких колод, и заслуга Rain Man’а была в том, что он смог считать карты в шести колодах одновременно. Но мы с вами вооружены компьютерами, так что подсчёт можно считать автоматическим.


6. Реализуйте вариант окружения Blackjack-v0 из предыдущей части (с удвоением), в котором игрок имеет возможность “считать карты” в колоде. Это можно сделать разными способами; возможно, вам поможет статья википедии о блекджеке (а возможно, и нет).
7. Реализуйте метод обучения с подкреплением без модели для этого варианта, постройте графики, аналогичные п.2.


Так и не смог, не успел(

## Часть четвёртая, опциональная

Ну и напоследок ещё парочка опциональных заданий за дополнительные баллы.

8. Реализуйте поиск стратегии в блекджеке с известной моделью из первой части, решив уравнения Беллмана для V* или Q*. Для этого вам придётся сначала оценить параметры модели, т.е. вероятности переходов между состояниями.
9. Реализуйте вариант из второй или третьей части, в котором есть ещё возможность делать split: в случае, когда игроку пришли две одинаковые карты, он может разбить руку на две, внести ещё одну ставку и продолжать играть две руки сразу (как будто за двоих игроков). Скорее всего, обыграть казино получится только в варианте с разрешённым split’ом и подсчётом карт; если получится, это будет отличное завершение проекта!
