# 1.1.1強化学習の考え方

## キーワード

* エージェント(agent)
* 環境(environment)
* 行動(action)
* 状態(state)
* 報酬(reward)
* 損失(loss)
* 方策(policy)
* 収益(return, income)
* 割引(discount)
* 価値(value)
* 探索(exploration)

強化学習問題とは、対象について不完全な知識しかなく、対象へのはたらきかけによって観測できることが代わってくる場合に、最適なはたらきかけ方の系列を発見するような問題である

行動する主体をエージェント(agent)とよび、はたらきかける対象を環境(enviroment)とよぶ

例えばの話だけど、旅行中たまたま運が悪く遭難してしまい、無人島に流れ着いた人になったとします。そこでは何があるかどこに行けばいいのか全くわからない。え、お家帰りたい。とりあえず喉乾いたけど、水はどこにあるの？死にそう

こういう状況において、どのように行動すれば良いのか考えなければいけません。

* 歩きまわる
* 色々なものの匂いをかいでみる
* 食べてみる

など、環境へはたらきかけを通して、探索しながら生き延びる方法を探さなければならない。
これが強化学習の一例です。
この例では、流れ着いた自分（人）がエージェントであり、流れ着いた無人島周囲が環境となります。

エージェントが環境に行うはたらきかけを行動とよびます。エージェントがとる行動によって、その後に何が起きるかかわってきます。歩き続けていると日が暮れるし、木から果実を取ると、そこから果実はなくなります。このように、エージェントが行動することで変化する環境の要素を状態とよびます。

# 1.1.2 多腕バンディット問題

## キーワード

* greedyアルゴリズム
* ε（イプシロン）-greedy

>1895年にアメリカの技師フェイCharles Feyが製作した〈リバティ･ベル〉が最初とされ，20世紀に入ると各地の賭博場に普及した。レバーが1本なので，別称をone‐armed bandit(隻腕の悪党)という

スロットマシーンのことで、コインを入れて腕を引くと、スロットマシーンの表示が変化し、確率的に当たりがでることにより賭けた額の何倍かが払い戻される。ギャンブルしたことがある人はなんとなくわかるはず。

 腕が$K$本あるスロットマシン（->多腕バンディット）を考えます。簡単な数式で表してみましょう。

*  腕が$K$本ある
* 払い戻される額を$R$
* 腕$i$($i = 1, ..., K)$を引いた場合のあたりが出る確率を$p_k$とする
* 簡単に考えたいので、スロットマシンの状態は変化しない

目的として、腕の選び方を通して、多数回の試行で得られる払戻額の和を最大化することである

確率$p_k$が既知なら、腕$k$を引いた場合の払戻額の期待値が$Rp_k$であるので、プレイヤーの最適な戦略は、$R$と$p_k$の積が最大になる腕$k$を選び続けることになる。

[期待値って何？](./99.数学のおさらい箱.ipynb#期待値)

まあでも、そんなことできたらパチンコ屋は破産しまうので、確率はわからないのです。

## greedyアルゴリズム

貪欲法。これまでの結果から期待値が最大の腕を選択するというもの。最初、情報はないため、数回探索を行い、期待値を見積もる。

$$
\mu_{i} = \frac{これまで腕iから得られた報酬の和}{これまで腕iをプレイした回数}
$$


例えば、各腕を$n$回ずつ引いたのちに、greedyアルゴリズムを行う。じゃあどの程度情報収集をすれば良いだろうか？
試行回数$n$を増やせば増やすほど、より正確な期待値を見積もることができるはず。しかし、何度も賭けを行うということは得られる払い戻し額は減ることになる。少ない探索で最適な腕を見つけることができれば、多くの払い戻し額を得ることができるはず。これは探索のコストと考えることができる。

In [2]:
import numpy as np
import pandas as pd

class MultiArmedBundit():
    
    def __init__(self, pk=[], policy=None, warmup=0):
        # 腕ごとの確率を指定しないならランダムで出力
        K = len(pk)
        if K == 0:
            K = np.random.randint(2, 5)
            self.pk = np.random.sample(K,)
        else:
            self.pk = pk
        
        print('確率: {}'.format(self.pk))

        # 腕を引いたときの結果　0 -> 負, 1 -> 勝
        self.rewards = [0, 1]
        
        # 腕を選択するアルゴリズム
        assert policy is not None, 'Error'
        self.policy = policy
        
        # [[0番目の腕, 報酬], ...]
        self.score_board = []
        
        # [腕ごとのトータル報酬, 腕ごとに選択した数]
        self.total_reward_count = [[0, 0] for _ in range(K)]
        
        self.score_board_df = None

        if warmup > 0:
            # greedyアルゴリズムは腕ごとにn回の試行が必要なのでこんな処理
            for selected_arm in range(K):
                self.play(warmup, selected_arm=selected_arm, use_policy=False)
        
            self.export(self.score_board)

    def play(self, n, selected_arm=0, use_policy=True):
        """
        多腕バンディットのゲーム
        arms_p: list 腕Kの確率
        """
        for _ in range(n):
            # 腕を選択する
            if use_policy:
                mu = [tr / (tc + 1e-5) for tr, tc in self.total_reward_count]
                selected_arm = self.policy.select(mu)

            # 選択した腕の払い戻し確率を選択する
            p = self.pk[selected_arm]

            #　腕を引いた結果を取得する
            # p=[]は、0番目に0.7といれると、70%の確率で0番目を選択するようになる
            # 全部足すと１にしないといけない
            reward = np.random.choice(self.rewards, p=[1 - p, p])

            self.score_board.append([selected_arm, reward])
            self.total_reward_count[selected_arm][0] += reward
            self.total_reward_count[selected_arm][1] += 1

        return self.score_board
    
    def export(self, score_board):
        score_board_df = pd.DataFrame(score_board, columns=['選択した腕', '結果'])
        mu = score_board_df.groupby(['選択した腕'])['結果'].mean().tolist()
        for index, v in enumerate(mu):
            print('{}番目の腕, 勝率:{:.2%}'.format(index, v))
        
        self.score_board_df = score_board_df


class Policy():
    def select(self):
        raise NotImplementedError()

class Greedy(Policy):
    def select(self, mu):
        return np.argmax(mu)

In [3]:
# 動作テスト
policy = Greedy()
game = MultiArmedBundit(policy=policy, warmup=5)
score_board = game.play(n=5)
game.export(score_board)

確率: [ 0.81132439  0.90577762]
0番目の腕, 勝率:100.00%
1番目の腕, 勝率:80.00%
0番目の腕, 勝率:90.00%
1番目の腕, 勝率:80.00%


In [4]:
pk = [0.6, 0.4]
policy = Greedy()
game = MultiArmedBundit(pk=pk, policy=policy, warmup=5)
score_board = game.play(n=5)
game.export(score_board)

確率: [0.6, 0.4]
0番目の腕, 勝率:80.00%
1番目の腕, 勝率:60.00%
0番目の腕, 勝率:66.67%
1番目の腕, 勝率:50.00%


In [5]:
pk = [0.6, 0.4]
policy = Greedy()
game = MultiArmedBundit(pk=pk, policy=policy, warmup=5)
score_board = game.play(n=100)
game.export(score_board)

確率: [0.6, 0.4]
0番目の腕, 勝率:60.00%
1番目の腕, 勝率:40.00%
0番目の腕, 勝率:58.10%
1番目の腕, 勝率:40.00%


In [6]:
pk = [0.6, 0.4]
policy = Greedy()
game = MultiArmedBundit(pk=pk, policy=policy, warmup=5)
score_board = game.play(n=1000)
game.export(score_board)

確率: [0.6, 0.4]
0番目の腕, 勝率:60.00%
1番目の腕, 勝率:20.00%
0番目の腕, 勝率:58.91%
1番目の腕, 勝率:20.00%


In [7]:
pk = [0.6, 0.4]
policy = Greedy()
game = MultiArmedBundit(pk=pk, policy=policy, warmup=5)
score_board = game.play(n=10000)
game.export(score_board)

確率: [0.6, 0.4]
0番目の腕, 勝率:60.00%
1番目の腕, 勝率:20.00%
0番目の腕, 勝率:59.54%
1番目の腕, 勝率:20.00%


100回ぐらいから0番目の腕が勝てそうとわかる

一方、試行回数nが少ない場合、期待値の分散が大きくなるため、誤って最適ではない腕を選択してしまう可能性が増える.

このとき間違いそうなパターンは２種類ある.

### 払戻率を大きい側に誤認した場合

In [8]:
pk = [0.6, 0.4]
policy = Greedy()
game = MultiArmedBundit(pk=pk, policy=policy, warmup=3)
game.score_board_df

確率: [0.6, 0.4]
0番目の腕, 勝率:66.67%
1番目の腕, 勝率:66.67%


Unnamed: 0,選択した腕,結果
0,0,1
1,0,0
2,0,1
3,1,1
4,1,0
5,1,1


3回試したとき、たまたま1番目の腕のほうが良い結果になった  

ほんじゃ1番目をずっと実行しよう
が、しかし

In [9]:
score_board = game.play(n=20)
game.export(score_board)
game.score_board_df

0番目の腕, 勝率:63.64%
1番目の腕, 勝率:50.00%


Unnamed: 0,選択した腕,結果
0,0,1
1,0,0
2,0,1
3,1,1
4,1,0
5,1,1
6,0,1
7,0,0
8,1,0
9,0,1


1番目を選択しよう（誤った学習からの脱出）

### 払戻率を小さい側に誤認した場合

In [10]:
pk = [0.6, 0.4]
policy = Greedy()
game = MultiArmedBundit(pk=pk, policy=policy, warmup=3)
game.score_board_df

確率: [0.6, 0.4]
0番目の腕, 勝率:33.33%
1番目の腕, 勝率:66.67%


Unnamed: 0,選択した腕,結果
0,0,0
1,0,0
2,0,1
3,1,0
4,1,1
5,1,1


たまたま、0番目より1番目のほうが悪い結果になった
よし、0番目を選択しよう

In [11]:
score_board = game.play(n=30)
game.export(score_board)
game.score_board_df

0番目の腕, 勝率:33.33%
1番目の腕, 勝率:36.36%


Unnamed: 0,選択した腕,結果
0,0,0
1,0,0
2,0,1
3,1,0
4,1,1
5,1,1
6,1,0
7,1,1
8,1,0
9,1,1


1番目を選択しよう（局所解への落ち込み）

## ε-greedyアルゴリズム

最初にしてから利用する、ではリスクをゼロにすることができない。また、最初にすべて探索しようとすると多くのコストがかかる。じゃあ探索と利用を混ぜようじゃないかというのが、ε-greedy（いぷしろんぐりーでぃー）アルゴリズムである。  

* まだ選んでいない腕がある場合、その腕から１つ選ぶ
* 確率εですべての腕からランダムに１つ選ぶ
* 確率1-εで、これまでの報酬の平均$\mu_i$が最大の腕を選択する（greedyアルゴリズム）
* 0 ≦ ε ≦ 1

In [12]:
class EpsGreedy(Policy):
    def __init__(self, eps=0.1):
        self.eps = eps

    def select(self, mu):
        # ランダムで出した値よりepsのほうが大きいなら
        # ランダムに腕を選択する
        if np.random.uniform() < self.eps: 
            return np.random.choice([i for i in range(len(mu))])
        
        # greedy
        return np.argmax(mu)


pk = [0.6, 0.4]
policy = EpsGreedy(eps=0.3)
game = MultiArmedBundit(pk=pk, policy=policy)
score_board = game.play(n=100)
game.export(score_board)

確率: [0.6, 0.4]
0番目の腕, 勝率:60.23%
1番目の腕, 勝率:25.00%
