# 1.1.1強化学習の考え方

In [72]:
import numpy as np
import pandas as pd

## キーワード

* エージェント(agent)
* 環境(environment)
* 行動(action)
* 状態(state)
* 報酬(reward)
* 損失(loss)
* 方策(policy)
* 収益(return, income)
* 割引(discount)
* 価値(value)
* 探索(exploration)

強化学習問題とは、対象について不完全な知識しかなく、対象へのはたらきかけによって観測できることが代わってくる場合に、最適なはたらきかけ方の系列を発見するような問題である

行動する主体をエージェント(agent)とよび、はたらきかける対象を環境(enviroment)とよぶ

例えばの話だけど、旅行中たまたま運が悪く遭難してしまい、無人島に流れ着いた人になったとします。そこでは何があるかどこに行けばいいのか全くわからない。え、お家帰りたい。とりあえず喉乾いたけど、水はどこにあるの？死にそう

こういう状況において、どのように行動すれば良いのか考えなければいけません。

* 歩きまわる
* 色々なものの匂いをかいでみる
* 食べてみる

など、環境へはたらきかけを通して、探索しながら生き延びる方法を探さなければならない。
これが強化学習の一例です。
この例では、流れ着いた自分（人）がエージェントであり、流れ着いた無人島周囲が環境となります。

エージェントが環境に行うはたらきかけを行動とよびます。エージェントがとる行動によって、その後に何が起きるかかわってきます。歩き続けていると日が暮れるし、木から果実を取ると、そこから果実はなくなります。このように、エージェントが行動することで変化する環境の要素を状態とよびます。

# 1.1.2 多腕バンディット問題

## キーワード

* greedyアルゴリズム
* ε（イプシロン）-greedy

>1895年にアメリカの技師フェイCharles Feyが製作した〈リバティ･ベル〉が最初とされ，20世紀に入ると各地の賭博場に普及した。レバーが1本なので，別称をone‐armed bandit(隻腕の悪党)という

スロットマシーンのことで、コインを入れて腕を引くと、スロットマシーンの表示が変化し、確率的に当たりがでることにより賭けた額の何倍かが払い戻される。ギャンブルしたことがある人はなんとなくわかるはず。

 腕が$K$本あるスロットマシン（->多腕バンディット）を考えます。簡単な数式で表してみましょう。

*  腕が$K$本ある
* 払い戻される額を$R$
* 腕$i$($i = 1, ..., K)$を引いた場合のあたりが出る確率を$p_k$とする
* 簡単に考えたいので、スロットマシンの状態は変化しない

目的として、腕の選び方を通して、多数回の試行で得られる払戻額の和を最大化することである

確率$p_k$が既知なら、腕$k$を引いた場合の払戻額の期待値が$Rp_k$であるので、プレイヤーの最適な戦略は、$R$と$p_k$の積が最大になる腕$k$を選び続けることになる。

[期待値って何？](./99.数学のおさらい箱.ipynb#期待値)

まあでも、そんなことできたらパチンコ屋は破産しまうので、確率はわからないのです。

## greedyアルゴリズム

貪欲法。これまでの結果から期待値が最大の腕を選択するというもの。最初、情報はないため、数回探索を行い、期待値を見積もる。

$$
\mu_{i} = \frac{これまで腕iから得られた報酬の和}{これまで腕iをプレイした回数}
$$


例えば、各腕を$n$回ずつ引いたのちに、greedyアルゴリズムを行う。じゃあどの程度情報収集をすれば良いだろうか？
試行回数$n$を増やせば増やすほど、より正確な期待値を見積もることができるはず。しかし、何度も賭けを行うということは得られる払い戻し額は減ることになる。少ない探索で最適な腕を見つけることができれば、多くの払い戻し額を得ることができるはず。これは探索のコストと考えることができる。

In [1047]:
from copy import copy


def multi_armed_bandit(policy, n=5, pk=[0.6, 0.4]):
    """
    多腕バンディットアルゴリズム
    arms_p: list 腕Kの確率
    """
    r_label = [-1, 1]  # 腕を引いたときの結果　-1 -> 負, 1 -> 勝
    K = range(len(pk))  # 経験をためるため試行する
    reward_by_arms = [0 for _ in K]  # 腕毎の報酬の和
    n_win = copy(reward_by_arms)  # 勝ちの回数を取っておく
    results_table = []

    for _ in range(n):
        # 腕を選択する
        # 1. Aがでたら次はBを選択する
        # 2. muで一番報酬が良い腕を選択する
        selected_arm = policy.select()
        
        # 選択した腕の払い戻し確率を選択する
        p = pk[selected_arm]
        
        #　腕を引いた結果を取得する
        # p=[]は、0番目に0.7といれると、70%の確率で0番目を選択するようになる
        # 全部足すと１にしないといけない
        reward = np.random.choice(r_label, p=[1 - p, p])

        # 試行の結果（報酬）を足し合わせる
        reward_by_arms[selected_arm] += reward
        n_win[selected_arm] += 1 if reward > 0 else 0
        results_table.append([selected_arm, reward])
    
    return reward_by_arms, n_win, results_table


def to_df(results):
    return pd.DataFrame(results, columns=['選択した腕', '結果'])


def export_results(n, mu, n_win, results):
    # 一番結果の良い腕を選択する
    # 同じ勝率の場合はどっちを選んでも良いものとする
    for index, v in enumerate(mu):
        m = (n_win[index] / n) * 100
        print('{}番目の腕, 勝率:{:.1f}%, 財布の中:{}円'.format(index, m, v))


def play_multi_armed_bandit(policy, n=10, pk=[0.6, 0.4]):
    reward_by_arms, n_win, results_table = multi_armed_bandit(policy, n=n, pk=pk)
    export_results(n, reward_by_arms, n_win, results_table)
    print('良い腕:{}'.format(np.argmax(n_win)))
    return to_df(results_table)


class Policy():
    def select(self):
        raise NotImplementedError()


class MustBeZero(Policy):
    def select(self):
        return 0


class EarnExperience(Policy):
    def __init__(self, pk):
        self.choice_index = 0
        self.last_index = len(pk)
        
    def select(self):
        choice = self.choice_index
        self.choice_index += 1
        if self.choice_index >= self.last_index:
            self.choice_index = 0

        return choice

    
class Greedy(Policy):
    def __init__(self, mu, n):
        self.best_arm = np.argmax(np.mean(mu, axis=0))
        
    def select(self):
        return self.best_arm


policy = MustBeZero()
results_table = play_multi_armed_bandit(policy)
results_table

0番目の腕, 勝率:70.0%, 財布の中:4円
1番目の腕, 勝率:0.0%, 財布の中:0円
良い腕:0


Unnamed: 0,選択した腕,結果
0,0,1
1,0,-1
2,0,1
3,0,1
4,0,1
5,0,-1
6,0,-1
7,0,1
8,0,1
9,0,1


経験をためてみてみる

In [1048]:
pk = [0.6, 0.4]
policy = EarnExperience(pk)
results_table = play_multi_armed_bandit(policy, n=6, pk=pk)
results_table

0番目の腕, 勝率:16.7%, 財布の中:-1円
1番目の腕, 勝率:16.7%, 財布の中:-1円
良い腕:0


Unnamed: 0,選択した腕,結果
0,0,-1
1,1,-1
2,0,1
3,1,1
4,0,-1
5,1,-1


0番目が良さそう。となる

In [1049]:
def grouping(df):
    return df[df['結果'] > 0].groupby(['選択した腕'])[['結果']].count()

def random_pk():
    x = np.random.random_sample()
    return [x, 1 - x]

In [1056]:
pk = random_pk()
policy = EarnExperience(pk)
results_table = play_multi_armed_bandit(policy, n=6, pk=pk)
grouping(results_table)
print('{0[0]:.2f},{0[1]:.2f}'.format(pk))

0番目の腕, 勝率:16.7%, 財布の中:-1円
1番目の腕, 勝率:33.3%, 財布の中:1円
良い腕:1
0.25,0.75


In [1076]:
pk = random_pk()
policy = EarnExperience(pk)
results_table = play_multi_armed_bandit(policy, n=100, pk=pk)
grouping(results_table)
print('{0[0]:.2f},{0[1]:.2f}'.format(pk))

0番目の腕, 勝率:48.0%, 財布の中:46円
1番目の腕, 勝率:3.0%, 財布の中:-44円
良い腕:0
0.94,0.06


In [1097]:
pk = random_pk()
policy = EarnExperience(pk)
results_table = play_multi_armed_bandit(policy, n=1000, pk=pk)
grouping(results_table)
print('{0[0]:.2f},{0[1]:.2f}'.format(pk))

0番目の腕, 勝率:46.7%, 財布の中:434円
1番目の腕, 勝率:3.5%, 財布の中:-430円
良い腕:0
0.93,0.07


In [617]:
grouping(multi_armed_bandit(n=100, arms_p=[0.6, 0.4])[1])

0番目の腕, 勝率:62.0%, 財布の中:24円
1番目の腕, 勝率:39.0%, 財布の中:-22円


Unnamed: 0_level_0,結果
選択した腕,Unnamed: 1_level_1
0,62
1,39


In [618]:
grouping(multi_armed_bandit(n=1000, arms_p=[0.6, 0.4])[1])

0番目の腕, 勝率:60.2%, 財布の中:204円
1番目の腕, 勝率:37.8%, 財布の中:-244円


Unnamed: 0_level_0,結果
選択した腕,Unnamed: 1_level_1
0,602
1,378


In [619]:
grouping(multi_armed_bandit(n=10000, arms_p=[0.6, 0.4])[1])

0番目の腕, 勝率:60.5%, 財布の中:2096円
1番目の腕, 勝率:39.6%, 財布の中:-2074円


Unnamed: 0_level_0,結果
選択した腕,Unnamed: 1_level_1
0,6048
1,3963


100回ぐらいからAが勝てそうとわかる

一方、試行回数nが少ない場合、期待値の分散が大きくなるため、誤って最適ではない腕を選択してしまう可能性が増える.

このとき間違いそうなパターンは２種類ある.

### 払戻率を大きい側に誤認した場合

In [758]:
best_arm, df = multi_armed_bandit(n=3, arms_p=[0.6, 0.4])
df

0番目の腕, 勝率:33.3%, 財布の中:-1円
1番目の腕, 勝率:100.0%, 財布の中:3円


Unnamed: 0,選択した腕,結果
0,0,-1
1,1,1
2,0,1
3,1,1
4,0,-1
5,1,1


3回試したとき、たまたま1番目の腕のほうが良い結果になった  

100%！！ほんじゃ1番目をずっと実行しよう
が、しかし

In [764]:
grouping(multi_armed_bandit(n=100, arms_p=[0.6, 0.4])[1])

0番目の腕, 勝率:62.0%, 財布の中:24円
1番目の腕, 勝率:39.0%, 財布の中:-22円


Unnamed: 0_level_0,結果
選択した腕,Unnamed: 1_level_1
0,62
1,39


試行を続けると、Cのほうが大きくなってきた -> もしかしたらCのほうがいいのでは・・・？ -> （誤った学習からの脱出）

### 払戻率を小さい側に誤認した場合