# **N腕バンディット問題**

事前に当たりの確率が設定されたスロットマシンがN台並んでいる。
ただし、**ユーザ（エージェント）はその確率を事前に知らない。**

エージェントは、1回の試行で1つのスロットマシン i を選んで引く。

スロットマシンを1回引くと、事前に定義された確率p_iに基づき、「当たり(=1)」または「外れ(=0)」という形で**報酬**が与えられる(ベルヌーイ試行)。

エージェントは、試行回数あたりの平均報酬を最大化したい。砕けた言い方をすると、スロットで出来るだけ多くの当たりを引きたい（しかし、前述のとおり、エージェントは各スロットが当たりを出す確率を知らない）。

In [0]:
import random
import numpy as np

#seedを指定して乱数を取得
random.seed(0)

#0から4までの5つのスロットのうち、ランダムで選択した1つを番号で返す
def random_select():
  slot_num = random.randint(0,4)
  return slot_num

print(random_select())
  

3


# **環境**
N腕バンディット問題では、（強化学習における）**環境**とは次のことを意味する。

**エージェントがスロットを引き、スロットが事前に設定された確率に基づき、報酬（「当たり」または「外れ」）を出すという、プロセス**である。

In [39]:
#指定したスロットを1回引き結果を返す(環境)
def environments(band_number):
  
  #乱数のseedを固定する
  np.random.seed(0)
  
  #各スロットが当たりを出す確率を配列に格納
  coins_p = np.array([0.3, 0.4, 0.5, 0.6, 0.7])
  
  #各スロットを1回引いた結果を計算(結果は二項分布に従う)
  results = np.random.binomial(1, coins_p)
  print(results)
  
  #引数で指定したスロットの結果を返す
  result = results[band_number]
  return result

print(environments(random_select()))

[0 1 1 1 1]
1


# **報酬**

N腕バンディット問題では、（強化学習における）**報酬**とは次のことを意味する。

**スロットから得られる結果（「当たり」または「外れ」）そのもの**である。

In [42]:
times = 1000  #試行回数
record = np.zeros(times) #各試行における報酬

#各スロットの報酬に関するデータテーブル、属性は次の通り
#[スロット番号, 選択回数, 報酬合計, 報酬合計/選択回数]
results = [[0,0,0,0], 
           [1,0,0,0],
           [2,0,0,0],
           [3,0,0,0],
           [4,0,0,0]]


#ある試行回数目におけるスロットの結果を返す（報酬）
def reward(record, results, slot_num, time):
  
  #指定したスロットの結果を取得する
  result = environments(slot_num)
  
  #指定した試行回数目における報酬を更新
  record[time-1] = result
  print(result)
  
  #指定したスロットの報酬に関するデータテーブルを更新
  results[slot_num][1] += 1      #選択回数を1増やす
  results[slot_num][2] += result #報酬合計を更新
  results[slot_num][3] = results[slot_num][2]/results[slot_num][1] #報酬合計/選択回数を更新
  
  return results, record


slot_num = 1  #スロット1を選択
time = 1000   #試行回数として1000回目を選択

results, record = reward(record, results, slot_num, time) #報酬配列とスロットのデータテーブルを更新
print(results)
  
  

[0 1 1 1 1]
1
[[0, 0, 0, 0], [1, 1, 1, 1.0], [2, 0, 0, 0], [3, 0, 0, 0], [4, 0, 0, 0]]
