# NICO2AI Lecture11 Reinforcement Learning I Exercise

## OpenAI Gym
- website https://gym.openai.com/

OpenAI GymはOpenAIより提供されているAI向けの学習環境です．たくさんのタスクが提供されています．[ここ](https://gym.openai.com/envs)から環境一覧を見ることができます．

### 多腕バンディット
OpenAI Gymは有志によるタスクの追加が可能になっています．ここではサードパーティより提供されている多腕バンディットの環境を使用します．この環境の強化学習設定は

- 状態: なし（毎回同じ）
- 報酬: 確率的な当たり (0/1)
- 行動: バンディット番号(1~10)
- 価値: 当たる確率

となっています．それでは必要なパッケージをインストールしましょう．

In [0]:
!pip install gym
!pip install git+https://github.com/JKCooper2/gym-bandits

Collecting gym
  Downloading gym-0.10.3.tar.gz (1.5MB)
[K    100% |████████████████████████████████| 1.5MB 766kB/s 
Collecting pyglet>=1.2.0 (from gym)
  Downloading pyglet-1.3.1-py2.py3-none-any.whl (1.0MB)
[K    100% |████████████████████████████████| 1.0MB 1.1MB/s 
Building wheels for collected packages: gym
  Running setup.py bdist_wheel for gym ... [?25l- \ | / done
[?25h  Stored in directory: /content/.cache/pip/wheels/5a/a6/d0/05104a8eb420874ede45834e89904141dc8a056a7193beb1a6
Successfully built gym
Installing collected packages: pyglet, gym
Successfully installed gym-0.10.3 pyglet-1.3.1
Collecting git+https://github.com/JKCooper2/gym-bandits
  Cloning https://github.com/JKCooper2/gym-bandits to /tmp/pip-mghy_cup-build
Installing collected packages: gym-bandits
  Running setup.py install for gym-bandits ... [?25l- done
[?25hSuccessfully installed gym-bandits-0.1


これで必要なパッケージが揃いました．次はいよいよ環境の作成を行います．

In [0]:
%matplotlib inline
import numpy as np
import gym
import gym_bandits
import random
import matplotlib.pyplot as plt
from IPython.display import display, clear_output

env = gym.make("BanditTenArmedRandomFixed-v0")

`gym.make('environment')`を実行することで環境のインスタンスを作成することができます．このインスタンスは次の関数を持ちます．

### env.reset()
環境を初期化する．

**return**
- state: 状態を表す配列

### env.step(action)
整数値または連続値の配列`action`を実行して次の状態へ遷移する．

**return**

- state: 状態を表す配列
- reward: 浮動小数点または整数の報酬
- done: エピソードの終端を示すbool型の値
- info: 辞書型で表されたデバッグ情報

これでバンディットの世界に入る準備ができました．最初のエクササイズとしてブランクのコードを埋めてε-greedyでバンディットを引くエージェントを実装して，パラメータを変更することでどのように性能に影響するか調べて見ましょう．

In [0]:
epsilon = 0.3
hit_count = 0
total_rates = []
data = []
# data for 10 bandits
for i in range(10):
    data.append({'hit': 0, 'count': 0})

def choose_action(data):
    # code here
    
env.reset()
for i in range(1000):
    action = choose_action(data)
    _, reward, _, _ = env.step(action)
    data[action]['hit'] += reward
    data[action]['count'] += 1
    hit_count += reward
    total_rates.append(float(hit_count) / (i + 1))

plt.plot(np.arange(1000), np.array(total_rates))

やりましたね！これで最初の単純な強化学習エージェントを実装できました．では次にsoftmax探索を行うエージェントを実装して見ましょう．

In [0]:
hit_count = 0
tau = 1.0
total_rates = []
data = []
for i in range(10):
    data.append({'hit': 0, 'count': 0})

def choose_action(data):
    # code here
    
env.reset()
for i in range(1000):
    action = choose_action(data)
    _, reward, _, _ = env.step(action)
    data[action]['hit'] += reward
    data[action]['count'] += 1
    hit_count += reward
    total_rates.append(float(hit_count) / (i + 1))

plt.plot(np.arange(1000), np.array(total_rates))

では最後にUCB1探索を行うエージェントを実装して見ましょう！

In [0]:

hit_count = 0
total_rates = []
data = []
for i in range(10):
    data.append({'hit': 0, 'count': 0})

def choose_action(data):
    # code here
    
env.reset()
for i in range(1000):
    action = choose_action(data)
    _, reward, _, _ = env.step(action)
    data[action]['hit'] += reward
    data[action]['count'] += 1
    hit_count += reward
    total_rates.append(float(hit_count) / (i + 1))

plt.plot(np.arange(1000), np.array(total_rates))

おめでとうございます！これでエクササイズ11を修了しました！