## 機械学習基礎

### 用途の分類

![用途の分類](https://products.sint.co.jp/hs-fs/hubfs/images/aisia/blog/9_001.png?width=1556&height=1060&name=9_001.png)

![用途](https://cdn-xtrend.nikkei.com/atcl/contents/18/00076/00002/01.png?__scale=w:640,h:500&_sh=086000490b)

### 機械学習(マシンラーニング)/ニューラルネットワーク/ディープラーニング

![マシンラーニング/ニューラルネットワーク/ディープラーニング](http://www.dri.co.jp/dri_forum/wp-content/uploads/2018/08/5145-01.bmp)

## 強化学習基礎

https://www.slideshare.net/takahirokubo7792/techcircle-18-python-openai-gym?ref=https://techcircle.connpass.com/event/43844/presentation/

### OpenAiGym

- Env(環境)から状態をもらう
- 状態をAgent(プレイヤー)に渡してAction(行動)をもらう
- Action(行動)をEnv(環境)に渡して報酬をもらいつつ、ゲームを進める
- 報酬からAgent(プレイヤー)は報酬が最終的に最大になるように学習する

### なぜ強化学習か

教師あり学習でも良いのではないか。

データセットに含まれる状態とアクションが本当に最大の報酬にたどりつく為のデータになっているか。

将棋などはプロの棋譜から教師あり学習可能だが、そのプロ以上の能力を持てない。(必ずしも正解とは限らない)

強化学習で自ら学習する必要がある。

### マルコフ決定過程

ポリシー(戦略)にしたがって行動を決定し、報酬をもらう

もらえる報酬が最大になる行動はどのようなものか探索する

### ベルマン方程式

リスクとリターンを考慮して報酬の期待値を計算する

### Qラーニング

これまでの行動評価と今の行動評価をどのくらい信じるか計算する

### グリーディ法

初期のランダムに決まったQ値がたまたま大きな値となった行動だけが常に選択されてしまう可能性がある

一定割合でランダムに行動を選択させたり(探索)、Q値の大きい行動を選択させたり(活用)する

### DQN (Deep Q Network)

ニューラルネットワークを利用したQラーニング


## 今回使うライブラリ/フレームワーク

- open ai gym
  - 強化学習の研究などに利用できるゲームを提供している
- keras
  - ニューラルネットワーク実装の高レベルライブラリ
  - tensorflowのwrapper、tensorflow2からkerasと密接に連携でき、公式のチュートリアルもkerasに変わっている
  - tensorboradやtensorflow hub, tensorflow servingなども(一部使えなかったりするが)ちゃんとサポートされるはず
- keras-rl
  - kerasのネットワーク設計のしやすさを生かした強化学習用ライブラリ。

他にも強化学習フレームワークとしてtensorforceがある。
pommermanのexampleはtensorforceだったので `tensorforce_*.py` に実装してますが使いやすいもののドキュメントが厳しいので価値は低いかも。

## 基本的な実装イメージ

```python
import gym

# 環境作成と初期化
env = gym.make('CartPole-v0')
state = env.reset()

# エージェント作成
agent = create_agent()

for _ in range(1000):
    # 描画
    env.render()
    
    # エージェントに状態を与えてアクションを決定させる
    action = agent.action(state)
    
    # アクションを環境に渡してゲームを進める
    observation, reward = env.step(action)
    
    # 今の行動を評価する
    agent.observe(reward)
```

## 今日実装するもの

cartpole

![cartpole](https://book.mynavi.jp/files/user/manatee/rensai/019_kyoukagakusyuu/09/cartpole.gif)

breakout

![breakout](https://thumbs.gfycat.com/AnchoredScornfulAustraliansilkyterrier-size_restricted.gif)

pommerman

![pommerman](https://www.pommerman.com/static/media/pommerman.abbcd943.gif)