# 深層学習day4

# 強化学習

### 強化学習
* 長期的に報酬を最大化できるように環境のなかで行動を選択できるエージェントを作ることを目標とする機械学習の一分野
* 行動の結果として与えられる利益(報酬)をもとに、行動を決定する原理を改善していく仕組み
* 強化学習では、優れた方策を見つけることが目標
___

### 強化学習イメージ
![image.png](attachment:431e5111-f2e8-4065-bb0c-9c3ca90b724c.png)
* マーケティングを例とするならば...
* 環境...会社の販売促進部
* エージェント...プロフィールと購入履歴に基づいて、キャンペーンメールを送る顧客を決めるソフトウェア
* 行動...顧客ごとに送信、非送信のふたつの行動を選ぶ
* 報酬...キャンペーンのコストという負の報酬とキャンペーンで生み出されると推測される売上という正の報酬を受ける
___

### 探索と利用のトレードオフ
* 環境について事前に完璧な知識があれば、最適な行動を予測し決定することは可能
* 強化学習の場合、上記仮定は成り立たないとする。不完全な知識を元に行動しながら、データを収集。最適な行動を見つけていく
___

### 探索と利用のトレードオフ2
* 過去のデータで、ベストとされる行動のみを常に取り続ければ他にもっとベストな行動を見つけることはできない(探索が足りない)
* 未知の行動のみを常に取り続ければ、過去の経験が活かせない(利用が足りない)
* 上記二つがトレードオフ
___

### 強化学習の歴史
* 計算速度の進展により大規模な状態をもつ場合の、強化学習を可能としつつある
* 関数近似法と、Q学習を組み合わせる手法の登場
* **Q学習**...行動価値関数を、行動する毎に更新することにより学習を進める方法
* **関数近似法**...価値関数や方策関数を関数近似する手法
___

### 価値関数
$$
V^\pi(s)\\
Q^\pi(s,a)
$$
* 価値を表す関数としては、状態価値関数と行動価値関数の2種類がある
* ある状態の価値に注目する場合は、状態価値関数
* 状態と価値を組み合わせた価値に注目する場合は、行動価値関数
___

### 方策関数
* 方策ベースの強化学習手法において、ある状態でどのような行動を採るのかの確率を与える関数
___

### 方策勾配法
$$\theta^{(t+1)}=\theta^{(t)}+\epsilon\nabla J(\theta)$$
* 方策反復法...方策をモデル化して最適化する手法
* 上式の$J$...方策の良さ(定義する必要がある)
* 最大値問題を解くので、加算の式
___

### 方策勾配定理
$$  
\nabla_{\theta} J( \theta )
=\mathbb{E}_{\pi _{\theta}}[(\nabla _{\theta} \log{\pi _{\theta}}(\alpha | s)Q^{\pi}(s, \alpha) )] 
$$
* $J$をもとめるための定理
* 式変換とうは省略
___

# Alpha Go

### Alpha Go LeeのPolicyNet(方策関数)
![image.png](attachment:f5bf3f83-88cf-4bd6-b7a1-4e3f5650c010.png)
* どこに打つのが一番いいのかを確率(19×19の2次元データ)を出力するネットワーク
* 入力チャンネル...石、取られる石の数、着手履歴など必要な情報
* 畳み込みネットワーク
* 出力層にはsoftmax
___

### Alpha Go LeeのValueNet(価値関数)
![image.png](attachment:a4c0dede-725e-45e4-9195-d13b018fc1a7.png)
* 入力は1チャンネル多い(手番)
* 現局面の勝率を-1~1の範囲(1次元データ)で出力する
___

### RollOutPolicy
* NNではなく線形の方策関数
* 探索中に高速に着手確率を出すために使用される
___

### Alpha Go の学習
1. 教師あり学習によるRollOutPolicyとPolicyNetの学習
2. 強化学習によるPolicyNetの学習
3. 強化学習によるValueNetの学習
___

### 1.PolicyNetの教師あり学習
* KGS Go Server（ネット囲碁対局サイト）の棋譜データから3000万局面分の教師を用意し、教師と同じ着手を予測できるよう学習
* 教師が着手した手を1とし残りを0とした19×19次元の配列を教師とし、それを分類問題として学習
___

### 2.PolicyNetの強化学習
* 現状のPolicyNetとPolicyPoolからランダムに選択されたPolicyNetと対局シミュレーションを行い、その結果を用いて方策勾配法で学習
* PolicyPool...PolicyNetの強化学習の過程を500Iteraionごとに記録し保存しておいたもの
___

### 3.ValueNetの強化学習
* PolicyNetを使用して対局シミュレーションを行い、その結果の勝敗を教師として学習
* 教師データの作成方法は省略
___

### モンテカルロ木探索
* コンピュータ囲碁ソフトでは現在もっとも有効とされている探索法
* 勝敗のみを使って探索を行うことができないか、という発想で生まれた探索法
* 現局面から末端局面までPlayOutと呼ばれるランダムシミュレーションを多数回行い、その勝敗を集計して着手の優劣を決定する
* 該当手のシミュレーション回数が一定数を超えたら、その手を着手したあとの局面をシミュレーション開始局面とするよう、探索木を成長させる
___

### Alpha Go Zero(Leeとの違い)
* 教師あり学習を一切行わず、強化学習のみで作成
* 特徴入力からヒューリスティックな要素を排除し、石の配置のみにした
* PolicyNetとValueNetを１つのネットワークに統合した
* Residual Netを導入した
* モンテカルロ木探索からRollOutシミュレーションをなくした
___

### ResidualNetwork
* ネットワークにショートカット構造を追加して、勾配の爆発、消失を抑える効果を狙ったもの
* 100層を超えるネットワークでの安定した学習が可能となった
___

### Alpha Go Zeroの学習法
* **自己対局による教師データの作成**...現状のネットワークでモンテカルロ木探索を用いて自己対局を行う。教師データの形は(局面、着手選択確率分布、勝敗)が１セット
* **学習**...自己対局で作成した教師データを使い学習を行う。NetworkのPolicy部分の教師に着手選択確率分布を用い、Value部分の教師に勝敗を用いる
* **ネットワークの更新**...学習後、現状のネットワークと学習後のネットワークとで対局テストを行い、学習後のネットワークの勝率が高かった場合、学習後のネットワークを現状のネットワークとする
___

# 軽量化・高速化技術

### 分散深層学習とは
* 深層学習は多くのデータを使用したり、パラメータ調整のために多くの時間を使用したりするため、高速な計算が求められる
* 複数の計算資源(ワーカー)を使用し、並列的にニューラルネットを構成することで、効率の良い学習を行いたい
* データ並列化、モデル並列化、GPUによる高速技術は不可欠である
___

### データ並列化
* 親モデルを各ワーカーに子モデルとしてコピー
* データを分割し、各ワーカーごとに計算させる
___

### 同期型と非同期型の比較
* 同期形...各ワーカーが計算が終わるのを待ち、全ワーカーの勾配が出たところで勾配の平均を計算し、親モデルのパラメータを更新する
* 非同期形...各ワーカーはお互いの計算を待たず、各子モデルごとに更新を行う。学習が終わった子モデルはパラメータサーバにPushされる。新たに学習を始める時は、パラメータサーバからPopしたモデルに対して学習していく
* 処理のスピードは、お互いのワーカーの計算を待たない非同期型の方が早い
* 非同期型は最新のモデルのパラメータを利用できないので、学習が不安定になりやすい
___

### モデル並列化
* 親モデルを各ワーカーに分割し、それぞれのモデルを学習させる。全てのデータで学習が終わった後で、一つのモデルに復元
* モデルのパラメータ数が多いほど、スピードアップの効率も向上する
* モデルが大きい時はモデル並列化を、データが大きい時はデータ並列化をすると良い
___

### GPUによる高速化
* GPGPU(General-purpose on GPU)...元々の使用目的であるグラフィック以外の用途で使用されるGPUの総称
* CPU...高性能なコアが少数、複雑で連続的な処理が得意
* GPU...比較的低性能なコアが多数、簡単な並列処理が得意、ニューラルネットの学習は単純な行列演算が多いので、高速化が可能
___

### GPGPU開発環境
* CUDA ...GPU上で並列コンピューティングを行うためのプラットフォーム、NVIDIA社が開発しているGPUのみで使用可能。Deep Learning用に提供されているので、使いやすい
* OpenCL...オープンな並列コンピューティングのプラットフォーム。NVIDIA社以外の会社(Intel, AMD, ARMなど)のGPUからでも使用可能。Deep Learning用の計算に特化しているわけではない
___

### モデルの軽量化の利用
* モデルの軽量化はモバイル, IoT 機器において有用な手法
* 計算の高速化と省メモリ化を行うためモバイル,IoT 機器と相性が良い手法
* 手法として、**量子化**、**蒸留**、**プルーニング**があげられる
___

### 量子化(Quantization)とは
* 通常のパラメータの64 bit 浮動小数点を32 bit など下位の精度に落とすことでメモリと演算処理の削減を行う
___

### 量子化の利点と欠点
* 利点...計算の高速化,省メモリ化
* 欠点...精度の低下(ニューロンが表現できる少数の有効桁が小さくなるため)
* 量子化する際は極端に精度が落ちない程度に量子化をしなければならない
___

### 蒸留(Distillation)とは
* 規模の大きなモデルの知識を使い、軽量なモデルの作成を行う
* 学習済みの精度の高いモデルの知識を軽量なモデルへ継承させる
___

### 教師モデルと生徒モデル
* 蒸留は教師モデルと生徒モデルの2つで構成される
* 教師モデルの重みを固定し生徒モデルの重みを更新していく
* 教師モデルと生徒モデルのそれぞれの誤差を使い重みを更新していく
___

### プルーニング(Pruning)とは
* モデルの精度に寄与が少ないニューロンを削減することで、モデルの軽量化、高速化が見込まれる
* 重みが閾値以下の場合ニューロンを削減し、再学習を行う
* 閾値を高くすると大きく削減できるが、精度も減少する
___

### モデルの軽量化まとめ
* **量子化**...重みの精度を下げることにより計算の高速化と省メモリ化を行う技術
* **蒸留**...複雑で精度の良い教師モデルから軽量な生徒モデルを効率よく学習を行う技術
* **プルーニング**..寄与の少ないニューロンをモデルから削減し高速化と省メモリ化を行う技術
___

# 応用技術

### MobileNet
![image.png](attachment:96612e25-c07d-4d2f-bb30-1a7a61dd7e8b.png)
* ディープラーニングモデルの軽量化・高速化・高精度化を実現
* 近年の画像認識タスクに用いられる最新のニューラルネットワークアーキテクチャは、多くのモバイルおよび組み込みアプリケーションの実行環境を上回る高い計算資源を必要とされる
___

### 一般的な畳み込みレイヤー
![image.png](attachment:25739954-7f96-4d7e-be56-f5eff0dd083a.png)
* 入力特徴マップ(チャネル数)...$H\times W\times C$
* 畳込みカーネルのサイズ...$K\times K\times C$
* 出力マップ...$H\times W\times M$($M$はフィルタ数)
___

### 一般的な畳み込みレイヤーは計算量が多い
* 上図で、ストライド１でパディングを適用した場合の畳み込み計算の計算量...$H\times W\times K\times K\times C\times M$
* MobileNetsは**Depthwise Convolution**と**Pointwise Convolution**の組み合わせで軽量化を実現
___

### Depthwise Convolution
![image.png](attachment:b8214bbc-c4b6-4750-9986-3e37571e7f59.png)
* 入力マップのチャネルごとに畳み込みを実施
* 出力マップをそれらと結合(入力マップのチャネル数と同じになる)
* 各層ごとの畳み込みなので層間の関係性は全く考慮されない
* 出力マップの計算量...$H\times W\times K\times K\times C$
___

### Pointwise Convolution
![image.png](attachment:446e5a2f-ef26-437a-9b04-ef8fd153aaac.png)
* 1 x 1 convとも呼ばれる
* 入力マップのポイントごとに畳み込みを実施
* 出力マップ(チャネル数)はフィルタ数分だけ作成可能(任意のサイズが指定可能)
* 出力マップの計算量...$H\times W\times C\times M$
___

### DenseNet
* CNNアーキテクチャの一種
* DenseBlockと呼ばれるモジュールを用いている
___

### DenseNet2
* 出力層に前の層の入力を足しあわせる。層間の情報の伝達を最大にするために全ての同特徴量サイズの層を結合する
* 特徴マップの入力に対し、下記の処理で出力を計算
    * Batch正規化
    * Relu関数による変換
    * 3 x 3畳み込み層による処理
* 前スライドで計算した出力に入力特徴マップを足し合わせる(入力特徴マップのチャンネル数がl x kだった場合、出力は(l+1) x kとなる)
* kをネットワークのgrowth rate(成長率)と呼ぶ
___

### Transition Layer
![image.png](attachment:c8e516de-50a7-4b31-b4de-73e6b2e1a4dd.png)
* CNNでは中間層でチャネルサイズを変更
* 特徴マップのサイズを変更し、ダウンサンプリングを行うため、Transition Layerと呼ばれる層でDence blockをつなぐ
___

### DenseNetとResNetの違い
* DenseBlock...前方の各層からの出力全てが後方の層への入力として用いられる
* RessidualBlock...前1層の入力のみ後方の層へ入力として用いられる
___

### Batch Norm Layer
* レイヤー間を流れるデータの分布を、ミニバッチ単位で平均が0・分散が1になるように正規化
* 学習時間の短縮や初期値への依存低減、過学習の抑制など効果がある
* 問題点...Batch Sizeが小さい条件下では、学習が収束しないことがある
___

### Batch Norm以外の正規化
![image.png](attachment:6c384e4c-af52-4cfa-95ff-5823ef2f8d73.png)
* Batch Norm...ミニバッチに含まれるsampleの同一チャネルが同一分布に従うよう正規化
* **Layer Norm**...それぞれのsampleの全てのpixelsが同一分布に従うよう正規化
* **Instance Nrom**...さらにchannelも同一分布に従うよう正規化
___

### Wavenet
* 生の音声波形を生成するする深層学習モデル
* PixelCNNを音声に応用したもの
___

### Wavenetのメインアイデア
![image.png](attachment:d6e64af8-5ba8-413d-95a2-d631def87d22.png)
* 時系列データに対して畳込みを適用する
* Dilated convolution...層が深くなるにつれて、畳み込むリンクを離す
___