# Chapter 11 Practical methodology
## メタ情報
全部で17ページ。  
機械学習、特に、ディープラーニングのモデルを学習させる際の、方針やノウハウがかかれている。  
常識的なことも結構書かれている。  

## 補足
数式がなく、ほぼ翻訳です。  
翻訳は翻訳者の主観が多分に含まれておりますので、その点ご注意ください。  


## はじめに
ディープラーニングの技術を適切に適用する為には、  
単にどんなアルゴリズムがあるか、やそれらがどう機能するか  
をよく知っているだけでは不十分である。  

うまく適用する為には、
特定に応用対象に適用すべきアルゴリズムを選択する能力や、  
機械学習系:(machine learning system)を改善する為に、  
実験を通じて生成されるフィードバックを監視し、それに対応する能力が求められている。  

機械学習系の日々の開発の中で実際に分析する際には、  
データを追加で集めるか、  
モデルの容量を増やすか減らすか、  
正則化項を加えるか取り除くか、  
モデルの最適化手法を改善するか、  
モデルの近似推論(approximation inference)を改善するか、  
モデルの実装のデバッグするか、  
などを選択する必要がある。  

これら全ての作業が実行するのに少なくない時間を要するため、  
ただ盲目に推察するのではなく、正しい道筋を選べることが大事である。 

この本のほとんどの部分は、さまざまな機械学習モデル、さまざまな学習アルゴリズムや、目的関数を扱っており、  
機械学習のエキスパートになるためには幅広い多様な機械学習の技術を知りさまざまな数学に精通していることが、  
最も重要な要素だという印象を与えているかもしれないが、  
実際には、
あまり知られていないアルゴリズムをいい加減に適用するよりは、  
一般的なアルゴリズムを適切に適用する方が
たいていはうまくいく。  
アルゴリズムを正しく適用することはいくつかのかなりシンプルな手続きをマスターできているかどうかに依存している。  
このチャプターの多くのオススメ事項はAndrew Ng(Ng, 2015)のレクチャーから引っ張ってきたものである。

我々は下記の実践的なひな形のプロセスをお薦めする。  
- 目的(ゴール)を決める。どの誤差関数を使うのか、その誤差関数における目的の値は何なのか。  
どれくらいの精度がほしいのか。誤差は絶対に0にならない。  
科学的な疑問点に答えたいのか、現実世界で一番良い製品を作りたいのか、などの目的に応じて、すべきことは異なる。  
データ収集は時間も金も人も必要なので、注意が必要。どれぐらいの精度が欲しいのか、費用対効果を考えるべき。  
- できるだけ早く(as soon as possible)、適切な性能評価指標による推定の部分も含めて、end-to-endの動くパイプラインを構築すること。
- 性能のボトルネックを見定める為に、系をよく計測すること。どの部分が期待より低い性能で、それがoverfittingなのかunderfittingなのか、データやソフトウェアの問題なのか診断する。  
- 新規データの収集、ハイパーパラメタの調整、アルゴリズムの変更など徐々に変化を増やすことを、測定から得られた知見に基づいて、繰り返すこと。

データ収集の意思決定はいつすべきか。  
データがもっとあれば汎化性能は高まるだろうが、データを収集するコストに比例して改善しない場合もある。  
データの増分と性能の増分の関係は実験で、ある程度増えるが、どこかでサチるという仮定のもと予測できる。  
注意したいのは、データ全体に比べてちょっとデータ増やしたくらいでは汎化性能に顕著な違いが現れないということで、  
ログスケールでデータの量を変えて実験することが望ましい。  

このチャプターでは、特に、ハイパーパラメタの選択に関することを取り上げていく。  


目次  
1. Defalut Baseline Models  
2. Selecting Hyperparameters  
3. Debugging Strategies  


## 1. Default Baseline Models
暫定的なベースラインについて。  
問題の複雑さに応じて、
問題がAi-completeなカテゴリの問題(物体認識、会話認識、機械翻訳など)であれば、適切なディープラーニングのモデルからはじめるのがいいかもしれない。  
### データ構造にあわせたモデル選択
まず、データ構造にあわせてモデルを選択する。  
固定長入力で教師あり学習を行いたいなら、全結合のFFNから始めるのが良い。  
トポロジカル構造のあるデータ(画像等)であれば、CNNから始めるのが良い。その際、活性化関数はpiecewise linear unit(Relu, LRelu, PRelu, maxout)がいいだろう。  
入力と出力が系列なら、gated recurrent net(LSTMとかGRU)がいいだろう。  

### 最適化手法の選択
まずは、SGD with momentum with decaying learning rateがいいだろう。   
decay rateの設定の仕方はいくつかある。  
他には、Adamもいい(これから改良していくから注目しといてー)。  


### データサイズにあわせた正則化の考慮
数十数百万以上のデータがないなら、はじめからなんらかの正則化を行った方が良いだろう。  
Eearly stoppingはほとんどどこでも使われている。  
Drop outは実装が簡単で多くのモデルやアルゴリズムに相性がいい素晴らしい正則化手法である。  
Batch normalizationも最近一般的に利用されるようになってきた。  

### 類似問題はあるか？
もし、よく研究された他の類似したタスクがあるなら、そこでうまくいっているアルゴリズムとモデルをコピーして始めるのがいいだろう。  
場合によっては、学習済のモデルをコピーしてもいいかもしれない。  
例えば、画像解析する時にはImageNetで学習済のCNNの特徴量をつかうのが普通。    

### 教師なし学習について
よくある質問として、教師なしpretrainingを使うかどうか、というのがあるが、これは、ドメインによる。  
例えば、NLPではword embeddingを利用することでかなり精度が上がることが分かっている。  
一方で、CVではいまの教師なし学習の技術はあまり恩恵を受けられておらず、  
ラベルのついたデータが少ない場合に半教師あり学習が有効であるぐらいである。  
教師なし学習が有効だと分かっている領域であれば使えば良いし、そうじゃなければ使う必要はない。  
Overfittingするって分かってから使えば良いだけの話。  



## 2. Selecting Hyperparameters  
hyperperameterの選択はmanually と automaticallyの2つ。  
対象を知っているかどうか、計算コストをかけられるかどうかなどがポイント。  

### 2.1 Manual Hyperparameter Tuning
ハイパーパラメタを手で選択する為には、  
各ハイパーパラメタとtrian errorとgeneralization error、計算リソース(メモリや実行時間)の関係を理解している必要がある。  

自分でハイパーパラメタを選択することの目的は、  
実行時間とメモリ制約に関して最も低い汎化誤差を見つけることである。   
エンジニアリングの課題でもあるが、  
ここでは、ハイパーパラメタを修正することで汎化誤差を下げる方法に焦点を当てる。   


効果的なcapacityは主に下記の3に起因する。  
モデルの表現のcapacity、  
モデルを学習する為の学習アルゴリズム、  
コスト関数と訓練手続きがモデルを正則化できるか、

ハイパーパラメタを変えると、モデルのcapacityが増えるのか、減るのかを理解して、  
overfittingしているのか、underfittingしているのかを見ながら、調整していく。  
多くのハイパーパラメタと汎化誤差の関係はU字カーブになっているので、ちょうどいいところが設定する。  

learning rateは一番重要なハイパーパラメタで、もし時間がないのであれば、これを調整するのがいい。  

最終的には、汎化誤差を小さくしたい。  
訓練誤差が低い限り、データを追加すれば汎化誤差も下がるので、目標の精度が達成されるまでそういったアプローチを続ける方法もある。  
計算コストが大きくなるという問題や、最適化があまり上手く行かない場合があるという問題はあるが。  

|ハイパーパラメタ |capacityが増える場合 | 理由 | 注意|
|:--:|:--:|:--:|:--:|
|隠れ層のユニット数| 増 | -  |メモリ、計算時間 |
| leanrnig rate| 適切な値 | -  | - |
|Convolutional kearnel width | 増  | - |- |
|implicit zero padding | 増 | - | メモリ、計算時間 |
|weight decay coefficient |減| -  | - |
|dropout rate | 減| - | - |


### 2.2 Automatic Hyperparameter Optimization Algorithms
hyperparameter opitimization algorithmは存在するが、そのアルゴリズムもハイパーパラメタ(幅等)を必要としている。  
結果は、利用しない場合よりは安定する傾向にあるらしい。  

### 2.3 Grid Search
<img src='files/GridSearch.png' width="600px"/>
グリッドサーチの場合は、だいたいログスケールにしてハイパーパラメタのグリッドを設定することが多い。  
learning rateだったら、$\{.1, .01, 10^{-3}, 10^{-4}, 10^{-5}\}$とか、  
隠れ層のユニット数だったら、$\{50, 100, 200, 500, 1000, 2000\}$とか。  
ハイパーパラメタが$m$個あってグリッドがそれぞれ$n$個あったら、
計算量が$O(n^m)$のオーダで、  
ハイパーパラメタの数とグリッドの数に応じて爆発的に計算量が増えることが、グリッドサーチの欠点。    
一応並列処理できるけど、焼け石に水。

### 2.4 Random Search
グリッドサーチよりもランダムサーチの方が探索が早く収束し、しかもいいところに収束する。  
各ハイパーパラメタの周辺分布を定義する。例えばバイナリだったらベルヌーイ分布とか、連続値だったらログスケール一様分布とか。  
例えば、leanring rateであれば、下記のようにする。  
$$
log\_learning\_rate \sim U(-1, -5)  
$$  
$$
learning\_rate = 10^{log\_learning\_rate}
$$  
隠れ層のユニット数だったら、
$$
log\_number\_of\_hidden\_units \sim U(log(50), log(2000))  \\
$$  
利点は
- 実行回数の関数として見なせる最も良いvalidation errorはグリッドサーチよりランダムサーチを用いた場合の方が収束しやすい。  
- ランダムサーチを使えば、グリッドサーチとは対照的に、実行が完了しなくても、解釈可能で利用できる結果を得る為に必ずしもリスタートする必要はない。  
- もっと実行して細かく探索したかったら、必ずしもscrachから始める必要はない。グリッドサーチとは対照的に実行がi.i.dなので、もっと実行すればより細かく探索したことになる。


### 2.5 Model-Based Hyperparameter Optimization


## 3. Debugging Strategies 
機械学習系の性能が芳しくないとき、その原因がアルゴリズムに依るものなのか、それともバグがあるからなのかを見分けるのが難しい。  
機械学習系はさまざまな理由でデバッグが難しい。  

ほとんどの場合、我々は事前にそのアルゴリズムがどのように対象に対して機能するのかは分かっていない。  
適当なデータに対して誤算が5％だったとして、その結果が最適なのか順最適なのかは、それだけでは分からない。  

加えて、機械学習のモデルは複数の部分が相互に適応し合うので、一ヶ所が壊れていたとしても、他の部分が適応してまぁまぁいい結果を出してしまうことがある。  
例えば、$\phi(Wx+b)$の$b$項の更新は、実装が間違っていたとしても$W$の更新で相殺されてしまう可能性がある。  

デバッグの方針はだいたい2通りしかなくて、  
1つは、凄い簡単な問題に対して適用して予想通りの結果が出てくのを確認するか、  
もう1つは、部分部分の実装を独立して検証するか  
である。  
下記にいくつかの方法を取り上げる。  

### Visualize the model in action
例えば、物体検知のモデルであれば、領域を画像に表示するのがいい。  
生成モデルで会話を扱うのであれば、生成されたもの聞いてみるのが良い。  
常識ではあるが、例えば、評価指標のバグは致命的だが、そういうのは回避できる。  

### Visualize the worst mistakes
ほとんどのモデルは何かしら確信度のようなものが得られるが、
正しくモデリングすることが最も難しい訓練データを見ることで、  
前処理やラベリングの問題を見つけることができるかもしれない。  


### Compare train and test error, evaluate if overfitting or underfitting
train errorよりtest errorが大きい時はoverfittingしているので、正則化の手法を導入する必要がある。  
一方で、train errorもtest errorも大きい時はunderfittingしているので、モデルのcapacityが増えるようにhyperparameterを調整する必要がある。  
ちょうどいい塩梅が一番良い。  



### Fit a tiny dataset
training errorが大きい場合は、underfittingしているか、バグがあるか、であるが、    
小さなモデルでも小規模のデータセットに対しては十分フィットすることが保障されているため、  
小さなデータセットに適用してみ様子を見るのが良い。  
例えば、1つのデータしかない分類問題のデータセットであれば、バイアス項を調整することで、フィットすることができる。  

### Compare symbolic derivatives to numerical derivatives
勾配の計算を自分で実装しなければならない場合や新しいシンボルの微分処理を追加する場合であれば、  
エラーのよくある原因は勾配の表現を正しく実装できていないことである。  
※詳細は省略：我々は実装しない。  

### Monitor histrograms of activations and gradient
大きな人まとまりのデータ(1バッチなど)に対して、活性化と勾配を可視化することは役に立つ場合が多い。  
活性化する前の隠れ層のユニットの値から、サチっているのか、どれぐらいの頻度でサチるのか。  
例えば、RELUだったら、どれぐらい0になるのか、とか。  
tanhだったら活性化まえの絶対値の平均ユニットがどれぐらいサチっているのか分かる。  
伝搬する勾配が消滅したり爆発したりする多層NNでは、最適化はうまくいかないかもしれない。  
最後に、勾配の大きさとそのパラメタの大きさを比較することは役に立つ。  
Bottou2015に示唆されているが、だいたい1回のminibatchの更新でパラメタの1%ぐらい更新されていてほしく、  
これは50%でも0.001%でもない。  
もし、データがスパースだったら、いくつかのパラメタはほとんど更新されないかもしれない。  


