# 深層学習day1
## Section1：入力層～中間層
## Section2：活性化関数
## Section3：出力層
## Section4：勾配降下法
## Section5：誤差逆伝搬法
# 深層学習day2
## Section1：勾配消失問題
## Section2：学習率最適化手法
## Section3：過学習
## Section4：畳み込みニューラルネットワークの概念
## Section5：最新のCNN

# 深層学習day1
## Section1：入力層～中間層

### まとめ
- ニューラルネットワークの全体像
<br>
ニューラルネットワークは入力層・中間層・出力層の3つから構成
<br>
各層が重みとバイアスを介してつながっている
<br>
重みとバイアスの値を調節するのが、ニューラルネットワークの学習
- 入力層～中間層
<br>
入力層で入力された値に対して、その線形結合+バイアスを中間層に渡す
<br>
中間層は渡された値を活性化関数に通して出力する

### 実装演習
実装演習では入力層～中間層のPython実装を確認した
<br>
numpyの機能を利用すると簡易な記述が可能
 - np.array：ベクトル・行列を定義
 - np.zeros：ベクトル・行列を0で初期化
 - np.random.rand：0～1の乱数で初期化
 - np.dot：ベクトル・行列の積

### 考察
入力層～中間層までの部分では線形回帰モデルなどと大差ないため、理解が容易
<br>
以下の要素を加えることで、ニューラルネットワークが多様な表現力を持つと考えられる
 - 活性化関数
 - 中間層が複数のユニットから構成
 - 出力層を介する

## Section2：活性化関数

### まとめ
ニューラルネットワークでは活性関数を利用することで、入力の非線形変換を行う
中間層出力の重みづけに貢献
<br>
- 中間層で利用される活性化関数
  - ステップ関数
  <br>
  閾値を超えるかどうかを判定し0か1を返す
  <br>
  線形分離可能なものしか学習できず、現在では利用されない
  - シグモイド（ロジスティック）関数
  <br>
  0～1の間を緩やかに変化する関数
  <br>
  ニューラルネットワーク普及のきっかけとなったが、勾配消失問題がある
  - RELU関数
  <br>
  入力が0以下ならば0、0以上ならば入力をそのまま返す
  <br>
  勾配消失問題の回避とニューラルネットワークのスパース化に貢献
- 出力層で利用される活性化関数
  - ソフトマックス関数
  - 恒等写像
  - シグモイド関数

### 実装演習
活性化関数のPython実装を確認
<br>
ステップ関数・シグモイド関数・RELU関数のいずれも単純であり、1行で実装可能
- ステップ関数：np.where（場合分け）を利用
- シグモイド関数：np.exp（指数関数）を利用
- RELU関数：np.maximum（最大値）を利用

### 考察
深層学習ではRELU関数が標準的に利用される。
<br>
それまでよく利用されていたシグモイド関数では微分したときに値の最大値が1/4となるため、
<br>
勾配消失問題が発生して多層の学習が困難であった。
<br>
RELU関数では微分した時の最大値が1であるため、
<br>
勾配消失問題を回避可能。
<br>
しかし、近年ではRELU関数に対してDying RELU問題という別の問題が報告されており、
<br>
leaky RELUなどの派生が提案されている。

## Section3：出力層

### まとめ
- 出力層の役割
<br>
中間層までの出力を人が欲しい形に変形
<br>
構成方法は中間層と大差なし
- 誤差関数
<br>
ニューラルネットワークの出力と教師データがどの程度合っているかを表現
  - 2乗誤差：回帰に利用
  - 交差エントロピー誤差：分類に利用
<br>
誤差を微分してニューラルネットワークの学習に利用
- 出力層の活性化関数
<br>
出力層と中間層では利用される活性化関数が異なる
  - 中間層では入力の強弱を調整するが、出力層では強弱はそのまま
  - 確率を出力する場合には値を制限
具体的に利用される活性化関数は以下がある
  - 恒等写像
  <br>
  入力をそのまま返す関数
  回帰に利用
  - シグモイド関数
  <br>
  二値分類に利用
  - ソフトマックス関数
  <br>
  他クラス分類に利用

### 実装演習
誤差関数や出力層の活性化関数を確認した
<br>
ソフトマックス関数は本質的には非常に単純な形で実装可能だが、
<br>
実際の利用時の問題対策のためにやや複雑となっていた
- ミニバッチ
- オーバーフロー対策
<br>
誤差関数においても、交差エントロピー関数は本質的には単純だが、
<br>
いくつかの問題対策が入っていた
- ミニバッチ
- one-hot-vectorの逆変換
- log(0)の対策

### 考察
深層学習でよく利用されるパッケージの1つであるKerasには
<br>
様々な誤差関数が定義されている。
<br>
以下はその一部である。
<br>
実際の問題に深層学習を適用する際には、問題の性質に応じて使い分けが必要かもしれない。
- mean_squared_error
<br>
2乗誤差
- mean_absolute_error
<br>
2乗ではなく、絶対値を利用
- mean_absolute_percentage_error
<br>
教師データに対する絶対誤差の比率を利用
- mean_squared_logarithmic_error
<br>
ネットワーク出力と教師データにlogを介した後に2乗誤差

## Section4：勾配降下法

### まとめ
- ニューラルネットワークや深層学習の学習
<br>
誤差を最小化する重みやバイアスを最小化する
<br>
重みやバイアスの最適化のために勾配降下法を利用
- 勾配降下法
<br>
重みの微分に学習率をかけて、重みを更新する
<br>
適切な学習率を設定する必要がある
  - 学習率が大きい場合
  <br>
  収束しない場合がある
  <br>
  学習にかかる時間は少ない
  - 学習率が大きい場合
  <br>
  学習に時間がかかる
  <br>
  局所解に収束しやすい
- 勾配降下法のためのアルゴリズム
<br>
学習率の決定、収束性向上のために様々なアルゴリズムが利用されている
  - Momentum
  - AdaGrad
  - Adadelta
  - Adam
- 確率的勾配降下法（SGD）
<br>
全サンプルの平均誤差ではなく、ランダムに抽出したサンプルの誤差を利用する
<br>
以下のメリットがある
  - 計算コストの軽減
  - 局所解に収束しにくい
  - オンライン学習可能（都度パラメータを更新）
  - メモリ利用が少ない
- ミニバッチ勾配降下法
<br>
ランダムに分割したデータの集合（ミニバッチ）のサンプルの平均誤差を利用
<br>
深層学習では標準的に利用
<br>
確率的勾配降下法のメリットに加えて、並列化による計算資源の有効利用が可能

### 実装演習
勾配降下法や確率的勾配降下法のPython実装を確認した
<br>
確率的勾配降下法では徐々に誤差が小さくなることが確認できた
<br>
ただしランダムに1つずつサンプルを抽出するために、誤差のブレが確認できた

### 考察
深層学習ではミニバッチ勾配降下法がよく利用されるが、
<br>
ミニバッチのサイズをどうするかが性能に影響する。
<br>
複雑なネットワークではGPUの並列化機能を利用しないと学習に時間がかかるが、
<br>
ミニバッチのサイズを大きくするとGPUのメモリが足りず学習できない。
<br>
利用するGPUの性能、ネットワークの複雑さ、ミニバッチのサイズを合わせて検討する必要があり、
<br>
検討が難しい。

## Section4：誤差逆伝搬法

### まとめ
- 数値微分
<br>
微小な値を入力に足した時の出力の差を計算して微分値に利用する
<br>
ニューラルネットワークの重みの微分には計算負荷が大きい
- 誤差逆伝搬法
<br>
出力層から順に微分を計算し、その値を前の層に伝搬させることで各層の微分を計算
<br>
先に計算した結果を利用するため、効率的に計算可能
<br>
数値的な計算ではなく、解析的な計算
<br>
ニューラルネットワークや深層学習で標準的に利用される

### 実装演習
誤差逆伝搬法のPython実装を確認した
<br>
出力層など先の層の微分計算の結果を利用して、前の層の微分計算を行う様子が確認できた
<br>
各層やユニットの微分計算を関数化など行うと、より恩恵が実感できるかもしれないと感じた
<br>
また、解析的な計算を行うため活性化関数の微分式を利用する必要がある

### 考察
誤差逆伝搬法では偏微分の連鎖率を利用している。
<br>
単にネットワークを利用するためには深い理解は必要ないかもしれないが、
<br>
勾配消失問題などにはここが影響する。
<br>
学習がうまくいかない場合の対応などには中身の理解が必要と考えられるため、
<br>
中身の学習を行ったうえで利用したい。

# 深層学習Day2
## Section1：勾配消失問題

### まとめ
- 概要
<br>
下位層に進むにつれて勾配が緩やかになる
<br>
更新でパラメータが変わらず、最適値に収束しない
- 原因
<br>
活性化関数の1つであるシグモイド関数の微分が最大で0.25
<br>
下位層では逆伝搬の計算に何度も値を掛け合わせるため、勾配が小さくなる
<br>
- 活性化関数による解決法
<br>
RELU関数を利用する
<br>
RELU関数の微分は0か1なので、掛け合わせても値が小さくならない
- 初期値による解決法
<br>
Xavierの初期値（シグモイド関数など）やHeの初期値（RELU関数など）を利用してネットワークの重みを初期化する
<br>
重みのバリエーションをつけつつ、前の層のノード数で重みを調整する
<br>
活性化関数の表現力を保ったまま、勾配の大きさを確保する
- バッチ正規化による解決法
<br>
ミニバッチ単位によるデータの偏りを抑制する
<br>
メリット
  - 学習速度を早くできる
  - 過学習を抑えられる

### 実装演習
<br>
いくつかの方法で学習を行い比較した
- シグモイド関数
<br>
基本的に学習が進まない
<br>
勾配消失問題が発生していると考えられる
<br>
ただし、学習の繰り返しを大きくするとステップ関数的にわずかに学習が進む
<br>
<img src="stage3_vanishing_sigmoid.png">
<br>
- RELU
<br>
最初は学習が進まないが、その後学習がスムーズに進む
<br>
勾配消失問題が回避できていると考えられる
<br>
<img src="stage3_vanishing_relu.png">
<br>
- シグモイド + Xavier
<br>
最初からスムーズに学習が進む
<br>
初期値の設定で勾配消失問題が回避できていると考えられる
<br>
<img src="stage3_vanishing_xavier.png">
<br>
- RELU + He
<br>
最初からスムーズに学習が進む
<br>
最終的な精度もただのRELUより高くなっている
<br>
<img src="stage3_vanishing_he.png">
<br>
- シグモイド + He
<br>
直観とは違い、学習が進んだ
- RELU + Xavier
<br>
学習が進んだ
- バッチ正規化
<br>
学習の精度が上がらない場合であっても、バッチ正規化を入れることで精度が上昇したことを確認した

### 考察
RELU関数の利用や初期値の設定により、勾配消失問題を回避できることを学んだ。
<br>
近年の深層学習モデルは層が深くなっているため、これらの手法は重要だと考えられる。
<br>
一方で学習が進んでいないように見えても、ある時点で急に学習が進むような状況も見られた。
<br>
学習時の収束判定に影響するため、注意したい。

## Section2：学習率最適化手法

### まとめ
- モメンタム
<br>
勾配降下法に完成を追加する
<br>
大域解になりやすい
<br>
収束までが早い
- Adagrad
<br>
これまでの勾配に応じて学習率を徐々に小さくする
<br>
局所解ではないが勾配が0の箇所に収束してしまう（鞍点問題）
- RMSProp
<br>
Adagradに比べて、過去の学習率を保持
<br>
大域解になりやすい
<br>
ハイパーパラメータの調整があまり必要ない
- Adam
<br>
モメンタム + RMSProp

### 実装演習
複数の最適化手法の比較を行った
<br>
最適化手法により学習が進むものと進まないものに分かれた
<br>
学習が進む手法であっても、ハイパーパラメータを変更するとうまくいかないことも分かった
- SGD
<br>
学習が進まない
- モメンタム
<br>
スムーズに学習できた
- AdaGrad
<br>
スムーズに学習できた
- RMSProp
<br>
スムーズに学習できた
- Adam
<br>
スムーズに学習できた
- Adam + 学習率0.1
<br>
学習が進まない

### 考察
深層学習ライブラリの1つであるKerasには、
<br>
講義で紹介された以外にもいくつかの手法が利用できる。
<br>
研究段階ではどの最適化手法が良いかは結論が出ていないようである。
- Adadelta
- Adamax
- Nadam

また大きな勾配を制限するgradient clippingというテクニックもある。
<br>
こういった手法の利用やハイパーパラメータの調整など注意すべき点は多いように思う。

## Section3：過学習

### まとめ
- 正則化
<br>
過学習を抑えるために、ニューラルネットの重みを制限する
<br>
L1、L2正則化による正則化項を誤差関数に加える
<br>
L1正則化のほうがスパースになりやすい
- ドロップアウト
<br>
ランダムにノードを削除して学習する
<br>
異なるモデルを同時に学習させるような効果がある

In [None]:
### 実装演習
複数の手法で過学習を抑えられるか確認した
- 対策なし
<br>
訓練データの精度は1.0近くだが、テストデータでの精度は0.7程度
<br>
過学習の傾向が見える
- L2正則化
<br>
ハイパーパラメータの調整も含めて、過学習の抑制はできなかった
  - $\lambda = 0.1$
  <br>
  訓練データの精度は下がったが、テストデータの精度は上がらず
  - $\lambda = 1.0$
  <br>
  訓練データもテストデータも大きく精度が下がった
- L1正則化
<br>
ハイパーパラメータの調整も含めて、過学習の抑制はできなかった
<br>
L2正則化に比べて学習曲線のブレが大きい
  - $\lambda = 0.005$
  <br>
  テストデータの精度は上がらず
  <br>
  学習曲線のブレが大きい
  - $\lambda = 0.05$
  <br>
  訓練データもテストデータも大きく精度が下がった
- ドロップアウト
<br>
ハイパーパラメータの調整を行ったが、過学習の抑制はできなかった
<br>
ドロップアウト率を上げると、収束までに時間がかかる傾向が見られた
- ドロップアウト + L1正規化
<br>
ハイパーパラメータの調整を行ったが、過学習の抑制はできなかった

### 考察
過学習の根本的な原因は、モデルの複雑さに対してデータ数が足りないことであると考えられる。
<br>
その意味では、過学習の対策は２通りに分けられる。
- モデルを単純にする
  - 小さなモデルの利用
  - 正則化
  - ドロップアウト
- データを増やす
  - データの追加
  - データ拡張

## Section4：畳み込みニューラルネットワークの概念

### まとめ
- 畳み込みニューラルネットワーク
<br>
画像など空間的・時間的につながりがあるものに使用される
<br>
畳み込み層・プーリング層などを持つ
- 畳み込み層
<br>
フィルターとしての役割
<br>
次元のつながりを保ったまま、周囲の情報を集約する
<br>
パディングによってサイズが小さくならないようにできる
<br>
ストライドによって情報集約の間隔を調節する
- プーリング層
<br>
畳み込み層と同時に利用される
<br>
畳み込み層と類似した演算を行うが、重みはなく最大・平均値のような計算を行う

### 実装演習
畳み込み層やプーリング層などの実装を確認した
<br>
また中間層が少ない畳み込みニューラルネットワークの学習を行った
<br>
画像が得意であるため、MNISTデータセットに対する精度が高いのが確認できた
<br>
一方で学習にやや時間がかかるようにも見られた

### 考察
近年の研究では画像データに対しても畳み込みではなく、
<br>
Transformerを利用したものが見られるが、
<br>
実用上はまだ画像などのデータに対しては
<br>
畳み込みニューラルネットワークを利用するシーンが多いと考えられる。
<br>
特に画像データに対する深層学習の需要は大きいため、
<br>
よく理解したい。

## Section5：最新のCNN

### まとめ
- AlexNet
<br>
5層の畳み込み層・プーリング層と3層の全結合層からなる
<br>
畳み込み層から全結合層に移るときには、1次元に並べ替えたのちに全結合層に通す
<br>
GlobalMaxPoolingやGlobalAveragePoolingでチャネルごとの最大・平均値を計算することもある
<br>
AlexNetでは出力にドロップアウトを利用している

### 実装演習
畳み込み層が6層とこれまでに比べると深い畳み込みニューラルネットワークの学習を行った
<br>
非常に高い精度が出る一方で、学習に時間がかかる
<br>
深層学習には大きなリソースが必要であることを実感した

### 考察
AlexNetは2012年に発表されたモデルであり、
<br>
その後さまざまな畳み込みニューラルネットワークが提案されている。
<br>
例えばKerasでも以下のようなネットワークが利用できる
- VGG (2014)
- ResNet (2015)
- Inception (2015)
- Xception (2016)
- MobileNet (2017)

中身や特徴を理解して利用することを心掛けたい。