# Term1 Sprint13 授業課題 
## コーディング課題：畳み込みニューラルネットワーク(CNN)スクラッチ2

NumPyなど最低限のライブラリのみを使いアルゴリズムを実装していく。

Sprint12では1次元畳み込み層を実装したが、Sprint13では画像に対して一般的に使われる2次元畳み込み層を実装する。  
また、プーリング層なども作成することで、CNNの基本形を完成させる。  

**データセットの用意**  
引き続きMNISTデータセットを使用する。2次元畳み込み層へは、28×28の状態で入力する。

今回は白黒画像であるからチャンネルは1つしかないが、チャンネル方向の軸は用意しておく必要がある。

(n_samples, n_channels, height, width)のNCHWまたは(n_samples, height, width, n_channels)のNHWCどちらかの形にする。

**CNN分類器クラスの作成**  
2次元畳み込みニューラルネットワークモデルのクラスScratch2dCNNClassifierを作成する。

## 1. 2次元畳み込み層の作成
Sprint12で作成した1次元畳み込み層を発展させ、2次元畳み込み層のクラスConv2dを作成する。  

フォワードプロパゲーションの数式は以下のようになる。
$$a_{i,j,m} = \sum_{k=0}^{K-1}\sum_{s=0}^{F_{h}-1}\sum_{t=0}^{F_{w}-1}x_{(i+s),(j+t),k}w_{s,t,k,m}+b_{m}$$

$a_{i,j,m}$ : 出力される配列の$i$行j列、$m$チャンネルの値  
$i$ : 配列の行方向のインデックス  
$j$ : 配列の列方向のインデックス  
$m$ : 出力チャンネルのインデックス  
$K$ : 入力チャンネル数  
$F_h,F_w$ : 高さ方向$（h）$と幅方向$（w）$のフィルタのサイズ  
$x_{(i+s),(j+t),k}$ : 入力の配列の$(i+s)$行$(j+t)$列、$k$チャンネルの値  
$w_{s,t,k,m}$ : 重みの配列の$s$行$t$列目。$k$チャンネルの入力に対して、$m$チャンネルへ出力する重み  
$b_m$ : $m$チャンネルへの出力のバイアス項  

全てスカラー量となる。

次に更新式は、1次元畳み込み層や全結合層と同じ形である。
$$w_{s,t,k,m}^{\prime} = w_{s,t,k,m} - \alpha \frac{\partial L}{\partial w_{s,t,k,m}}$$

$$b_{m}^{\prime} = b_{m} - \alpha \frac{\partial L}{\partial b_{m}}$$

$\alpha$ : 学習率  
$\frac{\partial L}{\partial w_{s,t,k,m}}$ : $w_{s,t,k,m}$に関する損失$L$の勾配  
$\frac{\partial L}{\partial b_m}$ : $b_m$に関する損失$L$の勾配  
勾配$\frac{\partial L}{\partial w_{s,t,k,m}}$や$\frac{\partial L}{\partial b_m}$を求めるためのバックプロパゲーションの数式は以下の通り。

$$\frac{\partial L}{\partial w_{s,t,k,m}} = \sum_{i=0}^{N_{out,h}-1}\sum_{j=0}^{N_{out,w}-1} \frac{\partial L}{\partial a_{i,j,m}}x_{(i+s)(j+t),k}$$

$$\frac{\partial L}{\partial b_{m}} = \sum_{i=0}^{N_{out,h}-1}\sum_{j=0}^{N_{out,w}-1}\frac{\partial L}{\partial a_{i,j,m}}$$

$\frac{\partial L}{\partial a_i}$ : 勾配の配列の$i$行$j$列、$m$チャンネルの値  
$N_{out,h},N_{out,w}$ : 高さ方向$（h）$と幅方向$（w）$の出力のサイズ  

前の層に流す誤差の数式は以下の通り。
$$\frac{\partial L}{\partial x_{i,j,k}} = \sum_{m=0}^{M-1}\sum_{s=0}^{F_{h}-1}\sum_{t=0}^{F_{w}-1} \frac{\partial L}{\partial a_{(i-s),(j-t),m}}w_{s,t,k,m}$$

$\frac{\partial L}{\partial x_{i,j,k}}$ : 前の層に流す誤差の配列の$i$列$j$行、$k$チャンネルの値  
$M$ : 出力チャンネル数  

ただし、$i−s<0$または$i−s>N_{out,h}−1$または$j−t<0$または$j−t>N_{out,w}−1$のとき$\frac{\partial L}{\partial a_{(i−s),(j−t),m}}=0$となる。

## 2. 2次元畳み込み後の出力サイズ
畳み込みを行うと特徴マップのサイズが変化する。  
どのように変化するかは以下の数式から求められる。この計算を行う関数を作成する。

$$N_{h,out} =  \frac{N_{h,in}+2P_{h}-F_{h}}{S_{h}} + 1$$

$$N_{w,out} =  \frac{N_{w,in}+2P_{w}-F_{w}}{S_{w}} + 1$$

$N_{out}$ : 出力のサイズ（特徴量の数）  
$N_{in}$ : 入力のサイズ（特徴量の数）  
$P$ : ある方向へのパディングの数  
$F$ : フィルタのサイズ  
$S$ : ストライドのサイズ  
$h$が高さ方向、$w$が幅方向である。

## 3. 最大プーリング層の作成
最大プーリング層のクラスMaxPool2Dを作成する。  
プーリング層は数式で表さない方が分かりやすい部分もあるが、フォワードプロパゲーションの数式は以下のようになる。

$$a_{i,j,k} = \max_{(p,q)\in P_{i,j}}x_{p,q,k}$$

$P_{i,j}$ : $i$行$j$列への出力する場合の入力配列のインデックスの集合。$S_h*S_w$の範囲内の行$（p）$と列$（q）$  
$S_h,S_w$ : 高さ方向$（h）$と幅方向$（w）$のストライドのサイズ  
$(p,q) \in P_{i,j}$ : $P_{i,j}$に含まれる行$（p）$と列$（q）$のインデックス  
$a_{i,j,m}$ : 出力される配列の$i$行$j$列、$k$チャンネルの値  
$x_{p,q,k} : 入力の配列の$p$行$q$列、$k$チャンネルの値  

ある範囲の中でチャンネル方向の軸は残したまま最大値を計算することになる。

バックプロパゲーションのためには、フォワードプロパゲーションのときの最大値のインデックス$(p,q)$を保持しておく必要がある。  
フォワード時に最大値を持っていた箇所にそのままの誤差を流し、そこ以外には0を入れるためである。


## 4. 平滑化
平滑化するためのクラスFlatten()を作成する。

フォワードのときはチャンネル、高さ、幅の3次元を1次元にreshapeする。  
その値は記録しておき、バックワードのときに再びreshapeによって形を戻す。

## 5. 学習・推定
作成したConv2dを使用してMNISTの分類を学習・推定する。

この段階では精度は気にせず、動くことを確認する。

## 6. LeNet（アドバンス課題）
CNNで画像認識を行う際は、フィルタサイズや層の数などを１から考えるのではなく、有名な構造を利用することが一般的。

現在では実用的に使われることはないが、歴史的に重要なのは1998年のLeNetである。この構造を再現して動かしてみる。

[Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.](http://yann.lecun.com/exdb/publis/pdf/lecun-98.pdf "Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998.")

サブサンプリングとは現在のプーリングに相当するもの。現代風に以下のように作ってみる。活性化関数も当時はシグモイド関数だが、ReLUとする。

- 畳み込み層　出力チャンネル数6、フィルタサイズ5×5、ストライド1
- ReLU
- 最大プーリング
- 畳み込み層　出力チャンネル数16、フィルタサイズ5×5、ストライド1
- ReLU
- 最大プーリング
- 平滑化
- 全結合層　出力ノード数120
- ReLU
- 全結合層　出力ノード数84
- ReLU
- 全結合層　出力ノード数10
- ソフトマックス関数

## 7. 有名な画像認識モデルの調査（アドバンス課題）
CNNの代表的な構造としてはAlexNet(2012)、VGG16(2014)などがある。  
こういったものはフレームワークで既に用意されていることも多い。

どういったものがあるか簡単に調べてまとめる。名前だけでも見ておくと良い。

**参考**  
[Applications - Keras Documentation](https://keras.io/ja/applications/ "Applications - Keras Documentation")


## 8. 平均プーリングの作成（アドバンス課題）
平均プーリング層のクラスAveragePool2Dを作成する。

範囲内の最大値ではなく、平均値を出力とするプーリング層のこと。

画像認識関係では最大プーリング層が一般的で、平均プーリングはあまり使われない。

## 9. 出力サイズとパラメータ数の計算
CNNモデルを構築する際には、全結合層に入力する段階で特徴量がいくつになっているかを事前に計算する必要がある。

また、巨大なモデルを扱うようになると、メモリや計算速度の関係でパラメータ数の計算は必須になってくる。  
フレームワークでは各層のパラメータ数を表示させることが可能だが、意味を理解していないと適切な調整が行えない。

以下の3つの畳み込み層の出力サイズとパラメータ数を計算する。  
パラメータ数についてはバイアス項も考える。

1.
- 入力サイズ : 144×144, 3チャンネル
- フィルタサイズ : 3×3, 6チャンネル
- ストライド : 1
- パディング : なし

2.
- 入力サイズ : 60×60, 24チャンネル
- フィルタサイズ : 3×3, 48チャンネル
- ストライド　: 1
- パディング : なし

3.
- 入力サイズ : 20×20, 10チャンネル
- フィルタサイズ: 3×3, 20チャンネル
- ストライド : 2
- パディング : なし

＊最後の例は丁度良く畳み込みをすることができない場合である。  
フレームワークでは余ったピクセルを見ないという処理が行われることがあるので、その場合を考えて計算する。  
端が欠けてしまうので、こういった設定は好ましくないという例である。

## 10. フィルタサイズに関する調査（アドバンス課題）
畳み込み層にはフィルタサイズというハイパーパラメータがあるが、2次元畳み込み層において現在では3×3と1×1の使用が大半。  
以下のそれぞれを調べたり、自分なりに考えて説明する。

- 7×7などの大きめのものではなく、3×3のフィルタが一般的に使われる理由
- 高さや幅方向を持たない1×1のフィルタの効果