# 第7回：畳み込みニューラルネットワーク (2)

## 到達目標
* 畳み込みニューラルネットワーク (CNN) が開発されるまでの歴史を概観する
* CNNを用いて画像分類タスクを実装・実行できる

## キーワード
* 単純型・複雑型細胞
* 畳み込み層
* プーリング層
* 全結合層
* 特徴マップ
* AlexNet

#### Part 2. 畳み込みニューラルネットの基礎
##### 講義 (40分)
* 畳込みニューラルネット (CNN)
* 一般的なCNNの構成
* 畳み込み層
* パディング/ストライド
* プーリング層 (Max pooling/average pooling)
* チャネルと特徴マップ
* 局所反応正規化 (Local Response Normalization; LRN)
* 全結合層
* 畳み込み層の誤差逆伝播法


#### Part 2. 畳み込みニューラルネットの基礎
##### 講義 (40分)
* 畳込みニューラルネット (CNN)

* 一般的なCNNの構成

    1. **畳込み層**
    2. **プーリング層**
    3. **完全結合層**（通常のニューラルネットワークと正確に同じもの，CNN では最終 1 層または最終 1,2 層に用いる）

入力信号はパラメータの値が異なる活性化関数によって非線形変換される。
畳込み層とプーリング層と複数積み重ねることで多層化を実現し，深層ニューラルネットワークとなる。

* 畳み込み層
畳込み層 convolution layers

- 畳込み層のパラメータは学習可能なフィルタの組
- 全フィルタは空間的に（幅と高さに沿って）小さくなる
- フィルタは入力信号の深さと同一
- 第1層のフィルタサイズは例えば $5\times5\times3$（$5$ 画素分の幅，高さ，と深さ $3$（３原色の色チャンネル）
- 各層の順方向の計算は入力信号の幅と高さに沿って各フィルタを水平または垂直方向へスライド
- フィルタの各値と入力信号の特定の位置の信号との内積（ドット積）。
- 入力信号に沿って水平，垂直方向にフィルタをスライド
- 各空間位置でフィルタの応答を定める 2 次元の活性化地図が生成される
- 学習の結果獲得されるフィルタの形状には、方位検出器，色ブロッブ，生理学的には視覚野のニューロンの応答特性に類似
- 上位層のフィルタには複雑な視覚パタンに対応する表象が獲得される
- 各畳込み層全体では学習すべき入力信号をすべて網羅するフィルタの集合が形成される
- 各フィルタは相異なる 2 次元の活性化地図を形成
- 各フィルタの応答特性とみなすことが可能な活性化地図
- フィルタの奥行き次元に沿って荷重総和を計算し、出力信号を生成

<!--
## パラメータ共有
<font color="blue">AlexNet</font>の論文では，第一畳込層は受容野サイズ $F=11$，
ストライド $S=4$，ゼロパディングなし $P=0$。<br>
畳込層 $K=96$ の深さ $(227-11)/4+1=55$。畳込層の出力サイズは [55x55x96]。55x55x96 ニューロンは入力領域 [11x11x3] と連結。全深度列 96 個のニューロンは同じ入力領域 [11×11×3] に繋がる。論文中では $(224-11)/4+1$ となっている。パディングについての記載はない。

**パラメータ共有** パラメータ数を制御するために畳み込み層で使用される。上記の実世界の例を使用すると、最初の畳故意層には 55x55x96=290,400のニューロンがあり、それぞれ 11x11x3=363 の重みと1のバイアスがある。これにより CNN 単独の第 1 層に最大 290400x364=105,705,600 のパラメータが追加される。
-->

---
<center>
<img src="2017Asakawa_KadokawaAscii_CNN1_Page_01.jpg" style="width:49%">
<img src="2017Asakawa_KadokawaAscii_CNN1_Page_02.jpg" style="width:49%">
<img src="2017Asakawa_KadokawaAscii_CNN1_Page_03.jpg" style="width:49%">
<img src="2017Asakawa_KadokawaAscii_CNN1_Page_04.jpg" style="width:49%">
<img src="2017Asakawa_KadokawaAscii_CNN1_Page_08.jpg" style="width:49%">
<img src="2017Asakawa_KadokawaAscii_CNN1_Page_09.jpg" style="width:49%">
<img src="2017Asakawa_KadokawaAscii_CNN1_Page_10.jpg" style="width:49%">
<img src="2017Asakawa_KadokawaAscii_CNN1_Page_11.jpg" style="width:49%">
<img src="2017Asakawa_KadokawaAscii_CNN1_Page_12.jpg" style="width:49%">
</center>
---

* パディング/ストライド

**空間配置**: 出力層ニューロンの数と配置については 3 つのハイパーパラメータで出力ニューロン数が定まる。

1. 深さ(フィルタ数)
2. ストライド幅
3. ゼロパディング

出力層ニューロン数のことを出力層の **深さ** 数と呼ぶハイパーパラメータである。深さ数とはフィルタ数（カーネル数）とも呼ばれる。第 1 畳込み層が生画像であれば，奥行き次元を構成する各ニューロンによって種々の方位を持つ線分(エッジ検出細胞)や色ブロッブのような特徴表現を獲得可能となる。入力の同じ領域を **深さ列** とするニューロン集団を **ファイバ** ともいう。

* プーリング層 (Max pooling/average pooling)
<center>
<img src="2017Asakawa_KadokawaAscii_CNN1_Page_21.jpg" style="width:49%">
</center>

* チャネルと特徴マップ
<center>
<img src="weights.jpeg" style="width:49%">
</center>

* 局所反応正規化 (Local Response Normalization; LRN)
出力関数には $f\left(x\right)=\left(1+\exp\left(-x\right)\right)^{-1}$ もしくは
$f\left(x\right)=\tanh\left(x\right)$ が伝統的に用いられてきた。
しかし AlexNet では ReLU の出力 $a$ を以下のように局所的に規格化する変換が導入された。
局所反応正規化 (Local Response Normalization: LRN) とは次式を用いて出力 $a$ は $b$ へと変換することである。
\begin{equation}
b_{i}=\frac{a_{i}}{\left(
\kappa
+\alpha\sum_{j=\max\left(0,i-n/2\right)}^{\min\left(N-1,i+n/2\right)}\left(a_{j}\right)^2
\right)^{\beta}},
\end{equation}
$n$ は隣接核関数地図における隣接する核関数数，$N$は層内の総核関数数である。
$\kappa=2$, $n=5$, $\alpha=10^{-4}$, $\beta=0.75$ はハイパーパラメータで定数であった。すなわち近傍の値を走査して自乗和し，その値を線形変換した値で規格化する。これは応答関数の値 $a$ が過剰に大きくなる場合を抑制する効果と推察される。S 次曲線を仮定したロジスティック関数やハイパータンジェントは上下限値に飽和するので局所反応正規化を用いる必要がない。

AlexNet あるいは通常の CNN では，畳込み演算の領域である窓が重複する。$s$ 画素毎にプーリングユニットのグリッドが構成され，各プーリングユニットは $z\times z$ の受容野を持つ。$s=z$ であれば重複しないプーリングとなる。$s<z$ であればオーバーラッププーリングとなる。AlexNet では $s=2$, $z=3$ であった。オーバーラッププーリングにより過学習が押さえらえるとされる。オーバラッププーリングは冗長性を担保し，認識システムを頑健にするという生物の生存にとっても意味があると考えられる。

* 全結合層

* 畳み込み層の誤差逆伝播法

##### 基礎演習 (30分)

* 畳み込み層 (L.Convolution2D)
* パディング・ストライドの指定 (pad, stride)
* プーリング層 (F.max\_pooling, F.avg\_pooling)
* 画像の入力
* 小課題：畳み込み・プーリングを使ってみる (使い方の学習)
* 小課題：パラメータ数の計算と比較
* Variableの形状変換 (F.flatten())

### 実践演習 (85分)
#### 課題1: Chainerを用いたCNNの実装 (50分)
* MNISTデータセットを用いて、CNNの学習に挑戦
* 第6回までの知識と合わせて、正解率99%を目指そう
* 使えるツール：畳み込み層、プーリング層、Batch Normalization、SGD、Adam、Dropout

#### 課題2a：(パイロット用) Data Augmentation (20分)
* Horizontal flippingの実装 (行列のスライス)
* Scale augmentation (scipy.misc.imresize)
* Random crop/padding (np.pad)

#### 課題2b：(本番用) 未定 (20分)

#### 解説・コードレビュー (15分)

### フィードバック・次回予告 (5分)

## 参考文献 (講師の方も随時追加お願いします)