# 畳み込みニューラルネットワーク

畳み込みニューラルネットワーク(convolutional neural network:CNN)は、ディープラーニングの手法の一つ。  
画像認識や音声認識の分野で一定の成果を出している。

## 1.全体の構造

* CNNもこれまでのニューラルネットワークと同様に、レゴブロックのようにレイアを組み合わせることで作ることが出来る。
* CNNの場合、新たに**「Convolutionレイア(畳み込み層)」**と**「Poolingレイア(プーリング層)」**が登場する。

これまで見てきたニューラルネットワークは、隣接する層の全てのニューロン間で結合があった。これを**「全結合」**という。  
以下の図のように全結合のニューラルネットワークは、Affineレイアの後に活性化関数のReLUレイア(もしくはSigmoidレイア)が続きます。  
最後にSoftmaxレイアで最終的な結果(確率)を出力している。

<img src="./img/7-1.png" title="全結合層(Affineレイア)によるネットワークの例" width="800" height="500" />

下図のように、CNNでは新しく「Convolutionレイア」と「Poolingレイア」が加わる。  
CNNのレイアのつながり順は**「Convolution - ReLU - Pooling」**という流れになる。(Poolingレイアは省略されることもある)  
CNNであっても出力に近い層ではこれまでの「Affine - Softmax」という組み合わせが利用される。

<img src="./img/7-2.png" title="CNNによるネットワークの例" width="800" height="500" />

## 2.畳み込み層

CNNでは、**「パティング」**、**「ストライド」**などのCNN特有の用語が登場する。  
また各層を流れるデータは形状のあるデータ(例えば、3次元のデータ)になり、これまでの全結合のネットワークとは異なる。

### 2.1. 全結合層の問題点

全結合層の問題点は**「データの形状が無視されてしまう」**こと。  

例えば、入力データが画像の場合、通常は縦・横・チャネル方向の3次元の形状である。  
しかし、全結合層に入力するときは、3次元のデータを平らにして、1次元に変換する必要がある。

画像は3次元の形状であり、この形状には大切な空間的な情報も含まれる。  
例えば、空間的に近いピクセルは似たような値であったり、RGBの各チャネル間にはそれぞれに密接な関連性があったり・・・等。   
**全結合層は、形状を無視して全ての入力データを同等のニューロンとして扱うため、形状に関する情報を活かすことが出来ない。**

一方、畳み込み層(Convolutionレイア)は、**「データの形状を維持」**する。

画像の場合、**入力データを3次元のデータとして受け取り、同じく3次元のデータとして、次の層にデータを出力する。**  
そのため、CNNでは画像などの形状をゆう自他データを正しく理解出来る(可能性がある)

CNNでは、畳み込み層の入出力データを「特徴マップ」という場合がある。  
更に、畳み込み層の入力データを「入力特徴マップ」、出力データを「出力特徴マップ」と呼ぶことがある。

### 2.2. 畳み込み演算

畳み込み層で行う処理は「畳み込み演算」であり、畳み込み演算は画像処理で言うと、「フィルター処理」に相当する。

<img src="./img/7-3.png" title="畳み込み演算の例" width="600" height="300" />

### 2.3 パディング

畳み込み層の処理を行う前に、入力データの周囲に固定のデータ(例えば0など)を埋め込むこと。

### 2.4 ストライド

フィルターを適応する位置の間隔をストライド(stride)と言う。

## 3.プーリング層

プーリングは、縦・横方向の空間を小さくする演算のこと。

下図は、「2 * 2」のMaxプーリングをストライド2で行った場合の処理手順。

<img src="./img/7-4.png" title="プーリングの処理手順" width="500" height="300" />

### 3.1 プーリング層の特徴

* 学習するパラメータがない

プーリング層は、畳み込み層と違って、学習するパラメータを持たない。  
プーリングは、対象領域から最大値を取る(もしくは平均値を取る)だけの処理なので、学習すべきパラメータが存在しない。

* チャンネル数は変化しない

プーリングの演算結果によって、入力データと出力データのチャンネル数は変化しない。

* 微小な位置変化に足ししてロバスト(頑健)

入力データの小さなズレに対して、プーリングは同じような結果を返す。  
そのため、入力データの微小なズレに対して、ロバストです。

ロバスト ［2］ 【robust】  
①頑健なこと。がっしりしていること。また、確固としていること。  
②コンピューターのプログラムが、起こったエラーに自動的に対処して処理を続行すること。