## Convolutional neural networks / 畳み込みニューラルネットワーク (optional)

In this session, we will discuss _convolutional neural networks_ (CNNs).

CNNs are a good choice for classification and other tasks when the input is an image. For such cases is often possible to obtain a better result with CNNs then with fully connected networks. CNNs can also be used for many types of data that can be transformed into an image (e.g. sound data, or sequences of observations, etc.).

このセッションでは、_畳み込みニューラルネットワーク_ （convolutional neural network, CNN）について説明します。

CNNは、入力が画像の時に行う分類などタスクに適しています。入力が画像の場合、全結合ネットワークよりもCNNを使用する方がよい場合がよくあります。また、画像に変換できる多くの種類のデータ（たとえば、音声データ、または一連の観測など）にも使用できます。

### Convolutional layers / 畳み込み層

CNNs use __convolutional layers__, which operate differently from fully connected layers. 
<br>
The input to the convolutional layer is an image - an array of pixels, where each pixel is represented by one or more values (called  __channels__): e.g. in a standard color image we have the _red_ , _blue_ and _green_ channel. 
<br>
Unlike in fully connected layers, each neuron in the convolution layer is connected only to one part of the input image - a rectangular window of pixels, see figure below. As a result, the output of the convolutional layer is also an image-like array.

CNNは、完全に接続された層とは異なる動作をする__畳み込み層__を使用します。
<br>
たたみ込み層への入力は画像のピクセル配列であり、各ピクセルは1つ以上の値（__チャンネル__と呼ばれる）で表されます。例えば、標準のカラー画像には、_赤_、_青_、_緑_ のチャンネルがあります。
<br>
全結合層とは異なり、畳み込み層の各ニューロンは、入力画像の一部にのみ接続されます。接続されているのはピクセルの長方形のウィンドウ、下の図は例を表しています。その結果、畳み込み層の出力も画像のような配列です 。
<br>

<img src="./img/convolution.jpg" width=1000>

Typically several convolutions are applied to the same window, resulting in multiple channels of the output image.
<br>
For example, the next figure shows an example of a convolutional layer which takes as input an image with one channel and outputs an image with 4 channels.

通常、同じウィンドウに複数の畳み込みが適用されるため、出力画像は複数のチャンネルがあります。
<br>
たとえば、次の図は、1つのチャンネルを持つ画像を入力として受け取り、4つのチャンネルを持つ画像を出力する畳み込み層の例を示しています。

<img src="./img/convolution_multi.jpg" width=200>
<br>

#### Convolutions / 畳み込み

The neurons perform the __convolution__ operation, which is the form $f(\sum c W + b)$, where $W$ contains the pixel values in the input window, $c$ and $b$ are trainable coefficients and $f$ is an activation function.
<br>
Importantly, in each channel the parameters $c$ and $b$ are _shared for all windows_ ! 
<br>
For example, for a window of size `3x3`, each channel has `3x3+1 = 10` trainable parameters. The number of parameters does not depend on the size of the image, and it is _much smaller_ than what a fully connected network would have.

In the example in the previous figure, there is one set of trainable values for each of the channels. If we assume that all the windows have a size of `3x3` then there is `4x(3x3+1) = 40` trainable parameters.

畳み込み層のニューロンは__畳み込み__演算を実行します。その形式は$f(\sum c W + b)$です。$W$には入力ウィンドウのピクセル値が含まれてます。$c$と$b$はトレーニング可能な係数です。$f$は活性化関数です。
<br>
重要なのは、各チャンネルでパラメータ$c$と$b$が_すべてのウィンドウで共有される_ことです。
<br>
たとえば、ウィンドウの大きさが`3x3`の場合、各チャネルには`3x3+1 = 10`のトレーニング可能なパラメーターがあります。パラメータの数は画像のサイズに依存せず、全結合ネットワークよりもはるかにパラメータが少ないです。

前の図の例では、チャンネルごとに1セットのトレーニング可能な係数があります。すべてのウィンドウの大きさが`3x3`であると仮定すると、トレーニング可能なパラメーターが`4x(3x3+1) = 40`あります。

The input may also have several channels (e.g. an RGB image).
In this case, the input for the convolution operation is calculated on all channels of the input window, see the next figure.
<br>
In this example, assuming all slidding windows have a size of `3x3`, there are `1x(3x3x4)+1 = 37` trainable parameters.

入力には複数のチャンネルも含まれる場合があります（例えばRGB画像には3つのチャンネルがあります）。
この場合、畳み込み演算の入力は、入力ウィンドウのすべてのチャネルで計算されます。次の図を参照してください。
<br>
この例では、すべてのスライドウィンドウの大きさが`3x3`であるとすると、トレーニング可能なパラメーターが`1x(3x3x4)+1 = 37`あります。

<img src="./img/convolution_multi_input.jpg" width=200>

Note that, since the computations are limited to a window, the convolutions are exploiting local information present in the image.

計算はウィンドウに限定されているため、畳み込みは画像に存在するローカル情報を利用していることに注意してください。

### Pooling layers / プーリング層

In CNNs convolution layers are often combined with layers doing pooling (typically _max pooling_) operations.
<br>
A pooling operation also operates on windows, as illustrated in the image below,

Max pooling just outputs the largest (max) value among the pixels in the window (for each channel separately). Thus, the max pooling layer has no trainable parameters.

CNNでは畳み込み層以外、多くの場合プーリング計算を実行する層を使用しています。（通常は _最大プーリング_ を使います。）
<br>
次の図に示すように、プーリング計算もウィンドウ上に実行します。

最大プーリングでは、ウィンドウ内のピクセルの最大値が出力されます。（最大値の計算はチャネルごとに行われます。）したがって、最大プーリング層にはトレーニング可能なパラメーターがありません。

<img src="./img/max_pool.jpg" width=200>


Typically, pooling is not applied to all possible windows, but only to nonoverlapping windows. This results in an output image of a smaller size. In fact, the main purpose of using pooling layers is to diminish the size of the image that will be passed on to the following layers.
<br>
For example, doing pooling using `2x2` windows will result in an image with `4` times less pixels.

通常、プーリングはすべての可能なウィンドウに適用されるのではなく、重ならないウィンドウにのみ適用されます。これにより、出力イメージのサイズが小さくなります。実際、プーリング層を使用する主な目的は画像のサイズを小さくすることです。
<br>
たとえば、`2x2`ウィンドウを使用してプーリングを行うと、出力画像は入力画像よりピクセルが`4`倍少ないです。

## Image dataset / 画像のデータセット

We will again work with the MNIST dataset. 
<br>
However, now we will use the data as 2D images, not as vectors, like in the earlier examples.

再びMNISTデータセットを使用します。
<br>
ただし、ここでは、前の例のように、ベクターではなく2次元の画像としてデータを使用します。

In [1]:
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt

from mnist_loader import MNISTImageLoader
mnist_image_loader = MNISTImageLoader(43)
X, y = mnist_image_loader.samples(70000)

Now one sample is composed of an image of size `28x28` and a label. The image is grayscale, so it has only one channel.

これで、1つのサンプルが大きさ`28x28`の画像とラベルで構成されます。画像はグレースケールであるため、チャンネルは1つだけです。

In [2]:
print(X[0].shape)

(28, 28, 1)


The 3 dimensions of `X` are:
- the width of the sample image: `28`
- the height of the sample image: `28`
- the number of channels in the sample image: `1` 

`X`の3つの次元は次のとおりです。
- 画像の幅： `28`
- 画像の高さ： `28`
- 画像のチャネル数： `1`

Let us split the dataset between training and testing sets.

データセットをトレーニングセットとテストセットに分割しましょう。

In [3]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test  = train_test_split(X, y, test_size=0.5)

# The pixel values are in the range [0, 255], we will limit them to [0, 1]
X_train = X_train / 255.0
X_test = X_test / 255.0

print("Training set size:", X_train.shape)
print("Testing set size:", X_test.shape)

Training set size: (35000, 28, 28, 1)
Testing set size: (35000, 28, 28, 1)


## Creating the network / ネットワークの作成

The process of creating the convolutional neural network is very similar to the fully connected network.

畳み込みニューラルネットワークを作成する手順は、全結合ネットワークと似ています。

In [4]:
from tensorflow.keras.layers import Input, Conv2D, MaxPooling2D, Flatten, Dense, Dropout
from tensorflow.keras.models import Model
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import ModelCheckpoint, EarlyStopping
from tensorflow.keras.utils import to_categorical

The input layer for the CNN will contain an image.

CNNの入力層には画像が入ります。

In [5]:
input_shape = X_train[0].shape
img_input = Input(shape = input_shape, name='input')

Let us now create a first convolution layer.
<br>
In `keras`,  the object `Conv2D` represents a 2D convolution that expects an image as input (here `img_input`):
- The first parameter `32` is the number of channels of the output image
- The `kernel_size` defines the size of the window
- The `activation` defines the type of function to apply on the output for each window (as in fully connected layers, `relu` is often used)


最初の畳み込み層を作成しましょう。
<br>
`keras`では、オブジェクト`Conv2D`は2次元の画像を入力として扱う畳み込み層です。
- 最初のパラメータ`32`は出力画像のチャンネル数です
- `kernel_size`はウィンドウのサイズを定義します
- `activation`は、各ウィンドウの出力に適用する関数のタイプを定義します（全結合層と同じく、`relu`がよく使われる）

In [6]:
conv1 = Conv2D(32, kernel_size=(3, 3), activation='relu', name='conv1')(img_input)

The layer `conv1` appplies `32` different filters of size `3x3` to the input image that has one channel.
Consequently the layer has `32x(3x3)+32=320` trainable coeffecients (as a comparison, the fully connected network was using `784x128=100480` coefficients in its first layer). 

`conv1`層は、1つのチャンネルを持つ入力画像に大きさ`3x3`の畳み込みを32個適用します。
その結果、この層には`32x(3x3)+32=320`のトレーニング可能な係数があります。（比較として、前のセッションの全結合ネットワークは最初の層で`784x128=100480`の係数を使用していました。）

Let us add a second convolution layer.

2番目の畳み込み層を追加しましょう。

In [7]:
conv2 = Conv2D(64, (3, 3), activation='relu', name='conv2')(conv1)

This layer takes as input the output of the previous convolution that has `32` channels and outputs `64` channels.
It also uses windows of size `3x3`.
You can easily check that it has `18496` trainable parameters.

この層は、`32`チャンネルを持つ前の畳み込みの出力を入力として受け取り、`64`チャンネルを出力します。
サイズが`3x3`のウィンドウを使用します。
トレーニング可能なパラメータが`18496`あることを簡単に確認できます。

Let us add a max pooling layer. 
<br>
The `pool_size` defines the size of the window for extracting the maxima. 
<br>
By default, there is no overlap of the windows. 
Consequently, this layer will divide the width and height of the image by `2`.


最大プーリング層を追加しましょう。
<br>
`pool_size`は最大値を計算するためのウィンドウのサイズを定義します。
<br>
デフォルトでは、ウィンドウの重なりはありません。
その結果、この層は画像の幅と高さを半分にします。

In [8]:
pool = MaxPooling2D(pool_size=(2, 2), name='pool')(conv2)

#### Dropout

Dropout is a technique used to avoid _overfitting_ .
<br>
The dropout layer randomly "drops out" some of the connections by setting them to `0`. This is done only during training, and it has the effect of preventing the network to overfit to the training data. 
(When using the network to make predictions, the dropping out is not used.)

Dropout is typically a very successful way for preventing overfitting. It is used in both fully connected and convolutional networks.

Dropout(ドロップアウト)は、_過学習_を回避するために使用される手法です。
<br>
Dropout層は、ランダムにいくつかの接続を「0」に設定することにより、それらを「ドロップアウト」します。これはトレーニング中にのみ行われ、ネットワークがトレーニングデータに適合しすぎるのを防ぐ効果があります。
（予測を行う場合、ドロップアウトは使用されません。）

Dropoutは通常、過学習を防ぐための非常に成功した方法です。全結合ネットワークにも畳み込みネットワークにも使用できます。

Let's add the `Dropout` layer to our network.
<br>
The only parameter that we need to specify is the _dropout rate_ , which determines the probability that the outputs will be dropped during training (here it is set to `0.25`, i.e. 25%).

`Dropout`層をネットワークに追加しましょう。
<br>
指定する必要がある唯一のパラメーターは _ドロップアウト率_ です。これは、トレーニング中に出力がドロップされる確率を決定します（ここでは、`0.25`、つまり25％に設定されています）。

In [9]:
dp1 = Dropout(0.25)(pool)

#### Final layers / 最終層

In a CNN the final layers are typically fully connected layers. 

Since we use vectors as inputs to the fully connected layers, we should transform the image output from the previous layer to a vector.
<br>
This is the role of the `Flatten` layer.
(It takes as input an image with possibly several channels and outputs that image as a vector by stacking all the values.)


CNNでは、最終層は通常、全結合層を使います。

全結合層への入力としてベクターを使用するため、前のレイヤーからの画像出力をベクターに変換する必要があります。
<br>
これが`Flatten`層の役割です。
（複数のチャネルを持つ画像を入力として受け取り、すべての値を積み重ねることにより、その画像をベクトルとして出力します。）

In [10]:
fl = Flatten()(dp1)

We add a fully connected layer with `128` neurons.

`128`ニューロンを含む全結合層を追加します。

In [11]:
fc1 = Dense(128, activation='relu', name="fc1")(fl)

Let us add another `Dropout` layer to avoid overfitting and help generalization.
Note that the `Dropout` layer works well on both image data or vector data.

過学習を回避するために、もう一つのDropout層を追加しましょう。
Dropout層は画像データとベクターデータの両方で使用できます。

In [12]:
dp2 = Dropout(0.5)(fc1)

Finally, as in the previous session, we add the decision layer which is a fully connected layer with `10` neurons and a `softmax` activation function.

最後に、前のセッションと同様に、`10`ニューロンと`softmax`活性化関数を備えた全結合層を追加します。

In [13]:
fc2 = Dense(10, activation='softmax', name="fc2")(dp2)

Lastly, we just have to create the model and specify is the input and output.

最後に、入力と出力を指定してモデルを作成します。

In [14]:
network = Model(img_input, fc2, name='CNN_classification')

Let us display the structure of the created network.

作成したネットワークの構造を表示してみましょう。

In [15]:
network.summary()

Model: "CNN_classification"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input (InputLayer)           [(None, 28, 28, 1)]       0         
_________________________________________________________________
conv1 (Conv2D)               (None, 26, 26, 32)        320       
_________________________________________________________________
conv2 (Conv2D)               (None, 24, 24, 64)        18496     
_________________________________________________________________
pool (MaxPooling2D)          (None, 12, 12, 64)        0         
_________________________________________________________________
dropout (Dropout)            (None, 12, 12, 64)        0         
_________________________________________________________________
flatten (Flatten)            (None, 9216)              0         
_________________________________________________________________
fc1 (Dense)                  (None, 128)        

There are several observations we can make about this network:
- Each of the convolution layers reduces the size of the images of `2` pixels: From `28` to `26` to `24`.
- The max pooling layer divides the dimensions by `2` from `24` to `12`. It does not have trainable parameters.
- Dropout also does not have trainable parameters.
- The vector output of the flatten layer has a dimension of `12x12x64 = 9216`.
- The fully connected layer `fc1` has the most trainable parameters `1179776`.

このネットワークについては、いくつかの観察があります。
- 各畳み込み層は、画像のサイズを`2`ピクセルで縮小します（`28`から`26`から`24`）。
- 最大プーリング層は、画像の幅・高さを`2`で割ります（`24`から`12`）。 トレーニング可能なパラメータはありません。
- ドロップアウトにもトレーニング可能なパラメーターはありません。
- フラット層のベクター出力のディメンションは`12x12x64 = 9216`です。
- 全結合層`fc1`には、最もトレーニング可能なパラメーターがあります（`1179776`）。

## Try  it yourself ! / 自分で試そう！

First, _stop or restart the kernel_ in this notebook.

Then, [click here](session11-playground.ipynb) to open a sample notebook where you can train a convolutional neural network on MNIST.

まずはこのノートブックの _カーネルを停止・再起動_ してください。

その後、[ここをクリックして](session11-playground.ipynb)サンプルのノートブックを開き、MNISTデータセット上にCNNをトレーニングしてみてください。