# 6章 Chainerの基礎


この章では、前章で取扱ったニューラルネットワークの数学を実際にディープラーニングのフレームワークである `Chainer` を用いて実装していきます。  
最後には簡単なニューラルネットワークをChainerのsequentialと呼ばれる形式で実装するところまでをご紹介します。  

Google Colaboratoryでは、Chainerの環境構築がすでに完了しているため、インストールなどは行う必要はありません。  
早速Chainerの基礎について学んでいきます。


## Chainerでニューラルネットワークの計算

この節では、前章で学んだニューラルネットワークの数学をChainerを用いて実装していきます。

### Chainerの読み込み

Chainerの読み込みは、Pythonの他のモジュールと全く同じです。

In [0]:
import chainer

使用しているChainerのバージョンも確認しておきましょう。

In [120]:
chainer.__version__

'5.0.0'

2019年1月現在最新のChainerのバージョン5となっています。

### リンクの定義

数学においてもプログラミングにおいても、全結合層（fully-connected layer）では、2層で1セットとして扱います。  
このセットのことを「リンク」と呼びます。
まずは、3ノードの入力層と2ノードの出力層の部分を表現していきます。

![](images/06_01.png)

リンクの定義は`chainer.links`を使用します。  
また、`chainer.links`は公式ドキュメントにもあるように`L`という略称で呼び出すのが一般的です。


In [0]:
import chainer.links as L

3 → 2 のリンクを`fc`（fully-connected layer（全結合層）の略）として、以下のように宣言します。

In [0]:
# 全結合層の定義
fc = L.Linear(3, 2)

これだけで完了です。`L.Linear`は、前章で学んだ重回帰分析の線形結合という意味です。  

宣言したリンクの **重み（W）** と **バイアス（b）** はランダムに初期化されています。  

In [123]:
# 重みの確認
fc.W

variable W([[ 1.0928946 , -0.16202196,  1.198502  ],
            [ 1.1838378 ,  0.15973558,  1.1929326 ]])

In [124]:
# バイアスの確認
fc.b

variable b([0., 0.])

3→2の全結合層なので合計で6つの重みがランダムに定義されていることが確認できます。  

このパラメータを最適化の初期値に使用します。  


### 乱数のシードを固定して再現性を確保

重みやバイアスのパラメータの値がランダムに初期化されるため、実行する毎に結果が異なってしまいます。  
この状態では次の日に同じ結果を出そうとしても、新たに重みの初期値がランダムに設定されてしまうため、再現性がありません。  

そこで、乱数のシード（乱数を算出の際に初期状態を設定する数値）を固定するという方法を使います。  
これにより**再現性の確保**ができます。

実際に、乱数のシードを固定してみましょう。

In [0]:
import numpy as np

In [0]:
np.random.seed(3)

ChainerはNumpyをベースに作られているため、Numpy上で乱数のシードを固定することにより、再現性の確保を実現できます。  

※GPUを使用する場合は、NumpyではなくCupyをベースに計算しているため、Cupyで乱数のシードを固定する必要があります。  

乱数のシードを固定した後で重みを確認してみましょう。  



In [127]:
fc.W

variable W([[ 1.0928946 , -0.16202196,  1.198502  ],
            [ 1.1838378 ,  0.15973558,  1.1929326 ]])

In [128]:
fc.b

variable b([0., 0.])

 上記の値になっていれば、乱数のシードがうまく固定できています。

### 線形変換の値を計算

前章で学習した、`u`の値を計算してみます。  
`u`の値は`chainer.links.Linear`の中に準備されているため、  
以下のようにNumpyの形式で渡すことで計算が完了します。

In [0]:
x = np.array([[1, 2, 3]])

In [130]:
u = fc(x)

InvalidType: ignored

本来であれば、このように計算できます。   
これは`chainer.links.Linear`というクラスの`call`関数を呼び出しているわけです。  
これで計算ができることを、今は覚えておいてください。

しかし、多くの方はこれでエラーが起きます。 エラーの原因は一番下に書いてあるため、まずは原因の確認を行いましょう。

Chainerが初めての方には、非常にわかりにくく、一番最初に悩むエラーです。  
これは「int型（i）ではなく、float型（f）で宣言しないといけない」という内容を示しています。

入力するデータをfloat型で宣言して再度計算しましょう。  



In [0]:
x = np.array([[1,2,3]])

In [132]:
x.dtype

dtype('int64')

Numpyでのデータ型は`.dtype`で確認を行うことができます。   
初期状態だと整数を扱うint型の32bitで定義されていることがわかります。

こちらをfloat型で定義しなおします。

In [0]:
x = np.array([[1,2,3]], dtype=np.float)

In [134]:
x.dtype

dtype('float64')

再度計算を実行します。

In [135]:
u = fc(x)

InvalidType: ignored

しかし、float型に変換しても、またエラーが起きてしまいます。  
今度のエラーの内容としては、`float64`ではなく、`float32`が望まれると記載されています。

Chainerではデフォルトで`32bit`を扱うことになっているということを覚えておきましょう。  
なぜこの32bit型を使用するかというとGPUで計算する上でこの形が最も適しているという認識を持っていれば問題ありません。

In [0]:
x = np.array([[1, 2, 3]], dtype=np.float32)

In [0]:
x.dtype

また、float32型への変換は以下のように省略形で記述することができます。

In [0]:
x = np.array([[1, 2, 3]], 'f')

In [137]:
x.dtype

dtype('float32')

改めて、再度計算を実行します。

In [0]:
u = fc(x)

In [139]:
u

variable([[4.3643565, 5.0821066]])

### 非線形変換の計算

前章で学んだ活性化関数として、Relu関数をかける場合は以下のように記述します。  
Chainerで使用する関数は全て `functions` にあります。

In [0]:
import chainer.functions as F

In [0]:
z = F.relu(u)

In [142]:
z

variable([[4.3643565, 5.0821066]])

このように正の値はそのままで、負の値は0となるRelu関数が正しく適用できていることが確認できます。


### 一連の流れを計算

前章で学んだ数学の計算を一連の流れで計算してみます。  
全体像は下記になります。  

![NNイメージ](images/06_02.png)

**構成**  

リンクの定義

- 左側のリンク：fc1 → (3, 2)
- 右側のリンク：fc2 → (2, 1)

データの準備

- 入力変数 : x → (1, 2, 3)
- 教師データ : t → (3)

計算

- fc1の線形変換 → u1
- fc1の非線形変換（Relu）→ z1
- fc2の線形変換 → 出力y
- 損失関数 : mean_squared_error → loss

なお、計算する前にシードの固定は下記で設定します。  
（`np.random.seed(3)`）


#### リンクの定義

In [0]:
# シードの固定
np.random.seed(3)

In [0]:
# リンクの宣言
fc1 = L.Linear(3, 2)
fc2 = L.Linear(2, 1)

#### データの定義

In [0]:
# 入力変数
x = np.array([[1, 2, 3]], 'f')

In [0]:
# 教師データ
t = np.array([[3]], 'f')

#### 線形変換と非線型変換の計算

In [147]:
# 線形変換の計算
u1 = fc1(x)
u1

variable([[ 1.7038419, -2.010649 ]])

In [148]:
# 非線型変換の計算
z1 = F.relu(u1)
z1

variable([[1.7038419, 0.       ]])

In [149]:
# 出力yの計算
y = fc2(z1)
y

variable([[-0.09968679]])

#### 損失関数の値の計算

出力の予測値が計算できたので、損失関数の値も計算を行います。 先の入力に対する教師データが`t=3`だとすると、以下のように計算できます。

In [150]:
# 平均二乗誤差の計算
loss = F.mean_squared_error(t, y)
loss

variable(9.608059)

こちらのように評価関数に関しても、Chainerでは`chainer.functions（F）`の中に定義されているため、特別発展的な内容でない限りはこちらを使用して進めていくことを推奨します。

### chainer.links（L）とchainer.functions（F）の違い

これまで、Chainerの機能である`L`と`F`が何回か登場しましたが、どのように使い分けているかは以下の通りです。

- chainer.links（L）：調整すべきパラメータを持つ関数
- chainer.functions（F）：調整すべきパラメータを持たない関数

具体的には、`L.Linear`のように内部で重み`W`やバイアス`b`のパラメータを持つ場合は`chainer.links`で用意されています。 逆にRelu関数では、`f(u)=max(0,u)`のように、内部でパラメータを持たないため、`chainer.functions`で用意されています。



### ChainerのSequentialで順伝播の計算

Chainerが用意している`Sequential`を使用することによって、  
上記の流れの定義、計算を一度に実行することができます。  

In [0]:
from chainer import sequential

In [0]:
# 順伝播の流れと計算を定義
model = Sequential(
    fc1,
    F.relu,
    fc2,
)

In [0]:
# 順伝播の計算を実行
y = model(x)

In [154]:
y

variable([[-0.09968679]])

In [155]:
# 損失関数を計算
F.mean_squared_error(t, y)

variable(9.608059)

## Chainerでクラス分類

順伝播の計算方法を理解したところで、実際にChainerを用いて学習済みモデルを構築していきます。  

今回は「分類」の問題設定に取り組みます。  


### データの読み込み

今回はscikit-learn上で準備されているirisの分類のデータセットを使用します。  

In [0]:
# irisデータセットの読み込み
from sklearn.datasets import load_iris
dataset = load_iris()
x = dataset.data
t = dataset.target

### Chainerで計算できるデータ形式に変換

Chainerで計算を行うために、下記の３点を満たしているか確認します。  
こちらが指定された形式となっていない場合、学習の際にエラーが出てしまいます。  

- 入力変数や教師データが `Numpy` で定義されているか
- 分類の場合、ラベルが `0` から始まっているか
- 入力変数が `float32` 、教師データが回帰の場合 `float32` 、分類の場合 `int32` で定義されているか


#### Numpyに変換

今回はscikit-learnからデータを読み込みんでいるため、データはNumpy型となっています。  
そのため今回は特に変更を加える必要はありません。

In [157]:
type(x)

numpy.ndarray

In [158]:
type(t)

numpy.ndarray

### 分類で使用するラベルを0から始める

今回準備されている教師データのラベルを確認してみましょう。`min`と`max`で確認することができます。

In [159]:
t.min()

0

In [160]:
t.max()

2

教師データのラベルが0から始まっていることが確認できたので、今回は特に変更を加える必要はありません。  

#### データ型を変更

始めに現状のデータ型を確認します。

In [161]:
x.dtype

dtype('float64')

In [162]:
t.dtype

dtype('int64')

 Numpyの基礎でご紹介したように、`.dtype`のコマンドで確認することができます。  
このように、本来であれば`32bit`型で指定しないといけないところを`64bit`版のコンピュータであれば、デフォルトが`64bit`型で定義されてしまうため、変更する必要があります。

Numpy側で準備されている`.astype()`を使用して、`32bit`型へと変換します。

In [0]:
# 32bitに変換
x = x.astype('float32')
t = t.astype('int32')

In [164]:
x.dtype

dtype('float32')

In [165]:
t.dtype

dtype('int32')

### Chainerで使用するデータセットの形式

メモリに乗る程度の小規模なデータの場合は、入力変数と教師データを**タプルで１セット**にし、それを**リスト化**しておくことがChainer推奨の形式です。

![Chainer推奨のデータセット形式](images/06_03.png)

In [0]:
# Chainerで使用できるデータセットの形式
dataset = list(zip(x, t))

このように、`zip(x, t)`で入力変数と教師データをタプル化した後、それを`list`でリスト化します。

### 訓練データ、検証データ、テストデータに分割

機械学習には欠かせない訓練データ、検証データ、テストデータへの分割です。  
Chainerでは`chainer.datasets.split_dataset_random`にその機能が準備されています。  

ランダムでなく、前半の70%を訓練、後半の30%を検証といった分割が良い場合は、  
`chainer.datasets.split_dataset`を使用することができます。  
※ 詳しくは[こちら](https://docs.chainer.org/en/v5.0.0/reference/generated/chainer.datasets.split_dataset_random.html#chainer.datasets.split_dataset_random)のリファレンス参照


引数には`dataset`（先ほど作成した形式）、`first_size`と指定されています。

`first_size`では訓練データのサイズを指定するのですが、このとき全体の70%を訓練データと検証データにしようと決めておくと、記述が簡単かつ汎用性の高いプログラムになります。

全体のサイズを取得する時には`len()`が便利です。

In [167]:
len(dataset)

150

`split_dataset_random` を使用し分割します。

In [0]:
# 訓練データのサンプル数
n_train = int(len(dataset) * 0.7)
# 訓練データ＆検証データ(train＆validation)とテストデータ(test)に分割
train_val, test = chainer.datasets.split_dataset_random(dataset, n_train, seed=1)

# 訓練データと検証データに分割
n_train = int(len(train_val) * 0.7)
train, valid = chainer.datasets.split_dataset_random(train_val, n_train, seed=1)

`n_train` を計算する際 `int` と付けていますが、サイズは整数値しか受け付けません。小数が出たときは `int` によって小数値の切り捨てを行っています。

`seed=1` は、乱数のシードを1で固定しますという意味で、何度か出てきた **再現性確保** のためです。

出力として得られる `train` と` test` を確認します。

In [169]:
train

<chainer.datasets.sub_dataset.SubDataset at 0x7f2c365ed710>

In [170]:
valid

<chainer.datasets.sub_dataset.SubDataset at 0x7f2c365ed6d8>

In [171]:
test

<chainer.datasets.sub_dataset.SubDataset at 0x7f2c365ed630>

こちらのように数値が表示されず、どのような形式であるか迷いますが、`train[0]` のようにリストの要素番号を指定すると数値が表示され、リスト形式で保存されていることがわかります。 

In [172]:
train[0]

(array([6.5, 3. , 5.8, 2.2], dtype=float32), 2)

In [173]:
len(train)

73

In [174]:
len(valid)

32

In [175]:
len(test)

45

またデータはPythonの標準的な記法でそれぞれ分割して取り出すことも可能です。

In [0]:
_x, _t = train[0]

In [177]:
_x

array([6.5, 3. , 5.8, 2.2], dtype=float32)

In [178]:
_t

2

これでデータセットの準備は整いました。  
ChainerのSequentialというモジュールを使用して、ニューラルネットワークの定義を行なっていきます。  

### ChainerのSequentialモデル

Chainerには主にニューラルネットワークの定義の方法として2つの方法があります。  

1. Sequentialを使用してのネットワークの定義
2. クラスを用いてのネットワークの定義

**1. Sequentialを使用してのネットワークの定義**

ネットワークの構造と計算の流れを同時に表現することが可能です。  
1方向の順伝播の流れの場合にのみ使用することが可能な方法になります。  
（基礎的なネットワークに関してはこちらの方法で実装することが可能です。）


**2. クラスを用いてのネットワークの定義**

こちらは次章以降掘り下げて学んでいきます。


#### ChainerのSquentialを使用してのネットワークの定義

まずはネットワークの形を確認します。  
今回は入力層→隠れ層1→隠れ層2→出力層というシンプルな4層のニューラルネットワークを定義します。  
まずはそれぞれのノードの数を定義しておきます。


In [179]:
# 入力層のノードの数
n_in = len(x[0])
n_in

4

In [180]:
# 隠れ層のノードの数
n_hidden = 10
n_hidden

10

In [181]:
# 出力層のノードの数
n_out = len(np.unique(t))
n_out

3

In [0]:
from chainer import Sequential

今から上記で定義したノードの数を使用して、モデルを構築しますが、  
モデルを定義する前に**再現性の確保**を行うために、シードの固定を行います。

In [0]:
# シードの固定
np.random.seed(0)

では、モデルの定義を行います。

In [0]:
# モデルの定義
model = Sequential(
    L.Linear(n_in, n_hidden), F.relu,
    L.Linear(n_hidden, n_hidden), F.relu,
    L.Linear(n_hidden, n_out)
)

Sequentialを使用して定義したモデルの重みは、  
下記のようにスライスして`.W`を実行することにより確認することができます。

In [185]:
# 入力層→隠れ層1の重みの確認
model[0].W

variable W([[ 0.8820262 ,  0.2000786 ,  0.489369  ,  1.1204466 ],
            [ 0.933779  , -0.48863894,  0.47504422, -0.0756786 ],
            [-0.05160943,  0.20529926,  0.07202178,  0.72713673],
            [ 0.38051885,  0.06083751,  0.22193162,  0.16683717],
            [ 0.74703956, -0.10257913,  0.15653385, -0.42704788],
            [-1.2764949 ,  0.3268093 ,  0.4322181 , -0.3710825 ],
            [ 1.1348773 , -0.72718287,  0.02287926, -0.09359193],
            [ 0.7663896 ,  0.7346794 ,  0.07747371,  0.18908127],
            [-0.44389287, -0.9903982 , -0.17395608,  0.07817449],
            [ 0.6151453 ,  0.6011899 , -0.1936634 , -0.15115137]])

### 学習の一連の流れを実行

前章で取り扱ったニューラルネットワーク の計算（学習）の流れを一度動かしてみます。  
流れは下記のようになっていました。  


#### 学習の計算の流れ

1. 順伝播の計算
2. 損失関数の計算
3. 逆伝播の計算（勾配の算出）
4. パラメーターの更新

この4ステップを繰り返すことによってニューラルネットワークはパラメーターを更新していきます。  

実際に一連の流れを追ってみましょう。

In [0]:
# trainデータをxとtに切り分け
from chainer.dataset import concat_examples
x, t = concat_examples(train)

In [0]:
#  順伝播の計算
y = model(x)

In [188]:
y[:5]

variable([[ 5.4008775, -7.1086593, -3.4392862],
          [ 4.105389 , -5.076606 , -1.9480416],
          [ 5.731492 , -6.329441 , -3.4108005],
          [ 5.4999585, -6.4146657, -3.157786 ],
          [ 5.859702 , -6.7279463, -3.4216907]])

損失関数の計算では分類の問題設定のため、`softmax_cross_entropy`を使用します。

In [0]:
# 損失関数の計算
loss = F.softmax_cross_entropy(y, t)

In [190]:
loss

variable(6.801705)

In [0]:
# 逆伝播の計算（勾配の算出）
model.cleargrads() # 逆伝播の前に勾配の情報をリセット
loss.backward()

#### Optimizerの定義

Optimizerではパラメータの最適化を行うための最適化のアルゴリズムを選択します。  

今回は`SGD`を使用してパラメータの更新を行います。

In [0]:
# Optimizerの宣言とモデルへの適応
optimizer = chainer.optimizers.SGD().setup(model)

In [0]:
# パラメータを更新
optimizer.update()

In [194]:
# パラメータが更新されていることを確認
model[0].W

variable W([[ 8.8774341e-01,  2.0271914e-01,  4.9349374e-01,
              1.1217139e+00],
            [ 8.9713800e-01, -5.0512981e-01,  4.4591171e-01,
             -8.5498877e-02],
            [-5.1778659e-02,  2.0512815e-01,  7.2333597e-02,
              7.2735643e-01],
            [ 3.9011896e-01,  6.5086685e-02,  2.3003805e-01,
              1.6971117e-01],
            [ 7.2059917e-01, -1.1446670e-01,  1.3542315e-01,
             -4.3419120e-01],
            [-1.2764949e+00,  3.2680929e-01,  4.3221810e-01,
             -3.7108251e-01],
            [ 1.1052747e+00, -7.4043900e-01, -9.6065924e-04,
             -1.0170439e-01],
            [ 7.7482784e-01,  7.3827040e-01,  8.5357040e-02,
              1.9206931e-01],
            [-4.4389287e-01, -9.9039823e-01, -1.7395608e-01,
              7.8174487e-02],
            [ 5.9784299e-01,  5.9348583e-01, -2.0787707e-01,
             -1.5606952e-01]])

微妙にですがパラメータが更新されていることが確認できます。  
この計算の流れを繰り返すことによってニューラルネットワークのパラメータを更新を行うことができます。  


### 学習の実行

前項で確認した動作をプログラムに落とし込み、学習を実行していきます。  

ここで**エポック**という言葉を理解する必要があります。  
エポックは**全訓練データを何回繰り返して学習させるかという回数を表す単位**になります。  

詳細は後ほどお伝えします。  
今回はエポックを50と設定して、学習を行います。  

また検証データと比較して、精度が向上しているか確認します。  
分類の精度確認には `Accuracy(正解率)` を使用します。  
正解率は `F.accuracy` で算出することができます。

In [0]:
epoch = 50

In [0]:
# Optimizerの宣言と、モデルへの適応
optimizer = chainer.optimizers.SGD().setup(model)

In [197]:
for i in range(epoch):

  #　------------  学習の1エポック  ------------
  
  # データの取得
  x_train, t_train = concat_examples(train)


  # 予測値の計算
  y_train = model(x_train)

  # ロスの計算
  loss_train = F.softmax_cross_entropy(y_train, t_train)

  # 勾配の計算
  model.cleargrads()
  loss_train.backward()

  # パラメータの更新
  optimizer.update()
  
  print('epoch:{:02d} train_loss:{:.04f} '.format(i, loss_train.data, end=''))
  
#   ----------------  ここまで  ----------------   

  # 検証データの取得   
  x_valid, t_valid = concat_examples(valid)

 # 検証用データで順伝播の計算を実行
  with chainer.using_config('train', False), chainer.using_config('enable_backprop', False):
    y_valid = model(x_valid)
    
    
  # 検証データで損失関数を計算
  loss_valid = F.softmax_cross_entropy(y_valid, t_valid)

  # 検証データで精度を計算
  accuracy_valid = F.accuracy(y_valid, t_valid)
  
  # 結果を表示  
  print('valid_loss:{:.04f} valid_accuracy:{:.04f}'.format(loss_valid.data, accuracy_valid.data))
  print('---')

epoch:00 train_loss:3.1157 
valid_loss:2.7341 valid_accuracy:0.3125
---
epoch:01 train_loss:2.1987 
valid_loss:2.0906 valid_accuracy:0.1875
---
epoch:02 train_loss:1.7164 
valid_loss:1.6127 valid_accuracy:0.3438
---
epoch:03 train_loss:1.3688 
valid_loss:1.2745 valid_accuracy:0.4375
---
epoch:04 train_loss:1.1670 
valid_loss:1.1192 valid_accuracy:0.3438
---
epoch:05 train_loss:1.0805 
valid_loss:1.0530 valid_accuracy:0.4688
---
epoch:06 train_loss:1.0460 
valid_loss:1.0358 valid_accuracy:0.3750
---
epoch:07 train_loss:1.0210 
valid_loss:1.0118 valid_accuracy:0.5000
---
epoch:08 train_loss:0.9986 
valid_loss:1.0004 valid_accuracy:0.4688
---
epoch:09 train_loss:0.9777 
valid_loss:0.9829 valid_accuracy:0.5000
---
epoch:10 train_loss:0.9585 
valid_loss:0.9719 valid_accuracy:0.5000
---
epoch:11 train_loss:0.9404 
valid_loss:0.9573 valid_accuracy:0.5000
---
epoch:12 train_loss:0.9232 
valid_loss:0.9470 valid_accuracy:0.5000
---
epoch:13 train_loss:0.9065 
valid_loss:0.9338 valid_accuracy:0.5

検証データに対しての正解率が上昇していることが確認でき、うまく学習が進んでいることが確認できます。  
ここで学習の際に出てきたいくつかの新たな部分について確認します。


#### 検証を行う際の注意点

ニューラルネットワークの学習を行い「評価」を同時に行う際には注意すべき点があります。  
具体的には、下記の設定を行う必要があります。  

- 検証データを使用して学習を行わない（正当に評価するため）
- 無駄な計算グラフの構築を行わない（メモリ消費量を節約するため）

上記2つの設定は下記のように記述することによって実現できます。

```python

with chainer.using_config('train', False),　chainer.using_config('enable_backprop', False):
    --- 何か推論処理 ---

```



## 学習済みモデルを保存

学習が終わったら、その結果を保存します。  
Chainerには、2種類のフォーマットで学習済みネットワークをシリアライズ（保存）する機能が用意されています。  
一つはHDF5形式で、もう一つはNumPyのNPZ形式でネットワークを保存するものです。  
今回は、追加ライブラリのインストールが必要なHDF5ではなく、NumPy標準機能で提供されているシリアライズ機能（`numpy.savez()`）を利用したNPZ形式でのモデルの保存を行います。


In [0]:
from chainer import serializers

serializers.save_npz('my_iris.model', model)

In [201]:
# 保存されたモデルを確認
!ls

drive  my_iris.model  sample_data


もし、自身のGoogleドライブ（My Drive）にモデルを保存したい場合は下記のコマンドを実行して、My driveと紐付けを行うことによって保存可能です。

In [0]:
# My Driveをマウント
from google.colab import drive
drive.mount('/content/drive')
!ls 'drive/My Drive/Colab Notebooks'

In [0]:
# 指定パスを変更して保存
serializers.save_npz('drive/My Drive/Colab Notebooks/my_iris.model', model)

## 保存済みモデルを読み込んで推論

推論をする際にはモデルの読み込み（load）とモデルを定義しておく必要があります。  

In [0]:
# モデルの定義
model = Sequential(
    L.Linear(n_in, n_hidden), F.relu,
    L.Linear(n_hidden, n_hidden), F.relu,
    L.Linear(n_hidden, n_out)
)

In [0]:
# 学習済みモデルの読み込み
serializers.load_npz('my_iris.model', model)

### 推論の実行

今回は練習に `train` の1つ目のデータを使用して、推論を実行します。

In [0]:
x_new, t_new = train[0]

In [216]:
x_new

array([6.5, 3. , 5.8, 2.2], dtype=float32)

In [215]:
# 予測値の計算
with chainer.using_config('train', False), chainer.using_config('enable_backprop', False):
  y = model(x_new)

IndexError: ignored

推論で使用する際には、`(バッチサイズ, 入力変数の数)` という形式となっていないとエラーが起きます。
今回であれば、`(1, 4)`が望ましいデータの形といえます。

In [0]:
x_new = x_new[np.newaxis]

In [218]:
x_new.shape

(1, 4)

In [220]:
# 予測値の計算
with chainer.using_config('train', False), chainer.using_config('enable_backprop', False):
  y = model(x_new)
y

variable([[-4.090935  , -1.7532939 , -0.80239886]])

In [221]:
t

2

それぞれの予測値が出ました。  
ですが、このままでは分類結果とは呼べません。  
分類結果を得るためには下記の2つの処理を行う必要があります。  

1. `F.softmax()` で取得した予測値全ての合計が1になるように変換
2. `np.argmax()` でその中で最も大きな値を取得



In [209]:
y = F.softmax(y)
y

variable([[0.02620519, 0.27140135, 0.7023935 ]])

In [210]:
# ChainerのValiable型からNumpyのarrayに変換
y.array

array([[0.02620519, 0.27140135, 0.7023935 ]], dtype=float32)

In [211]:
np.argmax(y.array)

2

推論結果が教師データ`t`ともあっており、うまく推論できていることが確認できました。

## ミニバッチ学習

先ほどまではデータを全て使用して学習を行なってきました。 
ですが、ディープラーニングでは全てのデータがメモリに乗り切るようなケースの方が少ないのが一般的です。  

また一般的な最適化の手法では訓練データを全データ使用するのではなく、  
**バッチサイズ** という単位でまとめられた訓練データの一部である、  **ミニバッチ** を使用して学習を行います。  

ミニバッチ学習はデータをメモリにのせる小ささに分割するだけではなく、いくつかのメリットがあります。  

**ミニバッチ学習の主なメリット**

- データセット内の外れ値の影響を受けにくくなる
- パラメータの更新回数が増える為、学習がうまく進みやすくなる
- 一回の更新までの計算時間が短くなる為、学習時間の見積もりや、学習の進捗を把握しやすい


### Iteration（イテレーション）

ミニバッチ学習の中でデータセットが**バッチサイズ**ごとに区切られて、学習が行われた際に、一回パラメータを更新する事（順伝播→逆伝播→パラメータの更新）をイテレーション（`Iteration`）と呼びます。  

`Iteration`と混同しやすいのが`Epoch`になります。  
Epochは**全訓練データを何回繰り返して学習させるかという回数を表す単位**です。  

どのような関係性か数字で確認しておきましょう。  


###  ミニバッチ、Epoch、Iterationの関係性

- データセット：1,000,000サンプル
- バッチサイズ：100
- ミニバッチの数：10,000（1,000,000/100）
- Epoch数：100
- Iteration数：1,000,000（10,000×100）


ミニバッチ学習、Epoch、Iterationの関係については下記の図で再度確認しておいてください。

![ミニバッチ、Epoch、Iteration](images/06_04.png)


### Iteratorの作成

先ほど説明したミニバッチを作成するのがChainerで用意されている `Iterator` になります。  
早速定義してみましょう。


In [0]:
from chainer import iterators

In [0]:
# バッチサイズの定義
batchsize = 10

In [0]:
train_iter = iterators.SerialIterator(train, batchsize)
valid_iter = iterators.SerialIterator(valid, batchsize, repeat=False, shuffle=False)

Iteratorの定義ができました。  
上記のように訓練データを定義する際には不要ですが、検証データのような繰り返しが不要、またランダムにシャッフルが不要な場合は`repeat=Flase, shuffle=False`と引数に設定する事で行うことができます。  

また`iterator`の中からミニバッチを取り出すためには、`.next()`メソッドを使用することによって取得することができます。  
このiteratorはエポックを記憶しているため、`.is_new_epoch`を使用することで新しいエポックに入った場合などで条件分岐を加えたりすることも可能です。

In [107]:
train_iter.next()

[(array([6.3, 3.3, 6. , 2.5], dtype=float32), 2),
 (array([6.8, 3. , 5.5, 2.1], dtype=float32), 2),
 (array([5.7, 3.8, 1.7, 0.3], dtype=float32), 0),
 (array([4.8, 3. , 1.4, 0.3], dtype=float32), 0),
 (array([5.4, 3. , 4.5, 1.5], dtype=float32), 1),
 (array([6.7, 3.1, 4.4, 1.4], dtype=float32), 1),
 (array([5.8, 4. , 1.2, 0.2], dtype=float32), 0),
 (array([6.3, 2.9, 5.6, 1.8], dtype=float32), 2),
 (array([5. , 3.2, 1.2, 0.2], dtype=float32), 0),
 (array([6.2, 2.8, 4.8, 1.8], dtype=float32), 2)]

### Iteratorの種類について

ChainerのIteratorにはいくつかの種類が存在します。  
その一つが先ほど使用した`SerialIterator`になります。  
`SerialIterator`は全データの中からバッチサイズのデータを単純に取り出してくるだけです。  

そのほかのIteratorとしては、マルチプロセスで高速にデータを処理できるようにした`MultiprocessIterator`などがあります。  
詳細については[公式のドキュメント](https://docs.chainer.org/en/stable/reference/iterators.html)  を確認してください。  


### ミニバッチ学習で学習の実行

では先ほどのコードをミニバッチ学習を用いて学習を実行します。

In [0]:
# シードの固定
np.random.seed(0)

In [0]:
# モデルの定義
model = Sequential(
    L.Linear(n_in, n_hidden), F.relu,
    L.Linear(n_hidden, n_hidden), F.relu,
    L.Linear(n_hidden, n_out)
)

In [0]:
optimizer = chainer.optimizers.SGD().setup(model)

In [0]:
# バッチサイズの定義
batchsize = 10

In [0]:
train_iter = iterators.SerialIterator(train, batchsize)
valid_iter = iterators.SerialIterator(valid, batchsize, repeat=False, shuffle=False)

In [0]:
epoch = 10

In [118]:
train_iter.reset()
valid_iter.reset()

while train_iter.epoch < epoch: # 追加
  

  #　------------  学習の1イテレーション  ------------
  
  # データの取得
  train_batch = train_iter.next() # 追加
  x_train, t_train = concat_examples(train_batch)


  # 予測値の計算
  y_train = model(x_train)

  # ロスの計算
  loss_train = F.softmax_cross_entropy(y_train, t_train)

  # 勾配の計算
  model.cleargrads()
  loss_train.backward()

  # パラメータの更新
  optimizer.update()
  
  print('epoch:{:02d} train_loss:{:.04f} '.format(train_iter.epoch, loss_train.data, end=''))
  
#   ----------------  ここまで  ----------------   


  if train_iter.is_new_epoch: # 新しいエポックに入った時のみ計算

    while True:
      # 検証データの取得   
      valid_batch = valid_iter.next() # 追加
      x_valid, t_valid = concat_examples(valid_batch)

     # 検証用データで順伝播の計算を実行
      with chainer.using_config('train', False), chainer.using_config('enable_backprop', False):
        y_valid = model(x_valid)


      # 検証データで損失関数を計算
      loss_valid = F.softmax_cross_entropy(y_valid, t_valid)

      # 検証データで精度を計算
      accuracy_valid = F.accuracy(y_valid, t_valid)

      if valid_iter.is_new_epoch: # 追加：1エポック計算し終わると、イテレーターをリセット
        valid_iter.reset()
        break

     # 結果を表示  
    print('valid_loss:{:.04f} valid_accuracy:{:.04f}'.format(loss_valid.data, accuracy_valid.data))
    print('---')

epoch:00 train_loss:0.7770 
epoch:00 train_loss:0.5534 
epoch:00 train_loss:1.0270 
epoch:00 train_loss:0.6936 
epoch:00 train_loss:0.5499 
epoch:00 train_loss:0.9969 
epoch:00 train_loss:0.7639 
epoch:01 train_loss:0.7304 
valid_loss:0.5194 valid_accuracy:0.5000
---
epoch:01 train_loss:0.6460 
epoch:01 train_loss:0.5307 
epoch:01 train_loss:0.4953 
epoch:01 train_loss:0.8641 
epoch:01 train_loss:0.6535 
epoch:01 train_loss:0.6052 
epoch:02 train_loss:0.6370 
valid_loss:0.3017 valid_accuracy:1.0000
---
epoch:02 train_loss:0.6447 
epoch:02 train_loss:0.5365 
epoch:02 train_loss:0.7608 
epoch:02 train_loss:0.6153 
epoch:02 train_loss:0.5773 
epoch:02 train_loss:0.3930 
epoch:03 train_loss:0.5495 
valid_loss:0.3299 valid_accuracy:1.0000
---
epoch:03 train_loss:0.5534 
epoch:03 train_loss:0.5837 
epoch:03 train_loss:0.4688 
epoch:03 train_loss:0.6249 
epoch:03 train_loss:0.5974 
epoch:03 train_loss:0.5410 
epoch:03 train_loss:0.6975 
epoch:04 train_loss:0.6781 
valid_loss:0.6432 valid_accu

うまくミニバッチ学習でモデルの学習を行うことができました。  
このようにモデルのChainerを使用することによってディープラーニングのモデルを構築することができます。  

Chainerではネットワークの定義の方法が大きく分けて2つあるとお伝えしました。  
次章では、手持ちのデータを使っての分類の実装とクラスを用いてのネットワークの定義の方法を解説します。