# ニューラルネットワークによる分類

前章で扱った `Sequential` モデルは、一方向の連続的な流れを表すネットワークを簡潔に定義することができました。本章では、より汎用的なモデルの実装方法を解説します。

本章から読み始める方もいるかと思いますので、前章と重複のある部分もしっかりと説明します。

## 問題設定

今回は**ワインの分類**を行います。入力変数として、ワインに含まれる 10 種類の化合物を使用します。そして、そのワインに対して、1 等級、2 等級、3 等級と 3 クラスの分類を行います。

### データの読み込み

今回は [wine_class.csv](data/wine_class.csv) を使用して回帰を実装します。  ファイルを確認します。

In [None]:
import pandas as pd
import numpy as np

In [None]:
# CSVファイルの読み込み
df = pd.read_csv("data/wine_class.csv")

In [None]:
# データの表示（先頭の３件）
df.head(3)

In [None]:
df.shape

## データの前準備

この節では前章で取り扱った内容を復習を兼ねてもう一度一つ一つ確認していきます。

### 入力変数と教師データ（出力変数）に切り分ける

前節で読み込んだデータ `df` には、入力変数と教師データ（出力変数）の両方が含まれています。「Class」列が教師データ、それ以外の列が入力変数です。
まず、これをそれぞれの変数に分割してみます。

In [None]:
# 教師データ （先頭の "Class" 列）
dt = df.iloc[:, 0]
 
# 入力変数 （"Alcohol" 列から最後まで）
dx = df.iloc[:, 1:]

正しく切り分けられているかデータの中身を表示して確認します。

In [None]:
# 表示して確認
dx.head(3)

In [None]:
# サイズの確認
dx.shape

`shape` 属性を使うことで、サンプル数（今回は 178）と入力変数の数（今回は 10）を確認することができます。

### Chainerで計算できるデータ形式に変換

前章でもお伝えしましたが、Chainer で計算を行うために、下記の3点を満たしている必要があります。
再度確認します。

- 入力変数や教師データが NumPy の形式で定義されているか
- 分類の場合、ラベルが0から始まっているか
- 入力変数が `float32`、教師データが回帰の場合 `float32`、分類の場合 `int32` で定義されているか

#### NumPy に変換

Pandas で読み込んだ場合、Pandas の形式になっています。

In [None]:
type(dx)

これを NumPy の形式に変換するには、`values` 属性を使用します。

In [None]:
# 入力変数を NumPy に変換する
x = dx.values
type(x)

In [None]:
# 教師データを NumPy に変換する
t = dt.values
type(t)

#### 分類で使用するラベルを 0 から始める

今回準備されている教師データのラベルを確認してみます。
`min()` と `max()` で、ラベルの最小値と最大値を確認します。

In [None]:
t.min()

In [None]:
t.max()

最小値が 1、 最大値が 3 であり、3 つのクラスに 1、2、3 という数値が割り振られているということがわかります。

ラベルは 0 から始める必要があるため、全体から 1 を減算して 1、2、3 → 0、1、2 とします。

In [None]:
# ラベルを 0 から始める
t = t - 1

In [None]:
t.min()

In [None]:
t.max()

#### データ型を変更

現状のデータ型を確認してみます。

In [None]:
x.dtype

In [None]:
t.dtype

NumPy の `astype()` を使用して、32 ビット型へと変換します。

In [None]:
# 32 ビットに変換
x = x.astype('float32')
t = t.astype('int32')

In [None]:
x.dtype

In [None]:
t.dtype

### Chainerで使用するデータセットの形式

Chainer は、入力変数と教師データの対応するサンプルのペアをリスト形式にしたものをデータセットとして受け入れます。

メモリに乗る程度の小規模なデータの場合は、Python の `list` 形式で表現することができます。

![](https://github.com/mitmul/learn-chainer/blob/master/src/images/3-5/img02.png?raw=1)

In [None]:
# Chainer で使用できるデータセットの形式
dataset = list(zip(x, t))

このように、`zip(x, t)` で入力変数と教師データのペアをタプル化した後、それを `list()` でリスト化します。

### 訓練データ、検証データ、テストデータに分割

機械学習には欠かせない訓練データ、検証データ、テストデータへの分割です。  
Chainer では [`chainer.datasets.split_dataset_random`](https://docs.chainer.org/en/v5.0.0/reference/generated/chainer.datasets.split_dataset_random.html) にその機能が準備されています。  
ランダムでなく、前半・後半に分割したい場合は、 [`chainer.datasets.split_dataset`](https://docs.chainer.org/en/v5.0.0/reference/generated/chainer.datasets.split_dataset.html) を使用します。

引数にはデータセット（先ほど作成した形式）、訓練データの数を指定します。

In [None]:
import chainer

In [None]:
n_train_valid = int(len(dataset) * 0.7)
train_valid, test = chainer.datasets.split_dataset_random(dataset, n_train_valid, seed=1)

`len(dataset)` は、データセットに含まれるデータ数の全体を表します。その 70% を訓練データおよび検証データとしています。`int()` は、小数値の切り捨てです。このように、固定のデータ数を指定するのではなく、「全体の 70%」のような書き方にしておくと、異なるデータ数のデータセットを扱う場合にもそのまま対応することができます。

`seed=1` は、乱数のシードを 1 で固定しますという意味で、何度か出てきた**再現性確保**のためです。

出力として得られる `train_valid` と `test` を確認します。

In [None]:
type(train_valid)

In [None]:
type(test)

このように、それぞれが個別の [`SubDataset`](https://docs.chainer.org/en/stable/reference/generated/chainer.datasets.SubDataset.html) クラスのインスタンスであることがわかります。
`len()` を使うことで、それぞれのデータセットに格納されている要素の数を調べることができます。

In [None]:
len(train_valid)

In [None]:
len(test)

`train_valid[0]` のようにリストの要素番号を指定すると、データセットから要素を一つ取り出すことができます。

In [None]:
train_valid[0]

### 検証用（Validation）データの作成

先程作成した `train_valid` を訓練用データ（`train`）と検証用データ（`valid`）に分割します。  
`train_valid` と `test` に分割したときと同様の方法で行います。


In [None]:
n_train = int(len(train_valid) * 0.7)
train, valid = chainer.datasets.split_dataset_random(train_valid, n_train, seed=1)

In [None]:
len(train)

In [None]:
len(valid)

## モデルの定義

それでは、分類を行うためのニューラルネットワークの定義を行います。
問題設定上、入力変数の数と分類数は次のようになっています。

- 入力変数： 10
- 分類数： 3

今回は、隠れ層のユニット数を 5 とし、10 → 5 → 3 と全結合層（`L.Linear`）で変換していくようなニューラルネットワークを組みます。

### `Chain` を継承したネットワークの定義

Chainer では、ネットワークは `Chain` クラスを継承したクラスとして定義されることが一般的です。  


#### `Chain` クラス

`Chain` は、パラメータを持つ層（`Link`）をまとめておくためのクラスです。  
パラメータを持つということは、基本的にネットワークの学習の際にそれらを更新していく必要があるということです（更新されないパラメータを持たせることもできます）。  

モデルのパラメータの更新は、オプティマイザが担います。  
その際、更新すべき全てのパラメータを簡単に発見できるように、`Chain` で一箇所にまとめておきます。  
そうすると、更新されるパラメータ一覧が `Chain.params()` メソッドを使って簡単に取得できます。  


#### ネットワークの定義

今回 `Chain` を継承することで、10 → 5 → 3 のニューラルネットワークは下記のように定義することができます。

今回定義するネットワークは、データの流れが一方向のため、前章で紹介した `Sequential` を使っても定義することが可能です。ですが、`Chain` を使った書き方にすることで、より複雑なネットワークに拡張することが可能になります。

In [None]:
import chainer.links as L
import chainer.functions as F

In [None]:
class NN(chainer.Chain):

    # モデルの構造
    def __init__(self):
        super().__init__()
        with self.init_scope():
            self.fc1 = L.Linear(10, 5)  # 10 → 5
            self.fc2 = L.Linear(5, 3)  # 5 → 3

    # 順伝播
    def forward(self, x):
        u1 = self.fc1(x)
        z1 = F.relu(u1)
        u2 = self.fc2(z1)
        return u2

このように、 `forward()` の中に順伝播の計算を記述します。
`forward()` は、引数としてデータ `x` を受け取り、出力として順伝播の計算結果を返すようにします。

`__init__()` には、順伝播の計算で使用するリンク（具体的には、全結合層の `L.Linear`）を宣言します。`with self.init_scope()` の中で記述することで、オプティマイザはこれらが最適化対象となるパラメータを持つ層であると自動的に解釈してくれるようになります。


In [None]:
# クラスのインスタンス化
model = NN()

インスタンス化された `NN` クラスのオブジェクトは、関数のように使えるようになります（例：`output = model(data)`）。


### クラスの定義のブラッシュアップ

これが一番簡単な書き方ですが、さらに上級者向けの書き方にブラッシュアップしていきます。
まずは、ノードの数を変更するためにはクラス内部を変更する必要がありますが、ここを変数で置き換えて、インスタンス化のタイミングで自由に変更できるようにしておきます。

下記のように変数の初期値も設定しておくと、インスタンス化の際に何も指定しない場合にデフォルトの値が使用され便利です。

In [None]:
class NN(chainer.Chain):

    # モデルの構造
    def __init__(self, n_mid_units=5, n_out=3):
        super().__init__()
        with self.init_scope():
            self.fc1 = L.Linear(10, n_mid_units)  # 変数で置き換え
            self.fc2 = L.Linear(n_mid_units, n_out)  # 変数で置き換え

    # 順伝播
    def __call__(self, x):
        u1 = self.fc1(x)
        z1 = F.relu(u1)
        u2 = self.fc2(z1)
        return u2

もう少し改善してみます。

`L.Linear` の最初の引数は、`None` と指定することで、入力されるデータから自動的に判断することができるため、明示的に指定する必要はありません。
今回はノードの数を簡単に把握することができるため、その恩恵は少ないのですが、この後登場する画像向けの畳み込みニューラルネットワークなどでは、この機能が活躍します。

In [None]:
class NN(chainer.Chain):

    # モデルの構造
    def __init__(self, n_mid_units=5, n_out=3):
        super().__init__()
        with self.init_scope():
            self.fc1 = L.Linear(None, n_mid_units)  # 10 → None で自動推定
            self.fc2 = L.Linear(None, n_out)  # 5 → None で自動推定

    # 順伝播
    def __call__(self, x):
        u1 = self.fc1(x)
        z1 = F.relu(u1)
        u2 = self.fc2(z1)
        return u2

さらに、順伝播の計算は層の数が増えてくると変数名の管理が難しくなってくるため、`h` という変数で受け渡し続けると管理する部分が減ります。

In [None]:
class NN(chainer.Chain):

    # モデルの構造
    def __init__(self, n_mid_units=5, n_out=3):
        super().__init__()
        with self.init_scope():
            self.fc1 = L.Linear(None, n_mid_units)
            self.fc2 = L.Linear(None, n_out)

    # 順伝播
    def __call__(self, x):
        h = self.fc1(x)  # h で置きかえ
        h = F.relu(h)  # h で置きかえ
        h = self.fc2(h)  # h で置きかえ
        return h

モデルの定義が完了したため、もう一度インスタンス化します。  
インスタンス化を行うとリンクの重みが定義されるため、  
インスタンス化を実行する前に乱数シードの固定を行うことを忘れないように注意しましょう。

In [None]:
# シードの固定
np.random.seed(1)

In [None]:
model = NN()  # 引数を指定しないため、デフォルトの n_mid_units=5, n_out=3 が使用される

引数にデフォルトの値を使用しない場合は下記のように指定します。

In [None]:
# model = NN(n_mid_units=10, n_out=3)

### オプティマイザの定義

オプティマイザはパラメータの最適化を行うための最適化のアルゴリズムです。
今回は確率的勾配降下法（stochastic gradient descent）オプティマイザを使います。

In [None]:
from chainer import optimizers

optimizer = optimizers.SGD(lr=0.01).setup(model) # 確率的勾配降下法 （SGD） を使用

#### 学習率（learning rate）

今回は `SGD` の `lr` という引数に `0.01` を与えました。  
これは学習率 (learning rate) といい、モデルをうまく訓練して良いパフォーマンスを発揮させるために調整する必要がある重要な値です。  

このように、学習の設定に関するパラメータやネットワークの構造に関するパラメータは人手で与える必要があります。
重みやバイアスのように自動的に学習されるパラメータと区別し、これらのことをハイパーパラメータといいます。

層の数や、中間層のユニット数もハイパーパラメータの一種です。

### イテレータの定義

前章と同様にミニバッチを使用しての学習を実行するため、イテレータを使用して、データをミニバッチに区切って学習を行います。  

訓練用データは下記のようにミニバッチに分けられ学習が行われます。  

- データセット： 86サンプル
- バッチサイズ：10
- ミニバッチの数： 9（86/10 端数は補完される）
- エポック数： 10
- イテレーション数： 90（9×10）



In [None]:
batchsize = 10

In [None]:
train_iter = chainer.iterators.SerialIterator(train, batchsize)
valid_iter  = chainer.iterators.SerialIterator(valid,  batchsize, repeat=False, shuffle=False)
test_iter  = chainer.iterators.SerialIterator(test,  batchsize, repeat=False, shuffle=False)

In [None]:
epoch = 30

### 学習ループの実行


In [None]:
from chainer.dataset import concat_examples

In [None]:
train_iter.reset()
valid_iter.reset()

while train_iter.epoch < epoch:
  

  #　------------  学習の1イテレーション  ------------
  
  # データの取得
  train_batch = train_iter.next()
  x_train, t_train = concat_examples(train_batch)


  # 予測値の計算
  y_train = model(x_train)

  # ロスの計算
  loss_train = F.softmax_cross_entropy(y_train, t_train)

  # 勾配の計算
  model.cleargrads()
  loss_train.backward()

  # パラメータの更新
  optimizer.update()

  # 検証データで精度を計算
  accuracy_train = F.accuracy(y_train, t_train)

  
  print('epoch:{:02d} train_accuracy:{:.04f} '.format(train_iter.epoch, accuracy_train.data, end=''))
  
#   ----------------  ここまで  ----------------   


  if train_iter.is_new_epoch: # 新しいエポックに入った時のみ計算

    sum_valid_loss = 0
    sum_valid_accuracy = 0
    
    # 検証データの評価
    for valid_batch in valid_iter:
      x_valid, t_valid = concat_examples(valid_batch)

     # 検証用データで順伝播の計算を実行
      with chainer.using_config('train', False), chainer.using_config('enable_backprop', False):
        y_valid = model(x_valid)


      # 検証データで損失関数を計算
      loss = F.softmax_cross_entropy(y_valid, t_valid)

      # 検証データで精度を計算
      accuracy = F.accuracy(y_valid, t_valid)
        
      # 損失と精度を累積
      sum_valid_loss += float(loss.array) * len(t_valid)
      sum_valid_accuracy += float(accuracy.array) * len(t_valid)

    # 使い終わったイテレータをリセット
    valid_iter.reset()

    # 累積値を平均値に変換
    valid_loss = sum_valid_loss / len(valid)
    valid_accuracy = sum_valid_accuracy / len(valid)
    
     # 結果を表示  
    print('valid_loss:{:.04f} valid_accuracy:{:.04f}'.format(valid_loss, valid_accuracy))
    print('---')

学習は正常に行われていることが確認できました。  
訓練データに対しての正解率が概算して約 40% 弱、検証データに対して約 60% 程度にとどまっています。  

## うまくいかないときの対処

今回は一通りの流れを説明しましたが、まだまだ精度が良くないと不満に思った方もいるかと思います。
まずいちばん手っ取り早く精度を上げることが出来る方法として、**バッチノーマリゼーション（batch normalization）**が挙げられます。

実装としては、各バッチ毎に、平均と標準偏差を定めて正規化を行うといった非常に簡単な手法なのですが、これをかませることによって、各変数感のスケールによる差を吸収できます。

それでは、バッチノーマリゼーションがある場合で試してみます。

宣言していたニューラルネットワークのクラスを以下のように変更して、もう一度学習を行ってみます。

In [None]:
class NN(chainer.Chain):

    # モデルの構造
    def __init__(self, n_mid_units=5, n_out=3):
        super().__init__()
        with self.init_scope():
            self.fc1 = L.Linear(None, n_mid_units)
            self.fc2 = L.Linear(None, n_out)
            self.bn = L.BatchNormalization(10)  # BatchNormalization は平均と分散がパラメータ、() 内には受け取る変数の数を記述

    # 順伝播
    def forward(self, x):
        h = self.bn(x)  # BatchNormalization を適用
        h = self.fc1(h)
        h = F.relu(h)
        h = self.fc2(h)
        return h

In [None]:
# 乱数のシードを固定
np.random.seed(1)

# モデルのインスタンス化
model = NN()

# オプティマイザの定義
optimizer = chainer.optimizers.SGD().setup(model)  # model と紐付ける

# イテレータの定義
batchsize = 10
train_iter = chainer.iterators.SerialIterator(train, batchsize)
valid_iter = chainer.iterators.SerialIterator(valid, batchsize, repeat=False, shuffle=False)
test_iter = chainer.iterators.SerialIterator(test, batchsize, repeat=False, shuffle=False)

# trainer とその extensions の設定
epoch = 30

In [None]:
train_iter.reset()
valid_iter.reset()

while train_iter.epoch < epoch: # 追加
  

  #　------------  学習の1イテレーション  ------------
  
  # データの取得
  train_batch = train_iter.next() # 追加
  x_train, t_train = concat_examples(train_batch)


  # 予測値の計算
  y_train = model(x_train)

  # ロスの計算
  loss_train = F.softmax_cross_entropy(y_train, t_train)

  # 勾配の計算
  model.cleargrads()
  loss_train.backward()

  # パラメータの更新
  optimizer.update()

  # 検証データで精度を計算
  accuracy_train = F.accuracy(y_train, t_train)

  
  print('epoch:{:02d} train_accuracy:{:.04f} '.format(train_iter.epoch, accuracy_train.data, end=''))
  
#   ----------------  ここまで  ----------------   


  if train_iter.is_new_epoch: # 新しいエポックに入った時のみ計算

    sum_valid_loss = 0
    sum_valid_accuracy = 0
    
    # 検証データの評価
    for valid_batch in valid_iter:
      x_valid, t_valid = concat_examples(valid_batch)

      # 検証用データで順伝播の計算を実行
      with chainer.using_config('train', False), chainer.using_config('enable_backprop', False):
        y_valid = model(x_valid)

      # 検証データで損失関数を計算
      loss = F.softmax_cross_entropy(y_valid, t_valid)

      # 検証データで精度を計算
      accuracy = F.accuracy(y_valid, t_valid)

      # 損失と精度を累積
      sum_valid_loss += float(loss.array) * len(t_valid)
      sum_valid_accuracy += float(accuracy.array) * len(t_valid)

    # 使い終わったイテレータをリセット
    valid_iter.reset()

    # 累積値を平均値に変換
    valid_loss = sum_valid_loss / len(valid)
    valid_accuracy = sum_valid_accuracy / len(valid)
    
     # 結果を表示  
    print('valid_loss:{:.04f} valid_accuracy:{:.04f}'.format(valid_loss, valid_accuracy))
    print('---')

検証データに対する正解率の値が上がっていればうまくバッチノーマリゼーションがうまく適応されています。  

このように、ディープラーニングでは、バッチノーマリゼーションを含めた細かなポイントがあったりするため、調べながら進めてみてください。  

Chainer では、ほとんどの機能がすでに実装されているため、上記のコードのように少し付け加えるだけでその効果を検証できます。

## 学習済みモデルを使用した推論

## 学習済みモデルを保存

前章と同様に `chainer.serializers.save_npz('ファイル名.npz', model)` を使用して学習済みモデルを保存します。

In [None]:
chainer.serializers.save_npz('wine.npz', model)

In [None]:
!ls

### 学習済みモデルのロード

学習済みモデルは単にファイルをロードするだけでなく、まずはモデルの構造を明示しておき、そのモデルに対して、パラメータの値を当てはめながらロードしていくことになります。

In [None]:
model = NN()

In [None]:
# 保存されている学習済みパラメータをモデルに読み込む
chainer.serializers.load_npz('wine.npz', model)

### 予測値の計算

今回はテストデータ一番最初のサンプルに対する予測値を計算します。

その前に、データセットに格納されたデータの shape を確認してみましょう。

In [None]:
x_test, t_test = test[0]

In [None]:
x_test.shape

軸の数が (入力変数の数) の 1 つしかありません。

推論で使用する際には、(バッチサイズ, 入力変数の数) という形式となっている必要があります。
今回であれば、`(1, 10)` が望ましいデータの形といえます。

そのままモデルに入力すると、次のようにエラーとなります。

In [None]:
# 予測値の計算
with chainer.using_config('train', False), chainer.using_config('enable_backprop', False):
    y = model(x_test)

1 次元の軸を追加し、shape を `(1, 10)` に整えます。

In [None]:
x_test = x_test[np.newaxis]

In [None]:
x_test.shape

これでモデルに入力することができます。

In [None]:
# 予測値の計算
with chainer.using_config('train', False), chainer.using_config('enable_backprop', False):
  y = model(x_test)
y

事後確率の分布は `F.softmax()` を適用することで計算できます。

In [None]:
y = F.softmax(y)
y

In [None]:
y.array

分類の結果は、事後確率が最大のラベルとなります。

In [None]:
np.argmax(y.array)

正解ラベルを確認してみます。

In [None]:
t_test

このように学習済みモデルを使用した推論を実行できました。

次章では、回帰の実装方法についてお伝えします。分類とほとんど同じような実装方法になります。