# 誤差関数の変更による学習効果

---

## 目的

ネットワークの学習に使用する誤差関数（Loss関数）を変更した際に獲得される特徴表現（空間）を可視化し，その効果を確認する．

## 準備

### Google Colaboratoryの設定確認・変更
本チュートリアルではPyTorchを利用してニューラルネットワークの実装を確認，学習および評価を行います．
**GPUを用いて処理を行うために，上部のメニューバーの「ランタイム」→「ランタイムのタイプを変更」からハードウェアアクセラレータをGPUにしてください．**

## モジュールのインポート
はじめに必要なモジュールをインポートする．

### GPUの確認
GPUを使用した計算が可能かどうかを確認します．

`Use CUDA: True`と表示されれば，GPUを使用した計算をPyTorchで行うことが可能です．
Falseとなっている場合は，上記の「Google Colaboratoryの設定確認・変更」に記載している手順にしたがって，設定を変更した後に，モジュールのインポートから始めてください．

In [None]:
# モジュールのインポート
from time import time
import numpy as np
import matplotlib.pyplot as plt

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms

# GPUの確認
use_cuda = torch.cuda.is_available()
print('Use CUDA:', use_cuda)

## ネットワークモデルの定義

畳み込みニューラルネットワークを定義します．

ここでは，畳み込み層3層，全結合層2層から構成されるネットワークとします．

このとき，入力される画像のチャンネル数を`in_channels`，畳み込み直後の全結合槽の出力ユニット数を`hidden_dim`，出力層のユニット数（クラス数）を`num_classes`として指定します．

`forward`関数では，後の実験でネットワークから出力されるクラススコアだけでなく，1層目の全結合層の出力を出力するように定義します．
ここでは，`self.fc1`の出力結果を`h_out`として別の変数に格納しておき，最後の`return`でクラススコアの`out`と一緒に返すように定義します．


In [None]:
class CNN(nn.Module):
    def __init__(self, in_channels=1, hidden_dim=2, num_classes=10):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels, 32, kernel_size=5, stride=1, padding=2, bias=True)
        self.conv2 = nn.Conv2d(32, 64, kernel_size=5, stride=1, padding=2, bias=True)
        self.conv3 = nn.Conv2d(64, 128, kernel_size=5, stride=1, padding=2, bias=True)

        self.act = nn.ReLU()

        self.gap = nn.AdaptiveAvgPool2d(1)
        self.fc1 = nn.Linear(128, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, num_classes)

    def forward(self, x):
        h = self.act(self.conv1(x))
        h = F.max_pool2d(h, 2, 2)
        h = self.act(self.conv2(h))
        h = F.max_pool2d(h, 2, 2)
        h = self.act(self.conv3(h))
        h = F.max_pool2d(h, 2, 2)

        h = self.gap(h).flatten(start_dim=1)
        h_out = self.fc1(h)
        out = self.fc2(h_out)
        return out, h_out

## Loss関数の作成

次に，Cross Entropy Loss以外のLoss関数を定義します．

### a. Center Loss

Center Lossは **作成途中**．


### b. PC Loss

PC Lossは **作成途中**．

In [None]:
class CenterLoss(nn.Module):
    def __init__(self, num_classes=10, num_features=2, use_gpu=True):
        super().__init__()
        self.num_classes = num_classes
        self.feat_dim = num_features
        self.use_gpu = use_gpu

        if self.use_gpu:
            self.centers = nn.Parameter(torch.randn(self.num_classes, self.feat_dim).cuda())
        else:
            self.centers = nn.Parameter(torch.randn(self.num_classes, self.feat_dim))

    def forward(self, x, labels):
        batch_size = x.size(0)
        distmat = torch.pow(x, 2).sum(dim=1, keepdim=True).expand(batch_size, self.num_classes) + \
                  torch.pow(self.centers, 2).sum(dim=1, keepdim=True).expand(self.num_classes, batch_size).t()
        distmat.addmm_(x, self.centers.t(), beta=1, alpha=-2)

        classes = torch.arange(self.num_classes).long()
        if self.use_gpu: classes = classes.cuda()
        labels = labels.unsqueeze(1).expand(batch_size, self.num_classes)
        mask = labels.eq(classes.expand(batch_size, self.num_classes))

        dist = distmat * mask.float()
        loss = dist.clamp(min=1e-12, max=1e+12).sum() / batch_size
        return loss


class PCLoss(nn.Module):
    def __init__(self, num_features=2, num_classes=10, use_gpu=True):
        super().__init__()
        self.num_classes = num_classes
        self.feat_dim = num_features
        self.use_gpu = use_gpu

        if self.use_gpu:
            self.centers = nn.Parameter(torch.randn(self.num_classes, self.feat_dim).cuda())
        else:
            self.centers = nn.Parameter(torch.randn(self.num_classes, self.feat_dim))

    def forward(self, x, labels):
        batch_size = x.size(0)
        distmat = torch.pow(x, 2).sum(dim=1, keepdim=True).expand(batch_size, self.num_classes) + \
                  torch.pow(self.centers, 2).sum(dim=1, keepdim=True).expand(self.num_classes, batch_size).t()
        distmat.addmm_(x, self.centers.t(), beta=1, alpha=-2)

        classes = torch.arange(self.num_classes).long()
        if self.use_gpu: classes = classes.cuda()
        labels = labels.unsqueeze(1).expand(batch_size, self.num_classes)
        mask = labels.eq(classes.expand(batch_size, self.num_classes))

        inverse_mask = 1 - mask.float()
        dist = (distmat * inverse_mask).clamp(min=1e-12, max=1e+12)

        pos_c = mask.float().unsqueeze(2).repeat(1,1,self.feat_dim) * self.centers.unsqueeze(0).repeat(batch_size,1,1)
        neg_c = inverse_mask.unsqueeze(2).repeat(1,1,self.feat_dim) * self.centers.unsqueeze(0).repeat(batch_size,1,1)
        dist_c = torch.pow(pos_c - neg_c, 2).clamp(min=1e-12, max=1e+12)
        loss = (torch.sum(dist) + torch.sum(dist_c)) / (batch_size * (self.num_classes - 1))
        return loss

## 学習・評価の関数の定義

本ノートブックでは，学習する誤差関数を変更し，それぞれで獲得された特徴の分布を可視化しその効果を確認します．
そのため，複数回の学習と評価を行う必要があります．
そこで，ネットワークやデータセット，パラメータなどの必要な情報を引数として渡すことでネットワークの学習や評価を実行する関数を定義します．

このような学習や評価の関数は，一度汎用的に作成しておくことで，様々なネットワークやパラメータの学習を行うことが可能となります．
実際の研究や実験を行う際には，様々なパラメータやネットワークを用いて実験を行いますが，
それぞれの設定の学習・評価プログラムを個別に作成するよりもコンパクトにプログラムを作成することが可能なため，頻繁に用いられる（見かける）書き方です．

### 学習用関数の定義

今回の学習用の関数`training()`では，次のような引数を定義します．

* `epoch`: 現在の学習回数（表示用）
* `model`: 学習するネットワークモデル
* `dataloader`: 学習に使用するデータのDataLoader
* `xent`: CrossEntropyLossを計算するクラスインスタンス
* `model_optimizer`: ネットワークモデルを学習するための最適化関数（optimizer）
* `center`: Center Lossを計算するためのクラスインスタンス（Noneの場合はCenter Lossは計算されずに学習を行う）
* `pc`: PC Lossを計算するためのクラスインスタンス（Noneの場合はPC Lossは計算されずに学習を行う）
* `center_optimzer`: Center Lossの中心座標を更新するためのoptimizer（Noneの場合はCenter Lossは計算されずに学習を行う）
* `pc_optimizer`: PC Lossの中心座標を更新するためのoptimizer（Noneの場合はPC Lossは計算されずに学習を行う）
* `lambda_center`: Center Lossを計算する際のスケールパラメータ（重み）
* `lambda_pc`: PC Lossを計算する際のスケールパラメータ（重み）

このうち，Center LossとPC Lossを計算するための誤差関数とそのoptimizerについては，デフォルトの値を`None`としておき，入力された場合のみ，学習に使用するように定義を行います．
このようにすることで，一つの`training()`関数で，複数の誤差関数の組み合わせの学習を実行することが可能となります．


### 評価用関数の定義

評価用の関数`evaluation()`では，引数として`model`, `dataloader`, `xent`を用意します．
各引数は，上の`training()`の場合と同様です．
こちらでは，学習済みのネットワークモデルと評価に使用するデータのDataLoader, クロスエントロピー誤差を計算するクラスインスタンスを入力して，学習済みのネットワークの精度を確認します．
評価の関数はパラメータや誤差関数の組み合わせに関係なく，テストデータに対する精度を評価するため，共通して用いることが可能となります．

In [None]:
def training(epoch, model, dataloader, xent, model_optimizer, center=None, pc=None, center_optimizer=None, pc_optimizer=None, lambda_center=1, lambda_pc=0.0001):
  model.train()
  total = 0
  total_acc = 0
  for index, (x, y) in enumerate(dataloader):
    x, y = x.cuda(), y.cuda()

    logits, features = model(x)

    # Cross Entropy Lossの計算
    xent_loss = xent(logits, y)
    # Center Lossの計算（引数にCenter LossとOptimizerが設定されていれば）
    if center is not None and center_optimizer is not None:
        center_loss = center(features, y)
    else:
        center_loss = 0
    # PC Lossの計算（引数にPC LossとOptimizerが設定されていれば）
    if pc is not None and pc_optimizer is not None:
        pc_loss = pc(features, y)
    else:
        pc_loss = 0

    loss = xent_loss + lambda_center * center_loss - lambda_pc * pc_loss

    model_optimizer.zero_grad()
    loss.backward()
    model_optimizer.step()

    if center is not None and center_optimizer is not None:
        center_optimizer.zero_grad()
        center_optimizer.step()

    if pc is not None and pc_optimizer is not None:
        pc_optimizer.zero_grad()
        for param in pc.parameters():
            param.grad.data *= (1/lambda_pc)
        pc_optimizer.step()

    if index % 100 == 0:
      num_correct = torch.argmax(torch.softmax(logits, dim=1), dim=1).eq(y).sum().item()
      total += x.size(0)
      total_acc += num_correct
      print('{} epoch [{}/{}] | '
           'Loss: {:.3f} | xent: {:.3f} | center: {:.3f} | pc: {:.3f} | '
           'Acc: {:.3f} (avg: {:.3f})'.format(epoch, index, len(dataloader), loss, xent_loss, center_loss, pc_loss, num_correct / x.size(0), total_acc / total))


def evaluation(model, dataloader, xent):
  model.eval()
  total = 0
  total_loss = 0
  total_correct = 0
  for index, (x, y) in enumerate(dataloader):
    x, y = x.cuda(), y.cuda()

    with torch.no_grad():
      logits, _ = model(x)
      loss = xent(logits, y)

    total += x.size(1)
    num_correct = torch.argmax(torch.softmax(logits, dim=1), dim=1).eq(y).sum().item()
    total_correct += num_correct
    total_loss += loss.item()
    # if index % 10 == 0:
    #   print('Test [{}/{}] | Loss: {:.4f} (avg: {:.4f}) | Acc: {:.4f} (avg: {:.4f})'.format(index, len(dataloader.dataset), loss.item(), total_loss/total, 100*(num_correct/x.size(0)), 100*(total_correct/total)))
  return total_loss/total, 100*(total_correct/total)

## 共通するパラメータの定義

実際の学習を行う前に，用いる誤差関数にかかわらない同じ設定のパラメータを事前に設定します．
このとき，ネットワークの1つ目の全結合層の出力ユニット数`hidden_dim`は`2`に設定することに注意してください．
この理由と使用方法については，「[可視化](#visualize)」の部分で説明を行います．

また，学習と評価に使用するデータ（DataLoader）を準備します．
今回はMNISTデータセットを使用して実験を行います．

In [None]:
num_classes = 10
hidden_dim = 2
epochs = 20
batch_size = 100

train_dataset = datasets.MNIST('./root', download=True, train=True, transform=transforms.ToTensor())
test_dataset = datasets.MNIST('./data', train=False, download=True, transform=transforms.ToTensor())
kwargs = {"num_workers": 2, "pin_memory": False}
train_dataloader = torch.utils.data.DataLoader(train_dataset, batch_size=batch_size, shuffle=True, drop_last=False, **kwargs)
test_dataloader = torch.utils.data.DataLoader(test_dataset, shuffle=True, drop_last=False, batch_size=1, **kwargs)

## 1. CrossEntropy誤差のみで学習した場合


1つ目に，通常の分類タスクの学習で用いられるCross Entropy誤差のみを使用してネットワークの学習を行います．

ここでは，`model_xent`という名前のネットワークモデルを作成し，学習を行います．

そして，先ほど上で定義した`training()`と`evaluation()`を用いて，学習と評価を行います．
この時，`training()`の引数として，center lossおよびPC lossに関する引数は入力しないものとします．
このようにすることで，center loss, PC lossに関する引数がNoneとして実行されるため，Cross Entropy誤差のみを用いた学習が可能となります．


In [None]:
lr = 0.001
momentum = 0.9

model_xent = CNN(in_channels=1, hidden_dim=hidden_dim, num_classes=10).cuda()
xent = nn.CrossEntropyLoss().cuda()

model_optimizer = optim.SGD(model_xent.parameters(), lr=lr, momentum=momentum)

# 学習
for epoch in range(epochs):
    training(epoch, model_xent, train_dataloader, xent, model_optimizer)

# 評価
test_loss, test_acc = evaluation(model_xent, test_dataloader, xent)
print('Evaluation result: Loss {:.4f}, Acc {:.4f}'.format(test_loss, test_acc))

<a id='visualize'></a>

### 特徴の分布の可視化

Cross Entropy誤差のみで学習したネットワークで獲得された特徴量の分布を可視化して確認します．

まず，各サンプルの特徴量とクラスラベルを保存する配列`coords`と`labels`を定義します．
この時，`coords`は`[サンプル数, 特徴次元数]`となる２次元配列，`labels`は`[サンプル数]`となる1次元配列を定義します．

また，処理したデータの数をカウントする`cnt`を0で初期化して準備します．

次に学習したネットワークモデルを用いて，テストデータを認識します．
この時，モデルからクラススコアと1層目の全結合層の特徴量が獲得されますが，
1層目の全結合層の特徴量を`features`に格納し，先ほど用意した配列`coords`に保存します．
同時に，テストデータの正解クラスラベルを`labels`に格納します．

全てのテストデータの特徴量と正解ラベルの格納が完了したら，
獲得した特徴量を2次元の散布図でプロットを行います．
この時．各サンプルのクラスラベル（0 ~ 9）に応じて，プロットの色を変えて表示することで，各クラスのデータがどのあたりに分布しているかを確認することが可能となります．

**考察（追加予定）**

#### Note: 1層目の全結合層のユニット数を2に設定したねらい

上のパラメータ設定で`hidden_dim = 2`と定義したのは，2次元の特徴量にすることで獲得した特徴の分布をプロットし，用意に可視化することが可能なためです．
より高次元な特徴量（23, 64, 128など）では，単純に特徴の分布を可視化することが難しく，次元削減などの処理を行ったのちに可視化をする必要があります．
今回は，1つ目の全結合層のユニット数を2と設定することで，獲得した特徴量を2次元プロットするように設定しています．


In [None]:
coords = np.zeros((len(test_dataloader.dataset), 2))
labels = np.zeros((len(test_dataloader.dataset)))
cnt = 0

model_xent.eval()
for (x, y) in test_dataloader:
    x = x.cuda()
    batch = x.size(0)
    _, features = model_xent(x)
    coords[cnt:cnt+batch] = features.squeeze().data.cpu().numpy()
    labels[cnt:cnt+batch] = y.data.numpy()
    cnt += batch

mpl_colorlist = plt.rcParams['axes.prop_cycle'].by_key()['color']
colorlist = [mpl_colorlist[int(idx)] for idx in labels]
xcoords, ycoords = coords[:, 0], coords[:, 1]
xmax, xmin = xcoords.max(), xcoords.min()
ymax, ymin = ycoords.max(), ycoords.min()
xcoords = (xcoords - xmin) / (xmax - xmin)
ycoords = (ycoords - ymin) / (ymax - ymin)

plt.scatter(xcoords, ycoords, color=colorlist, s=0.4)
plt.show()

## 2. Cross Entropy Loss + Center Lossを用いて学習した場合

次にCross Entropy誤差に加えてCenter Lossを用いてネットワークの学習を行います．

ここでは，上のCross Entropy誤差のみで学習したネットワークとは別のネットワークを用意するため．`model_xent_center`という名前でネットワークを作成します．

また，学習に用いる誤差関数として，Center Loss (`center`) を定義します．
さらに，ネットワークを学習するためのoptimzer (`model_optimizer`) に加えて，Center Lossの中心座標を更新するための，optimizer (`center_optimzer`) を定義します．

これらを`training()`の引数として追加することで，Cross Entropy誤差とCenter Lossを組み合わせてネットワークの学習を行います．

In [None]:
lr = 0.001
momentum = 0.9
# Center Lossのパラメータ
center_lr = 0.5
lambda_center = 1

model_xent_center = CNN(in_channels=1, hidden_dim=hidden_dim, num_classes=10).cuda()
xent = nn.CrossEntropyLoss().cuda()
center = CenterLoss(num_classes=num_classes, num_features=hidden_dim, use_gpu=True)

model_optimizer = optim.SGD(model_xent_center.parameters(), lr=lr, momentum=momentum)
center_optimizer = optim.SGD(center.parameters(), lr=center_lr)

# 学習
for epoch in range(epochs):
    training(epoch, model_xent_center, train_dataloader, xent, model_optimizer,
             center=center, center_optimizer=center_optimizer, lambda_center=lambda_center)

# 評価
test_loss, test_acc = evaluation(model_xent_center, test_dataloader, xent)
print('Evaluation result: Loss {:.4f}, Acc {:.4f}'.format(test_loss, test_acc))

### 特徴の分布の可視化

Cross Entropy誤差とCenter Lossで学習したネットワークで獲得された特徴量の分布を可視化して確認します．
可視化の方法については，上記で説明していますので割愛します．

**考察（追加予定）**

In [None]:
coords = np.zeros((len(test_dataloader.dataset), 2))
labels = np.zeros((len(test_dataloader.dataset)))
cnt = 0

model_xent_center.eval()
for (x, y) in test_dataloader:
    x = x.cuda()
    batch = x.size(0)
    _, features = model_xent_center(x)
    coords[cnt:cnt+batch] = features.squeeze().data.cpu().numpy()
    labels[cnt:cnt+batch] = y.data.numpy()
    cnt += batch

mpl_colorlist = plt.rcParams['axes.prop_cycle'].by_key()['color']
colorlist = [mpl_colorlist[int(idx)] for idx in labels]
xcoords, ycoords = coords[:, 0], coords[:, 1]
xmax, xmin = xcoords.max(), xcoords.min()
ymax, ymin = ycoords.max(), ycoords.min()
xcoords = (xcoords - xmin) / (xmax - xmin)
ycoords = (ycoords - ymin) / (ymax - ymin)

plt.scatter(xcoords, ycoords, color=colorlist, s=0.4)
plt.show()

## 3. Cross Entropy Loss + Center Loss + PC Lossを用いて学習した場合

最後に，Cross Entropy誤差，Center Lossに加えてPC Lossを用いてネットワークの学習を行います．

ここでは`model_xent_center_pc`という名前でネットワークを作成します．

また，学習に用いる誤差関数として，新たにPC Loss (`pc`) とPC Lossの中心座標を更新するための，optimizer (`pc_optimizer`) を定義します．

これらを`training()`の引数として追加することで，Cross Entropy誤差とCenter Loss，PC Lossを組み合わせてネットワークの学習を行います．


In [None]:
lr = 0.001
momentum = 0.9
# Center Lossのパラメータ
center_lr = 0.5
lambda_center = 1
# PC Lossのパラメータ
pc_lr = 0.01
lambda_pc = 0.0001

model_xent_center_pc = CNN(in_channels=1, hidden_dim=hidden_dim, num_classes=10).cuda()
xent = nn.CrossEntropyLoss().cuda()
center = CenterLoss(num_classes=num_classes, num_features=hidden_dim, use_gpu=True)
pc = PCLoss(num_classes=num_classes, num_features=hidden_dim, use_gpu=True)

model_optimizer = optim.SGD(model_xent_center_pc.parameters(), lr=lr, momentum=momentum)
center_optimizer = optim.SGD(center.parameters(), lr=center_lr)
pc_optimizer = optim.SGD(pc.parameters(), lr=pc_lr)

# 学習
for epoch in range(epochs):
    training(epoch, model_xent_center_pc, train_dataloader, xent, model_optimizer,
             center=center, pc=pc, center_optimizer=center_optimizer, pc_optimizer=pc_optimizer,
             lambda_center=lambda_center, lambda_pc=lambda_pc)

# 評価
test_loss, test_acc = evaluation(model_xent_center_pc, test_dataloader, xent)
print('Evaluation result: Loss {:.4f}, Acc {:.4f}'.format(test_loss, test_acc))

### 特徴の分布の可視化

Cross Entropy誤差とCenter Loss，PC Lossで学習したネットワークで獲得された特徴量の分布を可視化して確認します．
可視化の方法については，上記で説明していますので割愛します．

**考察（追加予定）**

In [None]:
coords = np.zeros((len(test_dataloader.dataset), 2))
labels = np.zeros((len(test_dataloader.dataset)))
cnt = 0

model_xent_center_pc.eval()
for (x, y) in test_dataloader:
    x = x.cuda()
    batch = x.size(0)
    _, features = model_xent_center_pc(x)
    coords[cnt:cnt+batch] = features.squeeze().data.cpu().numpy()
    labels[cnt:cnt+batch] = y.data.numpy()
    cnt += batch

mpl_colorlist = plt.rcParams['axes.prop_cycle'].by_key()['color']
colorlist = [mpl_colorlist[int(idx)] for idx in labels]
xcoords, ycoords = coords[:, 0], coords[:, 1]
xmax, xmin = xcoords.max(), xcoords.min()
ymax, ymin = ycoords.max(), ycoords.min()
xcoords = (xcoords - xmin) / (xmax - xmin)
ycoords = (ycoords - ymin) / (ymax - ymin)

plt.scatter(xcoords, ycoords, color=colorlist, s=0.4)
plt.show()

## 課題

1. Lossや最適化手法のパラメータなどを変更して，学習後の特徴の分布がどのように変化するかを確認しましょう．
