# PyTorch入門
Deep Learning Frameworkの一つであるPyTorchについて解説し、自分がイメージしたNeural Networkを設計できるようになることが目的である。基本的には公式ページのチュートリアルを自分で進めていけばPyTorchを理解することができる( https://pytorch.org/ )。

## Deep Learning Frameworkとは
Deep Learning FrameworkとはNeural Networkを記述するために利用されるライブラリの集合のことである。初期のDeep Learning Frameworkでは自動微分を提供することが主であり、自動微分を用いることで誤差逆伝播による学習が容易となる。

有名なDeep Learning Frameworkとしては、以下のものが挙げられる。
1. TensorFlow: Googleから提供され、define and runで実装されている。おそらく世界でもっとも利用されているDeep Learning Framework。TensorFlow2.0では、define by runで実装されることがアナウンスされている。TensorFlow自体を直接利用する人は少なく、Kerasをフロントエンドとして利用することが多い。TensorFlow2.0ではKerasが組み込まれることがアナウンスされている。
2. PyTorch: エンジニアのコミュニティをベースに開発され、define by runで実装されている。もともとChainerよりforkされ、LuaのTorchのアイデアが組み合わされている。アカデミックな世界でよく利用されている。
3. Caffe、Caffe2: UCBのYangqing Jia(現Facebook)が開発し、define and runで実装されている。特に画像認識の分野でよく使われている。
4. MXNet: ワシントン大学とカーネギーメロン大学で開発され、スケーラビリティに優れたDeep Learning Frameworkです。多くの言語(Python、R、C++など)から利用できる。
5. CNTK: Microsoftが開発している。

世界的にはTensorFlowとPyTorchが2大Deep Learning Frameworkとなる。

## Define and runとDefine by runとは
Define and runでは、まずNeural Networkの構造を定義したのち、入力データを処理していく。このため、データを処理する前にNeural Networkの構造が定義済みになっている必要があるため、事前にNeural Networkの構造の最適化などの処理が可能である。一方、時系列データやテキストデータを扱う場合、入力データの長さが変化するため、柔軟に対応できない傾向がある。

一方、Define by runでは、事前にNeural Networkの構造を定義せず、入力データの処理手順を記載するのと同時に動的にNeural Networkを構築する手法である。例えば、if文などを利用した場合はNeural Networkの構造が変化することが容易に想像できるが、define by runでは柔軟に対応ができる。Define and runではif文で使い分けられる複数のNeural Networkを事前に作成し、個別に学習する必要がある。しかし、実行時までNeural Networkの構造が決定しないため、最適化などについては不利になる場合がある。

## Colaboratoryの環境を確認する
研究のプログラムなどをColaboratory上で実行した場合、プログラムの実行環境について明確にする必要がある。このため、Colaboratoryの動作環境の調べ方を紹介する。

### CPUのバージョンを確認する

In [None]:
!cat /proc/cpuinfo
!nvidia-smi

processor	: 0
vendor_id	: GenuineIntel
cpu family	: 6
model		: 63
model name	: Intel(R) Xeon(R) CPU @ 2.30GHz
stepping	: 0
microcode	: 0x1
cpu MHz		: 2299.998
cache size	: 46080 KB
physical id	: 0
siblings	: 2
core id		: 0
cpu cores	: 1
apicid		: 0
initial apicid	: 0
fpu		: yes
fpu_exception	: yes
cpuid level	: 13
wp		: yes
flags		: fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush mmx fxsr sse sse2 ss ht syscall nx pdpe1gb rdtscp lm constant_tsc rep_good nopl xtopology nonstop_tsc cpuid tsc_known_freq pni pclmulqdq ssse3 fma cx16 pcid sse4_1 sse4_2 x2apic movbe popcnt aes xsave avx f16c rdrand hypervisor lahf_lm abm invpcid_single ssbd ibrs ibpb stibp fsgsbase tsc_adjust bmi1 avx2 smep bmi2 erms invpcid xsaveopt arat md_clear arch_capabilities
bugs		: cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf mds swapgs
bogomips	: 4599.99
clflush size	: 64
cache_alignment	: 64
address sizes	: 46 bits physical, 48 bits virtual
power management:

processor	:

### メモリの情報を確認する

In [None]:
!cat /proc/meminfo

MemTotal:       13302924 kB
MemFree:         8062560 kB
MemAvailable:   12158328 kB
Buffers:          131016 kB
Cached:          4086048 kB
SwapCached:            0 kB
Active:          1310356 kB
Inactive:        3620148 kB
Active(anon):     667616 kB
Inactive(anon):      444 kB
Active(file):     642740 kB
Inactive(file):  3619704 kB
Unevictable:           0 kB
Mlocked:               0 kB
SwapTotal:             0 kB
SwapFree:              0 kB
Dirty:               688 kB
Writeback:             0 kB
AnonPages:        713352 kB
Mapped:           970896 kB
Shmem:              1196 kB
KReclaimable:     149596 kB
Slab:             199968 kB
SReclaimable:     149596 kB
SUnreclaim:        50372 kB
KernelStack:        4896 kB
PageTables:         8412 kB
NFS_Unstable:          0 kB
Bounce:                0 kB
WritebackTmp:          0 kB
CommitLimit:     6651460 kB
Committed_AS:    3452096 kB
VmallocTotal:   34359738367 kB
VmallocUsed:       46476 kB
VmallocChunk:          0 kB
Percpu:          

### Pythonのバージョンを確認する

In [None]:
import sys

print(sys.version)

3.7.12 (default, Sep 10 2021, 00:21:48) 
[GCC 7.5.0]


## PyTorchの利用
Google ColaboratoryではあらかじめPyTorchがインストールされているので、何も設定しない状況で利用が可能である。もし、GPUを使いたい場合は、メニューの「ランタイム」-「ラインタイムのタイプを変更」の「ハードウェア アクセラレータ」で「GPU」を選択すればよい
]

### PyTorchのバージョンを確認する

In [None]:
import torch
print(torch.cuda.is_available())
print(torch.__version__)

True
1.9.0+cu111


### (参考)TensorFlowのバージョンを確認する

In [None]:
import tensorflow as tf
print(tf.__version__)

2.6.0


### 定数を作成する
基本的にPyTorchで利用するデータ型はテンソル(多次元配列)です。基本的にはtorch.tensor()を使って生成します。値には型があるので、指定したい場合はdtypeでtorch.intやtorch.floatなどを指定すればよい。関数によっては値の型が限定されている場合があるので、リファレンスなどを参考に指定するようにしてください。

In [None]:
import torch

# 整数を定義する
x1 = torch.tensor([5])
print(x1)

# 小数を定義する
x2 = torch.tensor([1.5])
print(x2)

# 2x2行列を定義する
mat1 = torch.tensor([[1, 2], [3, 4]])
print(mat1)

# 2x2の全要素が1の行列
mat2 = torch.ones(2, 2)
print(mat2)

# 2X2のゼロ行列
mat3 = torch.zeros(2, 2)
print(mat3)

# 2x2の単位行列
mat4 = torch.eye(2)
print(mat4)

# 2x2の単位行列の要素をtorch.float型に指定
mat4 = torch.eye(2, dtype=torch.float)

tensor([5])
tensor([1.5000])
tensor([[1, 2],
        [3, 4]])
tensor([[1., 1.],
        [1., 1.]])
tensor([[0., 0.],
        [0., 0.]])
tensor([[1., 0.],
        [0., 1.]])


### 行列の演算を行う
基本的にはNumpyと同じ演算が用意されている。

In [None]:
# 積などの演算を行うには、dtype=np.float32にしておくこと
matrix1 = torch.tensor([[1., 2.], [3., 4.]])
matrix2 = torch.tensor([[5., 6.], [7., 8.]])

# 行列の転置
print(matrix1.T)

# 行列の和
print(matrix1 + matrix2)

# 行列の項別積
print(matrix1 * matrix2)

# 行列積
print(torch.matmul(matrix1, matrix2))

# 逆行列
print(torch.inverse(matrix1))

tensor([[1., 3.],
        [2., 4.]])
tensor([[ 6.,  8.],
        [10., 12.]])
tensor([[ 5., 12.],
        [21., 32.]])
tensor([[19., 22.],
        [43., 50.]])
tensor([[-2.0000,  1.0000],
        [ 1.5000, -0.5000]])


### その他の便利な操作


In [None]:
import numpy as np

# データのサイズを調べる
print(matrix1.size())

# 行列の形を変える
# 2x2 -> 1x4
tmp1 = matrix1.reshape(1, 4)
print(tmp1)
print(tmp1.shape)

# 2x2 -> 4
tmp2 = matrix1.reshape(4)
print(tmp2)
print(tmp2.shape)

# 2x2 -> 1x2x2
tmp3 = matrix1.reshape(1, 2, 2)
print(tmp3)
print(tmp3.shape)

# 2x2 -> 1x1x4
tmp4 = matrix1.reshape(1, 1, -1)
print(tmp4)
print(tmp4.shape)

# Numpyとして値を表示
# 計算履歴がついている場合は必ずdetach()が必要
print(tmp4.detach().numpy())

# Numpyからtensorを作成
print(torch.from_numpy(np.array([[1, 2], [3, 4]])))

torch.Size([2, 2])
tensor([[1., 2., 3., 4.]])
torch.Size([1, 4])
tensor([1., 2., 3., 4.])
torch.Size([4])
tensor([[[1., 2.],
         [3., 4.]]])
torch.Size([1, 2, 2])
tensor([[[1., 2., 3., 4.]]])
torch.Size([1, 1, 4])
[[[1. 2. 3. 4.]]]
tensor([[1, 2],
        [3, 4]])


### 式を書く
#### 式の定義
次のような式をPyTorch上で定義してみる
$$ y = 2 x + 1 $$
これだけだとNumpyと大きく異ならないが、PyTorchでは微分を自動的に計算することができる。具体的には、xが変数であり、微分を持つことを明確にするために、定義するときにrequires_gradをTrueに設定する。また、y.backward()により出力から微分を計算する。

In [None]:
x = torch.tensor([1.], requires_grad=True)

# 式の定義と計算
y = 2 * x + 1
print(y)

y.backward()
print(x.grad)

tensor([3.], grad_fn=<AddBackward0>)
tensor([2.])


### パーセプトロンを定義する
パーセプトロンはシンプルなモデルであり、入力と結合荷重による重み付き和で表されるものである。PyTorchでは簡単にこのようなモデルを定義することができる。結合荷重はtorch.nnで提供されているものを用いればよい。単純なパーセプトロンで用いられる全結合層はtorch.nn.Linear()を利用して定義すれば良い。torch.nn.Linear()の引数は、入力データの次元と出力データの次元を引数として呼び出すこととなる。初期値は乱数により設定されている。

In [None]:
import torch.nn as nn

# ニューロン間の結合荷重を定義
# 重みは乱数により設定
w = nn.Linear(1, 1)
print(w.weight)
print(w.bias)

x = torch.tensor([[0.]], requires_grad=True)
y = w(x)
print(y)

y.backward()
print(x.grad)

Parameter containing:
tensor([[-0.6394]], requires_grad=True)
Parameter containing:
tensor([0.5977], requires_grad=True)
tensor([[0.5977]], grad_fn=<AddmmBackward>)
tensor([[-0.6394]])


### 3層ニューラルネットワークを定義する
3層ニューラルネットワークをパーセプトロンの定義を参考に定義してみよう。3層ニューラルネットワークは全結合層が2層重なっているので、パーセプトロンを2つ積み重ねた形となる。また隠れ層の出力には一般的に非線形な活性化関数を適用する。活性関数などの関数はtorchで定義されており、今はtorch.sigmoid()を利用する。

In [None]:
# 3層ニューラルネットワークの結合荷重を定義する。
w1 = nn.Linear(2, 2)
w2 = nn.Linear(2, 2)

# 3層ニューラルネットワークでの処理を記述する。
# 活性化関数にはシグモイド関数を用いる。
x = torch.tensor([[1., 1.]])
h = torch.sigmoid(w1(x))
o = torch.sigmoid(w2(h))
print(o)

tensor([[0.3275, 0.6215]], grad_fn=<SigmoidBackward>)


### クラスを用いて多層ニューラルネットワークを定義する
ニューラルネットワークの定義の方法としてクラスを用いる方法がある。クラスを用いてニューラルネットワークを定義することで、ニューラルネットワークを定義する部分とデータを処理する部分に分けることができ、理解しやすいプログラムを作成することができる。

クラスとしてプログラムを定義するための一つの方法として、torch.nn.Moduleを用いる方法を説明する。以下に3層ニューラルネットワークの定義を示す。ここでは、入力層、隠れ層、出力層は全て2とする。

In [None]:
class MLP(nn.Module): #クラスの名前を定義する。このとき、引数にnn.Moduleをつけること
  def __init__(self, input_size, hidden_size, output_size): #クラスを作成するときの初期設定を行う。引数はselfを先頭に後に必要なものを追加
    super(MLP, self).__init__() #必ず必要。最初の引数に自分が定義したクラス名を記述。これにより、上位クラスを継承

    self.l1 = nn.Linear(input_size, hidden_size) # 各層の入力と出力の次元を指定。省略不可
    self.l2 = nn.Linear(hidden_size, output_size)

  def forward(self, x): # オブジェクトから呼び出されたときに実行される関数
    h = torch.sigmoid(self.l1(x))
    o = torch.sigmoid(self.l2(h))
    return o

model = MLP(2, 2, 2)
x = torch.tensor([[1., 1.]])
print(model(x))

tensor([[0.4988, 0.3800]], grad_fn=<SigmoidBackward>)


### 練習問題
上記のプログラムを参考にして、入力層のサイズが2、隠れ層のサイズが3、出力層のサイズが2となる3層ニューラルネットワークを定義して、適当な値の入力に対する出力を求めなさい。

In [None]:
class MLP(nn.Module): 
  def __init__(self, input_size, hidden_size, output_size): 
    super(MLP, self).__init__()
    self.l1 = nn.Linear(input_size, hidden_size) 
    self.l2 = nn.Linear(hidden_size, output_size)

  def forward(self, x):
    h = torch.sigmoid(self.l1(x))
    o = torch.sigmoid(self.l2(h))
    return o

model = MLP(2, 3, 2)
x = torch.tensor([[2., 4]])
print(model(x))

tensor([[0.4755, 0.5321]], grad_fn=<SigmoidBackward>)


### ニューラルネットワークを学習する
PyTorchなどのDeep Learning Frameworkでは、ニューラルネットワークの学習が簡単に行える。ニューラルネットワークの学習は誤差逆伝播法で行われ、誤差逆伝播は勾配法と等価なため、Deep Learning Frameworkが提供される微分計算が重要となる。

勾配法に関しては、基本的なものである確率的最急降下法(SGD)、ADAMなどの手法が実装されている。ここでは、具体的なアルゴリズムについての説明は割愛して、使用方法について紹介する。

ここでは、$$ y = 2\sqrt{x_1^2 + x_2^2} + \epsilon $$を3層ニューラルネットワークでシミュレートすることを考える。トレーニングデータとしては、それぞれ[-10, 10]の間に0.1区切りでの値を用いる。

In [None]:
class MLP(nn.Module):
  def __init__(self, input_size, hidden_size, output_size):
    super(MLP, self).__init__()

    self.l1 = nn.Linear(input_size, hidden_size)
    self.l2 = nn.Linear(hidden_size, output_size)

  def forward(self, x):
    h = torch.sigmoid(self.l1(x))
    o = self.l2(h)
    return o

x = []
for i in range(-100, 101):
  for j in range(-100, 101):
    x.append([i/10, j/10])
x = torch.tensor(x)
y = 2 * torch.sqrt(torch.diag(torch.matmul(x, x.T)).reshape(-1, 1)) + (torch.rand(x.size()[0], 1) - 0.5) * 0.01

model = MLP(2, 3, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=1.0e-2)
criterion = nn.MSELoss()

for i in range(10000):
  pred = model(x)
  error = criterion(pred, y)
  print(i+1, error.item())
  optimizer.zero_grad()
  error.backward()
  optimizer.step()

[1;30;43mストリーミング出力は最後の 5000 行に切り捨てられました。[0m
5001 17.191997528076172
5002 17.191953659057617
5003 17.191913604736328
5004 17.191869735717773
5005 17.191829681396484
5006 17.19178581237793
5007 17.19174575805664
5008 17.19170379638672
5009 17.191659927368164
5010 17.191617965698242
5011 17.191577911376953
5012 17.1915340423584
5013 17.19149398803711
5014 17.191452026367188
5015 17.191410064697266
5016 17.191368103027344
5017 17.191326141357422
5018 17.191286087036133
5019 17.191242218017578
5020 17.191200256347656
5021 17.191160202026367
5022 17.191116333007812
5023 17.19107437133789
5024 17.1910343170166
5025 17.19099235534668
5026 17.190950393676758
5027 17.19091033935547
5028 17.190868377685547
5029 17.190826416015625
5030 17.190784454345703
5031 17.19074249267578
5032 17.19070053100586
5033 17.190658569335938
5034 17.190616607666016
5035 17.190576553344727
5036 17.190534591674805
5037 17.190492630004883
5038 17.190452575683594
5039 17.190410614013672
5040 17.19036865234375
5041 17.

入出力データの形式をチェック  
先頭から 3 このデータをスライスで切り取って表示している．

In [None]:
print(x[0:3])
print(y[0:3])

tensor([[-10.0000, -10.0000],
        [-10.0000,  -9.9000],
        [-10.0000,  -9.8000]])
tensor([[28.2872],
        [28.1432],
        [28.0024]])


2 入力 1 出力がそれぞれベクトルになっていて，それらがまとまってデータ数と同じ大きさの次元のテンソルになっている．

ここでは、予測値と正解とのズレを平均二乗誤差(torch.nn.MSELoss())で評価し、確率的勾配降下法(toch.optim.SGD())を用いて修正している。つまり、平均二乗誤差が0になるようにニューラルネットワークを修正することとなる。

このため、表示されている値が少しずつ減少しているので、学習が進んでいることを表しているとみなせ、学習の進捗状況を判断する指標として利用することができる。ただし、この訓練データでは出力は1より大きくなる範囲を含んでいるが、ニューラルネットワークの出力は0〜1に制限されている。このため、最終的には誤差が残ってしまい、このプログラムでは誤差が0になることはない。

### 練習問題
XOR問題を解く3層ニューラルネットワークを作成し、学習しなさい。
XOR問題とは以下のような入出力を持つ関数を近似する問題である。

|X1|X2|Y|
|:-----|:-----|:------|
|0|0|0|
|0|1|1|
|1|0|1|
|1|1|0|


- ヒント
  - 今回の問題にも前述の model クラスは使用できる．
  - 入力 2 ビットで考えると XOR の入力は上記の通り (0,0), (0,1), (1,0), (1,1)
  - 出力は 1 ビットで 0 か 1 となる．
  - PyTorch の tensor での入出力のデータの表現と上記のプログラムの内容を考えると，2 入力 (2 次元) のベクトルが 4 個入っているテンソルと 1 出力 (1 次元) のベクトルが 4 個入っているテンソルがそれぞれ入力と正解になりそう．


In [None]:
class MLP(nn.Module):
  def __init__(self, input_size, hidden_size, output_size):
    super(MLP, self).__init__()

    self.l1 = nn.Linear(input_size, hidden_size)
    self.l2 = nn.Linear(hidden_size, output_size)

  def forward(self, x):
    h = torch.sigmoid(self.l1(x))
    o = torch.sigmoid(self.l2(h))
    return o


x = torch.tensor([[0., 0], [0., 1], [1., 0], [1., 1]])
y = torch.tensor([[0.], [1.], [1.], [0.]])

model = MLP(2, 3, 1)
optimizer = torch.optim.SGD(model.parameters(), lr=1.0e-1)
criterion = nn.MSELoss()

for i in range(100000):
  pred = model(x)
  error = criterion(pred, y)
  print(i+1, error.item())
  optimizer.zero_grad()
  error.backward()
  optimizer.step()


[1;30;43mストリーミング出力は最後の 5000 行に切り捨てられました。[0m
95001 0.0003180605999659747
95002 0.0003180564381182194
95003 0.0003180521307513118
95004 0.0003180478815920651
95005 0.00031804366153664887
95006 0.0003180392668582499
95007 0.0003180349594913423
95008 0.00031803068122826517
95009 0.00031802718876861036
95010 0.00031802282319404185
95011 0.0003180185449309647
95012 0.00031801522709429264
95013 0.00031801045406609774
95014 0.0003180070489179343
95015 0.0003180038183927536
95016 0.00031799968564882874
95017 0.0003179952909704298
95018 0.0003179909836035222
95019 0.00031798670534044504
95020 0.0003179816994816065
95021 0.000317977333907038
95022 0.0003179738123435527
95023 0.00031796967959962785
95024 0.0003179653431288898
95025 0.00031796161783859134
95026 0.0003179574850946665
95027 0.0003179531777277589
95028 0.0003179499472025782
95029 0.0003179462510161102
95030 0.00031794188544154167
95031 0.00031793751986697316
95032 0.00031793321250006557
95033 0.00031792899244464934
95034 0.000317924

　XOR の入力は上記の通り (0,0), (0,1), (1,0), (1,1)であるから、これを学習後のモデルに入力として与えて（0,1,1,0）に近い値が出れば学習できていると考えられる。今回は10000回ではあまり良い結果が出なかったため100000回の学習を行った。

In [None]:
x = torch.tensor([[0., 0], [0., 1], [1., 0], [1, 1]])
print(model(x))

tensor([[0.0159],
        [0.9836],
        [0.9837],
        [0.0202]], grad_fn=<SigmoidBackward>)
