<a href="https://colab.research.google.com/github/tomonari-masada/course2022-nlp/blob/main/05_PyTorch_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PyTorch入門 (1)
参考資料: 
* PyTorch公式のチュートリアル https://pytorch.org/tutorials/index.html

注意:
* ランタイムのタイプをGPUにしておいてください。
  * 上のメニュー「ランタイム」→「ランタイムのタイプを変更」で「GPU」を選択 


## Reproducibility
* 乱数のシードを設定して、実験の再現性を確保する。
 * https://pytorch.org/docs/stable/notes/randomness.html

In [None]:
import random
import numpy as np
import torch

random.seed(0)
np.random.seed(0)
torch.manual_seed(0)

## テンソル

### テンソルの作り方

In [None]:
# 1で埋められたテンソルを作る
x = torch.ones(2, 5)
print(x)

In [None]:
# 要素のデータ型を確認する
print(x.dtype)

In [None]:
# 0で埋められたテンソルを作る
x = torch.zeros(4, 4)
print(x)

In [None]:
# 特定の値で埋められたテンソルを作る
x = torch.full((2, 3), 3.14159)
print(x)

In [None]:
# [0,1)の一様乱数を要素とするテンソルを作る
x = torch.rand(5, 3)
print(x)

In [None]:
# Pythonのリストからテンソルを作る
x = torch.tensor([5.5, 3])
print(x)

In [None]:
# NumPyのndarrayからテンソルを作る
a = np.array([1, 2, 3])
print(a)
t = torch.from_numpy(a)
print(t)

In [None]:
# NumPyのndarrayの要素を変更するとどうなるか？
a[0] = -1
print(t)

In [None]:
# テンソルのほうの要素を変更するとどうなるか?
t[1] = -2
print(a)

In [None]:
# cloneメソッドを使ってテンソルの複製を作る
a = np.array([1, 2, 3])
print(a)
t = torch.from_numpy(a)
print(t)
s = t.clone()
print(s)

In [None]:
s[0] = -1
print(a)
print(s)

In [None]:
a[1] = -2
print(a)
print(s)

In [None]:
# テンソルからndarrayを作る
x = torch.ones(3,4)
print(x)
y = x.numpy()
print(y)

In [None]:
# テンソルを変更するとどうなるか?
x[0,0] = -1
print(x)
print(y)

### テンソルの形状を得る

In [None]:
x = torch.zeros(5, 3) 
print(x)

print(x.shape)
print(x.size(0))
print(x.size(1))

### 既存のテンソルから新たにテンソルを作る

In [None]:
# 既存のテンソルから形状を引き継いで新たにテンソルを作る
# 要素のデータ型は変更できる
# （randnは正規乱数の意味）
x2 = torch.randn_like(x, dtype=torch.float)
print(x2)

### テンソルの要素のデータ型いろいろ

In [None]:
a = torch.tensor(1)
print(a, a.dtype)

In [None]:
x = torch.tensor(2.0)
print(x, x.dtype)
y = torch.tensor(2.0, dtype=torch.float64)
print(y, y.dtype)
z = torch.tensor(2.0, dtype=torch.float16)
print(z, z.dtype)


In [None]:
s = x + y + z
print(s.dtype)

In [None]:
b = torch.tensor(True)
print(b, b.dtype)

### 型の指定(1)

In [None]:
a = torch.tensor(1, dtype=torch.int32)
print(a, a.dtype)
x = torch.tensor(2.0, dtype=torch.float)
print(x, x.dtype)
z = torch.tensor(2.0, dtype=torch.double)
print(z, z.dtype)

### 型の指定(2)

In [None]:
a = torch.IntTensor([1, 2, 3])
print(a, a.dtype)
x = torch.FloatTensor(np.array([2.0, -4.0]))
print(x, x.dtype)
y = torch.DoubleTensor([2.0, -4.0])
print(y, y.dtype)
b = torch.BoolTensor([1, 0, 2, 0])
print(b, b.dtype)

### 型の変更

In [None]:
a = torch.tensor([1, 10])
print(a, a.dtype)

x = a.float()
print(x, x.dtype)

In [None]:
y = a.type(torch.float64)
print(y, y.dtype)

In [None]:
z = a.type_as(x)
print(z, z.dtype)

### スカラーとベクトル

In [None]:
s = torch.tensor(1.0)
print(s)
print(s.dim())
print(s.shape)

In [None]:
v = torch.tensor([1.0, 2.0, 3.0, 4.0])
print(v)
print(v.dim())
print(v.shape)

In [None]:
v = torch.tensor([4.0])
print(v)
print(v.dim())
print(v.shape)

In [None]:
# 要素がひとつのテンソルから、その要素をスカラ値として取り出す
x = torch.randn(1)
print(x)
print(x.item())

### 行列

In [None]:
m = torch.tensor([[1.0, 2.0], [3.0, 4.0]])
print(m)
print(m.dim())
print(m.shape)
print(m[1, 1])

### テンソル

In [None]:
t = torch.tensor([[[1.0, 2.0], [3.0, 4.0]], [[5.0, 6.0], [7.0, 8.0]]])
print(t)
print(t.dim())
print(t.shape)
print(t[1, 1, 1])

In [None]:
t = torch.tensor([[[[1.0, 1.0], [2.0, 2.0]], [[3.0, 3.0], [4.0, 4.0]]],
                        [[[5.0, 5.0], [6.0, 6.0]], [[7.0, 7.0], [8.0, 8.0]]]])
print(t)
print(t.dim())
print(t.shape)
print(t[1, 1, 1, 1])

## 2. テンソルのビュー 

### view()メソッド
* viewとreshapeについては、下記リンク先を参照。
 * https://pytorch.org/docs/stable/tensor_view.html

In [None]:
v = torch.arange(0, 12)
print(v)
print(v.shape)

In [None]:
m34 = v.view(3, 4)
print(m34)
print(m34.shape)

In [None]:
v[0] = 10
print(m34)

In [None]:
m43 = v.view(4, -1)
print(m43)
print(m43.shape)

### reshape()メソッド

In [None]:
v = torch.arange(0, 12)
print(v)

In [None]:
m26 = v.reshape(2, 6)
print(m26)
print(m26.shape)

In [None]:
v[0] = 10
print(m26)

### contiguousなテンソルとそうでないテンソルの違い
* 「contiguousである」とは、テンソルとしての要素の配置の順番が、メモリ上での要素の配置の順番と一致していることを言う。
* 例えばtメソッドは、見かけ上で転置するだけなので、その結果得られるテンソルでの要素の配置の順番は、メモリ上の要素の配置の順番と一致しなくなる。
* contiguous()メソッドを呼ぶことで、強制的にメモリ上の要素の配置の順番を、テンソルでのそれに一致させることができる。
 * ただし、contiguous()メソッドを多用すると実行時間が伸びる。

In [None]:
print(m26.is_contiguous())

In [None]:
m62 = m26.t()
print(m62)
print(m62.is_contiguous())

In [None]:
m62_new = m62.contiguous()
print(m62_new)
print(m62_new.is_contiguous())

In [None]:
m26[0, 0] = 20
print(m26)
print(m62)
print(m62_new)

In [None]:
v = torch.arange(0, 12)
m26 = v.view(2, 6)
print(m26)
m34 = m26.view(3, 4)
print(m34)

In [None]:
v = torch.arange(0, 12)
m26 = v.view(2, 6)
print(m26)
m62 = m26.t()
print(m62)
m34 = m62.view(3, 4) # これはエラーになる

In [None]:
v = torch.arange(0, 12)
m26 = v.view(2, 6)
print(m26)
m62 = m26.t()
print(m62)
m34 = m62.reshape(3, 4) # reshapeではエラーにならない
print(m34)

In [None]:
v = torch.arange(0, 12)
m26 = v.view(2, 6)
print(m26)
m62 = m26.t()
print(m62)
m62_new = m62.contiguous() # contiguousにしてからだと・・・
print(m62_new)
m34 = m62_new.view(3, 4) # エラーにならない
print(m34)
# 何が起こっているかはすぐ下で調べる。

### テンソルとその要素のメモリ上での配置
* 下のリンク先が詳しい（今は無料で読めなくなっている・・・）。
 * https://livebook.manning.com/book/deep-learning-with-pytorch/chapter-3/142

In [None]:
m = torch.tensor([[4.0, 1.0], [5.0, 3.0], [2.0, 1.0]])
print(m)
print(m.storage())

In [None]:
# 転置をしてもstorage()メソッドは同じ内容を返す
m = torch.tensor([[4.0, 1.0], [5.0, 3.0], [2.0, 1.0]])
m = m.t()
print(m)
print(m.storage())

In [None]:
# なぜreshapeではエラーが出なかったか
v = torch.arange(0, 12)
m26 = v.view(2, 6)
m62 = m26.t()
print(m62)
print(m62.storage())
m34 = m62.reshape(3, 4) # reshapeではエラーにならない
print(m34)
print(m34.storage())

## 3. テンソルの操作

### 演算

In [None]:
x = torch.rand(5, 3)
y = torch.rand(5, 3)
print(x)
print(y)

# 要素ごとの演算
print(x + y)
print(x * y)

### Indexing
* NumPyと同じ。

In [None]:
x = torch.rand(5, 3)
print(x)
print(x[:,1])

### GPUへテンソルを持っていく
* ランタイムのタイプをGPUへ変更してから下のセルを実行する。

In [None]:
# GPUが使える環境かどうかの確認
torch.cuda.is_available()

In [None]:
# GPUの取得
device = torch.device("cuda")
print(device)

In [None]:
# GPU上にテンソルを作る
x = torch.rand(5, 3, device=device)

In [None]:
print(x)

In [None]:
# CPU上で作ってからGPUへ持っていく
y = torch.ones_like(x)
y = y.to(device)

In [None]:
print(y)

In [None]:
z = x + y
print(z)

In [None]:
# CPUに戻す
w = z.cpu()
print(w)
print(w.dtype)

In [None]:
# さらにNumPyのndarrayに変換する
w = w.numpy()
print(w)
print(w.dtype) # float32になることに注意

In [None]:
x = torch.rand(5, 3)
y = torch.rand(5, 3).to(device)
z = x + y # エラーになる

## 自動微分

### それについて微分をする変数を作る
* requires_gradをTrueに設定してテンソルを作る

In [None]:
x = torch.ones(2, 2, requires_grad=True)
print(x)
print(x.requires_grad)

* テンソルを作った後でrequires_gradをTrueにすることもできる。

In [None]:
a = torch.randn(2, 2)
print(a)
print(a.requires_grad)
a.requires_grad = True
print(a.requires_grad)

* テンソルを作った後でrequires_gradをTrueにする別の方法。

In [None]:
a = torch.randn(2, 2)
print(a)
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)

### 計算グラフ
* 微分できる変数を含む計算を行うと、計算グラフが作られる。

In [None]:
x = torch.ones(2, 2, requires_grad=True)
print(x)
y = x + 2
print(y)

In [None]:
x = torch.ones(2, 2, device=device, requires_grad=True)
print(x)
y = x * x * 4
out = y.mean()
print(out)

### Backpropagationの実行

In [None]:
x = torch.ones(2, 2, device=device, requires_grad=True)
print(x)
y = x * x * 4
print(y)
out = y.mean()
print(out)
out.backward()
print(x.grad) # 微分係数を表示

* 注意：一度 backward() を実行すると、計算グラフは破棄される。
 * 続けて backward() を実行することはできない。

### 計算グラフを作らせない

* 以下のように、計算するととにかく計算グラフが作られる。

In [None]:
x = torch.tensor(3.0, requires_grad=True)
y = x ** 2
print(y.requires_grad)
y.backward()
print(x.grad)

* `with torch.no_grad():`の範囲内の計算については、計算グラフは作られない。

In [None]:
x = torch.tensor(3.0, requires_grad=True)
y = x ** 2
with torch.no_grad():
  z = x ** 2
print(y.requires_grad)
print(z.requires_grad)

In [None]:
z.backward() # エラーになる

* detachメソッド

In [None]:
x = torch.tensor(3.0, requires_grad=True)
print(x.requires_grad)
x = x.detach()
print(x.requires_grad)

In [None]:
# f(x) = a*x**2 + b*x + cの、x=2におけるxに関する微分係数を求める

x = torch.tensor(2.0, device=device, requires_grad=True)
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

y = a * x ** 2 + b * x + c

y.backward()
print(x.grad)

### 計算グラフの可視化

In [None]:
!pip install torchviz

In [None]:
from torchviz import make_dot

x = torch.ones(2, 2, device=device, requires_grad=True)
x_sum = x.sum()
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(1.0)

y = a * x_sum ** 2 + b * x_sum + c
make_dot(y, params={'x':x})

## autograd()を使った高階微分
* 第一引数は微分される関数
* 第二引数はそれに関して微分する変数
* create_graphをTrueにすると、微分の計算をするだけでなく、計算グラフが作られる
 * すると、高階微分を計算できるようになる。

例1. $y = ax^3 + bx^2 + cx + d$を、$x$について微分

In [None]:
x = torch.tensor(0.0, requires_grad=True)
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(3.0)
d = torch.tensor(5.0)
y = a * x ** 3 + b * x ** 2 + c * x + d

In [None]:
dy_dx = torch.autograd.grad(y, x) #単に微分するだけ
print(dy_dx) # 要素が一つだけのtupleになっている

例2. $y=x_1 x_2$を、$x_1$と$x_2$それぞれについて偏微分

In [None]:
x1 = torch.tensor(3.0, requires_grad=True)
x2 = torch.tensor(4.0, requires_grad=True)
y = x1 * x2

In [None]:
dy_dx = torch.autograd.grad(y, (x1, x2)) # 単に微分するだけ
print(dy_dx) # 要素が2つのtuple

例3. $y = ax^3 + bx^2 + cx + d$を、$x$について微分し、さらにそれを$x$で微分する

In [None]:
x = torch.tensor(0.0, requires_grad=True)
a = torch.tensor(1.0)
b = torch.tensor(-2.0)
c = torch.tensor(3.0)
d = torch.tensor(5.0)
y = a * x ** 3 + b * x ** 2 + c * x + d

In [None]:
# backpropagationの計算の計算グラフを作らせる
dy_dx = torch.autograd.grad(y, x, create_graph=True) 
print(dy_dx)
print(dy_dx[0])

In [None]:
# backpropagationの計算の計算グラフが表す関数をxで微分
d２y_dx2 = torch.autograd.grad(dy_dx, x)
print(d2y_dx2)
print(d2y_dx2[0])

### 多変数関数の偏微分とヘシアン

例. $y=(x_1+3x_2)^2$のヘシアンを求める

In [None]:
def func(x1, x2):
  return (x1 + 3 * x2) ** 2

x1 = torch.tensor(1.0, requires_grad=True)
x2 = torch.tensor(2.0, requires_grad=True)
y = func(x1, x2)

In [None]:
dy_dx1, dy_dx2 = torch.autograd.grad(y, [x1, x2], create_graph=True)
print(dy_dx1.data, dy_dx2.data)

In [None]:
d2y_dx1dx1, d2y_dx1dx2 = torch.autograd.grad(dy_dx1, [x1, x2], retain_graph=True)
print(d2y_dx1dx1.data, d2y_dx1dx2.data)

In [None]:
d2y_dx2dx1, d2y_dx2dx2 = torch.autograd.grad(dy_dx2, [x1, x2])
print(d2y_dx2dx1.data, d2y_dx2dx2.data)

In [None]:
# 答え合わせ
print(torch.autograd.functional.hessian(func, inputs=(x1, x2)))

## 5. 自動微分を使った制約なし最適化

例. $f(x)=x^2-2x+1$を最小にする$x$を求める

In [None]:
# 関数の定義
def f(x, a=1.0, b=-2.0, c=1.0):
  return a * x ** 2 + b * x + c

In [None]:
# テンソルの準備
x = torch.tensor(10.0, requires_grad=True)

# 最適化手法のインスタンスを作る
#   param: どの変数で微分するか
#   lr: 学習率
optimizer = torch.optim.SGD(params=[x], lr=0.1)

In [None]:
for i in range(1, 101):
  optimizer.zero_grad()
  y = f(x)
  y.backward()
  optimizer.step()
  if i % 5 == 0:
    print(f'iter {i} : f(x) = {y.data:.6f}, x = {x.data:.6f}')

# 課題4
関数$f(x_1,x_2)=x_1^2+x_2^2$の最小値と、$f(x_1,x_2)$がその最小値をとるときの$x_1$と$x_2$の値を、PyTorchの自動微分を使って求めよう。