In [None]:
import torch
import numpy as np

# torch.Tensor
torch.Tensorは、numpyのndarrayと同様に行列演算に優れた型です

まずは適当なテンソル（成分が複数ある値）を生成してみましょう

In [None]:
a = torch.ones(3,3) # 値が1で3x3のテンソル
b = torch.Tensor([[1,2,3],[4,5,6],[7,8,9]]) # listから手動で作成
c = torch.randn(3,3) # 標準正規分布からサンプリングした3x3のテンソル
print('a=', a)
print('b=',b)
print('c=',c)

a= tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])
b= tensor([[1., 2., 3.],
        [4., 5., 6.],
        [7., 8., 9.]])
c= tensor([[ 0.8194,  1.5554, -1.3125],
        [-0.7994,  0.4502, -2.6168],
        [-0.2857, -0.6800,  1.3915]])


テンソルの形は`.size()`で取得できます

In [None]:
a.size()

torch.Size([3, 3])

## numpy, listとの相互変換

### numpy -> tensor

In [None]:
a_numpy = np.ones((3,3))
a_tensor = torch.from_numpy(a_numpy)
print(a_tensor)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], dtype=torch.float64)


### tensor -> numpy

In [None]:
a_numpy2 = a_tensor.numpy()
print(a_numpy2)
print(type(a_numpy2))

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]
<class 'numpy.ndarray'>


### list -> tensor

In [None]:
a_list = [[1,1,1],[1,1,1],[1,1,1]]
a_tensor = torch.Tensor(a_list)
print(a_tensor)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])


### tensor -> list

In [None]:
a_list2 = a_tensor.tolist()
print(a_list2)
print(type(a_list2))

[[1.0, 1.0, 1.0], [1.0, 1.0, 1.0], [1.0, 1.0, 1.0]]
<class 'list'>


## 四則演算

形が同じであればテンソル同士での四則演算が可能です

In [None]:
print(f'a+b={a+b}') # f-stringで表示
print(f'a-b={a-b}')
print(f'a*b={a*b}')
print(f'a/b={a/b}')

a+b=tensor([[ 2.,  3.,  4.],
        [ 5.,  6.,  7.],
        [ 8.,  9., 10.]])
a-b=tensor([[ 0., -1., -2.],
        [-3., -4., -5.],
        [-6., -7., -8.]])
a*b=tensor([[1., 2., 3.],
        [4., 5., 6.],
        [7., 8., 9.]])
a/b=tensor([[1.0000, 0.5000, 0.3333],
        [0.2500, 0.2000, 0.1667],
        [0.1429, 0.1250, 0.1111]])


ベクトル同士の内積は `torch.dot` で行うことができます

In [None]:
torch.dot(torch.tensor([2, 3]), torch.tensor([2, 1]))

tensor(7)

行列同士の積は `torch.matmul`で行うことができます

In [None]:
print('行列の内積=', torch.matmul(a,b))

行列の内積= tensor([[12., 15., 18.],
        [12., 15., 18.],
        [12., 15., 18.]])


また、tensorの形の変更は `view` で行うことができます

In [None]:
print('a.view(9,1)=', a.view(9,1)) # 9x1に変更
print('a.view(3, -1)=', a.view(3, -1)) # -1を設定すると形に合うように自動で整形してくれる

a.view(9,1)= tensor([[1.],
        [1.],
        [1.],
        [1.],
        [1.],
        [1.],
        [1.],
        [1.],
        [1.]])
a.view(3, -1)= tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])


また、同じ形のtensor同士は `torch.cat` で連結することが可能です

In [None]:
d0 = torch.cat([a,b], dim=0)
print(d0)

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 2., 3.],
        [4., 5., 6.],
        [7., 8., 9.]])


dimの値によって連結する方向を変更することができます

In [None]:
d1 = torch.cat([a,b], dim=1)
print(d1)

tensor([[1., 1., 1., 1., 2., 3.],
        [1., 1., 1., 4., 5., 6.],
        [1., 1., 1., 7., 8., 9.]])


## 平均、分散など

In [None]:
a = torch.arange(10).type(torch.FloatTensor)
print('a=', a)
print('合計', torch.sum(a))
print('平均', torch.mean(a))
print('分散', torch.var(a))
print('標準偏差', torch.std(a))

a= tensor([0., 1., 2., 3., 4., 5., 6., 7., 8., 9.])
合計 tensor(45.)
平均 tensor(4.5000)
分散 tensor(9.1667)
標準偏差 tensor(3.0277)


## スライス

numpy.ndarrayと同じように、スライスで要素を取り出すことが可能です。

In [None]:
x = torch.arange(10)
print('x=', x)
print('2番目以降', x[1:])
print('8番目まで', x[:8])
print('偶数番目', x[::2])
print('奇数番目', x[1::2])

x= tensor([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
2番目以降 tensor([1, 2, 3, 4, 5, 6, 7, 8, 9])
8番目まで tensor([0, 1, 2, 3, 4, 5, 6, 7])
偶数番目 tensor([0, 2, 4, 6, 8])
奇数番目 tensor([1, 3, 5, 7, 9])


## ブロードキャスト

numpy.ndarrayと同じように、ブロードキャストによってtensorの形を自動で変換することができます

In [None]:
a = torch.ones(3,3)
print(f'a={a}')
print(f'a.size()={a.size()}')
b = torch.ones(3,1)
print(f'b={b}')
print(f'b.size()={b.size()}')

a=tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])
a.size()=torch.Size([3, 3])
b=tensor([[1.],
        [1.],
        [1.]])
b.size()=torch.Size([3, 1])


aの形が(3,3), bの形が(3,1)なので、bの形を(3,3)に変換してから足し合わせている

In [None]:
print(a+b)

tensor([[2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.]])


ブロードキャストは、足し合わせる二つのtensorの形が同じか、どちらかの要素の形が1でなければいけない

In [None]:
a = torch.ones(2,3,4)
b = torch.ones(2,3)

aの形が(2,3,4), bの形(2,3)なので, 足し合わせることができない

In [None]:
a+b # エラーが出る

RuntimeError: ignored

テクニックとして、bの形を(2,3,1)にすることで足し合わせることが可能になる

In [None]:
b = b[:, :, None] # Noneを入れるとその次元が増える
print(b.size())
print(a + b)

torch.Size([2, 3, 1])
tensor([[[2., 2., 2., 2.],
         [2., 2., 2., 2.],
         [2., 2., 2., 2.]],

        [[2., 2., 2., 2.],
         [2., 2., 2., 2.],
         [2., 2., 2., 2.]]])


# GPUの利用

テンソルの計算はGPUを利用して行うことができる

In [None]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu") # cuda:0の0はGPUの番号

In [None]:
device # 'cuda'になっていればok

device(type='cuda', index=0)

`to('cuda:0')` （つまり `to(device)` ）をすることでGPU上での計算が可能になる

In [None]:
a = torch.ones(3,3)
print(a.to(device))

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]], device='cuda:0')


In [None]:
b = torch.ones(3,3)
a.to(device) + b.to(device) # GPU上での計算

tensor([[2., 2., 2.],
        [2., 2., 2.],
        [2., 2., 2.]], device='cuda:0')

CPU上の値とGPU上の値を一緒に計算することはできない

In [None]:
a.to(device) + b # aはGPU上, bはCPU上なので足し合わせることができない　エラーが出る

RuntimeError: ignored

# 自動微分
ここからpytorchをニューラルネットに使う方法を身につけていきます

まずは自動微分です。tensorは勾配情報を保持しているため、自動的に勾配の値を計算してくれます

自動微分を有効にするには、`requires_grad`をTrueにします

In [None]:
y = torch.tensor([0.5, 0.5, 0.5])
y.requires_grad = True

今回は、`target`との平均二乗和誤差を計算します

In [None]:
target = torch.tensor([0, 2, 0.5], dtype=torch.float)
loss = torch.mean((target - y) * (target - y)) # 手動で平均二条誤差の計算
print("loss: ", loss)
print("この時点ではまだ逆誤差伝搬していないので、勾配は", y.grad)

loss:  tensor(0.8333, grad_fn=<MeanBackward0>)
この時点ではまだ逆誤差伝搬していないので、勾配は None


`loss.backward()`を行うと勾配の計算が行われます

In [None]:
loss.backward()# 逆誤差伝搬
print("yの勾配", y.grad)

yの勾配 tensor([ 0.3333, -1.0000, -0.0000])


もう一度勾配を計算すると勾配は加算されます

In [None]:
loss = torch.mean((target - y) * (target - y))
loss.backward()
print("勾配は加算蓄積されるので注意", y.grad)

勾配は加算蓄積されるので注意 tensor([ 0.6667, -2.0000, -0.0000])


勾配をリセットするときはこのようにします

In [None]:
y.grad.zero_()
print("勾配リセット", y.grad)

勾配リセット tensor([0., 0., 0.])


# オプティマイザ
自動微分した勾配をもとにパラメータを更新してくれるのがオプティマイザです

In [None]:
import torch.nn as nn # ニューラルネットに使う関数
import torch.optim as optim # オプティマイザ
import torch.nn.functional as F # 様々な便利な関数

ニューラルネットの計算には、tensorをnn.Parameterに変換します。これは勾配計算を有効にしたtensorとほぼ等価です。

In [None]:
y = nn.Parameter(torch.tensor([0.5, 0.5, 0.5]))

今回は、SGD(確率的勾配降下法)を使用します。第一引数にはパラメータのリストを、第二引数には学習率を入力します

In [None]:
optimizer = optim.SGD([y], lr=0.01)

In [None]:
target = torch.tensor([0, 2, 0.5], dtype=torch.float)
loss = F.mse_loss(y, target)  # 平均二乗和誤差
print("loss: ", loss)
print("この時点ではまだ逆誤差伝搬していないので、勾配は", y.grad)

loss:  tensor(0.8333, grad_fn=<MseLossBackward>)
この時点ではまだ逆誤差伝搬していないので、勾配は None


勾配を計算します

In [None]:
loss.backward()
print("勾配が計算される", y.grad)

勾配が計算される tensor([ 0.3333, -1.0000,  0.0000])


勾配の値に沿って、学習率*勾配の分だけ値を更新します

In [None]:
optimizer.step()  # パラメータ更新
print(y)

Parameter containing:
tensor([0.4967, 0.5100, 0.5000], requires_grad=True)


更新が終わったら勾配をリセットします

In [None]:
optimizer.zero_grad()  # 勾配のリセット
print(y.grad)

tensor([0., 0., 0.])


## nn.Module
一定の計算をモジュール化できます

In [None]:
class Multiple(torch.nn.Module):
    def __init__(self):
        super(Multiple, self).__init__()  # 継承してるので親の__init__を呼びます
        self.coefficient = torch.nn.Parameter(torch.ones(3, dtype=torch.float))  # [1, 1, 1]という3次元ベクトル

    def forward(self, x):  # 処理内容はforward関数に書く
        assert x.shape == (3,)
        return x * self.coefficient

In [None]:
model = Multiple()
optimizer = optim.SGD(model.parameters(), lr=0.01)  # モデルは__init__で定義したパラメータ一覧を自動取得できる
x = torch.tensor([0, -1, 3], dtype=torch.float)
target = torch.tensor([0, 1, 2], dtype=torch.float)
y = model(x)  # モデルもforward関数が呼ばれる
loss = F.mse_loss(y, target)
loss.backward()
print("更新前モデルパラメータ", model.coefficient)
optimizer.step()
print("更新後モデルパラメータ", model.coefficient)

更新前モデルパラメータ Parameter containing:
tensor([1., 1., 1.], requires_grad=True)
更新後モデルパラメータ Parameter containing:
tensor([1.0000, 0.9867, 0.9800], requires_grad=True)
