In [25]:
%matplotlib inline

In [26]:
import torch

x = torch.ones(5)
y = torch.zeros(3)
w = torch.randn(5,3,requires_grad=True)
b = torch.randn(3,requires_grad=True)
z = torch.matmul(x,w)+b
loss = torch.nn.functional.binary_cross_entropy_with_logits(z,y)

In [27]:
print('gradient function for z =', z.grad_fn)
print('gradient function for loss=', loss.grad_fn)

gradient function for z = <AddBackward0 object at 0x7fb640d5ec70>
gradient function for loss= <BinaryCrossEntropyWithLogitsBackward0 object at 0x7fb640d5e6a0>


In [28]:
loss.backward()
print(w.grad)
print(b.grad)

tensor([[0.3079, 0.0063, 0.3212],
        [0.3079, 0.0063, 0.3212],
        [0.3079, 0.0063, 0.3212],
        [0.3079, 0.0063, 0.3212],
        [0.3079, 0.0063, 0.3212]])
tensor([0.3079, 0.0063, 0.3212])


勾配計算を行わない方法

デフォルトでは，requires_grad=Trueである全てのテンソルは計算履歴が保持され，勾配計算可能な状態である．
だた，勾配計算が不要なケースも存在する．
例えば，訓練済みモデルで推論するケースなど．
すなわち，ネットワークの順伝播関数のみを使用する場合となる．
実装コードで勾配計算を不要にするためには，torch.no_grad()のブロックにそれらのコードを記載する．

In [29]:
z = torch.matmul(x,w)+b
print(z.requires_grad)

with torch.no_grad():
    z = torch.matmul(x,w)+b
print(z.requires_grad)

True
False


同様に，detach()をテンソルに使用する事でも実現することが出来る．

In [30]:
z = torch.matmul(x,w)+b
z_det = z.detach()
print(z_det.requires_grad)

False


勾配計算や追跡を不能にしたいケースはいくつかある．
- ネットワークの一部パラメータを固定したいケース．（ファインチューニングなど）
- 順伝播の計算スピードを高速化したいケース