In [1]:
import torch
import numpy as np

tensor의 gradient를 구할때는 requires_grad = True로 설정이 되어있어야 합니다. 그렇게 하여야 값을 갱신할 수 있습니다.

그리고 역전파 미분을 구할 때에는 시작을 할 텐서에서 .backward()함수를 호출하면 됩니다.

gradient값을 확인하려면 requires_grad = True로 생성한 tensor에서 .grad를 통해 값을 확인하여야 합니다.

In [2]:
x1 = torch.ones(2, 2)
x1

tensor([[1., 1.],
        [1., 1.]])

In [3]:
x2 = torch.ones(2, 2, requires_grad = True)
x2

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

In [4]:
y1 = x1 + 2
y1

tensor([[3., 3.],
        [3., 3.]])

In [5]:
y2 = x2 + 2
y2

tensor([[3., 3.],
        [3., 3.]], grad_fn=<AddBackward0>)

In [8]:
x = torch.ones(2, 2, requires_grad = True)
x

tensor([[1., 1.],
        [1., 1.]], requires_grad=True)

In [9]:
y3 = x * 2
y3

tensor([[2., 2.],
        [2., 2.]], grad_fn=<MulBackward0>)

In [10]:
y4 = x / 2
y4

tensor([[0.5000, 0.5000],
        [0.5000, 0.5000]], grad_fn=<DivBackward0>)

역전파 미분을 위해 requires_grad = True를 하면 텐서 연산에 다 기록된다.

In [11]:
x = torch.ones(2, 2)
y = x + 2
y

tensor([[3., 3.],
        [3., 3.]])

In [12]:
y.requires_grad_(True)
# 이렇게 중간에 속성 부여 가능

tensor([[3., 3.],
        [3., 3.]], requires_grad=True)

In [13]:
x = torch.tensor(2.0, requires_grad = True)

In [14]:
y = 9*x**4 + 2*x**3 + 3*x**2 + 6*x + 1
y.backward() # .backward()를 통해 미분하고
print(x.grad) # x.grad를 통해 미분값을 얻는다!!

tensor(330.)


이 예제에서 알 수 있듯이 역전파 미분은 시작점이 무조건 스칼라형태여야 함.. 텐서 형태면 오류뜸

In [15]:
x = torch.randn(2, 2, requires_grad = True)
y = x + 2
z = (y*y).sum()
z.backward()

In [16]:
print(x)

tensor([[-0.7955,  1.5712],
        [ 0.9477, -1.3611]], requires_grad=True)


In [17]:
print(y)

tensor([[1.2045, 3.5712],
        [2.9477, 0.6389]], grad_fn=<AddBackward0>)


In [18]:
print(z)

tensor(23.3014, grad_fn=<SumBackward0>)


In [19]:
print(x.grad)

tensor([[2.4090, 7.1423],
        [5.8955, 1.2778]])


In [20]:
print(y.grad)

None


  return self._grad


In [21]:
print(z.grad)

None


  return self._grad


텐서 중간 계산 과정인 y, z의 경우 backward 연산에만 참여하고, grad는 저장이 안되어 있다.

In [22]:
x = torch.randn(2, 2, requires_grad=True)
y = x + 2
z = y * y
y.backward(z)
print(x.grad)

tensor([[9.2738, 5.5457],
        [4.1882, 2.8739]])


In [24]:
x = torch.tensor([[1.0, 2.0], [3.0, 4.0]], requires_grad = True)
x

tensor([[1., 2.],
        [3., 4.]], requires_grad=True)

In [26]:
y = x + 2
y

tensor([[3., 4.],
        [5., 6.]], grad_fn=<AddBackward0>)

In [28]:
z = 3*y**2
z

tensor([[ 27.,  48.],
        [ 75., 108.]], grad_fn=<MulBackward0>)

수학적으로 식은 3*(x+2)^2 식을 행렬에 대한 미분을 의미하고, 이는 수학적으로 3(x+2)^2에 대해 스칼라 미분을 하고 행렬의 개수인 4로 나누어 주는 것과 같다.

이를 직접 도함수로 구한 것과 pytorch의 backward를 통해 구한 값이 같은 것을 알 수 있다.

In [29]:
out = z.mean()
out

tensor(64.5000, grad_fn=<MeanBackward0>)

In [30]:
out.backward()
print(x.grad)

tensor([[4.5000, 6.0000],
        [7.5000, 9.0000]])


# Pytorch에서 편미분

In [31]:
x = torch.tensor(1.0, requires_grad = True)
z = torch.tensor(2.0, requires_grad = True)

y = x**2 + z**3
y.backward()
print(x.grad, z.grad)

tensor(2.) tensor(12.)


수학적으로 편도함수를 구해서 넣은 값과 똑같다.

# 학습모드와 평가 모드

In [32]:
x = torch. tensor(1.0, requires_grad = True)
print(x.requires_grad)

True


In [34]:
with torch.no_grad(): # requires_grad = False 로 바꿔줌
  print(x.requires_grad)
  print((x**2).requires_grad)

print(x.requires_grad)

True
False
True
