In [1]:
import torch

device = torch.device('mps')

# 5. 자동 미분과 기울기 (gradient)

* Pytorch에서는 연산에 대해서 기본적으로 자동 미분(auto_grad)을 수행할 수 있다
* requires_grad 속성을 True로 설정하면, 이에 대한 모든 연산을 추적한다.
* 계산이 끝났을 때 .backward()를 호출하여, 자동으로 모든 기울기(gradient)를 계산할 수 있다.
* 이를 통해 tensor에 대한 기울기(gradient)는 .grad 속성에 누적된다.
* Function class는 autograd 구현에 있어 중요하다.
* 텐서와 function은 상호 연결되어 모든 연산 과정을 부호화하여 순환하지 않는 반복 그래프를 만든다.

In [14]:
# requires_grad를 설정할 때만 기울기를 추적한다.
x = torch.tensor([3.0,4.0], requires_grad=True)
y = torch.tensor([5.0,6.0], requires_grad=True)
z = x + y

# 각각의 tensor는 Tensor를 생성한 function을 참조하는 grad.fn 속성을 갖고 있다.

print(z) # [8.0, 10.0] z는 연산의 결과 생성되었으므로 grad_fn 속성을 갖는다
print(z.grad_fn) # AddBackward0 - 더하기

out = z.mean()
print(out) # 9
print(out.grad_fn) # MeanBackward0 - 평균

out.backward() # 기울기 계산
# out은 하나의 scalar이므로 기울기는 항상 1이다.
print(x.grad) 
print(y.grad)
# grad = 0.5인 것은 각 leaf variable이 1만큼 바뀌면 out은 0.5만큼 바뀐다는 것을 의미한다.
print(z.grad) # None 
# leaf variable(초기 입력으로 들어가는 변수)에 대해서만 gradient 추적이 가능하다

tensor([ 8., 10.], grad_fn=<AddBackward0>)
<AddBackward0 object at 0x107647490>
tensor(9., grad_fn=<MeanBackward0>)
<MeanBackward0 object at 0x107645990>
tensor([0.5000, 0.5000])
tensor([0.5000, 0.5000])
None


  print(z.grad) # None


* 일반적으로 모델을 학습할 때는 기울기(gradient)를 추적한다.
* 하지만 학습된 모델을 사용할 때에는 파라미터를 업데이트하지 않으므로 기울기를 추적하지 않는 것이 일반적이다.

In [16]:
tmp = torch.tensor([2.0,3.0], requires_grad=True)
print(tmp.requires_grad) # True, tmp 텐서에 대해 gradient 추적
print((tmp ** 2).requires_grad) # True, 텐서 연산 결과에 대해 gradient 추적

# with torch.no_grad():로 코드 블럭을 감싸서 tensor의 기록을 추적하는 autograd를 중지할 수 있다.
# 기울기 추적을 하지 않기 때문에 계산 속도가 더 빠르다.
with torch.no_grad():
    tmp = torch.tensor([2.0,3.0], requires_grad=True)
    print(tmp.requires_grad) # True, 하지만 해당 코드 블럭 내에서는 무시됨
    print((tmp ** 2).requires_grad) # False, 이 코드 블럭 내에서는 gradient가 추적되지 않음

True
True
True
False
