# 예제 3.25: zero_grad(), backward(), step() 동작 원리

## 학습목표
1. **optimizer.zero_grad()** 의 역할 이해하기 - 기울기 초기화
2. **cost.backward()** 의 역할 이해하기 - 역전파로 기울기 계산
3. **optimizer.step()** 의 역할 이해하기 - 파라미터 업데이트
4. **각 단계에서의 기울기 변화** 관찰하기

---

#### 학습 3단계 상세 분석

**왜 zero_grad()가 필요한가?**
- PyTorch는 기울기를 **누적**함 (backward 호출 시마다 더해짐)
- 매 에포크마다 새로운 기울기만 사용하려면 초기화 필요

In [None]:
import torch
from torch import optim

# 데이터 준비
x = torch.FloatTensor([
    [1], [2], [3], [4], [5], [6], [7], [8], [9], [10],
    [11], [12], [13], [14], [15], [16], [17], [18], [19], [20],
    [21], [22], [23], [24], [25], [26], [27], [28], [29], [30]
])
y = torch.FloatTensor([
    [0.94], [1.98], [2.88], [3.92], [3.96], [4.55], [5.64], [6.3], [7.44], [9.1],
    [8.46], [9.5], [10.67], [11.16], [14], [11.83], [14.4], [14.25], [16.2], [16.32],
    [17.46], [19.8], [18], [21.34], [22], [22.5], [24.57], [26.04], [21.6], [28.8]
])

# 학습 파라미터 및 옵티마이저 설정
weight = torch.zeros(1, requires_grad=True)
bias = torch.zeros(1, requires_grad=True)
learning_rate = 0.001
optimizer = optim.SGD([weight, bias], lr=learning_rate)

# 각 단계별 기울기 변화 관찰 (처음 4 에포크만)
for epoch in range(10000):
    hypothesis = weight * x + bias
    cost = torch.mean((hypothesis - y) ** 2)
    
    # Step 1: 현재 상태 (이전 에포크의 기울기가 남아있음)
    print(f"Epoch : {epoch+1:4d}")
    print(f"Step [1] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")

    # Step 2: zero_grad() 후 - 기울기가 0으로 초기화됨
    optimizer.zero_grad()
    print(f"Step [2] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")

    # Step 3: backward() 후 - 새로운 기울기가 계산됨
    cost.backward()
    print(f"Step [3] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")

    # Step 4: step() 후 - 기울기를 사용해 가중치 업데이트
    optimizer.step()
    print(f"Step [4] : Gradient : {weight.grad}, Weight : {weight.item():.5f}")
    
    if epoch == 3:  # 4번만 출력 후 종료
        break