# 예제 4.09: 그라디언트 클리핑 (Gradient Clipping)

## 학습목표
1. **그라디언트 클리핑(Gradient Clipping)** 개념 이해하기
2. **clip_grad_norm_** 함수 사용법 익히기
3. **기울기 폭발 방지** 방법 학습하기

---

#### 그라디언트 클리핑 적용

**그라디언트 클리핑이란?**
- 기울기(gradient)의 크기를 제한
- 기울기 폭발(Exploding Gradient) 방지
- RNN, LSTM 등 순환 신경망에서 특히 중요

**clip_grad_norm_(parameters, max_norm)**
- parameters: 클리핑할 파라미터들
- max_norm: 기울기의 최대 노름(norm) 값
- 전체 기울기의 L2 노름이 max_norm을 초과하면 스케일링

In [None]:
import torch

# 그라디언트 클리핑이 적용된 학습 루프 (의사 코드)
# 실제 사용 시 model, train_dataloader, criterion, device, optimizer 정의 필요

for x, y in train_dataloader:
    x = x.to(device)
    y = y.to(device)

    output = model(x)
    loss = criterion(output, y)
    
    # 기울기 초기화
    optimizer.zero_grad()
    
    # 역전파: 기울기 계산
    loss.backward()

    # 그라디언트 클리핑 적용 (backward 후, step 전)
    # max_norm=0.1: 기울기의 L2 노름을 0.1로 제한
    # 기울기가 너무 크면 스케일링하여 안정적인 학습
    torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=0.1)

    # 파라미터 업데이트
    optimizer.step()
    
# 참고: clip_grad_value_도 있음 (값 자체를 제한)