#### 【 Weight Initialization 】<hr>

- 초기화의 중요성
    - 너무 크면 → gradient 폭발
    - 너무 작으면 → gradient 소실

- Xavier / He 초기화 : 각 레이어를 지날 때 분산을 유지하도록 설계
    * Xavier(Glorot) 초기화 — tanh / sigmoid용
        - 입력 개수(fan_in)와 출력 개수(fan_out)를 균형 있게 고려
        - 활성함수 전후의 분산을 비슷하게 유지

    * He(Kaiming) 초기화 — ReLU 계열용
        - ReLU는 음수를 0으로 날려버림 → 실제로 절반 정도만 살아남음
        - 입력 쪽(fan_in)에 더 집중해서 크게 초기화

[1] 가중치 초기화 

In [1]:
## -----------------------------
## 모듈 로딩
## -----------------------------
import torch
import torch.nn as nn
from torch.nn.init import xavier_uniform_, kaiming_normal_


## -----------------------------
## Xavier Uniform 초기화
## -----------------------------
linear = nn.Linear(4, 2)

print("최초값", linear.weight)

# Xavier Uniform 초기화
xavier_uniform_(linear.weight)

print("초기화", linear.weight)


최초값 Parameter containing:
tensor([[ 0.0785,  0.4767,  0.1753,  0.4497],
        [-0.1899,  0.3886, -0.3108, -0.2363]], requires_grad=True)
초기화 Parameter containing:
tensor([[-0.1414, -0.0952,  0.2699,  0.3211],
        [-0.3543,  0.0314,  0.8374, -0.2499]], requires_grad=True)


In [None]:
## -----------------------------
## Xavier Uniform 초기화
## -----------------------------
## 임시 데이터
linear = nn.Linear(4, 2)
print("최초값", linear.weight)

## He (Kaiming) Normal 초기화
kaiming_normal_(linear.weight, nonlinearity='relu')

print("초기화", linear.weight)


#### 【 Gradient Clipping 】<hr>

- 문제 상황
    * RNN / LSTM / 깊은 네트워크에서 loss.backward() 후 기울기가 너무 커짐
    * 기울기 폭주 문제 
    
- 해결 방안
    * 기울기 자르기
    


In [3]:
## ---------------------------------
## 모듈 로딩
## ---------------------------------
from torch.optim import Adam 
from torch.nn.utils import clip_grad_norm_


In [None]:
model = nn.Sequential(
    nn.Linear(10, 50),
    nn.ReLU(),
    nn.Linear(50, 1)
)

optimizer = Adam(model.parameters(), lr=0.01)
criterion = nn.MSELoss()

x = torch.randn(32, 10)
y = torch.randn(32, 1)

pred = model(x)
loss = criterion(pred, y)

loss.backward()

# Gradient 자르기
clip_grad_norm_(model.parameters(), max_norm=1.0)

optimizer.step()
optimizer.zero_grad()
