#### 가중치 초기화 종류

- 상수 초기화
    - 대칭 파괴 문제
    
- 무작위 초기화

- 제이비어 & 글로럿 초기화
    - 균등 분포나 정규 분포를 사용해 가중치를 초기화 하는 방법 - 시그모이드나 하이퍼볼릭 탄젠트를 활성화 함수로 사용하는 네트워크에서 효과적

- 카이밍 & 허 초기화
    - 균등 분포나 정규 분포를 사용해 가중치를 초기화하는 방법 - 순방향 네트워크에서 가중치를 초기화할 때 효과적 ( 현재 계층의 입력 뉴런 수를 기반으로만 가중치를 초기화)

- 직교 초기화
    - 특잇값 분해를 활용 - LSTM, GRU와 같은 순환 신경망에 사용 


In [1]:
from torch import nn

class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.layer = nn.Sequential(
            nn.Linear(1, 2),
            nn.Sigmoid()
        )
        self.fc = nn.Linear(2, 1)
        self._init_weights()

    # 제이비어 초기화
    def _init_weights(self):
        nn.init.xavier_uniform_(self.layer[0].weight) # 첫번 값만 가중치 초기화 진행 (nn.Linear) / activation 함수는 가중치와 편향을 갖지 않음
        self.layer[0].bias.data.fill_(0.01) # 편향을 0.01로 채움

        nn.init.xavier_uniform_(self.fc.weight)
        self.fc.bias.data.fill_(0.01)

model = Net()


In [5]:
# 가중치 초기화 (모듈화)
import torch
from torch import nn

class Net(nn.Module):
    def __init__(self):
        super().__init__()
        self.layer = nn.Sequential(
            nn.Linear(1, 2),
            nn.Sigmoid()
        )
        self.fc = nn.Linear(2, 1)
        self.apply(self._init_weights) # apply함수로 self(인스턴스)에서 시작하여 모든 서브 모듈 재귀적 방문 -> 각 서브 모듈 apply함수 인자로 받은 _init_weights 함수 호출 서브 모듈 자체 인자로 넘김

    def _init_weights(self, module):
        if isinstance(module, nn.Linear): # 선형 변환 함수인지 확인
            nn.init.xavier_uniform_(module.weight)
            nn.init.constant_(module.bias, 0.01)
        print(f'Apply: {module}')
    
model = Net()

Apply: Linear(in_features=1, out_features=2, bias=True)
Apply: Sigmoid()
Apply: Sequential(
  (0): Linear(in_features=1, out_features=2, bias=True)
  (1): Sigmoid()
)
Apply: Linear(in_features=2, out_features=1, bias=True)
Apply: Net(
  (layer): Sequential(
    (0): Linear(in_features=1, out_features=2, bias=True)
    (1): Sigmoid()
  )
  (fc): Linear(in_features=2, out_features=1, bias=True)
)
