#### Batch Normalization

딥러닝 학습할 때 각 Layer를 거치면서 데이터의 분포가 계속 변한다. 

##### Problem of Deep Neural Network (DNN)

- Q. Layer을 깊게 쌓으면 좋아지는 거 아니야?

    - 현실 : 깊어질수록 학습이 오히려 안 되거나, 아주 느려지는 형상 발생
    - 원인: 데이터가 네트워크를 통과할수록 그 `분포(Distribution)`가 제멋대로 널뛰기 때문.

- P. 기울기 소실과 폭발(Vanishing & Exploding)
    
    - Layer를 거칠 때마다 입력갑 $x$가 $W$(가중치)가 곱해짐`


입력: x (배치 데이터) [batch_size, num_features]

1. 배치 평균 계산:
   $μ = (1/m) * Σ(x_i)$
   `m = batch_size`, 각 feature별로 평균 구하기

2. 배치 분산 계산:
   $σ² = (1/m) * Σ(x_i - μ)²$
   각 feature별로 분산 구하기

3. 정규화 (Normalization):
   $x̂ = (x - μ) / √(σ² + ε)$
   ε(엡실론)은 0으로 나누는 것 방지 (1e-5)

4. 스케일 & 시프트:
   $y = γ * x̂ + β$
   $γ$(gamma)는 scale, $β$(beta)는 shift

In [None]:
import random

class BatchNorm:
    def __init__(self, num_features):
        # num_features : feature 갯수 (Linear의 out_features)
        self.num_features = num_features
        self.eps = 1e-5

        # 학습 가능한 파라미터
        self.gemma = [1.0]*num_features #Scale
        self.beta = [0.0]*num_features  #Shift

        # Backwward를 위한 캐시 변수들
        self.x = None
        self.x_normalized = None
        self.mu = None
        self.var = None
        self.std = None


    def forward(self,x):
        # x : Tensor, Shape [batch_size, num_features]
        batch_size = len(x)

        # 1. 배치 평균 계산 (각 feature 별로)
        self.mu = []
        for j in range (len(self.x)):
            sum_val = 0
            for i in range(len(self.x[0])):
                sum_val += self[i][j]
            mu=sum_val/(len(self.x[0]))
            self.mu.append(mu)
        
        # 2. 배치 분산 계산 (각 feature별로)
        self.var = []
        
        pass

    def backward(self, grad_output):
        pass


