# HOW DOES BATCH NORMALIZATION HELP OPTIMIZATION?

## BN (Batch Normalization)

- BN은 모델에서 Layer에 추가 Normalization Layer를 하나 더 붙여

- Layer의 인풋의 분포를 안정화시킨다고 알려져있다.

- 이로 인해 BN은 DNN에서
    - 더 빠른 학습을 돕는다
    - 더 안정적인 학습을 돕는다

- 라고 여겨질뿐... 사실 왜 이게 좋은지 명확히 알려지진 않았다.
- BN을 대체하는 기법도 많이 나왔는데, 이해도가 부족해서 많이 사용되지 않고있다.

## BN의 장점에 대한 믿음

- BN이 Layer 인풋의 분포를 조정하게 되는데
- 이는 ICS(Internal Covariate Shift)를 줄여주는 효과가 있다.
- ICS는 Training과정에 부정적인 영향을 끼친다

## ICS(Internal Covariate Shift)

### 비유
![](./img/1.png)
![](./img/2.png)
- 아래 사진에서 c와 d같은 제한장치가 필요하며 그것이 BN

### 원인

-  학습 시점 t에서 n번째 Layer는 n-1번째 Layer의 Output을 Input으로 받는다.

-  학습 시점 t+1에서 n-1번째 Layer의 파라미터가 업데이트 되었다.

-  이로 인해 학습 시점 t+1에서 n번째 Layer가 받는 Input값의 분포도 변화하게 되었다.

-  이를 ICS라고 부르며 학습을 방해하는 요소로 여겨진다.

## 그러나 이 논문에서는

> 그래서 너희는 ICS가 Training에 어떻게 나쁜 영향을 주는지 제대로 알고 있니?

> ICS로 BN의 장점을 설명하기엔 증거가 너무 부족한거 아니니?

> 사실 내가 연구해보니까 ICS를 줄이는 일은 BN의 핵심 장점이 아니야.

> 사실 ICS는 학습 퍼포먼스랑 별로 상관도 없어

> 심지어.. 어쩌면 BN은 ICS를 줄이지도 못할수도 있어

> BN에 대해 우리가 연구한 내용을 들어봐

# BATCH NORMALIZATION AND INTERNAL COVATIATE SHIFT

## Setting

- Basic VGG Net 모델을 CIFAR-10에 적용

## Experiments

![](./img/3.png)

- 요약: 배치놈을 적용하니 더 좋다

![](./img/4.png)

- 요약: 근데 ICS는 그닥 안줄어든거같은데..?

## 여기서 합당한 질문

1. BN이 ICS를 줄이긴 해?

2. ICS를 줄이는게 학습에 좋은거긴 해?

## BN의 당위성을 검증하기 위한 실험

- BN이 있는 레이어에 새로운 레이어를 하나 추가하도록 한다
- 새로운 레이어는 BN 뒤에 오며, 인풋에 Random Noise를 추가한다
- Random Noise는 평균이 0도 아니고 분산이 Unit도 아니다.
- 심지어 매 학습 시점마다 평균과 분산이 바뀐다.
- **이를 Noisy Batchnorm이라고 명명한다**

![](./img/5.png)
![](./img/6.png)

## ICS가 Training능력에 중요한 요소인가? & NB은 ICS를 줄이는가?

![](./img/8.png)
![](./img/7.png)

- #### BN은 어떤 경우 심지어 ICS를 늘린다
- #### DLN은 Deep Linear Network를 의미함

# WHY DOES BATCHNORM WORK?

## BN의 Origin 논문에 의하면

- BN은 ICS말고도
- Exploding/Vanishing Gradient 문제를 해결해주며,
- 모델을 하이퍼파리미터나 파라미터의 변동에 강건하게 해준다고 한다.
- 그러나 이건 너무 당연한 말이다. BN의 특출난 성능을 설명해주지 못한다.
- BN말고도 이런걸 해결하는 방식은 많다. 그럼에도 불구하고 BN은 강력하다.

## 우리가 발견한 BN의 장점은

> it reparametrizes the underlying optimization problem to make its landscape significantly more smooth.

- *립시츠* 조건의 관점에서 목적함수의 최적화 과정을 스무딩한다.

![](./img/9.png)

#### 립시츠 함수

> 해석학에서, 립시츠 연속 함수(영어: Lipschitz-continuous function)는 두 점 사이의 거리를 일정 비 이상으로 증가시키지 않는 함수이다.

- BN은 레이어의 모수들을 재모수화(reparametrization) 시키면서 립시츠 스무딩을 실현한다.
- 애초에 우리가 최적화 할 목적함수는 사실상 Convex도 아니고 무진장 불안정하다
- SGD과정에서 스무딩이 안되면 당연히 학습 과정이 불안정할 수 밖에 없다.
    - 갑자기 로스값이 크게 변할 수 있다. (Exploding)
    - 평평한 구간을 만나 학습이 정지될 수도 있다. (Vanishing)

## Exploration of the Optimization Landscape

![](./img/11.png)
![](./img/10.png)

- (b) 각 스탭별 립쉬츠 관점에서 최대 L
- (c) 각 스탭별 각각의 변수 노드에 적용되는 Gradient 방향의 L2 Distance의 분산 (부정확함)

## Theoretical Analysis

![](./img/20.png)
![](./img/21.png)
![](./img/22.png)
![](./img/23.png)
![](./img/24.png)
![](./img/25.png)
![](./img/26.png)