# Contents

- Activation Functions
- Data PreProcessing
- Weight Initialization
- Batch Normalization
- Babysitting the Learning Process
- Hyperparameter Optimization

## Activation Functions

1. Sigmoid $\sigma(x) = \cfrac{1}{1+e^{-x}}$
2. tanh $tanh(x)$
3. ReLU $max(0, x)$
4. Leaky ReLU $max(0.1x, x)$
5. ELU 
6. Maxout $max(w_1^Tx + b_1, w_2^Tx + b_2)$

### 1. Sigmoid

sigmoid $\sigma(x) = \cfrac{1}{1+e^{-x}}$ Graph
![graph_sigmoid](resource/lec6/grp_sigmoid.PNG)
- Feature
    - 숫자를 0~1 의 범위로 좁힌다.
    - 극단적인 값을 가지는 neuron에 대하여 유의미한 해석이 가능하다. (이진분류)  


- Drawback
    - 극단적인 값을 가지는 neuron은 gradients를 저하시킨다.  
    
    극단적인 neuron값을 가질경우 위 그래프에서 알 수 있듯이 gradient가 0이 되기 때문에 Back Propagation을 적용할 수 없게 된다.  
    
    - Output 이 zero-centered 하지 않다.
    
    위 그래프와 같이 Output이 0이 중심이 아닌 것, 즉 zero mean data 형식을 가지지 않는 것을 말한다.  
    이때, x 값이 항상 positive 한 경우 w(가중치)의 gradient 값이 모두 positive 이거나 negative 하게 된다는 문제가 발생한다. 이는 DF/Dw 는 x의 값이고 DL/Dw = DF/Dw x DL/DF으로 w의 gradient는 x의 값에 따라 좌우되기 때문이다.  
    따라서, local gradient 에 의해 w의 gradient 는 정해지므로 update가 같은 방향으로 이루어지게 된다.[(+) -> (+) / (-) -> (-)] 이는 아래 그램과 같은 비효율적인 결과를 내게 되는 것이다. 
    ![zigzagpath](resource/lec6/zigzagpath.PNG)
    
    - exponential 계산이 비효율적이다.

### 2. tanh

tanh(x) graph
![tanh](resource/lec6/grp_tanh.PNG)
- Feature
    - 숫자를 -1~1 의 범위로 좁힌다.
    - zero centered 의 형식을 가진다!


- DrawBack
    - 극단적인 값을 가지는 neuron은 gradients를 소멸시킨다.

### 3. ReLU

graph of ReLU
![grpRelu](resource/lec6/grp_relu.png)

가장 대중적으로 많이 사용하는 activation function이다. ReLU는 0이하인 값들은 전부 0으로 그 이상인 값들은 그 값 그대로 출력해주는 함수다. F(x) = max(0,x)의 식을 가지며 매우 단순하지만 잘 동작하는 activation function이다.  

하지만 문제점이 존재한다.  

0이하의 값들은 모두 버리게 되어 dead ReLU에 빠지는 문제와 zero-centered가 되어 있지 않다는 문제가 있다.  


### 4. Leaky ReLU

graph of Leaky ReLU
![grpLeakyrelu](resource/lec6/grp_leakyrelu.png)

ReLU의 문제를 보완하고자 나온 activation function 이다.  

0이하의 값을 0.01x값을 줘서 작은 값이라도 출력될 수 있게 한다. 이와 비슷한 PReLU라는 함수도 존재한다.


### 5. ELU

graph of ELU
![grp_elu](resource/lec6/grp_elu.png)

ReLU의 모든 장점을 가지고 있고 zero mean과 가까운 결과가 나오게 된다. 하지만 exp계산을 해야하는 것 가장 큰 장점이다.

### 6. Maxout "Neuron"

Max()값을 통해 2개의 파라미터를 비교하여 더 좋은 것을 선택하는 것   
연산량이 2배가 더 늘어나기 때문에 잘 사용하지 않는다.  

**일반적으로 딥러닝에서는 ReLU와 Leaky ReLU를 많이 사용한다.**


## Data Preprocessing

Before we start training with our input data, we have to preprocess the data for better learning.  

We do the preprocessing in the training phase and also in the test phase. We apply this exact same mean we determined in the training phase to the test data  

For images, we just do the zero-centered pre-processing

1. zero-centering 


2. normalization


3. PCA, Whitening: more complicated pre-processing in machine learning (we don’t need to do with images

Data Preprocessing
![datapreprocess](resource/lec6/datapreprocess.png)

1. zero-centering : 각각에 대해 평균값을 빼줌

zero-mean the data and subtract each data  

![zigzagpath](resource/lec6/zigzagpath.png)


$$f(\sum_{i}{w_ix_i + b})$$

if our inputs are not zero-centered, we get all of our gradients on the weights to be positive or negative and we get this basically suboptimal optimization   

2. Normalization (정규화): 표준편차를 나눠 줌

so that all features are in the same range, and so that they contribute equally.  

Usually used in machine learning problems, where you might have different features that are very different and of very different scales


## Batch Normalization

**Want unit gaussian(정규분포) activations? Make them so**

Apply this:  
$$\hat{x}^{(k)} = \cfrac{x^{(k)} - E[x^{(k)}]}{\sqrt{Var[x^{(k)}]}}$$

- Feature
    - Weight Initialize 대신에 데이터를 정규분포화 시키므로써 결과가 더 잘 나오도록 함 (every layer 마다 시행)
    - 매번의 Layer마다 발생하는 Bad Scaling을 이를 통해 해결할 수 있다.
    - FC(Fully Connected) Or Convolutional layer 다음에 정규분포화 하는데, Convolutional layer의 경우 각 Activaion map 마다 적용되는 것이다.
    
  
- How? N 개의 Examples / D 개의 차원 수 
    1. 각 차원마다 평균과 분산을 경험적으로 계산한다.
    2. 위 식을 통해 Normalize 한다.
    
    
*tanh에 반드시 적용해야 할 필요가 있나?*

Yes.. Normalization을 통해 Data를 Squash or Shift 할 수 있다! 즉, tanh는 적절한 x 구간에서 다양한 output을 내는데, 정규분포화를 통해서 해당 영역 안으로 데이터들을 모아주면 더 좋은 결과를 내게 된다. 


정규분포 그래프
![NormalDistribution](resource/lec6/NormalDistribution.png)

$$y^{(k)} = \gamma^{(k)}\hat{x} + \beta^{(k)}$$

**Note! The Network can learn:**  
$\gamma^{(k)} = \sqrt{Var[x^{(k)}]}$  (Squash)  
$\beta^{(k)} = E[x^{(k)}]$  (Shift)


Summary
- Improves gradient flow through the network
- Allows higher learning rates
- Reduces the strong dependence on initialization
- Acts as a form of regularization
- in a funny way, and slightly reduces the need for dropout, maybe

## Babysitting the Learning Process

**Steps:**  
1. Preprocess the data


2. Choose the architecture


3. Double check that the loss is reasonable


4. Try to train

*point*  
loss 를 살피면서 learning rate를 올리거나 내려준다.(BabySitting)  
LR 이 너무 높으면, loss exploding  
LR 이 너무 낮으면, loss not going down

## Hyperparameter Optimization

**Cross-validation Startegy**  

coarse(Rough!) 대략적인 param의 범위 유추 => 검증셋을 통한 정제화(fine) param 찾아냄  

**First Stage:** a Few epochs! params가 어떤지에 대한 대략적인 아이디어를 확인한다.  
**Second Stage:** 긴시간을 통해 연구를 정제화 한다. 

정형화된 Grid Search 보다 Random Search 가 더 좋은 value 를 얻을 확률이 높다!  