---
## 모델 학습 기술
---
![image.png](attachment:image.png)

---
### 학습단위
- **전체 배치(Full Batch)** : 모든 데이터를 한번에 알고리즘에 넣고 분석
- **Stochastic** : 전체 데이터 중 랜덤으로 추출하여 알고리즘에 넣는 방식
- **미니 배치(Mini Batch)** : 일부 데이터를 모델에 사용하는 방식
    한번 학습 시 얼마 만큼의 미니 배치를 사용할 지 결정해야 한다  
    배치 크기가 작을수록 학습 시간이 많이 소요된다

---
### 데이터 스케일링(Data Scaling)

#### 표준화(Standardization)
특성들을 정규분포(**평균을 0**, **분산을 1**)로 스케일링 하는 방법

#### 정규화(Normalization)
특성들을 특정 범위로 스케일링하는 방법  
주로 가장 작은 값을 0, 가장 큰 값을 1로 변환시켜 모든 특성들이 **0~1범위**를 갖도록 함

---
### 학습률(Learning Rate)
학습률은 가중치의 조정 단위 - 오차가 최소화되도록 변경 간격을 정하는 문제  
너무 크면 최소값을 오버슈트(Overshoot)되거나 너무 작으면 최소값에 이르기 전에 학습이 멈출수 있음

---
### 에폭(Epochs)
한 번의 학습 과정을 몇 번 수행할지 지정하는 것  
너무 작게 지정시 **과소적합(Underfitting)**, 너무 크게 지정시 **과대적합(Overfitting)** 발생할 수 있음  
여러번 진행하면서 최적의 값을 찾아야 함  
**학습률(Learning Rate)이 적을수록 에폭(Epochs)이 커야한다**  
배치 크기도 관련 있으며, 학습 속도와 연산이 지속적으로 반복되기 때문에 cost/loss의 변화를 봐야함

#### 과소적합(Underfitting)
- 학습 데이터를 충분히 학습하지 않아 성능이 매우 안 좋은 경우
- 모델이 지나치게 단순한 경우 발생
- 에폭수(epochs)를 늘려 충분히 학습

#### 과대적합(Overfitting)
- 모델이 학습 데이터에 지나치게 맞추어진 상태로 새로운 데이터에서 성능 저하 발생함
- 모델이 지나치게 복잡하거나 학습 횟수가 매우 많을 경우 발생
- 다양한 학습 데이터 수집 및 학습 필요
- 모델 단순화 필요(파라메터가 적은 모델 선택, 학습 데이터의 특성 수 줄이기 등)

![image-4.png](attachment:image-4.png)

---
### 은닉층(Hidden Layer)과 뉴런수(Neurons)
![image-2.png](attachment:image-2.png)  
모델 구성 시 은닉층을 어떻게 구성하고 얼마나 쌓을지, 뉴런의 수를 얼마나 많이 구성할 지에 따라서  
모델의 크기가 달라지고 학습과 최적화 정도에 차이가 발생한다.

---
### 활성화 함수(Activation Function)
딥러닝 성능에 주요 요소 중 하나로 **가중치(weight)와 바이어스(bias)를 조정**  
크게 **시그모이드(Sigmoid)계열**과 **ReLU 계열**로 구분  
![image-3.png](attachment:image-3.png)  

---
### 가중치 초기화(Weight Initialization)
초기에 가중치의 값을 어떻게 하는지도 모델 학습에 중요  
초기값을 0으로 하면 모든 노드들의 값이 같아서 여러 노드들을 사용하는 의미가 없어지므로 동일한 값을 갖지 않도록 무작위로 설정해야 함  
확률분포를 사용하여 정규분포를 가지도록 하면 가중치의 일부 값으로 치우치게 되고 표현할 수 있는 신경망의 수가 적어지는 문제 발생  
가중치 초기화는 활성화값이 고르게 분포되는 것이 중요  

#### Xavier(Glorot) 방법
- 은닉층의 노드 수가 n이라면 표준편차가 1/√n 인 분포
- 더 많은 가중치에 역전파가 전달 가능
- 비교적 많은 문제를 표현할 수 있다
- 활성화 함수가 선형일 때 매우 적합

#### He 초기화
- 표준편차가 √(2/n) 인 분포
- 활성화값 분포가 균일하게 분포되어 있음
- 활성화 함수가 ReLU와 같은 비선형 함수일 때 더 적합

---
### 옵티마이저(Optimizer)
모델이 실제 결과와 예측 결과의 차이를 최소화하는 역할 수행  

#### 확률적 경사하강법(SGD, Stochastic Gradient Descent)
최소점을 찾는 과정에서 멈추거나 매우 속도가 느리지만, **모멘텀**과 **네스테로프 모멘텀** 및 **학습률 감소 기법**을 지원함

#### RMSprop
가장 최근의 그래디언트만 반영하여 전력 최적점을 수렴하는 방법, 지수적 감소를 사용하여 구현한다.

#### Adagrad
그래디언트 백터값을 스케일링하여 단위로 인한 경사 하강의 오류를 수정하는 방법, 변화하는 기울기 전체의 내역을 고려함

#### Adadelta
Adagrad는 너무 빨리 기울기를 0 으로 만들어버려서 그래디언트 업데이트의 이동창에 기반하여 학습률을 조정

#### Adam(ADAptive Moment estimator)
모멘텀 최적화와 RMSprop를 병행한 방법