## Linear Regression Extended
### 0️⃣ Gradient Descent

### ✔ Gradient Descent 
$x_{new} = x_{old} - \alpha \times (2x_{old})$

### ✔ Full-batch Gradient Descent
$\theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j}J(\theta_0,\theta_1)$  

$\frac{\partial J}{\partial w_0} = \frac{1}{m} \sum_{i=1}^m (w_{1} x^{(i)} + w_{0} - y^{(i)})$   
  
$\frac{\partial J}{\partial w_1} = \frac{1}{m} \sum_{i=1}^m (w_{1} x^{(i)} + w_{0} - y^{(i)})x^{(i)}$   

$\frac{\partial J}{\partial w_n} = \frac{1}{m} \sum_{i=1}^m (x^{(i)}w - y^{(i)})x_n$  

- Local Optimize point(지역 최적점)에 빠지지않게 방지,  
헤어나오기 위해 모든 Data를 모아놨다가 한꺼번에 처리하는 방법

- GD는 1개의 데이터를 기준으로 미분
- But 일반적으로 GD = (full) batch GD라고 가정
- 모든 데이터 셋으로 학습
- 업데이트 감소 $\rightarrow$ Single GD보다 계산상 효율적(속도) 가능
- 안정적인 Cost 함수 수렴
- 지역 최적화 가능
- 메모리 문제 (ex - 30억개의 Data를 한번에 처리할 경우)
- 대규모 Dataset $\rightarrow$ 모델/Parameter 업데이트가 느려짐

### 1️⃣ Mini-batch (Stochastic) Gradient Descent
- 전체 데이터에서 일부 뽑아서 사용
- 한번의 일정량의 데이터를 랜덤하게 뽑아서 학습
- SGD와 Full-Batch GD를 혼합한 기법
- 가장 일반적으로 많이 쓰이는 기법
- GD $\rightarrow$ SGD $\rightarrow$ Mini SGD 

### ✔ Epoch & Batch-size
- 전체 데이터가 한번 Training Data에 들어갈 때 카운팅
- Full-batch를 n번 실행하면 n epoch
- Batch-size : 한번에 학습되는 데이터의 개수 , 주로 $2^n$ 사용  
ex) 총 데이터가 500개일 때, 100개씩 잘라서 5번 학습 $\Rightarrow$ Batch-size : 100

- 총 5,120개의 Training Data에 512 batch-size면 몇번 학습을 해야 1 epoch이 되는가?  
 $\Rightarrow$ 10번 학습

- Hyper-parameter : Batch-size

### <span style = 'color:red'>결론</span>
#### <span style = 'color:green'>GD</span>
: 한 점씩 내려감, 기울기가 0에 가까이 가도록
- DataSet이 작을 경우 사용

#### <span style = 'color:green'>Full-Batch GD</span>
: 데이터 전체 사용, 이를 1 epoch이라 부름
- DataSet이 큰 경우 사용

Linear Regression에서 GD와 Full-Batch GD는 큰 차이 없음

#### <span style = 'color:green'>SGD</span>
: 여러 점을 돌아가면서 기울기 구해서 내려감

#### <span style = 'color:green'>Mini-Batch GD</span>
: 구간을 잘라서 한번에 update해가며 기울기가 내려감
- 딥러닝에서 사용할 경우

![GD](./img/GD.PNG)

### 2️⃣ SGD implementation issues
- Data 복잡할 시 SGD 사용
#### ✔ SGD를 구현할 때 생각해봐야 할 일 들

### 1.Mini-Batch SGD
- epoch : 사람이 지정해주는 Hyper-parameter

In [4]:
# # 전체 Epoch이 iteration 되는 횟수
# for epoch in range(epoches):
#     X_copy = np.copy(X)

#     # SGD 여부 
#     # -> SGD일 경우 shuffle 
#     if is_SGD:
#         # Data 섞어주는 작업
#         np.random.shuffle(X_copy)
    
#     # 한번에 처리하는 BATCH_SIZE, 몫
#     batch = len(X_copy) // BATCH_SIZE
#     for batch_count in range(batch):
#         # BATCH_SIZE 크기 만큼 X_batch 생성, EX) BATCH_SIZE : 100일 경우 -> 0 ~ 100, 100~200,...
#         X_batch = np.copy(X_copy [batch_count * BATCH_SIZE : (batch_count + 1) * BATCH_SIZE ] )
    
#     # Do weight Update
#     print('Number of epoch : %d' % epoch)

### 2. Convergence process
![ConvergenceProcess](./img/ConvergenceProcess.PNG)

In [None]:
# from sklearn.datasets.samples_generator import make_regression
# X, y = make_regression(n_samples = 1000, n_features = 1, noise = 10, random_state = 42)
# X[:10]

### ✔ Learning Rate는 일정해야 하는가?
- Learning Rate는 점점 작아지면 좋지 않을까?
- Learning Rate 조정 필요

#### Learning-Rate decay (감소)
- 일정한 주기로 Learning Rateㅇ르 감소시키는 방법
- 특정 epoch마다 Learning Rate 감소
```
self._eta0 = self._eta0 * self._learning_rate_decay
```
- Hyper-parameter 설정 어려움
- t : epoch
- 지수감소 $\alpha = \alpha_{0}e^{-kt}$

- 1/t 감소 $\alpha = \frac{\alpha_0}{(1+kt)}$

### ✔ 종료 조건 설정
- SGD 과정에서 특정 값이하로 cost function이 줄어들지 않을 경우 GD를 멈추는 방법

- 성능이 좋아지지 않는/필요없는 연산을 방지

- 종료조건을 설정 : tol > (이번 cost functoin)loss - (이전 cost function) previous_loss

- tol은 Hyper-parameter로 사람 설정

### 3️⃣ Overfitting
: 학습 데이터 과다 최적화 $\rightarrow$ 새로운 데이터의 예측 $\downarrow$
- Training Data에 너무 잘 맞추어져 있는 경우

![fitting](./img/Overfitting.PNG)

- Underfitting : High bias
- Overfitting : High variance

#### 보다 적은 수의 논리(weight)로 설명이 가능한 경우, 많은 수의 논리를 세우지 말라 - Occam's razor

### ✔ Bias - Variance tradeoff
#### 1. High bias 
- 원래 모델에 많이 떨어짐
- 잘못된 데이터만 계속 학습함  
$\Rightarrow$ 잘못된 Weight만 Update

#### 2. High variance
- 모든 데이터에 민감하게 학습
- Error 고려 X  
$\Rightarrow$ 모든 Weight가 Update

### ✔ Train-Test Error
- Overfitting  

![Error](./img/Train-Test%20Error.PNG)

### ✔ Overcoming Overfitting
- <span style = 'background-color:#fff5b1'>더 많은 데이터를 활용 (쉽지 않다, 한계 있음)</span>
- Feature의 개수를 줄임
- 적절히 Parameter 선정
- <span style = 'color:blue'>Regularization</span>  
: $\theta$를 0에 가깝도록 하는 기법

### 4️⃣ Regularizaion
: <span style = 'color:green'>Penalty</span>를 줘서 Weight 줄이는 기법
- Penalized Linear Regression라고도 함
- 1. L1 : Manhattan Distance
- 2. L2 : Euclidean Distance

#### $J(w_0,w_1) = \frac{1}{2m} \sum_{i=1}^m (w_1 x^{(i)} + w_0 - y^{(i)})^2$
#### $\frac{\partial J}{\partial w_0} = \frac{1}{m} \sum_{i=1}^m (w_{1} x^{(i)} + w_{0} - y^{(i)})$
#### $\frac{\partial J}{\partial w_{1}} = \frac{1}{m} \sum_{i=1}^m (w_{1} x^{(i)} + w_{0} - y^{(i)}) x^{(i)}$

### 1. <span style = 'background-color:#fff5b1'>L2 Regularizaion</span>
#### ✔ 기존 Cost function L2(norm) penalty term을 추가, Overfitting 되지 않도록
##### $h_{\theta}(x^{(i)}) = w_1 x^{(i)} + w_0$
##### $J(\theta) = \frac{1}{2m} \sum_{i=1}^m (h_{\theta}(x^{(i)}) - y^{(i)})^2 + \frac{\lambda}{2}\sum_{j=1}^n \theta_{j}^2$
##### $\theta_0 := \theta_0 - \alpha \frac{1}{m} \sum_{i=1}^m (h_{\theta}(x^{(i)}) - y^{(i)}) x_{0}^{(i)} $ 
##### $\theta_j := \theta_j - \alpha [\frac{1}{m} \sum_{i=1}^m (h_{\theta}(x^{(i)}) - y^{(i)})x_{j}^{(i)} + \frac{\lambda}{m}\theta_j ]$   
$\downarrow$
##### $\theta_j := \theta_j(1-\alpha\frac{\lambda}{m}) - \alpha \frac{1}{m} \sum_{i=1}^m (h_\theta (x^{(i)}) - y^{(i)}) x_{j}^{(i)}$

- $j \in {1,2,...n} $
- $\lambda$ : Hyper-Parameter
- $\lambda \uparrow$  $\Rightarrow$ $\theta \downarrow$

#### ✔ norm : 벡터의 길이 or 크기를 측정하는 방법  
##### $\parallel (\theta) \parallel _{2}^{2}$
<span style = 'color:green'>L2는 Euclidean Distance</span> 원점에서 벡터 좌표까지의 거리

##### $J(\theta) = \frac{1}{2m} \sum_{i=1}^m (h_{\theta}(x^{(i)}) - y^{(i)})^2 + \frac{\lambda}{2}\sum_{j=1}^n \theta_{j}^2$
$\downarrow$

##### $J(\theta) = y^Ty - 2\theta^TX^Ty + \theta^T(X^TX + \lambda I)\theta$
$\downarrow$ 미분

##### $\frac{\partial J(\theta)}{\partial \theta} = - 2 X^T y + 2(X^TX + \lambda I)\theta$
$\downarrow$

$(X^TX + \lambda I)\theta = X^T y \rightarrow$ <span style = 'color:red'>$\hat{\theta} = (X^TX + \lambda I)^{-1}X^T y$</span> 

### 2. L1 regularization (Lasso Regression)
: <span style = 'color:green'>L1은 Manhattan Distance</span> 원점에서 벡터 좌표까지의 거리

#### ✔ 기존 cost function L1(norm) penalty term 추가

##### $J(\theta) = \frac{1}{2m} \sum_{i=1}^m (h_{\theta}(x^{(i)}) - y^{(i)})^2 + \frac{\lambda}{2}\sum_{j=1}^n \left\lvert \theta_{j} \right\lvert$

#### ✔ norm : 벡터의 길이 혹은 크기를 측정하는 방법 

##### $\parallel x \parallel _1$ := $\sum_{i=1}^n \left\lvert x_{i} \right\lvert$ 

### ✔ L1, L2 차이
🔹 L1
- unstable solution
- 'One or More' solution
- Sparse solution   
: 어떤 weight의 값이 0이 될 수 있음
- Feature selection

🔹 L2
- Stable solution
- Only one solution
- Non-sparse solution