## Regularization
* Overfitting
* Cost Function for Regularization
* Gradient Descent for Regularized Linear Regression
* Gradient Descent for Regularized Logistic Regression 

### 과적합(overfitting)

#### 예: 선형회귀(집 가격 문제)

| underfit, High bias | Just Right  |Overfit, High variance |
|---------|--------|--------|
|<img src="./images/reg-graph.PNG" width="180"> |<img src="./images/reg-graph.PNG" width="180"> | <img src="./images/reg-graph.PNG" width="180">|
|$\theta_0 + \theta_1 x$ | $\theta_0 + \theta_1 x +\theta_2 x^2$ | $\theta_0 + \theta_1 x +\theta_2 x^2 +\theta_3 x^3 +\theta_4 x^4$ |


**과적합(Overfitting)**: 특징이 너무 많으면, 학습된 가설(hypothesis)은
훈련자료에 아주 잘 일치할 것이다,
$J(\theta) =  { 1 \over 2m} \sum_{i=1}^m (h_\theta(x^{(i)})- y^{(i)})^2 \approx 0$
그러나, 새로운 자료에 대한 일반화(새로운 자료에 대한 가격예측)는 실패한다. 





#### 예: 로지스틱 회귀

| underfit, High bias | Just Right  |Overfit, Hight variance |
|---------|--------|--------|
|<img src="./images/nonlinear data.png" width="180"> |<img src="./images/nonlinear data.png" width="180"> | <img src="./images/nonlinear data.png" width="180">|
|$h_\theta(x) = g(\theta_0 + \theta_1 x_1 + \theta_2 x_2)$ | $g(\theta_0 + \theta_1 x_1 + \theta_2 x_2 +\theta_3 x_1^2 + \theta_4 x_2^2 + \theta_5 x_1 x_2)$ | $g(\theta_0 + \theta_1 x_1 + \theta_2 x_1^2 +\theta_3 x_1^2 x_2 + \theta_4 x_1^2 x_2^2 + \theta_5 x_1^2 x_2^3 + \theta_6 x_1^3 x_2 + \cdots )$ |

여기에서 $g = $ sigmoid function


#### 과적합(overfitting) 문제 해결
<img src="./images/reg-graph.PNG" width="180" align="right">

$x_1 =$ 집 크기

$x_2 =$ 방의 개수

$x_3 =$ 층의 개수

$x_4 =$ 집의 나이

$x_5 =$ 이웃의 평균 수입

$x_6 =$ 부엌 크기

$\vdots$

$x_{100}$
>


#### 과적합 문제 해결

Options : 
1. **특징 개수 줄이기**
  
  
  * 사용할 특징들은 인위적으로 선택한다.
  
  
  * 모델 선택 알고리즘.
  
  
2. **정규화(Regularization)** (모든 특징들이 의미있고 사용하기를 원한다면)
  
  
  * 모든 특징들을 유지하지만, 파라메타 $\theta_j$의 크기/값을 감소시킨다.
  
  
  * 각각의 특징들이 $y$를 예측하는데 조금씩 기여하는 많은 특징들을 가질 때 잘 작동된다.

### 비용함수(Cost function)

#### 직관(Intuition)

| ---- | ---- |
|---------|--------|
|<img src="./images/reg-graph.PNG" width="200"> |<img src="./images/reg-graph.PNG" width="200"> | 
| $\theta_0 + \theta_1 x +\theta_2 x^2$ | $\theta_0 + \theta_1 x +\theta_2 x^2 +\theta_3 x^3 +\theta_4 x^4$ |

우리가 벌칙을 가하여 $\theta_3, \theta_4$ 를 정말 작게 만든다고 가정하자.
$$ \min_\theta \left [ { 1 \over 2m} \sum_{i=1}^m (h_\theta(x^{(i)})- y^{(i)})^2  + 1000\cdot \theta_3^2 + 1000\cdot \theta_4^2 \right ]$$
$$ \Rightarrow \theta_3 \approx 0, \theta_4 \approx 0$$


#### 정규화(Regularization)

파라메타들 $\theta_1, \cdots, \theta_n$에 대하여 작은 값들
* “더 단순한” 가설(hypothesis)
* 과적합될 경향이 더 적음

Housing:
* Features: $x_1, x_2, \cdots, x_{100}$
* Parameters: $\theta_1, \theta_2, \cdots, \theta_{100}$

$$J(\theta) =  { 1 \over 2m} \sum_{i=1}^m (h_\theta(x^{(i)})- y^{(i)})^2 + \lambda \sum_{j=1}^n \theta_j^2 $$

$$ \min_\theta J(\theta) \Rightarrow \theta_0, \{ \theta_1, \cdots \theta_n \} \approx 0 $$


<br>

#### 정규화(Regularization)


$$J(\theta) =  { 1 \over 2m} \left[ \sum_{i=1}^m (h_\theta(x^{(i)})- y^{(i)})^2 +   \lambda \sum_{j=1}^n \theta_j^2 \right]$$
where $\lambda $ : Regularization Parameter

$$ \min_\theta J(\theta) $$

<img src="./images/reg-graph.PNG" width="180">

>



정규화된 선형회귀에서, 우리는 다음을 최소화하는 $\theta$ 를 선택한다.

$$J(\theta) =  { 1 \over 2m} \left[ \sum_{i=1}^m (h_\theta(x^{(i)})- y^{(i)})^2 +   \lambda \sum_{j=1}^n \theta_j^2 \right ] $$

만약, $\lambda$ 가 지극히 큰 값으로 설정되면 (아마도 우리 문제에 너무 큰, 예를 들어 $\lambda = 10^{10}$)?

* 알고리즘이 잘 작동합니다. 크게 설정하는 것은 문제가 되지 않습니다.
* Algortihm은 과적합을 제거하지는 못합니다.
* 알고리즘은 미적합(Underfitting)을 만들게 됩니다. (훈련 데이터에도 잘 맞지 않음).
* 경사하강이 수렴하지 않습니다.

<img src="./images/reg-graph.PNG" width="160" align="left">

$$h_\theta(x) = \theta_0 + \theta_1 x +\theta_2 x^2 +\theta_3 x^3 +\theta_4 x^4$$
<br>
$$  \{ \theta_1, \cdots \theta_n \} \approx 0 $$
<br>

$$h_\theta(x) = \theta_0 $$

### Regularized linear regression


$$J(\theta) =  { 1 \over 2m} \left[ \sum_{i=1}^m (h_\theta(x^{(i)})- y^{(i)})^2 +   \lambda \sum_{j=1}^n \theta_j^2 \right] $$

$$ \min_\theta J(\theta) $$

>

>

>

#### Gradient descent for Linear regression

repeat {
    
$\quad \theta_0 := \theta_0 - \alpha { 1 \over m} \sum_{i=1}^m (h_\theta (x^{(i)}) -y^{(i)}) $
    
$\quad \theta_j := \theta_j - \alpha { 1 \over m} \sum_{i=1}^m (h_\theta (x^{(i)}) -y^{(i)}) \cdot x_j^{(i)} $
$  \quad \quad \quad \quad \quad \quad (j=1,2,3,\cdots,n)$

}

#### Gradient descent for Regularized Linear regression

repeat {
    
$\quad \theta_0 := \theta_0 - \alpha { 1 \over m} \sum_{i=1}^m (h_\theta (x^{(i)}) -y^{(i)}) $
    
$\quad \theta_j := \theta_j - \alpha \left[ { 1 \over m} \sum_{i=1}^m (h_\theta (x^{(i)}) -y^{(i)}) \cdot x_j^{(i)} + \lambda { 1 \over m} \theta_j \right] $
$  \quad \quad \quad \quad \quad \quad  (j=1,2,3,\cdots,n)$

}

**Intuition** : 
$\theta_j := \theta_j(1 - \alpha { \lambda \over m})- \alpha { 1 \over m}\sum_{i=1}^m (h_\theta (x^{(i)}) -y^{(i)}) \cdot x_j^{(i)}  $

where $(1 - \alpha { \lambda \over m}) \approx 1, \text {but}  < 1 $

<br>

### Regularized logistic regression

#### 정규화된 로지스틱 회귀
<img src="./images/nonlinear data.png" width="200">

$h_{\theta}(x) = g(\theta_0 + \theta_1 x_1 + \theta_2 x_1^2 +\theta_3 x_1^2 x_2 + \theta_4 x_1^2 x_2^ + \theta_5 x_1^2 x_2^3 + \cdots )$

<div clear="both"> </div>


**Cost function:**
$$J(\theta) =  -\left[ { 1 \over m} \sum_{i=1}^m y^{(i)}\log h_{\theta}(x^{(i)}) + (1 - y^{(i)}) \log(1-h_{\theta}(x^{(i)}))    \right] + \\   {\lambda \over 2 m} \sum_{j=1}^n \theta_j^2 $$

<br>


**Gradient descent** for Regularized Logistic Regression

repeat {
    
$\quad \theta_0 := \theta_0 - \alpha { 1 \over m} \sum_{i=1}^m (h_\theta (x^{(i)}) -y^{(i)}) x_0^{(i)} $
    
$\quad \theta_j := \theta_j - \alpha \left[ { 1 \over m} \sum_{i=1}^m (h_\theta (x^{(i)}) -y^{(i)}) \cdot x_j^{(i)} + { \lambda \over m} \theta_j \right]   \quad (j=1,2,3,\cdots,n)$

}

<br>

<br>
