### Regularized Linear Models

일반적으로 statsmodels와 sklearn에서의 Linear Model들은 다음과 같은 부분에서 문제점이 발생한다

1. 모형이 데이터 의존적이다. 학습 데이터의 품질에 따라 편향이 심할 수도 있다.
2. 데이터의 수가 모형의 복잡도에 비해 적은 경우, Overfitting의 문제가 심각해진다

이러한 문제들을 해결하기 위해, 다음과 같은 모형들이 제안되었다.

#### 1. Linear Model Optimization

OLS Regression (Linear Model)을 다시 한 번 살펴보자

$$\mathbf{y}_i = \mathbf{\beta}_i \mathbf{x}_i + \mathbf{\epsilon}_i$$

최소제곱법을 활용해 Optimization을 수행하는데, 이는 다음과 같은 최적화 문제로 풀 수 있다

$$\min \sum_{i=0}^N (\mathbf{y}_i - \mathbf{\hat {y}}_i)^2$$
$$= \min \sum_{i=0}^N (\mathbf{y}_i - \mathbf{x}_i\mathbf{\beta}_i)^2$$

y에 대한 2차식이기 때문에, 도함수를 활용하여 다음과 같이 최적해를 계산할 수 있다

$$\frac{\partial}{\partial \beta_i} \mathrm{MSE(\beta_i)} = \frac{2}{N} \sum_{i=0}^N (\mathbf{y}_i - \mathbf{x}_i\mathbf{\beta}_i)\mathbf{\beta}_i$$

#### 2. Ridge Regression

Ridge Regression은 1970년대 회귀모형의 일반화 성능을 향상시키기 위해 Hoerl와 Kennard에 의해 처음으로 소개되었다. MSE에 일정한 Penalty를 부과하여 적합화가 덜 되도록 유도한다

$$\min \sum_{i=0}^N (\mathbf{y}_i - \mathbf{x}_i\mathbf{\beta}_i)^2 + \frac{\alpha}{2} \sum_{i=0}^N \beta_i^2$$

Machine Learing에서는 이를 흔히 **L2 Reguralization (L2 정규화)** 라고 한다. 선형 모형에서는 대부분 Hyper Parameter로 지정 가능하다

```
sklearn.linear_model.Ridge(
    alpha=1.0, *, 
    fit_intercept=True, 
    copy_X=True, 
    max_iter=None, 
    tol=0.0001, 
    solver='auto', 
    positive=False, 
    random_state=None
)
```

#### 3. Lasso Regression

Lasso Regression은 1996년에 Robert Tibshirani에 의해 처음으로 제안된 모형이다. 최적화 과정에서 규제항을 추가해 일부 계수를 0으로 추정되도록 규제한다. 이는 일종의 변수 선택 효과라고 해석해도 좋다

$$\min \sum_{i=0}^N (\mathbf{y}_i - \mathbf{x}_i\mathbf{\beta}_i)^2 + \alpha \sum_{i=0}^N |\beta_i|$$

Machine Learing에서는 이를 흔히 **L1 Reguralization (L1 정규화)** 라고 한다. Ridge Regression과 마찬가지로 선형 모형에서 대부분 Hyper Parameter로 지정 가능하다

```
sklearn.linear_model.Lasso(
    alpha=1.0, *, 
    fit_intercept=True, 
    precompute=False, 
    copy_X=True, 
    max_iter=1000, 
    tol=0.0001, 
    warm_start=False, 
    positive=False, 
    random_state=None, 
    selection='cyclic'
)
```

#### 4. Elastic Net Regression

Elastic Net은 Ridge와 Lasso를 모두 절충한 선형 모형이다. 다음과 같이 최적화를 수행한다.

$$\min \sum_{i=0}^N (\mathbf{y}_i - \mathbf{x}_i\mathbf{\beta}_i)^2 + r\alpha \sum_{i=0}^N |\beta_i| + \frac{(1-r)\alpha}{2} \sum_{i=0}^N \beta_i^2$$

```
sklearn.linear_model.ElasticNet(
    alpha=1.0, *, 
    l1_ratio=0.5, 
    fit_intercept=True, 
    precompute=False, 
    max_iter=1000, 
    copy_X=True, 
    tol=0.0001, 
    warm_start=False, 
    positive=False, 
    random_state=None, 
    selection='cyclic'
)
```

식에서 $r$은 L1 규제를 얼마나 할지 비율을 정하는 Hyperparameter이며, sklearn의 ElasticNet에서는 `l1_ratio`로 지정할 수 있다