<a href="https://colab.research.google.com/github/SeongwonTak/TIL_swtak/blob/master/210425_Regularization_of_Models.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regularization of Models
모델의 정규화(Regularization)에 대해 알아보고, 특히 선형회귀에서의 정규화에 대해 자세히 알아보자.

[ 참고자료 / 출처 ]

1. https://mangkyu.tistory.com/37
2. 머신러닝 교과서 p102-104, p370-371
3. https://hwiyong.tistory.com/93
4. scikit-learn 공식 문서 

## 정규화의 이유
정규화를 고려하는 이유는 과적합 문제를 피하려는 방법 중의 하나이다.

과적합 문제의 경우는 많은 Feature를 가진 data set에서 가설함수가 훈련 데이터에 대해서는 비용함수가 0에 근접할 정도로 매우 예측을 잘 하겠지만, 새로운 데이터 즉, 검증용 데이터에 대해서는 일반화를 잘 하지 못할 것이다.


### 과적합을 해결하는 방법

과적합을 해결하는 방법에는 여러가지가 있다.
1. 불필요한 Feature들을 먼저 제거해주자.
2. 규제를 사용하여 모델의 복잡도를 조정하자.

이를 조금 다른 방향으로 접근해보자.

## 계수에 가중치를 부여하는 정규화

Overfitting 문제를 다음과 같이 고려하자.


좌측의 그림의 경우는 y값을 잘 예측하고 있으나, 우측의 경우는 overfitting이 발생한 경우이다. 따라서 Overfitting 문제를 해결 하기 위해 고차수의 계수들을 0으로 가깝게 하려고 한다. 

이를 할 경우, 가설 함수는 smooth해질 것이며, 고차수 계수들에 Penalty를 부여하며 고차 함수를 저차함수로 smooth하게 만들 수 있을 것이다.

이를 바탕으로 최소화 해야하는 오차함수를 다시 써보면 다음과 같다.

$$ J(\theta) = \frac{1}{2m}\sum^{m}_{i=1}(h_{\theta}(x^{(i)})-y^{(i)})^{2} + \lambda \sum_{j=1}\theta_{j}^{2}$$

## 선형회귀의 정규화의 여러 방법
선형회귀의 경우 정규화 방법들에는 다음 것들이 있다.
- Ridge Regressoin (릿지 회귀)
- Least Absolute Shrnkage and Selection Operator (라쏘 회귀)
- Elastic Net (엘라스틱 넷)

### Ridge Regression
릿지 회귀는 L2-norm을 사용한 회귀이다. 단순히, 최소 제곱 비용 함수에 가중치(계수)의 제곱합을 추가한 모델이다.

$$ J(w)_{ridge} = \sum^{n}_{i=1}(y^{(i)}-\hat{y}^{(i)})^{2} + \lambda ||w||^{2}_{2}$$

In [None]:
#초기화 및 정의 방법
from sklearn.linear_model import Ridge
ridge = Ridge(alpha = 1.0)

### Lasso Regression
라쏘 회귀의 경우에는 L1-norm을 사용한 회귀이다. 이의 경우, 규제 강도에 따라 어떤 가중치는 0이 될 수 있다. 즉, 라쏘 회귀의 경우에는 지도 학습의 특성 선택 기법으로 사용할 수 있다.

$$ J(w)_{rasso} = \sum^{n}_{i=1}(y^{(i)}-\hat{y}^{(i)})^{2} + \lambda ||w||_{1}$$

In [None]:
from sklearn.linear_model import Lasso
lasso = Lasso(alpha = 1.0)

### Elastic Net
Elastic Net의 경우는 Ridge Regression과 Lasso Regression를 결합한 형태의 회귀이다.

$$ J(w)_{ElasticNet} = \sum^{n}_{i=1}(y^{(i)}-\hat{y}^{(i)})^{2} + \lambda_{1} ||w||^{2}_{2}+\lambda_{2} ||w||$$

In [None]:
from sklearn.linear_model import ElasticNet
elanet = ElasticNet(alpha = 1.0, l1_ratio = 0.5)

여기서 alpha값과 l1 ratio 값은 위와 조금 다른데,
$$ \alpha = \lambda_{1}+\lambda_{2}$$
$$ L_{1}ratio = \frac{\lambda{2}}{\alpha} $$

로 값을 계산하게 된다.