# 규제 선형 모델

- 회귀 모델은 적절히 데이터에 적합하면서도 회귀계수(x값 앞의 기울기?)가 기하급수적으로 커지는 것을 제어
- 최적 모델 = 학습데이터 잔차 오류 최소화 + 회귀계수 크기 제어
- 비용함수목표 = Min(RSS(W) + alpha*||W||^2)
- alpha를 0부터 지속적으로 값을 증가시키면 회귀계수 값(RSS(W))의 크기가 감소되어 과적합 개선
- 이런 것을 **규제(Regularization)**

### - 규제에는 L2, L1으로 구분

- **L2 규제**는 alpha*||W||^2에서 < W^2에 패널티 >를 부여
- **L1 규제**는 alpha*||W||에서 < |W|에 패널티 >를 부여

## 릿지 (Ridge) 회귀

In [5]:
from sklearn.linear_model import Ridge
from sklearn.model_selection import cross_val_score
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
from scipy import stats
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

%matplotlib inline

In [17]:
boston = load_boston()
bostonDF = pd.DataFrame(boston.data, columns=boston.feature_names)
# boston 데이터 세트의 target배열은 주택 가격임. 이를 PRICE칼럼으로 DF에 추가
bostonDF['PRICE'] = boston.target
y_target = bostonDF['PRICE']
x_data = bostonDF.drop(['PRICE'], axis=1, inplace=False)

x_train, x_test, y_train, y_test = train_test_split(x_data, y_target, test_size=0.3,
                                                   random_state=156)

In [19]:
# alpha=10으로 설정
ridge = Ridge(alpha=10)
mse_score = cross_val_score(ridge, x_data, y_target, scoring='neg_mean_squared_error', cv=5)
rmse_scores = np.sqrt(-1 * mse_score)
avg_rmse = np.mean(rmse_scores)

print('5 folds의 개별 MSE:', np.round(mse_score, 3))
print('5 folds의 개별 RMSE:', np.round(rmse_scores, 3))
print('5 folds의 개별 평균 MSE:', np.round(avg_rmse, 3))

5 folds의 개별 MSE: [-11.422 -24.294 -28.144 -74.599 -28.517]
5 folds의 개별 RMSE: [3.38  4.929 5.305 8.637 5.34 ]
5 folds의 개별 평균 MSE: 5.518


- alpha 값을 변화

In [None]:
# 릿지에 사용될 alpha 파라미터의 값을 정의
alphas = [0, 0.1, 1, 10, 100]

# alphas list 값을 반복하면서 alpha에 따른 평균 rmse 구함.
for alpha in alphas:
    ridge = Ridge(alpha=alpha)
    
    # cross_