정규화 선형회귀 (Ridge, Lasso, ElasticNet)

-가중치에 대한 제약조건을 추가함으로써 모델이 과적합 되는 것을 방지

-과적합이 발생하면 모델의 가중치도 과하게 증가된다 -> 가중치 크기를 제한하여 해결

-예측값들이 실제 타겟과 전반적으로 멀리 떨어져 있으면 편향(bias)이 높다

-예측값들이 전반적으로 서로 멀리 떨어져 있으면 결과의 분산(variance)이 높다

-trade-off : 편향과 분산이, 한쪽이 증가하면 다른 한쪽은 감소

-정규화는 분산을 낮추어 과적합을 막는 방법이고, trade-off 로 인해서 
분산을 낮추는 대신 편향이 높아지는 것을 말한다.

### Ridge

선형회귀의 비용함수에 가중치들의 제곱합을 최소화 하는 제약조건을 추가 (L2 규제)

In [1]:
import pandas as pd
import numpy as np

In [2]:
data_url = "http://lib.stat.cmu.edu/datasets/boston"
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
target = raw_df.values[1::2, 2]

In [7]:
x = pd.DataFrame(data, 
                columns=["CRIM", "ZN", "INDUS", "CHAS", "NOX",
                       "RM", "AGE", "DIS", "RAD", "TAX", "PTRATIDO",
                       "B", "LSTAT"])

In [8]:
y = pd.DataFrame(target, columns=["PRICE"])

In [9]:
from sklearn.model_selection import train_test_split

In [10]:
x_train, x_test, y_train, y_test = train_test_split(x, y,
                                                   test_size=0.3,
                                                   random_state=1)

In [11]:
from sklearn.linear_model import Ridge

In [21]:
# alpha : 규제 강도 (높아질수록 과적합 완화)
model = Ridge(alpha=0.5)

In [22]:
model.fit(x_train, y_train)

In [23]:
coefficient = model.coef_
bias = model.intercept_
print(coefficient)
print(bias)

[[-9.28493362e-02  6.15788274e-02  2.83117839e-02  2.31624140e+00
  -1.47941894e+01  2.86614167e+00 -1.97010006e-03 -1.42045244e+00
   2.91640125e-01 -1.19267790e-02 -9.25706370e-01  6.87593354e-03
  -5.75836039e-01]]
[41.47937983]
