In [4]:
import numpy as np
import pandas as pd
import mglearn
import IPython
import scipy as sp

%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

font_path = "c:/Windows/Fonts/malgun.ttf"
font_name = fm.FontProperties(fname=font_path, size=10).get_name()
plt.rc('font', family=font_name, size=12)
plt.rcParams["figure.figsize"] = (20, 10)

# Linear regression

- 선형 회귀의 핵심은 MSE
- 매개변수가 없는 것이 장점이자 단점( 모델의 복잡도 제어 방법 없음 )

In [7]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

X,y = mglearn.datasets.make_wave(n_samples = 60)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 42)

lr = LinearRegression().fit(X_train, y_train)

In [8]:
print(f'훈련 정확도: {lr.score(X_train, y_train)}')
print(f'테스트 정확도: {lr.score(X_test, y_test)}')

훈련 정확도: 0.6700890315075756
테스트 정확도: 0.65933685968637


- 위의 결과는 과소 적합인 상태를 의미함.
- 본 데이터셋은 1차원( 특성 1개 )으로 모델의 과대적합을 걱정할 필요가 없음.
- 이보다 특성 수가 많은 데이터셋을 lr 모델에 적용할 경우에, 어떻게 동작하는지 알아 볼 필요가 있음.

In [15]:
X, y = mglearn.datasets.load_extended_boston()

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state = 0)
lr = LinearRegression().fit(X_train, y_train)

print(f'훈련 정확도: {lr.score(X_train, y_train):.2f}')
print(f'테스트 정확도: {lr.score(X_test, y_test):.2f} ')

훈련 정확도: 0.95
테스트 정확도: 0.61 


- 훈련 정확도는 높은 반면, 테스트 정확도가 크게 떨어짐.
- 이는 과대적합되었다는 확실한 신호임.
- 모델 복잡도를 조정하기 위해서 Ridge 사용

# Ridge

- 가중치(w)의 절댓값을 가능한 한 작게 만들어 과대적합 문제를 해소한 회귀 선형 모델
- Regularization 적용 이유는,\
Bias 수치가 높아지더라도 Variance가 그보다 더 낮아지면 MSE 값을 더 낮출 수 있기 때문임. ( E( y - y^ | X )^2 )식 참고 
- L2 규제 이용 ( w^2 ) ==> λ(↑), t(↓) 일수록 페널티 효과 ↑

In [24]:
from sklearn.linear_model import Ridge

ridge = Ridge(alpha = 0.1).fit(X_train, y_train)

print(f'훈련 정확도: {ridge.score(X_train, y_train):.2f}')
print(f'테스트 정확도: {ridge.score(X_test, y_test):.2f} ')

훈련 정확도: 0.93
테스트 정확도: 0.77 


- 데이터를 충분히 주면 규제 항은 덜 중요해져서 리지 회귀와 선형 회귀의 성능이 같아짐.
- 선형 회귀의 훈련 데이터 성능이 감소 ( 데이터가 많아질수록 모델이 데이터를 기억하거나 고대적합하기 어려워지기 때문 )