### 정규화 선형회귀
- 선형회귀 계수(가중치)에 대한 제약조건을 추가함으로 모델이 과적합하는 것을 막는 것
- 과적합되면 모델의 가중치가 증가하므로 가중치를 제한한다
- 과대적합 high variance ( 예측합들이 전반적어로 서로 흩어져 있으면 결과의 분산이 높다
- 과소적합 high bias (예측합들이 타겟값과 전반적으로 멀리 떨어져 있으면 편향이 높다

- trade off : 
    - 편향과 분산이 한쪽이 증가하면 다른쪽이 감소
    - 한쪽이 증가할때 다른 한쪽도 증가
    - 모델학습을 할 때 모델이 정교(복잡)해지면 편향이 감소해서 전체 오차가 줄어든다
    - 어느 시점부터는 모델이 계속 학습을 하면서 점점 복잡해지는 순간이 오면 분산이 커지면서 모델의 전체 오차가 증가한다
    - 정규화는 분산을 낮추어 과적합을 막는 방법이고, trade off 는 관계로 인해서 분산을 낮추는 대신 편향을 높아지는 것을 말한다
    
정리  
과적합-> trade off 확인-> 정규화(분산 낮추기)   

데이터 로드 -> 모델생성과 학습 -> 모델 예측 및 평가

exam) 보스턴 집값을 예측하는 연습용 데이터를 선형회귀 실습해보자

In [45]:
#q1) 데이터 로드
from sklearn.datasets import load_boston
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
# data = load_boston()
data = load_diabetes()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, random_state=42)

### 1. Linear

In [46]:
#q2) 모델생성과 학습
from sklearn.linear_model import LinearRegression
# 하이퍼파라미터가 없다 OLS 방식이다
# 선형 회귀 모델 -> Ridge, Lasso -> 경사하강법으로 최적화  -> 학습율에 하이퍼파라미터 옵셥이 있다

LinearRegression = LinearRegression() # 모델 생성
LinearRegression.fit(X_train, y_train)

#q3) 모델 예측 및 평가
score = LinearRegression.score(X_test, y_test)
print("정확도 : ", score)


정확도 :  0.48490866359058016


### 2. Ridge : 선형 회귀의 비용함수에 가중치들의 제곱합을 최소화 하는 제약조건을 추가

In [47]:
#q2) 모델생성과 학습
from sklearn.linear_model import Ridge
# 하이퍼파라미터가 없다 OLS 방식이다
# 선형 회귀 모델 -> Ridge, Lasso -> 경사하강법으로 최적화  -> 학습율에 하이퍼파라미터 옵셥이 있다

Ridge = Ridge(alpha=1.0) # 모델 생성
Ridge.fit(X_train, y_train)

#q3) 모델 예측 및 평가
score = Ridge.score(X_test, y_test)
print("정확도 : ", score)


정확도 :  0.4384009113704954


### 3. Lasso

In [48]:
#q2) 모델생성과 학습
from sklearn.linear_model import Lasso
# 하이퍼파라미터가 없다 OLS 방식이다
# 선형 회귀 모델 -> Ridge, Lasso -> 경사하강법으로 최적화  -> 학습율에 하이퍼파라미터 옵셥이 있다

Lasso = Lasso(alpha=1.0) # 모델 생성
Lasso.fit(X_train, y_train)

#q3) 모델 예측 및 평가
score = Lasso.score(X_test, y_test)
print("정확도 : ", score)


정확도 :  0.37914194389255096


### 4. ElasticNet

In [49]:
#q2) 모델생성과 학습
from sklearn.linear_model import ElasticNet
# 하이퍼파라미터가 없다 OLS 방식이다
# 선형 회귀 모델 -> Ridge, Lasso -> 경사하강법으로 최적화  -> 학습율에 하이퍼파라미터 옵셥이 있다

ElasticNet = ElasticNet(alpha=1.0) # 모델 생성
ElasticNet.fit(X_train, y_train)

#q3) 모델 예측 및 평가
score = ElasticNet.score(X_test, y_test)
print("정확도 : ", score)


정확도 :  -0.004438373013188945


In [52]:
#q3) 정규화 선형회귀 모델별 가중치 비교
# 각 모델의 계수를 직접 비교해서 정규화 준비
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
# 계수를 확인하기 위한 데이터프레임 생성
coefs = np.vstack((LinearRegression.coef_,Ridge.coef_,Lasso.coef_,ElasticNet.coef_))

index = ['LinearRegression','Ridge','Lasso','ElasticNet']

coefs_df = pd.DataFrame(coefs, columns=data.feature_names, index = index)

print('정규화 선형회귀 모델별 가중치(계수) 비교')
coefs_df

# sns.heatmap(coefs_df, cmap='Blues', annot=True, linewidth=.5)
# plt.figure(figsize = (10,5))
# plt.show()

정규화 선형회귀 모델별 가중치(계수) 비교


Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
LinearRegression,47.746571,-241.991804,531.968569,381.565299,-918.490206,508.251474,116.940405,269.485086,695.806221,26.323431
Ridge,50.551555,-67.722365,278.300728,197.624014,-6.245973,-26.226985,-151.394518,120.323196,215.854694,101.755543
Lasso,0.0,-0.0,398.384368,46.178843,0.0,0.0,-0.0,0.0,238.187402,0.0
ElasticNet,0.413088,0.0,3.298991,2.256939,0.33938,0.080784,-1.874661,2.143869,2.947964,1.701981
