### 정규화 선형회귀
- 선형회귀 계수(가중치)에 대한 제약조건을 추가함으로 모델이 과적합하는 것을 막는 것
- 과적합되면 모델의 가중치가 증가하므로 가중치를 제한한다
- 과대적합 high variance ( 예측합들이 전반적어로 서로 흩어져 있으면 결과의 분산이 높다
- 과소적합 high bias (예측합들이 타겟값과 전반적으로 멀리 떨어져 있으면 편향이 높다

- trade off : 
    - 편향과 분산이 한쪽이 증가하면 다른쪽이 감소
    - 한쪽이 증가할때 다른 한쪽도 증가
    - 모델학습을 할 때 모델이 정교(복잡)해지면 편향이 감소해서 전체 오차가 줄어든다
    - 어느 시점부터는 모델이 계속 학습을 하면서 점점 복잡해지는 순간이 오면 분산이 커지면서 모델의 전체 오차가 증가한다
    - 정규화는 분산을 낮추어 과적합을 막는 방법이고, trade off 는 관계로 인해서 분산을 낮추는 대신 편향을 높아지는 것을 말한다
    
정리  
과적합-> trade off 확인-> 정규화(분산 낮추기)   

### Ridge : 선형 회귀의 비용함수에 가중치들의 제곱합을 최소화 하는 제약조건을 추가

데이터 로드 -> 모델생성과 학습 -> 모델 예측 및 평가

exam) 보스턴 집값을 예측하는 연습용 데이터를 선형회귀 실습해보자

In [7]:
#q1) 데이터 로드
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
data = load_boston()
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, random_state=42)


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

In [12]:
#q2) 모델생성과 학습
from sklearn.linear_model import Ridge
# 하이퍼파라미터가 없다 OLS 방식이다
# 선형 회귀 모델 -> Ridge, Lasso -> 경사하강법으로 최적화  -> 학습율에 하이퍼파라미터 옵셥이 있다

model = Ridge(alpha=1.0) # 모델 생성
model.fit(X_train, y_train)

Ridge()

In [13]:
#q3) 모델 예측 및 평가
score = model.score(X_test, y_test)
print("정확도 : ", score)

정확도 :  0.6789748327846078


In [14]:
#q4) 선형회귀모델은 계수, 절편을 모델의 속성으로 가진다 
# 계수는 feature에 대한 weight 이다 -> feature가 예측에 중요한 역할을 하게 된다.
coefficient = model.coef_
intercept = model.intercept_
print("weight : \n", coefficient)
print("bias : \n", intercept)

weight : 
 [-0.12383039  0.03139178  0.01767668  2.54277179 -8.77249222  4.37980204
 -0.01537349 -1.29086084  0.24406848 -0.01082435 -0.83346553  0.01348642
 -0.53435396]
bias : 
 24.87837047296951
