<a href="https://colab.research.google.com/github/cown0211/machinelearning_with_python/blob/main/ch8_4_%EC%84%A0%ED%98%95_%ED%9A%8C%EA%B7%80_%EB%B6%84%EC%84%9D.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
# 데이터 로드

from sklearn import datasets
raw_boston = datasets.load_boston()


    The Boston housing prices dataset has an ethical problem. You can refer to
    the documentation of this function for further details.

    The scikit-learn maintainers therefore strongly discourage the use of this
    dataset unless the purpose of the code is to study and educate about
    ethical issues in data science and machine learning.

    In this special case, you can fetch the dataset from the original
    source::

        import pandas as pd
        import numpy as np


        data_url = "http://lib.stat.cmu.edu/datasets/boston"
        raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
        data = np.hstack([raw_df.values[::2, :], raw_df.values[1::2, :2]])
        target = raw_df.values[1::2, 2]

    Alternative datasets include the California housing dataset (i.e.
    :func:`~sklearn.datasets.fetch_california_housing`) and the Ames housing
    dataset. You can load the datasets as follows::

        from sklearn.datasets import fetch_california_h

In [2]:
# 타겟 y와 변수 x 분할

x = raw_boston.data
y = raw_boston.target

In [4]:
# train/test 분할

from sklearn.model_selection import train_test_split
x_tn, x_te, y_tn, y_te = train_test_split(x, y, random_state = 1)

In [6]:
# 데이터 표준화

from sklearn.preprocessing import StandardScaler
std_scale = StandardScaler()
std_scale.fit(x_tn)
x_tn_std = std_scale.transform(x_tn)
x_te_std = std_scale.transform(x_te)

# 선형 회귀 분석
---

In [7]:
# 모형 적합

from sklearn.linear_model import LinearRegression
clf_lr = LinearRegression()
clf_lr.fit(x_tn_std, y_tn)

LinearRegression()

In [17]:
# 선형 회귀 분석 계수, 상수항 확인

print("계수:", clf_lr.coef_, "\n") # 계수 = 각 변수 x에 대한 계수
print("상수항:", clf_lr.intercept_) # 상수항 = y 절편

계수: [-1.07145146  1.34036243  0.26298069  0.66554537 -2.49842551  1.97524314
  0.19516605 -3.14274974  2.66736136 -1.80685572 -2.13034748  0.56172933
 -4.03223518] 

상수항: 22.344591029023768


---

# L2 제약식 적용, 릿지 회귀 분석
---

In [46]:
# 모형 적합

from sklearn.linear_model import Ridge
clf_ridge = Ridge(alpha = 100) # alpha의 기본값은 1
clf_ridge.fit(x_tn_std, y_tn)

# Ridge()에서의 alpha는 라그랑주 프리멀 함수의 lambda와 같음, 기본값은 1
# alpha가 0에 가까울수록, 최소 제곱 추정량에 가까워짐
# alpha가 무한에 가까울수록, 릿지해는 0에 가까워짐 -> 상수항만 남는 모형

Ridge(alpha=100)

In [47]:
# 릿지 회귀 분석 계수, 상수항 확인

print("계수:", clf_ridge.coef_, "\n")
print("상수항:", clf_ridge.intercept_)

계수: [-0.71351739  0.5764225  -0.35700495  0.68573874 -0.99769314  2.24950578
 -0.23260543 -1.35268471  0.51015876 -0.34757537 -1.60915641  0.56796918
 -2.85954355] 

상수항: 22.344591029023764


---

# L1 제약식 적용, 라쏘 회귀 분석
---

In [37]:
# 모형 적합

from sklearn.linear_model import Lasso
clf_lasso = Lasso(alpha = 0.001) # Ridge의 alpha와 똑같은 역할, 기본값은 1
clf_lasso.fit(x_tn_std, y_tn)

Lasso(alpha=0.001)

In [38]:
# 라쏘 회귀 분석 계수, 상수항 확인

print("계수:", clf_lasso.coef_, "\n")
print("상수항:", clf_lasso.intercept_)

계수: [-1.06862919  1.33405872  0.25343506  0.66575271 -2.49015836  1.97697978
  0.19035571 -3.1379442   2.64702454 -1.78668828 -2.12836559  0.56075781
 -4.02979744] 

상수항: 22.344591029023768


---

# 엘라스틱 넷
---

In [39]:
# 모형 적합

from sklearn.linear_model import ElasticNet
clf_elastic = ElasticNet(alpha = 0.01, l1_ratio = 0.01) # alpha = L1 제약식의 크기 + L2 제약식의 크기 = 전체 제약식의 크기
clf_elastic.fit(x_tn_std, y_tn)

# l1_ratio는 alpha 값에서 L1 제약이 차지하는 비율 ~ 0과 1사이의 값을 가짐
# l1_ratio = 0 -> L2 제약만 적용하는 Ridge 의미

ElasticNet(alpha=0.01, l1_ratio=0.01)

In [40]:
# 엘라스틱 넷 회귀 분석 계수, 상수항 확인

print("계수:", clf_elastic.coef_, "\n")
print("상수항:", clf_elastic.intercept_)

계수: [-1.02916603  1.23681955  0.15236504  0.67859622 -2.34646781  2.02965524
  0.14575132 -2.98592423  2.32013379 -1.48829485 -2.09271972  0.56506801
 -3.9495281 ] 

상수항: 22.344591029023768


---

# 데이터 예측 및 평가
---

In [48]:
# 각 모형에 대한 예측값 측정

pred_lr = clf_lr.predict(x_te_std)
pred_ridge = clf_ridge.predict(x_te_std)
pred_lasso = clf_lasso.predict(x_te_std)
pred_elastic = clf_elastic.predict(x_te_std)

In [49]:
# 모형 평가 - Rsquared

from sklearn.metrics import r2_score
print("선형 회귀:", r2_score(y_te, pred_lr), "\n")
print("릿지 회귀:", r2_score(y_te, pred_ridge), "\n")
print("라쏘 회귀:", r2_score(y_te, pred_lasso), "\n")
print("엘라스틱 회귀:", r2_score(y_te, pred_elastic))

# Rsq 값은 0과 1 사이 값을 가지며 1에 가까울수록 높은 성능

선형 회귀: 0.7789410172622859 

릿지 회귀: 0.7378492007635227 

라쏘 회귀: 0.778933541111184 

엘라스틱 회귀: 0.7787876079239252


In [51]:
# 모형 평가 - MSE

from sklearn.metrics import mean_squared_error
print("선형 회귀:", mean_squared_error(y_te, pred_lr), "\n")
print("릿지 회귀:", mean_squared_error(y_te, pred_ridge), "\n")
print("라쏘 회귀:", mean_squared_error(y_te, pred_lasso), "\n")
print("엘라스틱 회귀:", mean_squared_error(y_te, pred_elastic))

# MSE는 작을수록 좋은 성능

선형 회귀: 21.897765396049483 

릿지 회귀: 25.968258014099145 

라쏘 회귀: 21.89850597216572 

엘라스틱 회귀: 21.91296189093687


---