# 13장. 선형 회귀

이 노트북을 주피터 노트북 뷰어(nbviewer.jupyter.org)로 보거나 구글 코랩(colab.research.google.com)에서 실행할 수 있습니다.

<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://nbviewer.org/github/rickiepark/machine-learning-with-python-cookbook/blob/master/13.ipynb"><img src="https://jupyter.org/assets/share.png" width="60" />주피터 노트북 뷰어로 보기</a>
  </td>
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/rickiepark/machine-learning-with-python-cookbook/blob/master/13.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />구글 코랩(Colab)에서 실행하기</a>
  </td>
</table>

## 13.1 직선 학습하기

In [1]:
# 보스턴 주택가격 데이터셋의 특성에는 흑인 인구 비율이 들어 있어 요즘 시대에 적절치 않다는 의견이 많았습니다.
# 사이킷런 1.0 버전에서 load_boston() 함수가 deprecated 되었고 1.2 버전에서 삭제될 예정입니다.
# 이와 관련된 경고를 무시하기 위해 다음 코드를 추가합니다.
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

# 라이브러리를 임포트합니다.
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston

# 데이터를 로드하고 두 개의 특성만 선택합니다.
boston = load_boston()
features = boston.data[:,0:2]
target = boston.target

# 선형 회귀 모델을 만듭니다.
regression = LinearRegression()

# 선형 회귀 모델을 훈련합니다.
model = regression.fit(features, target)

In [2]:
# 편향을 확인합니다.
model.intercept_

22.485628113468223

In [3]:
# 특성의 계수를 확인합니다.
model.coef_

array([-0.35207832,  0.11610909])

In [4]:
# 타깃 벡터의 첫 번째 값에 1000을 곱합니다.
target[0]*1000

24000.0

In [5]:
# 첫 번째 샘플의 타깃 값을 예측하고 1000을 곱합니다.
model.predict(features)[0]*1000

24573.366631705547

In [6]:
# 첫 번째 계수에 1000을 곱합니다.
model.coef_[0]*1000

-352.07831564026765

### 옮긴이 붙임

In [7]:
regression is model

True

In [8]:
LinearRegression().fit(features, target).predict(features)[0]*1000

24573.366631705547

## 13.2 교차 특성 다루기

In [9]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
from sklearn.preprocessing import PolynomialFeatures

# 데이터를 로드하고 두 개의 특성만 선택합니다.
boston = load_boston()
features = boston.data[:,0:2]
target = boston.target

# 교차 항을 만듭니다.
interaction = PolynomialFeatures(
    degree=3, include_bias=False, interaction_only=True)
features_interaction = interaction.fit_transform(features)

# 선형 회귀 모델을 만듭니다.
regression = LinearRegression()

# 선형 회귀 모델을 훈련합니다.
model = regression.fit(features_interaction, target)

In [10]:
# 첫 번째 샘플의 특성 값을 확인합니다.
features[0]

array([6.32e-03, 1.80e+01])

In [11]:
# 라이브러리를 임포트합니다.
import numpy as np

# 각 샘플에서 첫 번째와 두 번째 특성을 곱합니다.
interaction_term = np.multiply(features[:, 0], features[:, 1])

In [12]:
# 첫 번째 샘플의 교차 항을 확인합니다.
interaction_term[0]

0.11376

In [13]:
# 첫 번째 샘플의 값을 확인합니다.
features_interaction[0]

array([6.3200e-03, 1.8000e+01, 1.1376e-01])

## 13.3 비선형 관계를 학습하기

In [14]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
from sklearn.preprocessing import PolynomialFeatures

# 데이터를 로드하고 하나의 특성을 선택합니다.
boston = load_boston()
features = boston.data[:,0:1]
target = boston.target

# 다항 특성 x^2와 x^3를 만듭니다.
polynomial = PolynomialFeatures(degree=3, include_bias=False)
features_polynomial = polynomial.fit_transform(features)

# 선형 회귀 모델을 만듭니다.
regression = LinearRegression()

# 선형 회귀 모델을 훈련합니다.
model = regression.fit(features_polynomial, target)

In [15]:
# 첫 번째 샘플을 확인합니다.
features[0]

array([0.00632])

In [16]:
# 첫 번째 샘플을 x^2로 거듭제곱합니다.
features[0]**2

array([3.99424e-05])

In [17]:
# 첫 번째 샘플을 x^2로 세제곱합니다.
features[0]**3

array([2.52435968e-07])

In [18]:
# 첫 번째 샘플의 x, x^2,x^3 값을 확인합니다.
features_polynomial[0]

array([6.32000000e-03, 3.99424000e-05, 2.52435968e-07])

## 13.4 규제로 분산을 줄이기

In [19]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import Ridge
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler

# 데이터를 로드합니다.
boston = load_boston()
features = boston.data
target = boston.target

# 특성을 표준화합니다.
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# alpha 값을 지정한 릿지 회귀를 만듭니다.
regression = Ridge(alpha=0.5)

# 선형 회귀 모델을 훈련합니다.
model = regression.fit(features_standardized, target)

In [20]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import RidgeCV

# 세 개의 alpha 값에 대한 릿지 회귀를 만듭니다.
regr_cv = RidgeCV(alphas=[0.1, 1.0, 10.0])

# 선형 회귀 모델을 훈련합니다.
model_cv = regr_cv.fit(features_standardized, target)

# 계수를 확인합니다.
model_cv.coef_

array([-0.91987132,  1.06646104,  0.11738487,  0.68512693, -2.02901013,
        2.68275376,  0.01315848, -3.07733968,  2.59153764, -2.0105579 ,
       -2.05238455,  0.84884839, -3.73066646])

In [21]:
# alpha 값을 확인합니다.
model_cv.alpha_

1.0

### 옮긴이 붙임

In [22]:
# 5-폴드 교차검증을 사용하여 릿지 회귀를 만듭니다.
regr_cv = RidgeCV(alphas=[0.1, 1.0, 10.0], cv=5)

# 선형 회귀 모델을 훈련합니다.
model_cv = regr_cv.fit(features_standardized, target)

# alpha 값을 확인합니다.
model_cv.alpha_

10.0

## 13.5 라쏘 회귀로 특성 줄이기

In [23]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import Lasso
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler

# 데이터를 로드합니다.
boston = load_boston()
features = boston.data
target = boston.target

# 특성을 표준화합니다.
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# alpha 값을 지정한 라쏘 회귀를 만듭니다.
regression = Lasso(alpha=0.5)

# 선형 회귀 모델을 훈련합니다.
model = regression.fit(features_standardized, target)

In [24]:
# 계수를 확인합니다.
model.coef_

array([-0.11526463,  0.        , -0.        ,  0.39707879, -0.        ,
        2.97425861, -0.        , -0.17056942, -0.        , -0.        ,
       -1.59844856,  0.54313871, -3.66614361])

In [25]:
# 큰 alpha 값을 지정한 라쏘 회귀를 만듭니다.
regression_a10 = Lasso(alpha=10)
model_a10 = regression_a10.fit(features_standardized, target)
model_a10.coef_

array([-0.,  0., -0.,  0., -0.,  0., -0.,  0., -0., -0., -0.,  0., -0.])

### 옮긴이 붙임

In [26]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import LassoCV

# 세 개의 alpha 값에 대한 라쏘 회귀를 만듭니다.
lasso_cv = LassoCV(alphas=[0.1, 1.0, 10.0], cv=5)

# 선형 회귀 모델을 훈련합니다.
model_cv = lasso_cv.fit(features_standardized, target)

# 계수를 확인합니다.
model_cv.coef_

array([-0.63230364,  0.70840931, -0.        ,  0.65760723, -1.57419335,
        2.82626903, -0.        , -2.42207901,  1.19593681, -0.84646778,
       -1.92249345,  0.76216539, -3.72618383])

In [27]:
# alpha 값을 확인합니다.
model_cv.alpha_

0.1

In [28]:
# 1000개의 alpha 값을 탐색하는 라쏘 회귀를 만듭니다.
lasso_cv = LassoCV(n_alphas=1000, cv=5)

# 선형 회귀 모델을 훈련합니다.
model_cv = lasso_cv.fit(features_standardized, target)

# 계수를 확인합니다.
model_cv.alpha_

0.15326173083090813

In [29]:
lasso_cv.alphas_

array([6.77765364, 6.73095006, 6.68456831, 6.63850616, 6.59276142,
       6.54733189, 6.50221542, 6.45740983, 6.41291299, 6.36872277,
       6.32483706, 6.28125375, 6.23797077, 6.19498605, 6.15229752,
       6.10990315, 6.06780092, 6.0259888 , 5.98446481, 5.94322695,
       5.90227325, 5.86160175, 5.82121052, 5.78109761, 5.74126112,
       5.70169913, 5.66240975, 5.62339112, 5.58464135, 5.5461586 ,
       5.50794102, 5.4699868 , 5.43229411, 5.39486116, 5.35768615,
       5.32076731, 5.28410287, 5.24769107, 5.21153018, 5.17561847,
       5.13995423, 5.10453573, 5.0693613 , 5.03442925, 4.99973792,
       4.96528563, 4.93107075, 4.89709163, 4.86334666, 4.82983422,
       4.79655271, 4.76350054, 4.73067612, 4.69807789, 4.66570428,
       4.63355376, 4.60162478, 4.56991582, 4.53842536, 4.50715189,
       4.47609393, 4.44524998, 4.41461857, 4.38419823, 4.35398751,
       4.32398498, 4.29418918, 4.2645987 , 4.23521213, 4.20602805,
       4.17704507, 4.14826181, 4.11967689, 4.09128894, 4.06309