# 13장. 선형 회귀

<table align="left"><tr><td>
<a href="https://colab.research.google.com/github/rickiepark/ml-with-python-cookbook-2nd/blob/main/ch13.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="코랩에서 실행하기"/></a>
</td></tr></table>

In [1]:
import numpy as np
import sklearn

print('numpy', np.__version__)
print('sklearn', sklearn.__version__)

numpy 1.25.2
sklearn 1.2.2


## 13.1 직선 학습하기

In [2]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression

# 특성 행렬과 타깃 벡터를 만듭니다.
features, target = make_regression(n_samples = 100,
                                   n_features = 3,
                                   n_informative = 2,
                                   n_targets = 1,
                                   noise = 0.2,
                                   coef = False,
                                   random_state = 1)

# 선형 회귀 모델을 만듭니다.
regression = LinearRegression()

# 선형 회귀 모델을 훈련합니다.
model = regression.fit(features, target)

In [3]:
# 편향을 확인합니다.
model.intercept_

-0.009650118178816669

In [4]:
# 특성의 계수를 확인합니다.
model.coef_

array([1.95531234e-02, 4.42087450e+01, 5.81494563e+01])

In [5]:
# 타깃 벡터의 첫 번째 값
target[0]

-20.870747595269407

In [6]:
# 첫 번째 샘플의 타깃 값을 예측합니다.
model.predict(features)[0]

-20.861927709296808

In [7]:
# 훈련 데이터에 대한 모델의 점수를 출력합니다.
print(model.score(features, target))

0.9999901732607787


### 옮긴이 붙임

In [8]:
regression is model

True

In [9]:
LinearRegression().fit(features, target).predict(features)[0]

-20.861927709296808

## 13.2 교차 특성 다루기

In [10]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.datasets import make_regression

# Generate features matrix, target vector
features, target = make_regression(n_samples = 100,
                                   n_features = 2,
                                   n_informative = 2,
                                   n_targets = 1,
                                   noise = 0.2,
                                   coef = False,
                                   random_state = 1)

# 교차 항을 만듭니다.
interaction = PolynomialFeatures(
    degree=3, include_bias=False, interaction_only=True)
features_interaction = interaction.fit_transform(features)

# 선형 회귀 모델을 만듭니다.
regression = LinearRegression()

# 선형 회귀 모델을 훈련합니다.
model = regression.fit(features_interaction, target)

In [11]:
# 첫 번째 샘플의 특성 값을 확인합니다.
features[0]

array([0.0465673 , 0.80186103])

In [12]:
# 라이브러리를 임포트합니다.
import numpy as np

# 각 샘플에서 첫 번째와 두 번째 특성을 곱합니다.
interaction_term = np.multiply(features[:, 0], features[:, 1])

In [13]:
# 첫 번째 샘플의 교차 항을 확인합니다.
interaction_term[0]

0.037340501965846186

In [14]:
# 첫 번째 샘플의 값을 확인합니다.
features_interaction[0]

array([0.0465673 , 0.80186103, 0.0373405 ])

## 13.3 비선형 관계를 학습하기

In [15]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.datasets import make_regression

# 특성 행렬과 타깃 벡터를 만듭니다.
features, target = make_regression(n_samples = 100,
                                   n_features = 3,
                                   n_informative = 2,
                                   n_targets = 1,
                                   noise = 0.2,
                                   coef = False,
                                   random_state = 1)

# 다항 특성 x^2와 x^3를 만듭니다.
polynomial = PolynomialFeatures(degree=3, include_bias=False)
features_polynomial = polynomial.fit_transform(features)

# 선형 회귀 모델을 만듭니다.
regression = LinearRegression()

# 선형 회귀 모델을 훈련합니다.
model = regression.fit(features_polynomial, target)

In [16]:
# 첫 번째 샘플을 확인합니다.
features[0]

array([ 0.58591043,  0.78477065, -0.95542526])

In [17]:
# 첫 번째 샘플을 x^2로 거듭제곱합니다.
features[0]**2

array([0.34329103, 0.61586497, 0.91283743])

In [18]:
# 첫 번째 샘플을 x^2로 세제곱합니다.
features[0]**3

array([ 0.2011378 ,  0.48331276, -0.87214794])

In [19]:
# 첫 번째 샘플의 x, x^2,x^3 값을 확인합니다.
features_polynomial[0]

array([ 0.58591043,  0.78477065, -0.95542526,  0.34329103,  0.45980531,
       -0.55979363,  0.61586497, -0.74978971,  0.91283743,  0.2011378 ,
        0.26940473, -0.32798893,  0.36084171, -0.43930961,  0.53484097,
        0.48331276, -0.58841296,  0.71636803, -0.87214794])

## 13.4 규제로 분산을 줄이기

In [20]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_regression

# 특성 행렬과 타깃 벡터를 만듭니다.
features, target = make_regression(n_samples = 100,
                                   n_features = 3,
                                   n_informative = 2,
                                   n_targets = 1,
                                   noise = 0.2,
                                   coef = False,
                                   random_state = 1)

# 특성을 표준화합니다.
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# alpha 값을 지정한 릿지 회귀를 만듭니다.
regression = Ridge(alpha=0.5)

# 선형 회귀 모델을 훈련합니다.
model = regression.fit(features_standardized, target)

In [21]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import RidgeCV

# 세 개의 alpha 값에 대한 릿지 회귀를 만듭니다.
regr_cv = RidgeCV(alphas=[0.1, 1.0, 10.0])

# 선형 회귀 모델을 훈련합니다.
model_cv = regr_cv.fit(features_standardized, target)

# 계수를 확인합니다.
model_cv.coef_

array([1.29223201e-02, 4.40972291e+01, 5.38979372e+01])

In [22]:
# alpha 값을 확인합니다.
model_cv.alpha_

0.1

### 옮긴이 붙임

In [23]:
# 5-폴드 교차검증을 사용하여 릿지 회귀를 만듭니다.
regr_cv = RidgeCV(alphas=[0.1, 1.0, 10.0], cv=5)

# 선형 회귀 모델을 훈련합니다.
model_cv = regr_cv.fit(features_standardized, target)

# alpha 값을 확인합니다.
model_cv.alpha_

0.1

## 13.5 라쏘 회귀로 특성 줄이기

In [24]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import Lasso
from sklearn.preprocessing import StandardScaler
from sklearn.datasets import make_regression

# 특성 행렬과 타깃 벡터를 만듭니다.
features, target = make_regression(n_samples = 100,
                                   n_features = 3,
                                   n_informative = 2,
                                   n_targets = 1,
                                   noise = 0.2,
                                   coef = False,
                                   random_state = 1)

# 특성을 표준화합니다.
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

# alpha 값을 지정한 라쏘 회귀를 만듭니다.
regression = Lasso(alpha=0.5)

# 선형 회귀 모델을 훈련합니다.
model = regression.fit(features_standardized, target)

In [25]:
# 계수를 확인합니다.
model.coef_

array([-0.        , 43.58618393, 53.39523724])

In [26]:
# 큰 alpha 값을 지정한 라쏘 회귀를 만듭니다.
regression_a10 = Lasso(alpha=10)
model_a10 = regression_a10.fit(features_standardized, target)
model_a10.coef_

array([-0.        , 32.92181899, 42.73086731])

### 옮긴이 붙임

In [27]:
# 라이브러리를 임포트합니다.
from sklearn.linear_model import LassoCV

# 세 개의 alpha 값에 대한 라쏘 회귀를 만듭니다.
lasso_cv = LassoCV(alphas=[0.1, 1.0, 10.0], cv=5)

# 선형 회귀 모델을 훈련합니다.
model_cv = lasso_cv.fit(features_standardized, target)

# 계수를 확인합니다.
model_cv.coef_

array([ 0.        , 44.03520465, 53.84426278])

In [28]:
# alpha 값을 확인합니다.
model_cv.alpha_

0.1

In [29]:
# 1000개의 alpha 값을 탐색하는 라쏘 회귀를 만듭니다.
lasso_cv = LassoCV(n_alphas=1000, cv=5)

# 선형 회귀 모델을 훈련합니다.
model_cv = lasso_cv.fit(features_standardized, target)

# 계수를 확인합니다.
model_cv.alpha_

0.049136356423491775

In [30]:
lasso_cv.alphas_

array([49.13635642, 48.7977667 , 48.46151014, 48.12757067, 47.79593231,
       47.46657921, 47.13949562, 46.8146659 , 46.49207453, 46.17170608,
       45.85354523, 45.53757676, 45.22378558, 44.91215668, 44.60267515,
       44.29532621, 43.99009515, 43.68696738, 43.38592841, 43.08696385,
       42.7900594 , 42.49520086, 42.20237414, 41.91156523, 41.62276024,
       41.33594534, 41.05110684, 40.76823111, 40.48730462, 40.20831395,
       39.93124575, 39.65608678, 39.38282388, 39.11144398, 38.84193412,
       38.57428139, 38.30847302, 38.04449628, 37.78233855, 37.52198731,
       37.2634301 , 37.00665457, 36.75164842, 36.49839948, 36.24689563,
       35.99712484, 35.74907518, 35.50273479, 35.25809189, 35.01513477,
       34.77385183, 34.53423152, 34.29626239, 34.05993307, 33.82523225,
       33.59214871, 33.36067131, 33.13078897, 32.90249071, 32.67576562,
       32.45060284, 32.22699162, 32.00492127, 31.78438116, 31.56536076,
       31.34784958, 31.13183723, 30.91731339, 30.70426779, 30.49