# 13.0 소개

---

# 13.1 직선 학습하기

In [30]:
# 라이브러리를 임포트합니다
from sklearn.linear_model import LinearRegression
#from sklearn.datasets import load_boston # 이제 지원하지 않는다
from sklearn.datasets import fetch_california_housing

In [31]:
# 데이터를 로드하고 두 개의 특성만 선택합니다
housing = fetch_california_housing()
features = housing.data[:,0:2]
target = housing.target

In [32]:
# 선형 회귀 모델을 만듭니다
regression = LinearRegression()

In [33]:
# 선형 회귀 모델을 훈련합니다
model = regression.fit(features, target)

In [36]:
model

In [34]:
# 절편을 확인합니다
model.intercept_

-0.10189032759082384

In [35]:
# 특성의 계수를 확인합니다
model.coef_

array([0.43169191, 0.01744134])

In [37]:
# 타깃 벡터의 첫 번째 값에 1000을 곱합니다
target[0]*1000

4526.0

In [24]:
housing

{'data': array([[   8.3252    ,   41.        ,    6.98412698, ...,    2.55555556,
           37.88      , -122.23      ],
        [   8.3014    ,   21.        ,    6.23813708, ...,    2.10984183,
           37.86      , -122.22      ],
        [   7.2574    ,   52.        ,    8.28813559, ...,    2.80225989,
           37.85      , -122.24      ],
        ...,
        [   1.7       ,   17.        ,    5.20554273, ...,    2.3256351 ,
           39.43      , -121.22      ],
        [   1.8672    ,   18.        ,    5.32951289, ...,    2.12320917,
           39.43      , -121.32      ],
        [   2.3886    ,   16.        ,    5.25471698, ...,    2.61698113,
           39.37      , -121.24      ]]),
 'target': array([4.526, 3.585, 3.521, ..., 0.923, 0.847, 0.894]),
 'frame': None,
 'target_names': ['MedHouseVal'],
 'feature_names': ['MedInc',
  'HouseAge',
  'AveRooms',
  'AveBedrms',
  'Population',
  'AveOccup',
  'Latitude',
  'Longitude'],
 'DESCR': '.. _california_housing_dataset:\n

In [38]:
# 첫번째 샘플의 타깃값을 예측하고 1000을 곱합니다.
model.predict(features)[0]*1000

4207.1262638211765

In [39]:
# 한 줄로 수행하기
LinearRegression().fit(features, target).predict(features)[0]*1000

4207.1262638211765

---

# 13.2 교차 특성 다루기

In [40]:
# 라이브러리를 임포트합니다
from sklearn.linear_model import LinearRegression
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import PolynomialFeatures

In [41]:
# 데이터를 로드하고 두 개의 특성만 선택합니다
housing = fetch_california_housing()
features = housing.data[:,0:2]
target = housing.target

In [47]:
# 교차항을 만듭니다
interaction = PolynomialFeatures(degree=3, include_bias=False, interaction_only=True)
features_interaction = interaction.fit_transform(features)

In [48]:
# 선형 회귀 모델을 만듭니다
regression = LinearRegression()

In [49]:
# 선형 회귀 모델을 훈련합니다
model = regression.fit(features_interaction, target)

In [50]:
# 첫번째 샘플의 특성값을 확인합니다
features[0]

array([ 8.3252, 41.    ])

In [51]:
# 라이브러리를 임포트합니다
import numpy as np

# 각 샘플에서 첫번째와 두번째 특성을 곱합니다
interaction_term = np.multiply(features[:, 0], features[:, 1])

In [52]:
# 첫번째 샘플의 교차항을 확인합니다.
interaction_term[0]

341.33320000000003

In [53]:
# 첫번째 샘플의 값을 확인합니다
features_interaction[0]

array([  8.3252,  41.    , 341.3332])

---

# 13.3 비선형 관계 학습하기

In [54]:
# 라이브러리를 임포트합니다
from sklearn.linear_model import LinearRegression
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import PolynomialFeatures

In [55]:
# 데이터를 로드하고 하나의 특성만 선택합니다
housing = fetch_california_housing()
features = housing.data[:,0:1]
target = housing.target

In [56]:
# 다항 특성 x^2와 x^3을 만듭니다
polynomial = PolynomialFeatures(degree=3, include_bias=False)
features_polynomial = polynomial.fit_transform(features)

In [57]:
# 선형 회귀 모델을 만듭니다
regression = LinearRegression()

In [58]:
# 선형 회귀 모델을 훈련합니다
model = regression.fit(features_polynomial, target)

In [59]:
# 첫번째 샘플의 특성값을 확인합니다
features[0]

array([8.3252])

In [60]:
# 첫번째 샘플을 x^2로 거듭제곱합니다
features[0]**2

array([69.30895504])

In [61]:
# 첫번째 샘플을 x^3로 거듭제곱합니다
features[0]**3

array([577.0109125])

In [62]:
# 첫번째 샘플의 값을 확인합니다
features_polynomial[0]

array([  8.3252    ,  69.30895504, 577.0109125 ])

---

# 13.4 규제로 분산 줄이기 : 리지 회귀

In [63]:
# 라이브러리를 임포트합니다
from sklearn.linear_model import Ridge
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import StandardScaler

In [64]:
# 데이터를 로드합니다
housing = fetch_california_housing()
features = housing.data
target = housing.target

In [65]:
# 특성을 표준화합니다
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [66]:
# alpha 값을 지정하여 리지 회귀를 만듭니다
regression = Ridge(alpha=0.5)

In [80]:
# 선형 회귀 모델을 훈련합니다
model = regression.fit(features_standardized, target)

RidgeCV를 사용하여 좋은 alpha 값 선택하기

In [68]:
# 라이브러리를 임포트합니다
from sklearn.linear_model import RidgeCV

In [69]:
# 세 개의 alpha 값에 대한 리지 회귀를 만듭니다
regr_cv = RidgeCV(alphas=[0.1, 1.0, 10.0])

In [70]:
# 선형 회귀 모델을 훈련합니다
model_cv = regr_cv.fit(features_standardized, target)

In [71]:
# 계수를 확인합니다
model_cv.coef_

array([ 0.8293461 ,  0.11939823, -0.26422311,  0.30398067, -0.00427544,
       -0.03936068, -0.8937389 , -0.86433656])

In [72]:
# alpha 값을 확인합니다
model_cv.alpha_

10.0

RidgeCV 클래스의 cv 매개변수를 사용한 교차검증 방식 지정

In [73]:
# 5-Fold 교차검증을 사용하여 리지 회귀를 만듭니다.
regr_cv = RidgeCV(alphas=[0.1, 1.0, 10.0], cv=5)

In [74]:
# 선형 회귀 모델을 훈련합니다
model_cv = regr_cv.fit(features_standardized, target)

In [75]:
# alpha 값을 확인합니다
model_cv.alpha_

10.0

---

# 13.5 라소 회귀로 특성 줄이기

In [77]:
# 라이브러리를 임포트합니다
from sklearn.linear_model import Lasso
from sklearn.datasets import fetch_california_housing
from sklearn.preprocessing import StandardScaler

In [82]:
# 데이터를 로드합니다
housing = fetch_california_housing()
features = housing.data
target = housing.target

In [83]:
# 특성을 표준화합니다
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [84]:
# alpha 값을 지정하여 라소 회귀를 만듭니다
regression = Lasso(alpha=0.5)

In [85]:
# 선형 회귀 모델을 훈련합니다
model = regression.fit(features_standardized, target)

In [86]:
# 계수를 확인합니다
model.coef_

array([ 0.29398939,  0.        ,  0.        , -0.        , -0.        ,
       -0.        , -0.        , -0.        ])

In [89]:
# 큰 alpha 값을 지정한 라소 회귀를 만듭니다
regression_a10 = Lasso(alpha=10)
model_a10 = regression_a10.fit(features_standardized, target)
model_a10.coef_

array([ 0.,  0.,  0., -0., -0., -0., -0., -0.])

라소의 alpha 값을 찾기 위해 LassoCV 클래스를 사용

In [90]:
# 라이브러리를 임포트합니다
from sklearn.linear_model import LassoCV

In [92]:
# 세 개의 alpha 값에 대한 라소 회귀를 만듭니다
lasso_cv = LassoCV(alphas=[0.1, 1.0, 10.0], cv=5)

In [93]:
# 선형 회귀 모델을 훈련합니다
model_cv = lasso_cv.fit(features_standardized, target)

In [94]:
# 계수를 확인합니다
model_cv.coef_

array([ 0.70571337,  0.10601099, -0.        , -0.        , -0.        ,
       -0.        , -0.01121267, -0.        ])

In [95]:
# alpha 값을 확인합니다
model_cv.alpha_

0.1

LassoCV에서 nalphas를 사용해 자동으로 탐색 대상 값 생성하기

In [96]:
# 1000개의 alpha 값을 탐색하는 라소 회귀를 만듭니다
lasso_cv = LassoCV(n_alphas=1000, cv=5)

In [97]:
# 선형 회귀 모델을 훈련합니다
model_cv = lasso_cv.fit(features_standardized, target)

In [98]:
# alpha 값을 확인합니다
model_cv.alpha_

0.0026812865335385004