# 13.1 직선 학습하기

특성과 타깃 벡터 사이의 선형 관계를 표현하는 모델을 훈련 - 선형 회귀 사용(사이킷런 LinearRegression)

In [8]:
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston

boston = load_boston()
X= boston.data[:,0:2]
Y= boston.target

# 선형회귀 모델 생성
regression = LinearRegression()

# 선형 회귀 모델 훈련
model= regression.fit(X,Y)



In [4]:
# 절편을 확인
model.intercept_

22.485628113468223

In [5]:
model.coef_

array([-0.35207832,  0.11610909])

In [11]:
model.predict(X)[0]*1000

24573.366631705547

In [12]:
regression == model

True

# 13.2 교차 특성 다루기

- 타깃 변수에 영향을 미치면서 다른 특성에 의존하는 특성 : 사이킷 런의 PolynomialFeatures 클래스로 교차항을 만들어 의존성을 잡아냄

In [13]:
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
from sklearn.preprocessing import PolynomialFeatures

# 데이터를 로드하고 두 개의 특성만 선택
boston = load_boston()
X= boston.data[:,0:2]
Y= boston.target

# 교차항을 생성
interaction = PolynomialFeatures(degree=3, include_bias=False, interaction_only = True)
X_interaction = interaction.fit_transform(X)

# 선형 회귀 모델 생성
regression =LinearRegression()

# 선형 회귀모델 훈련
model = regression.fit(X_interaction,Y)



이따금 타깃 변수에 대한 특성의 형향이 부분적으로 또 다른 특성에 의존.

In [16]:
import numpy as np

interaction_term = np.multiply(X[:,0],X[:,1])
interaction_term

array([ 0.11376 ,  0.      ,  0.      ,  0.      ,  0.      ,  0.      ,
        1.103625,  1.806875,  2.6405  ,  2.1255  ,  2.811125,  1.468375,
        1.17225 ,  0.      ,  0.      ,  0.      ,  0.      ,  0.      ,
        0.      ,  0.      ,  0.      ,  0.      ,  0.      ,  0.      ,
        0.      ,  0.      ,  0.      ,  0.      ,  0.      ,  0.      ,
        0.      ,  0.      ,  0.      ,  0.      ,  0.      ,  0.      ,
        0.      ,  0.      ,  0.      ,  2.07225 ,  2.51925 ,  0.      ,
        0.      ,  0.      ,  0.      ,  0.      ,  0.      ,  0.      ,
        0.      ,  0.      ,  1.86333 ,  0.91077 ,  1.1256  ,  1.04601 ,
        1.02    ,  1.1799  ,  1.74675 ,  1.432   ,  3.86125 ,  2.582   ,
        3.733   ,  4.29275 ,  2.75675 ,  3.1625  ,  0.341425,  2.8672  ,
        3.5032  ,  0.723625,  1.69425 ,  1.602   ,  0.      ,  0.      ,
        0.      ,  0.      ,  0.      ,  0.      ,  0.      ,  0.      ,
        0.      ,  0.      ,  1.02825 ,  1.1155  , 

In [17]:
interaction_term[0]

0.11376

두 특성 사이에 하나의 상호 작용이 있다고 믿을만한 이유가 많겠지만  어떨 때는 그렇지 않음. 이런 경우 사이킷런의 PolynomialFeatures를 사용해 특성의 모든 조합에 대한 교차항을 만듬. 그런 다음 모델 선택 전략을 사용해 최선의 모델을 만드는 특성조합과 교차항을 찾음.

PolynomialFeatures를 사용해 교차항을 만들 때 지정해야 하는 세 개의 중요한 매개변수

1. interaction_only = True -> PolynomialFeatures가 오직 교차항만 반환.
2. 기본적으로 PolynomialFeatures는 절편(bias)라고 부르는 1로 채워진 특성을 추가. 이를 원치 않으면 include_bias =False로 지정.
3. degree 매개변수는 교차항을 만들 최대 특성의 수를 결정(세 개의 특성을 조합해 교차항을 만들고 싶은 경우) 해결에서 Polynomialfeatures의 출력으로 부터 첫 번째 샘플의 특성값과 교차항이 수동으로 계산한것과 같은지 확인 가능


In [18]:
# 첫 번째 샘플의 값을 확인
X_interaction[0]

array([6.3200e-03, 1.8000e+01, 1.1376e-01])

# 13.3 비선형 관계 학습

 비선형 관계를 모델링 - 선형 회귀 모델에 다항 특성을 추가하여 다항 회귀를 만듬.

In [2]:
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
from sklearn.preprocessing import PolynomialFeatures


boston = load_boston()
X= boston.data[:, 0:1]
Y = boston.target

# 다항 특성 X^2와 X^3fmf todtjd

polynomial = PolynomialFeatures(degree= 3, include_bias = False)
features_polynomial = polynomial.fit_transform(X)

regression = LinearRegression()

model= regression.fit(X,Y)

# 13.4 규제로 분산 줄이기

선형 회귀의 분산 줄이기 : 리지 회귀나 라소 회귀와 같이 축소 페널티(또는 규제)가 포함된 학습 알고리즘 사용

In [6]:
from sklearn.linear_model import Ridge
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler


boston = load_boston()
X= boston.data
Y = boston.target

# 특성을 표준화함

scaler= StandardScaler()
X_standardized = scaler.fit_transform(X)


# alpha 값을 지정한 리지 회귀를 생성  alpha 책 참조 !!

regression = Ridge(alpha=0.5)

# 선형 회귀 모델 훈련

model = regression.fit(X_standardized,Y)




표준 선형 회귀에서는 모델이 정답과 예측 사이의 제곱 오차 합 또는 잔차 제곱합(RSS-residual sum of squares)를 최소화하기 위해 훈련. 

In [8]:
from sklearn.linear_model import RidgeCV

# 세 개의 alpha 값에 대한 리지 회귀를 만듬.
regr_cv = RidgeCV(alphas=[0.1,1.0,10.0])

# 선형 회귀 모델을 훈련.
model_cv = regr_cv.fit(X_standardized,Y)

# 계수를 확인
model_cv.coef_


array([-0.91987132,  1.06646104,  0.11738487,  0.68512693, -2.02901013,
        2.68275376,  0.01315848, -3.07733968,  2.59153764, -2.0105579 ,
       -2.05238455,  0.84884839, -3.73066646])

In [9]:
# alpha 값을 확인  ## ㅁ

model_cv.alpha_

1.0

RidgeCV 클래스의 cv매개변수를 사용해 교차검증 방식을 지정. 기본값은 None으로 LOOCV방식을 사용 정수를 지정하면 GridSearchCV를 사용해 교차 검증을 수행.

In [12]:
# 5-폴드 교차검증을 사용해 리지 회귀를 만듬.
regr_cv = RidgeCV(alphas=[0.1,1.0,10.0] , cv=5)

# 선형 회귀 모델을 훈련
model_cv =regr_cv.fit(X_standardized, Y)

# alpha 값을 확인.
model_cv.alpha_

10.0

# 13.5 라소 회귀로 특성 줄이기

특성의 수를 줄여서 선형 회귀 모델을 단순하게 만듬. - 라소 회귀를 사용

In [18]:
from sklearn.linear_model import Lasso
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler

boston= load_boston()
X,Y = boston.data, boston.target

# 특성을 표준화
scaler =StandardScaler()
X_standardized = StandardScaler().fit_transform(X)

# alpha 값을 지정한 라소 회귀를 생성.
regression = Lasso(alpha=0.5)

# 선형 회귀 모델을 훈련

model = regression.fit(X_standardized,Y)



array([ 214.24829697,  194.39095648,  213.18671163,  215.97829167,
        208.88806995,  205.69005651,  184.45451345,  160.92698324,
        114.1887127 ,  162.29594325,  154.31493203,  181.9551136 ,
        169.31178276,  191.07311604,  175.05081001,  189.30187371,
        191.71879375,  162.2411087 ,  118.55728898,  176.2537203 ,
        132.2073214 ,  168.41972693,  153.35443268,  146.84931846,
        160.1657274 ,  109.03267522,  155.78123028,  109.13682584,
        171.21285697,  170.57423073,  117.87238852,  162.96694149,
         30.56689273,  132.73104321,   66.56667223,  188.99179504,
        171.86459518,  191.98139169,  185.45964176,  211.01621521,
        220.86482983,  204.65276489,  198.19945257,  198.36990707,
        187.4625128 ,  188.07101317,  173.93377766,  155.24729106,
        111.56596585,  165.69889603,  177.77608616,  192.10770862,
        210.09022828,  197.0165181 ,  166.38072222,  211.40685313,
        206.71295385,  216.16510657,  195.01310817,  189.24742

In [19]:
from sklearn.linear_model import Lasso
from sklearn.datasets import load_boston
from sklearn.preprocessing import StandardScaler

boston= load_boston()
X,Y = boston.data, boston.target

# 특성을 표준화
scaler =StandardScaler()
X_standardized = StandardScaler().fit_transform(X)


# alpha 값을 지정한 라소 회귀를 생성.
regression = Lasso(alpha=0.5)


# 선형 회귀 모델을 훈련
model = regression.fit(X_standardized,Y)



In [None]:
# 라소 회귀 패널티의 한 가지 재미있는 특성은 모델의 계수를 0까지 축소시킬 수 있음. 결국 모델에 있는 특성의 수를 줄일 수 있음. 예를 들어 
#  alpha를 0.5로 지정해 많은 계수가 0이 됌. 즉 이에 해당하는 특성은 모델에서 사용되지 않음

In [20]:
model.coef_

array([-0.11526463,  0.        , -0.        ,  0.39707879, -0.        ,
        2.97425861, -0.        , -0.17056942, -0.        , -0.        ,
       -1.59844856,  0.54313871, -3.66614361])

In [21]:
# a값이 너무 크게 증가하면 어떤 특성도 사용됮 ㅣㅇ낳음


In [22]:
# 큰 alpha 값을 지정한 라소 회귀랄 생성
regression_a10 = Lasso(alpha=10)
model_a10 = regression_a10.fit(X_standardized, Y)
model_a10.coef_

array([-0.,  0., -0.,  0., -0.,  0., -0.,  0., -0., -0., -0.,  0., -0.])

이런 효과의 실제적인 장점은 특성 행렬에 100개의 특성이 있을 때, 라소의 a 하이퍼 파라미터를 조정하여(예를 들면) 가장 중요한 10개의 특성만 사용하는 모델을 만들 수 있음. 이는 (적은 수의 특성이 설명하기 쉽기 때문에) 모델을 더 쉽게 이해할 수 있고 분산이 감소. 

라소의 a값을 찾기 위해 LassoCV 클래스를 사용 가능. LassoCV의 cv매개 변수 기본값은 3으로 3-폴드 교차검증을 사용

In [25]:
from sklearn.linear_model import LassoCV

# 세 개의 alpha 값에 대한 라소 회귀를 만듬.
lasso_cv = LassoCV(alphas=[0.1,1.0,10.0], cv=5)

# 선형 회귀 모델을 훈련.
model_cv = lasso_cv.fit(X_standardized, Y)

# 계수를 확인
model_cv.coef_



array([-0.63230364,  0.70840931, -0.        ,  0.65760723, -1.57419335,
        2.82626903, -0.        , -2.42207901,  1.19593681, -0.84646778,
       -1.92249345,  0.76216539, -3.72618383])

In [27]:
model_cv.alpha_

0.1

LassoCV는 alphas 매개변수에 탐색할 값을 명시적으로 지정하지 않고 n_alphas 매개변수를 사용해 자동으로 탐색 대상 값을 생성할 수 있음. n_alphas의 기본값은 100으로 탐색 후보로 100개의 값을 선정. 이를 100개로 늘려 최적의 a값을 찾음.


In [28]:
# 1000개의 alpha 값을 탐색하는 라소 회귀를 생성.
lasso_cv = LassoCV(n_alphas= 1000, cv=5)

# 선형 회귀 모델을 훈련.
model_cv= lasso_cv.fit(X_standardized, Y)

model_cv.coef_

array([-0.47509958,  0.51087329, -0.06951944,  0.64416411, -1.32325523,
        2.90601026, -0.        , -2.05439547,  0.42015063, -0.19614605,
       -1.85051983,  0.71550534, -3.72013448])

In [29]:
model_cv.alpha_  # 탐색 대상이 된 후보 값은 alpha_ 속성에 저장.

0.15326173083090813