1. 직선 학습하기
2. 교차 특성
3. 비선형 관계 학습
4. 규제로 분산 줄이기
5. 라소 회귀로 특성 줄이기

### 비선형 관계 
- ex. 학생들의 학습 시간과 시험 점수 사이의 관계
- 더욱 유연한 그래프로 학습시킬 수 있음

#### PolynomialFeatures
- degree = 3 : 다항 특성을 위한 최대 차수 결정 ( x**2, x**3 )
- include_bias = False : 1인 절편값을 포함하지 않을 때

In [56]:
from sklearn.linear_model import LinearRegression
from sklearn.datasets import load_boston
from sklearn.preprocessing import PolynomialFeatures

boston = load_boston()
features = boston.data[:,0:1]
target = boston.target


polynomial = PolynomialFeatures(degree = 3, include_bias = False)
features_polynomial = polynomial.fit_transform(features)

regression = LinearRegression()

model = regression.fit(features_polynomial, target)

In [57]:
features

array([[6.32000e-03],
       [2.73100e-02],
       [2.72900e-02],
       [3.23700e-02],
       [6.90500e-02],
       [2.98500e-02],
       [8.82900e-02],
       [1.44550e-01],
       [2.11240e-01],
       [1.70040e-01],
       [2.24890e-01],
       [1.17470e-01],
       [9.37800e-02],
       [6.29760e-01],
       [6.37960e-01],
       [6.27390e-01],
       [1.05393e+00],
       [7.84200e-01],
       [8.02710e-01],
       [7.25800e-01],
       [1.25179e+00],
       [8.52040e-01],
       [1.23247e+00],
       [9.88430e-01],
       [7.50260e-01],
       [8.40540e-01],
       [6.71910e-01],
       [9.55770e-01],
       [7.72990e-01],
       [1.00245e+00],
       [1.13081e+00],
       [1.35472e+00],
       [1.38799e+00],
       [1.15172e+00],
       [1.61282e+00],
       [6.41700e-02],
       [9.74400e-02],
       [8.01400e-02],
       [1.75050e-01],
       [2.76300e-02],
       [3.35900e-02],
       [1.27440e-01],
       [1.41500e-01],
       [1.59360e-01],
       [1.22690e-01],
       [1.

In [53]:
features_polynomial

array([[6.32000000e-03, 3.99424000e-05, 2.52435968e-07],
       [2.73100000e-02, 7.45836100e-04, 2.03687839e-05],
       [2.72900000e-02, 7.44744100e-04, 2.03240665e-05],
       ...,
       [6.07600000e-02, 3.69177760e-03, 2.24312407e-04],
       [1.09590000e-01, 1.20099681e-02, 1.31617240e-03],
       [4.74100000e-02, 2.24770810e-03, 1.06563841e-04]])

In [54]:
features

array([[6.32000e-03],
       [2.73100e-02],
       [2.72900e-02],
       [3.23700e-02],
       [6.90500e-02],
       [2.98500e-02],
       [8.82900e-02],
       [1.44550e-01],
       [2.11240e-01],
       [1.70040e-01],
       [2.24890e-01],
       [1.17470e-01],
       [9.37800e-02],
       [6.29760e-01],
       [6.37960e-01],
       [6.27390e-01],
       [1.05393e+00],
       [7.84200e-01],
       [8.02710e-01],
       [7.25800e-01],
       [1.25179e+00],
       [8.52040e-01],
       [1.23247e+00],
       [9.88430e-01],
       [7.50260e-01],
       [8.40540e-01],
       [6.71910e-01],
       [9.55770e-01],
       [7.72990e-01],
       [1.00245e+00],
       [1.13081e+00],
       [1.35472e+00],
       [1.38799e+00],
       [1.15172e+00],
       [1.61282e+00],
       [6.41700e-02],
       [9.74400e-02],
       [8.01400e-02],
       [1.75050e-01],
       [2.76300e-02],
       [3.35900e-02],
       [1.27440e-01],
       [1.41500e-01],
       [1.59360e-01],
       [1.22690e-01],
       [1.

In [8]:
model.intercept_

25.190479369326752

In [9]:
model.coef_

array([-1.13640072e+00,  2.37848254e-02, -1.48872090e-04])

In [55]:
model.score(features_polynomial, target)

0.2177048869902171

### 4. 규제로 분산 줄이기 
- Ridge
- Lasso
- ElasticNet
#### 어떤 것을 사용하든지 손실 함수에 계숫값을 포함시킴으로써 크고 복잡한 모델을 불리하게 만든다.

* 표준선형회귀는 잔차제곱합(RSS, 실제와 예측 사이의 제곱 오차 합)을 최소화 하기 위해 훈련함
* 규제를 적용한 학습기 : RSS + @
    * 모델을 축소하려는 경향이 있음 : 전체 계숫값의 합(패널티)를 최소화하는 모델 ( = 축소 페널티)
    * 공식에서 사용하는 축소 페널티의 차이가 Ridge 와 Lasso를 구분시킴

#### Ridge : 라쏘보다 보통 예측력이 좋움
모든 계수의 제곱합에 튜닝 하이퍼파라미터(alpha)를 곱함
#### Lasso : Ridge보다 이해하기 쉬움
모든 계수의 절댓값 합에 튜닝 하이퍼파라미터(alpha)를 곱함 & RSS / 2n 
#### ElasticNet : 두 페널티 사이의 균형 맞춘 모델

### 튜닝 하이퍼파라미터 alpha
RidgeCV를 사용하면 a 선택 가능함

In [61]:
from sklearn.linear_model import Ridge
from sklearn.preprocessing import StandardScaler

boston = load_boston()
features = boston.data
target = boston.target

scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

regression = Ridge(alpha = 0.5)
model = regression.fit(features_standardized, target)


In [62]:
model.score(features_standardized, target)

0.7406395408018003

In [48]:
### alpha 사용
from sklearn.linear_model import RidgeCV
regr_cv = RidgeCV(alphas = [0.1, 1.0,10.0])
model_cv = regr_cv.fit(features_standardized, target)
model_cv.coef_

array([-0.91987132,  1.06646104,  0.11738487,  0.68512693, -2.02901013,
        2.68275376,  0.01315848, -3.07733968,  2.59153764, -2.0105579 ,
       -2.05238455,  0.84884839, -3.73066646])

In [50]:
model_cv.score(features_standardized, target)

0.7406304514762476

* cv_values_  :  ndarray of shape (n_samples, n_alphas) or shape (n_samples, n_targets, n_alphas), optional
* Cross-validation : values for each alpha (only available if store_cv_values=True and cv=None). After fit() has been called, this attribute will contain the mean squared errors (by default) or the values of the {loss,score}_func function (if provided in the constructor).

* coef_ : ndarray of shape (n_features) or (n_targets, n_features) Weight vector(s).

* intercept_ : float or ndarray of shape (n_targets,) Independent term in decision function. Set to 0.0 if fit_intercept = False.

* alpha_ : float Estimated regularization parameter.
* best_score_ : float Score of base estimator with best alpha.

In [20]:
model_cv.alpha_

1.0

### RidgeCV 클래스의 cv 매개변수를 사용해 교차검증 방식 지정 가능  
default : LOOCV   
정수 설정 : GridSearchCV -  가능한 모든 조합 검증   

[ LOOCV ]
    또 다른 교차 검증 방법이다. LOOCV(Leave-one-out cross-validation)도 자주 사용한다.  
    LOOCV 교차 검증은 폴드 하나에 샘플 하나만 들어 있는 k-겹 교차 검증으로 생각할 수 있다.   
    각 반복에서 하나의 데이터 포인트를 선택해 테스트 세트로 사용한다. 특히 데이터셋이 클 경우 시간이 매우 오래 걸린다.   
    그러나 작은 데이터셋에서는 종종 좋은 결과를 만들어낸다.  
출처: https://itchipmunk.tistory.com/195 [다람쥐의 일상]
   
https://brunch.co.kr/@elicecoding/37  

부트스트랩 : 데이터들을 복원추출하여 새롭게 샘플을 만들어내는 방식

### 라쏘회귀로 특성 줄이기

In [58]:
from sklearn.linear_model import Lasso

regression = Lasso(alpha = 0.5)
model = regression.fit(features_standardized, target)

In [59]:
model.coef_

array([-0.11526463,  0.        , -0.        ,  0.39707879, -0.        ,
        2.97425861, -0.        , -0.17056942, -0.        , -0.        ,
       -1.59844856,  0.54313871, -3.66614361])

In [39]:
model.sparse_coef_

<1x13 sparse matrix of type '<class 'numpy.float64'>'
	with 7 stored elements in Compressed Sparse Row format>

In [60]:
model.score(features_standardized, target)

0.6913555608028645

### 라쏘회귀는 모델의 계수를 0까지 축소시킬 수 있음
0 은 사용하지 않는 파라미터  
#### 라소의 a 하이퍼파라미터를 사용하여 가장 중요한 n개만 사용하는 모델을 만들 수 있다. -> 적은 수의 특성을 가짐 -> 따라서 모델을 더 쉽게 이해할 수 있고, 분산이 감소된다. 

In [24]:
from sklearn.linear_model import LassoCV
lasso_cv = LassoCV(alphas = [0.1, 1.0, 10.0], cv = 5)  # 디폴트는 3
model_cv = lasso_cv.fit(features_standardized, target)
model_cv.coef_

array([-0.63230364,  0.70840931, -0.        ,  0.65760723, -1.57419335,
        2.82626903, -0.        , -2.42207901,  1.19593681, -0.84646778,
       -1.92249345,  0.76216539, -3.72618383])

In [25]:
model_cv.alpha_

0.1

In [65]:
from sklearn.linear_model import LassoCV
lasso_cv = LassoCV(n_alphas = 100, cv = 5)  # alpha를 명시하는 대신 개수를 지정해서 자동으로 탐색하게 할 수 있음
model_cv = lasso_cv.fit(features_standardized, target)
print(model_cv.coef_)


[-0.46536551  0.49862271 -0.07400274  0.6433277  -1.30758222  2.9109174
 -0.         -2.03160307  0.37204988 -0.15577827 -1.84603018  0.7126043
 -3.71977274]


In [66]:
model_cv.score(features_standardized, target)

0.7275959854553864

In [28]:
model_cv.alpha_

0.15326173083090813

In [67]:
model_cv.alphas_

array([6.77765364e+00, 6.32086247e+00, 5.89485750e+00, 5.49756383e+00,
       5.12704643e+00, 4.78150066e+00, 4.45924352e+00, 4.15870543e+00,
       3.87842260e+00, 3.61702990e+00, 3.37325419e+00, 3.14590815e+00,
       2.93388447e+00, 2.73615047e+00, 2.55174309e+00, 2.37976415e+00,
       2.21937601e+00, 2.06979749e+00, 1.93030007e+00, 1.80020430e+00,
       1.67887656e+00, 1.56572590e+00, 1.46020121e+00, 1.36178854e+00,
       1.27000855e+00, 1.18441422e+00, 1.10458867e+00, 1.03014309e+00,
       9.60714893e-01, 8.95965924e-01, 8.35580820e-01, 7.79265469e-01,
       7.26745585e-01, 6.77765364e-01, 6.32086247e-01, 5.89485750e-01,
       5.49756383e-01, 5.12704643e-01, 4.78150066e-01, 4.45924352e-01,
       4.15870543e-01, 3.87842260e-01, 3.61702990e-01, 3.37325419e-01,
       3.14590815e-01, 2.93388447e-01, 2.73615047e-01, 2.55174309e-01,
       2.37976415e-01, 2.21937601e-01, 2.06979749e-01, 1.93030007e-01,
       1.80020430e-01, 1.67887656e-01, 1.56572590e-01, 1.46020121e-01,
      

* coef_ndarray of shape (n_features,) or (n_targets, n_features)
    * parameter vector (w in the cost function formula)

* sparse_coef_sparse matrix of shape (n_features, 1) or (n_targets, n_features)
    * sparse representation of the fitted coef_

* intercept_float or ndarray of shape (n_targets,)
    * independent term in decision function.

* n_iter_int or list of int
    * number of iterations run by the coordinate descent solver to reach the specified tolerance.

<1x13 sparse matrix of type '<class 'numpy.float64'>'
	with 7 stored elements in Compressed Sparse Row format>