## 특성 공학과 규제

### 다중 회귀

* 여러 개의 특성을 사용한 선형 회귀
* 기존의 특성을 사용해 새로운 특성을 뽑아내는 작업을 특성 공학(Feature Engineering)이라고 부른다

In [1]:
import pandas as pd

In [5]:
df = pd.read_csv('https://bit.ly/perch_csv_data')
perch_full = df.to_numpy()
print(perch_full)

[[ 8.4   2.11  1.41]
 [13.7   3.53  2.  ]
 [15.    3.82  2.43]
 [16.2   4.59  2.63]
 [17.4   4.59  2.94]
 [18.    5.22  3.32]
 [18.7   5.2   3.12]
 [19.    5.64  3.05]
 [19.6   5.14  3.04]
 [20.    5.08  2.77]
 [21.    5.69  3.56]
 [21.    5.92  3.31]
 [21.    5.69  3.67]
 [21.3   6.38  3.53]
 [22.    6.11  3.41]
 [22.    5.64  3.52]
 [22.    6.11  3.52]
 [22.    5.88  3.52]
 [22.    5.52  4.  ]
 [22.5   5.86  3.62]
 [22.5   6.79  3.62]
 [22.7   5.95  3.63]
 [23.    5.22  3.63]
 [23.5   6.28  3.72]
 [24.    7.29  3.72]
 [24.    6.38  3.82]
 [24.6   6.73  4.17]
 [25.    6.44  3.68]
 [25.6   6.56  4.24]
 [26.5   7.17  4.14]
 [27.3   8.32  5.14]
 [27.5   7.17  4.34]
 [27.5   7.05  4.34]
 [27.5   7.28  4.57]
 [28.    7.82  4.2 ]
 [28.7   7.59  4.64]
 [30.    7.62  4.77]
 [32.8  10.03  6.02]
 [34.5  10.26  6.39]
 [35.   11.49  7.8 ]
 [36.5  10.88  6.86]
 [36.   10.61  6.74]
 [37.   10.84  6.26]
 [37.   10.57  6.37]
 [39.   11.14  7.49]
 [39.   11.14  6.  ]
 [39.   12.43  7.35]
 [40.   11.93

In [4]:
import numpy as np

In [7]:
perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

In [8]:
from sklearn.model_selection import train_test_split

In [9]:
train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, random_state = 42)

In [10]:
from sklearn.preprocessing import PolynomialFeatures

In [12]:
poly = PolynomialFeatures()
poly.fit([[2,3]])
poly.transform([[2,3]])

array([[1., 2., 3., 4., 6., 9.]])

### 4, 9 은 2와 3의 제곱, 6은 2와 3의 곱, 1은 왜 추가?
* 선형 방정식의 절편은 항상 값이 1인 특성과 곱해지는 계수
* 사이킷런의 선형 모델은 자동으로 절편을 추가 -> 절편을 위한 항을 제거해도 OK 

In [None]:
poly = PolynomialFeatures(include_bias = False) # 절편을 위한 항 제거
poly.fit([[2,3]])
poly.transform([[2,3]])

array([[2., 3., 4., 6., 9.]])

In [14]:
poly = PolynomialFeatures(include_bias = False)
poly.fit(train_input)
train_poly = poly.transform(train_input)


In [15]:
test_poly = poly.transform(test_input)

In [16]:
from sklearn.linear_model import LinearRegression

In [17]:
lr = LinearRegression()

In [18]:
lr.fit(train_poly,train_target)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [21]:
print(lr.score(train_poly,train_target))
print(lr.score(test_poly,test_target))

0.9903183436982124
0.9714559911594145


In [None]:
poly = PolynomialFeatures(degree = 5, include_bias = False) # degree는 차수, 5제곱항까지 추가
poly.fit(train_input)
train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)


In [23]:
print(train_poly.shape)
print(test_poly.shape)

(42, 55)
(14, 55)


In [24]:
lr.fit(train_poly,train_target)
lr.score(train_poly,train_target)

0.9999999999996176

In [25]:
lr.score(test_poly,test_target)

-144.40585108215134

### 과적합 발생, 특성의 개수를 크게 늘리면 선형 모델이 강력해진다.
### 하지만 훈련 세트에 과대적합되어, 테스트 세트에서는 형편없는 점수를 만들어낸다

## 규제(Regularization)
* 모델이 훈련 세트를 과도하게 학습하지 못하도록 제한, 즉 모델이 훈련 세트에 과적합되지 않도록 만드는 것
* 선형 회귀 모델의 경우에는, 특성에 곱해지는 계수(또는 기울기)를 작게 만드는 일

In [26]:
from sklearn.preprocessing import StandardScaler