# 특성 공학과 규제
***
저번 장에서 하나의 특성을 사용해서 선형 회귀 모델을 훈련시켰다. <br>
훈련시킨 모델은 과소적합으로 판정됐다. 이번 장에서는 모델을 좀 더 복잡하게 만들 뿐만 아니라 과대적합된 모델을 억제하는 방법 또한 배울 것이다.

<br><br>


## 다중 회귀
***
선형 회귀 모델은 특성이 많을 수록 효과가 좋다. 농어의 길이와 농어의 두께, 2가지 특성을 이용해서 농어의 무게를 예측하는 선형 회귀 모델을 만들 것이다.

<br><br>

- 다중 회귀 : 여러 개의 특성을 사용한 선형 회귀
<br><br><Br>

[특성 1개 -> 2차원 평면]
![334_linear_regression_20210604111428](https://github.com/user-attachments/assets/a89a71eb-710d-4f79-aecd-eb8d634bd269)

<br><br>

<br>

[특성 2개 -> 3차원 공간]
![fig-regression-variable-space](https://github.com/user-attachments/assets/cd3dd3f9-e854-4131-9de4-87441ff084c5)

<br><br>

특성이 2개가 되면 3차원 공간을 형성한다. <br>
선형 회귀 방정식 <br> $Y$ $=$ $a$ $*$ $x1$ $+$ $b$ $*$ $x2$ $+$ $절편$ <br>
'($타깃$ $=$ $a$ $*$ $특성1$ $+$ $b$ $*$ $특성2$ $+$ $절편$)'

<br><br>

***특성이 많은 고차원에서는 선형 회귀가 매우 복잡한 모델을 표현할 수 있다.***
<br><br><Br>


농어의 무게를 예측하기 위해서 특성을 3개 사용할 것이다. 각각, 농어의 길이, 농어의 높이, 농어의 두께다. <br>
또한, 각 특성을 곱하여 새로운 특성을 만들 것이다.<br>

***기존의 특성을 사용하여 새로운 특성을 뽑아내는 작업을 '특성 공학' 이라고 한다.***

<br><Br>

### 데이터 준비하기
***
농어의 특성 데이터를 웹사이트에 들어가 복사해 붙여넣는 작업은 번거롭다.
하지만 pandas 라이브러리를 사용하면 데이터를 바로 다운로드할 수 있다.

<Br>

- pandas : 데이터 분석 라이브러리로 '데이터프레임' 은 판다스 핵심 데이터 구조다.
<br> 판다스 데이터프레임을 만들기 위해 많이 사용하는 파일은 `csv 파일` 이다.
<br><br>

1. 판다스를 사용해 농어 데이터를 인터넷에서 내려받아 데이터프레임에 저장한다.

2. 넘파이 배열로 변환하여 선형 회귀 모델을 훈련한다.  





In [None]:
import pandas as pd

df = pd.read_csv('https://raw.githubusercontent.com/rickiepark/hg-mldl/master/perch_full.csv')

perch_full = df.to_numpy()
print(perch_full)

[[ 8.4   2.11  1.41]
 [13.7   3.53  2.  ]
 [15.    3.82  2.43]
 [16.2   4.59  2.63]
 [17.4   4.59  2.94]
 [18.    5.22  3.32]
 [18.7   5.2   3.12]
 [19.    5.64  3.05]
 [19.6   5.14  3.04]
 [20.    5.08  2.77]
 [21.    5.69  3.56]
 [21.    5.92  3.31]
 [21.    5.69  3.67]
 [21.3   6.38  3.53]
 [22.    6.11  3.41]
 [22.    5.64  3.52]
 [22.    6.11  3.52]
 [22.    5.88  3.52]
 [22.    5.52  4.  ]
 [22.5   5.86  3.62]
 [22.5   6.79  3.62]
 [22.7   5.95  3.63]
 [23.    5.22  3.63]
 [23.5   6.28  3.72]
 [24.    7.29  3.72]
 [24.    6.38  3.82]
 [24.6   6.73  4.17]
 [25.    6.44  3.68]
 [25.6   6.56  4.24]
 [26.5   7.17  4.14]
 [27.3   8.32  5.14]
 [27.5   7.17  4.34]
 [27.5   7.05  4.34]
 [27.5   7.28  4.57]
 [28.    7.82  4.2 ]
 [28.7   7.59  4.64]
 [30.    7.62  4.77]
 [32.8  10.03  6.02]
 [34.5  10.26  6.39]
 [35.   11.49  7.8 ]
 [36.5  10.88  6.86]
 [36.   10.61  6.74]
 [37.   10.84  6.26]
 [37.   10.57  6.37]
 [39.   11.14  7.49]
 [39.   11.14  6.  ]
 [39.   12.43  7.35]
 [40.   11.93

<br><br>

타깃 데이터는 저번과 동일한 방식으로 준비한다.

In [None]:
import numpy as np
perch_weight = np.array([5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 110.0,
       115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 130.0,
       150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 197.0,
       218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 514.0,
       556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 820.0,
       850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 1000.0,
       1000.0])

In [None]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, random_state=42)

사이킷런에는 특성을 만들고 데이터를 전처리하기 위한 클래스가 존재한다. 이 클래스를 `변환기` 라고 부른다.<BR><BR>

변환기 PolynomialFeatures 클래스는 fit() 메서드의 매개변수로 특성을 넣어, 새로운 특성을 찾는다.
<br>

예를 들어 fit([[2, 3]]) 을 넣었다고 가정하자.
fit() 메서드는 'degree=2' 라는 기본 매개변수를 가지고 있는데, 이것은 제곱을 의미한다. 만일 'degree=3'으로 바꾸면 세제곱까지 특성을 만들게 되는 것이다.<br><br>

돌아와서, fit([[2, 3]]) 은 $2$, $3$, $2^2$, $3^2$, $2$ x $3$, $1(bias)$ 6개의 샘플을 만든다. 각 특성의 제곱과, 특성끼리의 곱, 1(bias) 이다.

<br><Br>

참고로 1은 선형 방정식의 절편에 1을 곱한 값이다. <br>
사이킷런의 선형 모델은 자동으로 절편을 추가하므로 1 특성은 필요 없다.

In [None]:
from sklearn.preprocessing import PolynomialFeatures

poly = PolynomialFeatures()
poly.fit([[2, 3]])

print(poly.transform([[2, 3]]))     # 1은 필요 없다. 지워보자.

[[1. 2. 3. 4. 6. 9.]]


In [None]:
poly = PolynomialFeatures(include_bias=False)
poly.fit([[2, 3]])
print(poly.transform([[2, 3]]))

[[2. 3. 4. 6. 9.]]


절편을 위한 항이 제거되고 특성의 제곱과 특성끼리 곱한 항만 추가되었다.

<br><br>
이제 이 방식을 train_input 에 적용해보자

<br>

In [None]:
poly = PolynomialFeatures(include_bias=False)
poly.fit(train_input)

train_poly = poly.transform(train_input)
print(train_poly)
print()
print(train_poly.shape)

[[  19.6       5.14      3.04    384.16    100.744    59.584    26.4196
    15.6256    9.2416]
 [  22.        5.88      3.52    484.      129.36     77.44     34.5744
    20.6976   12.3904]
 [  18.7       5.2       3.12    349.69     97.24     58.344    27.04
    16.224     9.7344]
 [  17.4       4.59      2.94    302.76     79.866    51.156    21.0681
    13.4946    8.6436]
 [  36.       10.61      6.74   1296.      381.96    242.64    112.5721
    71.5114   45.4276]
 [  25.        6.44      3.68    625.      161.       92.       41.4736
    23.6992   13.5424]
 [  40.       11.93      7.11   1600.      477.2     284.4     142.3249
    84.8223   50.5521]
 [  39.       12.43      7.35   1521.      484.77    286.65    154.5049
    91.3605   54.0225]
 [  43.       11.93      7.28   1849.      512.99    313.04    142.3249
    86.8504   52.9984]
 [  22.        5.64      3.52    484.      124.08     77.44     31.8096
    19.8528   12.3904]
 [  20.        5.08      2.77    400.      101.6    

<br>

어떻게 9개의 특성이 만들어 졌는지 알아보려면 아래의 코드를 입력한다.

In [None]:
poly.get_feature_names_out()

array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2'], dtype=object)

'x0' 은 첫번째 특성<br>
'x0 x1' 은 첫번째와 두번째 특성의 곱<br>
'x0^2' 은 첫번째 특성의 제곱이다.


<br><Br>

이제 테스트 세트를 변환해보자.

In [None]:
test_poly = poly.transform(test_input)

In [None]:
from sklearn.linear_model import LinearRegression
lr = LinearRegression()

lr.fit(train_poly, train_target)

print(lr.score(train_poly, train_target))
print(lr.score(test_poly, test_target))

0.9903183436982125
0.9714559911594111


테스트 세트의 점수가 높아진건 아니지만 과소적합은 해결했다.


<br><br><br>
이번엔 실험 삼아 특성을 많이 추가해보자. 5제곱까지 만들어보자.


In [None]:
poly = PolynomialFeatures(degree=5, include_bias=False)
poly.fit(train_input)

train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)

print(train_poly.shape)

(42, 55)


특성이 55개나 된다. 이제 모델을 훈련해보자.
<br><br>


In [None]:
lr.fit(train_poly, train_target)

print(lr.score(train_poly, train_target))
print(lr.score(test_poly, test_target))

0.9999999999996433
-144.40579436844948


<br>
훈련 세트는 높은 점수를 보이는데 테스트 세트에서 음수가 나와버렸다.
<br>

***특성의 개수를 늘리면 선형 모델은 강력해진다. 훈련 세트에 대해 거의 완벽하게 학습할 수 있다. 하지만 훈련 세트에 너무 과대적합되어 테스트 세트의 점수가 큰 폭으로 낮아진다.***