# 특성 공학(Feature Engineering)

- 차원 축소(Dimension Reduction)

    협의적으로는 아래서 설명하는 특성 추출을 차원 축소와 동일한 개념으로 이해
    
    광의적으로는 아래서 설명하는 두가지 기법을 아우르는 상위 개념
    
    - 특성 선정(Feature Selection)
        - 특성 랭킹(Feature Ranking) 또는 특성 중요도(Feature Importance)에 따라 선정
        - 분석가의 사전 배경 지식을 이용하거나, 랜덤 선정 및 성능 측정을 반복하는 방법 사용
    - 특성 추출(Feature Extraction)
        - 특성을 단순히 선택하는 것이 아니라 특성들의 조합으로 새로운 특성을 생성
    - 스케일링(Scaling)
        - 변수의 분포가 편향되어 있을 경우, 변수 간의 관계가 잘 드러나지 않는 경우 범위 변환
        - 전체 값에 로그나 제곱루트 적용하는 방법 등
    - 변형(Transform)
        - 기존 존재하는 변수의 성질을 이용해 다른 변수를 만드는 방법
        - 날짜별 판매 데이터에 주말 여부를 추가하는 등, 분석가에 경험에 따라 추가 또는 변형
    - 비닝(Binning)
        - 연속형 변수를 범주형 변수로 변환
        - 33살, 47살 -> 30대, 40대
    - 더미(Dummy)
        - 범주형 변수를 연속형 변수로 변환 가능
        - 기존 특성이나 특성의 조합을 규칙에 따라 수치화하여 Dummy Data로 추가

## 데이터 준비

In [1]:
import pandas as pd

### 붙여넣기 귀찮으니 pandas로...

In [2]:
df = pd.read_csv('https://bit.ly/perch_csv_data')
perch_full = df.to_numpy()
print(perch_full)
# {length}, {height}, {width}

[[ 8.4   2.11  1.41]
 [13.7   3.53  2.  ]
 [15.    3.82  2.43]
 [16.2   4.59  2.63]
 [17.4   4.59  2.94]
 [18.    5.22  3.32]
 [18.7   5.2   3.12]
 [19.    5.64  3.05]
 [19.6   5.14  3.04]
 [20.    5.08  2.77]
 [21.    5.69  3.56]
 [21.    5.92  3.31]
 [21.    5.69  3.67]
 [21.3   6.38  3.53]
 [22.    6.11  3.41]
 [22.    5.64  3.52]
 [22.    6.11  3.52]
 [22.    5.88  3.52]
 [22.    5.52  4.  ]
 [22.5   5.86  3.62]
 [22.5   6.79  3.62]
 [22.7   5.95  3.63]
 [23.    5.22  3.63]
 [23.5   6.28  3.72]
 [24.    7.29  3.72]
 [24.    6.38  3.82]
 [24.6   6.73  4.17]
 [25.    6.44  3.68]
 [25.6   6.56  4.24]
 [26.5   7.17  4.14]
 [27.3   8.32  5.14]
 [27.5   7.17  4.34]
 [27.5   7.05  4.34]
 [27.5   7.28  4.57]
 [28.    7.82  4.2 ]
 [28.7   7.59  4.64]
 [30.    7.62  4.77]
 [32.8  10.03  6.02]
 [34.5  10.26  6.39]
 [35.   11.49  7.8 ]
 [36.5  10.88  6.86]
 [36.   10.61  6.74]
 [37.   10.84  6.26]
 [37.   10.57  6.37]
 [39.   11.14  7.49]
 [39.   11.14  6.  ]
 [39.   12.43  7.35]
 [40.   11.93

In [3]:
import numpy as np

# target <- {weight}
perch_weight = np.array(
    [5.9, 32.0, 40.0, 51.5, 70.0, 100.0, 78.0, 80.0, 85.0, 85.0, 
     110.0, 115.0, 125.0, 130.0, 120.0, 120.0, 130.0, 135.0, 110.0, 
     130.0, 150.0, 145.0, 150.0, 170.0, 225.0, 145.0, 188.0, 180.0, 
     197.0, 218.0, 300.0, 260.0, 265.0, 250.0, 250.0, 300.0, 320.0, 
     514.0, 556.0, 840.0, 685.0, 700.0, 700.0, 690.0, 900.0, 650.0, 
     820.0, 850.0, 900.0, 1015.0, 820.0, 1100.0, 1000.0, 1100.0, 
     1000.0, 1000.0]
     )

In [4]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(perch_full, perch_weight, random_state=42)

## 사이킷런의 변환기 (특성 공학을 위한 클래스)

In [5]:
from sklearn.preprocessing import PolynomialFeatures

### PolinomialFeatures class는 default로 각 특성의 제곱항, 두 특성끼리의 곱항, 1을 추가
https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html

In [6]:
poly = PolynomialFeatures()
poly.fit([[2, 3]])
print(poly.transform([[2, 3]]))

[[1. 2. 3. 4. 6. 9.]]


In [7]:
poly.fit([[2, 3, 4, 5]])
print(poly.transform([[2, 3, 4, 5]]))

[[ 1.  2.  3.  4.  5.  4.  6.  8. 10.  9. 12. 15. 16. 20. 25.]]


#### 1은 뺍시다.

In [8]:
poly = PolynomialFeatures(include_bias=False)
poly.fit([[2, 3]])
print(poly.transform([[2, 3]]))

[[2. 3. 4. 6. 9.]]


In [9]:
poly = PolynomialFeatures(include_bias=False)

poly.fit(train_input)
train_poly = poly.transform(train_input)

In [10]:
print(train_poly.shape)

(42, 9)


### PolynomialFeatures class에서는 특성들이 어떻게 만들어졌는지 확인할 수 있는 메서드를 제공합니다.

In [11]:
poly.get_feature_names_out()

array(['x0', 'x1', 'x2', 'x0^2', 'x0 x1', 'x0 x2', 'x1^2', 'x1 x2',
       'x2^2'], dtype=object)

In [12]:
test_poly = poly.transform(test_input)

## 다중 회귀 모델 훈련하기

In [12]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))

0.9903183436982124


In [13]:
print(lr.score(test_poly, test_target))

0.9714559911594122


In [14]:
poly = PolynomialFeatures(degree=5, include_bias=False)

poly.fit(train_input)
train_poly = poly.transform(train_input)
test_poly = poly.transform(test_input)

In [15]:
print(train_poly.shape)

(42, 55)


In [16]:
lr.fit(train_poly, train_target)
print(lr.score(train_poly, train_target))

0.999999999999815


In [17]:
print(lr.score(test_poly, test_target))

-144.40613927413557
