In [1]:
import numpy as np

## 다항(polynomial) 특성과 교차항(interaction) 특성 생성

### 다항 특성 추가 이유

- 특성과 타깃 사이에 비선형 관계가 있다는 가정을 추가할 때. eg. 주요 질병에 걸릴 확률에 나이가 미치는 영향은 일정한 상숫값이 아니고 나이가 증가함에 따라 같이 증가한다고 가정할 수 있다. 이 효과를 주입하기 위해 고차항 특성을 만든다. x^2, x^3 등

### 교차항 특성 추가 이유

- 한 특성 효과가 다른 특성에 의존하는 경우. eg. 커피가 달달한지 예측할 때 1)설탕을 넣고 2)커피를 젓는 두 가지 특성이 모두 작용해야 커피가 달달하다. 타깃(달달함)에 대한 각 특성의 영향은 서로에게 종속적이다. 따라서 개별 특성을 곱한 교차항을 특성에 추가한다.

### PolynomialFeatures(degree=n, interaction_only=False, include_bias=True)

- degree : 다항식의 최대 차수. eg. degree=2 -> $x_1, x_2, x_1^2, x_2^2$
- 기본적으로 교차항 포함 $x_1x_2$
- interaction_only=True : 교차항만 포함
- include_bias=True : 상수항 1 추가
- 변환 후 get_feature_names_out 메서드는 특성 변환 수식 반환

In [16]:
from sklearn.preprocessing import PolynomialFeatures

features = np.array([[2, 3],
                     [2, 3],
                     [2, 3]])
print('features:\n', features)
polynomial_features = PolynomialFeatures(degree=2, interaction_only=False, include_bias=False)
print('new features:\n', polynomial_features.fit_transform(features))

print('특성 변환 수식:', polynomial_features.get_feature_names_out())

features:
 [[2 3]
 [2 3]
 [2 3]]
new features:
 [[2. 3. 4. 6. 9.]
 [2. 3. 4. 6. 9.]
 [2. 3. 4. 6. 9.]]
특성 변환 수식: ['x0' 'x1' 'x0^2' 'x0 x1' 'x1^2']


## 특성에 함수 적용하여 변환

- 판다스의 apply 메서드 사용
- 사이킷런의 FunctionTransformer, ColumnTransformer 사용

### FunctionTransformer(validate=False)

- validate=True : 입력값이 2차원 배열인지 확인

### ColumnTransformer([(이름, 변환기, 열 리스트), (이름, 변환기, 열 리스트), ...])

- 튜플로 이루어진 리스트를 입력으로 받는다
- ColumnTransformer에 데이터프레임이 아니라 넘파이 배열을 직접 넣을 때 열 리스트를 지정하는 방법은 열 위치를 숫자로 넣으면 된다. eg. 첫 번째 열 -> [0], 두세 번째 열 -> [1, 2]
- 넘파이 배열의 변수명은 fit_transform에서 지정한다. fit_transform(변수명)

In [18]:
from sklearn.preprocessing import FunctionTransformer

features = np.array([[2, 3],
                     [2, 3],
                     [2, 3]])

def add_ten(x):
    return x + 10

ten_transformer = FunctionTransformer(add_ten)
features_ten = ten_transformer.transform(features)
print('함수 적용한 특성:\n', features_ten)

함수 적용한 특성:
 [[12 13]
 [12 13]
 [12 13]]


In [None]:
# validate=True 설정 후 1차원 배열을 넣으면 에러 발생
err_transform = FunctionTransformer(add_ten, validate=True).transform(np.array([1,2,3,4]))

In [53]:
from sklearn.compose import ColumnTransformer

def mul_ten(x):
    return x * 10

ct = ColumnTransformer(
        [('add_ten', FunctionTransformer(add_ten), [0]),
         ('mul_ten', FunctionTransformer(mul_ten), [1])])
ct.fit_transform(features)

array([[12, 30],
       [12, 30],
       [12, 30]])