### 다항 특성과 교차항 특성 생성하기.
다항 특성과 교차항 특성을 만들고 싶다. → 사이킷런의 PolynomialFeatures 사용.
- interaction_only를 True로 지정하면 교차항 특성만 만들 수 있다.
- 특성과 타깃 사이에 비선형 관계가 있다는 가정을 추가할 때 사용.
- 특성의 효과가 다른 특성에 의존하는 경우 개별 특성을 곱한 교차항을 특성에 추가해 인코딩할 수 있다.
- include_bias의 기본값은 True이다. True의 경우 상수항인 1을 추가.

In [1]:
import numpy as np
from sklearn.preprocessing import PolynomialFeatures

features = np.array([[2, 3],
                    [2, 3],
                    [2, 3]])

# 1. 객체 생성
polynomial_interaction = PolynomialFeatures(degree=2, include_bias=False)

# 2, fit_transform method 사용.
polynomial_interaction.fit_transform(features)

array([[2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.]])

In [4]:
only_interaction = PolynomialFeatures(degree=2, include_bias=False, interaction_only=True)

only_interaction.fit_transform(features)

array([[2., 3., 6.],
       [2., 3., 6.],
       [2., 3., 6.]])

In [5]:
polynomial_interaction_withBias = PolynomialFeatures(degree=2)

polynomial_interaction_withBias.fit_transform(features)

array([[1., 2., 3., 4., 6., 9.],
       [1., 2., 3., 4., 6., 9.],
       [1., 2., 3., 4., 6., 9.]])

### 특성 변환하기

하나 이상의 특성에 사용자 정의 변환 적용하기. → 사이킷 런의 FuctionTransformer 사용.
- pandas의 apply method로도 변환을 수행할 수 있다.
- FunctionTransformer의 validate 매개변수가 True이면 2차원 배열만 변환. False이면 1차원 배열도 적용 가능.
- 사이킷런의 Columntransformer는 열마다 다른 변환을 적용 가능.

In [8]:
import numpy as np
from sklearn.preprocessing import FunctionTransformer

featrues = np.array([[2,3],
                     [2,3],
                     [2,3]])

# 1. 함수 정의 
def add_ten(x):
    return x + 15

# 2. 객체 생성
ten_transformer = FunctionTransformer(add_ten)

# 3. 특성 행렬 변환
ten_transformer.transform(features)

array([[17, 18],
       [17, 18],
       [17, 18]])

In [9]:
import pandas as pd

# 1, 데이터 프레임 생성.
df = pd.DataFrame(features, columns=["feature_1", "feature_2"])

# 2. 함수 적용
df.apply(add_ten)

Unnamed: 0,feature_1,feature_2
0,17,18
1,17,18
2,17,18


In [10]:
ten_transformer2 = FunctionTransformer(add_ten, validate=False)

ten_transformer2.transform(np.array([1, 2, 3]))

array([16, 17, 18])

In [15]:
from sklearn.compose import ColumnTransformer

def add_hundred(x):
    return x + 100

ct = ColumnTransformer([("add_ten", FunctionTransformer(add_ten, validate=True), ['feature_1']),
                       ("add_hundred", FunctionTransformer(add_hundred, validate=True), ["feature_2"])])

ct.fit_transform(df)

array([[ 17, 103],
       [ 17, 103],
       [ 17, 103]])