In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pylab as plt
import scipy as sp
import scipy.stats as stats
from sklearn.preprocessing import *

In [None]:
"""
sklearn.preprocessing.PolynomialFeatures()를 
이용한 다항차수 변환, 교호작용 변수 생성

회귀분석할 때 다항 차수를 이용해서 
비선형 패턴 관계(non-linear relation)를 나타내거나, 
변수 간 곱을 사용해서 교호작용 효과(interaction effects)을 
나타낼 수 있는 변수 생성
"""

In [2]:
# (1) sklearn.preprocessing.PolynomialFeatures()를 사용해 2차항 변수 만들기

# making data
np.random.seed(0)
x = np.arange(6).reshape(3, 2)
x

array([[0, 1],
       [2, 3],
       [4, 5]])

In [11]:
# making 2-order polynomial features
poly = PolynomialFeatures(degree=2)
poly

PolynomialFeatures(degree=2, include_bias=True, interaction_only=False)

In [12]:
# transform from (x1, x2) to (1, x1, x2, x1^2, x1*x2, x2^2)
poly.fit_transform(x)

array([[  1.,   0.,   1.,   0.,   0.,   1.],
       [  1.,   2.,   3.,   4.,   6.,   9.],
       [  1.,   4.,   5.,  16.,  20.,  25.]])

In [14]:
# 변수가 3개인 경우
x2 = np.arange(9).reshape(3, 3)
x2

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [15]:
# transform from (x1, x2, x3) to 
# (1, x1, x2, x3, x1^2, x1*x2, x1*x3, x2^2, x2*x3, x3^2)
poly.fit_transform(x2)

array([[  1.,   0.,   1.,   2.,   0.,   0.,   0.,   1.,   2.,   4.],
       [  1.,   3.,   4.,   5.,   9.,  12.,  15.,  16.,  20.,  25.],
       [  1.,   6.,   7.,   8.,  36.,  42.,  48.,  49.,  56.,  64.]])

In [19]:
# (2) 교호작용 변수만을 만들기 : interaction_only=True
poly2 = PolynomialFeatures(degree=2, interaction_only=True)
poly2

PolynomialFeatures(degree=2, include_bias=True, interaction_only=True)

In [20]:
# transform from (x1, x2, x3) to 
# (1, x1, x2, x3, x1*x2, x1*x3, x2*x3)

poly2.fit_transform(x2)

array([[  1.,   0.,   1.,   2.,   0.,   0.,   2.],
       [  1.,   3.,   4.,   5.,  12.,  15.,  20.],
       [  1.,   6.,   7.,   8.,  42.,  48.,  56.]])

In [21]:
# transform from (x1, x2, x3) to 
# (1, x1, x2, x3, x1*x2, x1*x3, x2*x3, x1*x2*x3)
poly3 = PolynomialFeatures(degree=3, interaction_only=True)

poly3.fit_transform(x2)

array([[   1.,    0.,    1.,    2.,    0.,    0.,    2.,    0.],
       [   1.,    3.,    4.,    5.,   12.,   15.,   20.,   60.],
       [   1.,    6.,    7.,    8.,   42.,   48.,   56.,  336.]])