# 多项式回归PolynomailFeatures

In [2]:
from sklearn.preprocessing import PolynomialFeatures
import numpy as np

In [3]:
# 生成一个一维的原始数据
x = np.arange(1,4).reshape(-1,1)
x

array([[1],
       [2],
       [3]])

In [5]:
# 二次多项式，参数degree控制多项式的次方
poly = PolynomialFeatures(degree=2)
# 接口transform直接调用
x_ = poly.fit_transform(x)

In [6]:
x_

array([[1., 1., 1.],
       [1., 2., 4.],
       [1., 3., 9.]])

In [7]:
x_.shape

(3, 3)

In [9]:
# 三次多项式
PolynomialFeatures(degree=3).fit_transform(x)

array([[ 1.,  1.,  1.,  1.],
       [ 1.,  2.,  4.,  8.],
       [ 1.,  3.,  9., 27.]])

In [10]:
# 三次多项式，不带与截距相乘的x0
PolynomialFeatures(degree=3,include_bias=False).fit_transform(x)

array([[ 1.,  1.,  1.],
       [ 2.,  4.,  8.],
       [ 3.,  9., 27.]])

In [11]:
# 为什么不希望生成与截距x0相乘的部分呢？因为我们的线性回归并不知道我们已经准备了x0
xxx = PolynomialFeatures(degree=3).fit_transform(x)
xxx.shape

(3, 4)

In [12]:
xxx

array([[ 1.,  1.,  1.,  1.],
       [ 1.,  2.,  4.,  8.],
       [ 1.,  3.,  9., 27.]])

In [14]:
rnd = np.random.RandomState(12)
y = rnd.randn(3)

In [15]:
y

array([ 0.47298583, -0.68142588,  0.2424395 ])

In [17]:
from sklearn.linear_model import LinearRegression
LinearRegression().fit(xxx,y).coef_

array([ 2.22044605e-15, -5.66294100e-01, -9.82061407e-01,  3.36866658e-01])

In [18]:
# 查看截距
LinearRegression().fit(xxx,y).intercept_

1.6844746794326366

In [19]:
# 可以看出截距不在系数中，也就是单独生成的
# 因此我们可以选择：关闭多项式回归中的include_bias
# 也可以选择在线性回归中关闭fit_intercept
LinearRegression(fit_intercept=False).fit(xxx,y).coef_

array([ 1.37189175,  0.00677461, -1.29464434,  0.38896381])

In [20]:
LinearRegression(fit_intercept=False).fit(xxx,y).intercept_

0.0

In [21]:
# 大多数的数据不会像上面这样是一维的，下面使用高维数据进行
x = np.arange(6).reshape(3,2)
x

array([[0, 1],
       [2, 3],
       [4, 5]])

In [23]:
PolynomialFeatures(degree=2).fit_transform(x)

array([[ 1.,  0.,  1.,  0.,  0.,  1.],
       [ 1.,  2.,  3.,  4.,  6.,  9.],
       [ 1.,  4.,  5., 16., 20., 25.]])

In [24]:
PolynomialFeatures(degree=3).fit_transform(x)

array([[  1.,   0.,   1.,   0.,   0.,   1.,   0.,   0.,   0.,   1.],
       [  1.,   2.,   3.,   4.,   6.,   9.,   8.,  12.,  18.,  27.],
       [  1.,   4.,   5.,  16.,  20.,  25.,  64.,  80., 100., 125.]])

In [25]:
# 只生成交互项
PolynomialFeatures(degree=3,interaction_only=True).fit_transform(x)

array([[ 1.,  0.,  1.,  0.],
       [ 1.,  2.,  3.,  6.],
       [ 1.,  4.,  5., 20.]])

In [26]:
# 更高维度的原始特征矩阵
x = np.arange(9).reshape(3,3)
x

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [31]:
PolynomialFeatures(degree=2).fit_transform(x)

array([[ 1.,  0.,  1.,  2.,  0.,  0.,  0.,  1.,  2.,  4.],
       [ 1.,  3.,  4.,  5.,  9., 12., 15., 16., 20., 25.],
       [ 1.,  6.,  7.,  8., 36., 42., 48., 49., 56., 64.]])

In [30]:
PolynomialFeatures(degree=3).fit_transform(x)

array([[  1.,   0.,   1.,   2.,   0.,   0.,   0.,   1.,   2.,   4.,   0.,
          0.,   0.,   0.,   0.,   0.,   1.,   2.,   4.,   8.],
       [  1.,   3.,   4.,   5.,   9.,  12.,  15.,  16.,  20.,  25.,  27.,
         36.,  45.,  48.,  60.,  75.,  64.,  80., 100., 125.],
       [  1.,   6.,   7.,   8.,  36.,  42.,  48.,  49.,  56.,  64., 216.,
        252., 288., 294., 336., 384., 343., 392., 448., 512.]])