# 多項式・交互作用特徴量の生成

多項式特徴量、交互作用特徴量の2つは、sklearn.preprocessingモジュールの、PolynomialFeatures関数を使うことで、同時に生成することができます。

手順 \
polynomial = PolynomialFeatures(degree=次数, include_bias=False) \
polynomial_result = polynomial.fit_transform(データ)

degreeで指定した次数によって、項目を増やす。 \
例えば、degree=3とした場合で、入力データが$X_1$、$X_2$、$X_3$、であった場合、 \
1次の多項式特徴量：3列 （元の特徴量そのまま） \
  →$X_1$、$X_2$、$X_3$ \
2次の多項式特徴量：3列 （元の特徴量の2乗） \
　→$X_1^2$、$X_2^2$、$X_3^2$ \
2次の交互作用特徴量：3列（2次の組み合わせの数） \
  →$X_1X_2$、$X_1X_3$、$X_2X_3$

## ライブラリのインポート

In [1]:
import numpy as np
# アイリスの計測データ
from sklearn.datasets import load_iris
# データを扱う
import pandas as pd
# グラフ描画
from matplotlib import pyplot as plt
import japanize_matplotlib

The createFontList function was deprecated in Matplotlib 3.2 and will be removed two minor releases later. Use FontManager.addfont instead.
  font_list = font_manager.createFontList(font_files)


In [None]:
# 多項式・交互作用特徴量
from sklearn.preprocessing import PolynomialFeatures
# 特徴量選択
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectFromModel

## テスト用データの読み込み

In [2]:
iris = load_iris()
# アイリスの計測データの各項目
## sepal length (cm)		がく片の長さ
## sepal width (cm)			がく片の幅
## petal length (cm)		花弁の長さ
## petal length (cm)		花弁の幅

# アイリスの計測データを表形式で表示
df_x=pd.DataFrame(iris.data ,columns=iris.feature_names)
df_x.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


## 多項式・交互作用特徴量の生成

In [3]:
polynomial = PolynomialFeatures(degree=3, include_bias=False)
polynomial_arr = polynomial.fit_transform(iris.data)

In [4]:
# polynomial_arrのデータフレーム化 （※カラムはshape[1]でpolynomial_arrの列数分だけ出力）
X_polynomial = pd.DataFrame(polynomial_arr, columns=["poly" + str(x) for x in range(polynomial_arr.shape[1])])

In [5]:
X_polynomial.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 34 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   poly0   150 non-null    float64
 1   poly1   150 non-null    float64
 2   poly2   150 non-null    float64
 3   poly3   150 non-null    float64
 4   poly4   150 non-null    float64
 5   poly5   150 non-null    float64
 6   poly6   150 non-null    float64
 7   poly7   150 non-null    float64
 8   poly8   150 non-null    float64
 9   poly9   150 non-null    float64
 10  poly10  150 non-null    float64
 11  poly11  150 non-null    float64
 12  poly12  150 non-null    float64
 13  poly13  150 non-null    float64
 14  poly14  150 non-null    float64
 15  poly15  150 non-null    float64
 16  poly16  150 non-null    float64
 17  poly17  150 non-null    float64
 18  poly18  150 non-null    float64
 19  poly19  150 non-null    float64
 20  poly20  150 non-null    float64
 21  poly21  150 non-null    float64
 22  po

## 特徴量選択の条件の指定

生成した多項式・交互作用特徴量に対して、不要なものを除外して、必要な特徴量（目的変数と関連性の高い説明変数）を選択する。

In [11]:
# 組み込み法に使うモデルの指定
fs_model = LogisticRegression(penalty='l2', random_state=0)
# 閾値の指定
fs_threshold = "mean"
# 組み込み法モデルの初期化
selector = SelectFromModel(fs_model, threshold=fs_threshold)

In [16]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [12]:
# 特徴量選択の実行
selector.fit(X_polynomial, iris.target)
mask = selector.get_support()
print(mask)

[False False False False  True False  True False False False False  True
 False False  True  True  True False  True  True False  True False  True
  True  True False False False False  True False  True  True]


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [13]:
# 選択された特徴量だけのサンプル取得
X_polynomial_masked = X_polynomial.loc[:, mask]

## 選択された特徴量の表示

In [14]:
print("選択された特徴量の表示（最初の5行）")
print(X_polynomial_masked.head())
print("選択された特徴量の数の確認")
print(X_polynomial_masked.shape)

選択された特徴量の表示（最初の5行）
   poly4  poly6  poly11   poly14  poly15  poly16  poly18  poly19  poly21  \
0  26.01   7.14    1.96  132.651  91.035  36.414  62.475  24.990   9.996   
1  24.01   6.86    1.96  117.649  72.030  33.614  44.100  20.580   9.604   
2  22.09   6.11    1.69  103.823  70.688  28.717  48.128  19.552   7.943   
3  21.16   6.90    2.25   97.336  65.596  31.740  44.206  21.390  10.350   
4  25.00   7.00    1.96  125.000  90.000  35.000  64.800  25.200   9.800   

   poly23  poly24  poly25  poly30  poly32  poly33  
0   0.204  42.875  17.150   2.744   0.056   0.008  
1   0.196  27.000  12.600   2.744   0.056   0.008  
2   0.188  32.768  13.312   2.197   0.052   0.008  
3   0.184  29.791  14.415   3.375   0.060   0.008  
4   0.200  46.656  18.144   2.744   0.056   0.008  
選択された特徴量の数の確認
(150, 15)


In [15]:
print(mask)

[False False False False  True False  True False False False False  True
 False False  True  True  True False  True  True False  True False  True
  True  True False False False False  True False  True  True]
