# 分類寄与率(重要度の評価)
決定木系の学習アルゴリズムで予測過程が作られる。そこで、一つの項目でより多く結果を決定できる項目を見つけることで結果に寄与する項目が見つけられ表計算ソフトなどで人の目で項目の特性を分析する上でより早く正確に条件を見つけやすくなる。また、本書では特筆しないが機械学習の予測パフォーマンスを向上させるうえで学習させる項目について重要度の低い項目を取り除くことで負荷の軽減や精度の向上が期待できる。

# ライブラリのインポート

In [None]:
from sklearn.ensemble import GradientBoostingClassifier as GBC
import pandas as pd

# データの読み込み

In [None]:
df = pd.read_csv("wine.csv")
df.head()

Unnamed: 0,Wine,Alcohol,Malic.acid,Ash,Acl,Mg,Phenols,Flavanoids,Nonflavanoid.phenols,Proanth,Color.int,Hue,OD,Proline
0,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
1,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
2,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
3,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735
4,1,14.2,1.76,2.45,15.2,112,3.27,3.39,0.34,1.97,6.75,1.05,2.85,1450


# 説明変数(X)と目的変数(Y)の分離

In [None]:
y_name = "Wine"
y = df[y_name].values
x_table = df.drop(y_name, axis=1)
x_name = x_table.columns
x = x_table.values

# 学習アルゴリズムの宣言と学習
決定木系のアルゴリズムの中で今回はデータ数も少なく、かつ精度が高い方が分析も正確になるため勾配ブースティング決定木を使用する。ただし本書では分析方法についてが目的であるためパラメータチューニングや最適モデルは割愛するが、実際に考慮するならGridsearchCVや交叉検証などを使うことや予測結果の多数決などをするとよい。

In [None]:
model = GBC()
model.fit(x, y)

GradientBoostingClassifier()

# 重要度の算出
基本的に計算方法は一つの項目でどれだけ分類できるかがその項目の重要度になり、出力される値は相対度数(合計値が1.0になる)となる。特にパラメータを指定しなければジニ係数が使われる。

In [None]:
imp = model.feature_importances_

# 重要度のデータフレーム化
重要度をただ出力するだけでは見にくいためデータフレームに格納して優先分析項目をすぐ見つけられるように重要度を基に降順にする。

In [None]:
dfi = pd.DataFrame(imp)
dfi.index = x_name
dfi.columns = ["imp"]
dfi = dfi.sort_values("imp", ascending=False).T
dfi

Unnamed: 0,Color.int,Proline,Flavanoids,OD,Malic.acid,Mg,Alcohol,Ash,Hue,Acl,Phenols,Nonflavanoid.phenols,Proanth
imp,0.29456,0.274291,0.184567,0.149248,0.03449,0.016357,0.014734,0.012994,0.008127,0.004293,0.003596,0.002713,3e-05
