<div style="font-size:14px; color:white; margin:20px">
予測する目的変数が離散値である教師あり学習「分類」を実施<br>
分類の代表的な手法である決定木を用いて、2値の分類を行う。また、過学習にも触れる
</div>

<div style="font-size:14px; color:white; margin:20px">
「大都市圏を持つ都道府県なのか、そうでないか」を目的変数として分類<br>
決定木を用いて機械学習モデルを作成することで、どんな物価の場合が大都市圏として認定されるのかどうかを予測する<br>
</div>

In [2]:
import pandas as pd
data = pd.read_csv('consumerPrices_tree.csv')
data

Unnamed: 0,都道府県,食料,住居,水道光熱費,家具家事用品,衣類,保険医療,交通通信,教育,教養娯楽,諸雑費,大都市圏分類
0,北 海 道,98.7,82.6,116.3,99.3,103.8,100.2,99.5,93.2,97.1,100.9,1
1,青 森 県,97.4,95.7,109.0,96.2,97.1,101.0,100.5,93.2,96.4,97.8,0
2,岩 手 県,96.6,89.4,111.0,102.2,97.8,100.4,99.7,90.1,99.8,97.0,0
3,宮 城 県,97.2,97.1,101.3,104.0,95.6,100.9,97.5,99.5,99.3,99.2,1
4,秋 田 県,97.3,86.1,107.2,103.1,102.4,98.9,98.0,87.1,98.0,100.2,0
5,山 形 県,101.7,91.3,111.6,93.5,105.7,97.0,99.7,105.4,99.1,97.6,0
6,福 島 県,100.0,92.5,108.6,100.9,106.2,99.9,98.8,90.9,96.6,102.9,0
7,茨 城 県,99.1,96.3,101.9,93.0,97.5,98.0,96.7,89.5,95.2,101.4,0
8,栃 木 県,99.5,87.9,96.7,100.3,115.7,99.1,97.7,101.9,94.9,99.8,0
9,群 馬 県,99.1,87.5,91.2,96.9,98.2,100.0,97.1,79.9,95.5,98.9,0


In [4]:
data['大都市圏分類'].value_counts()

0    31
1    16
Name: 大都市圏分類, dtype: int64

<div style="font-size:14px; color:white; margin:20px">
0が31個、1が16個存在することを確認<br>
このデータを教師データとして、決定木を用いて分類を行う
</div>

<div style="font-size:20px; color:pink; margin:20px">
決定木
</div>
<div style="font-size:14px; color:white; margin:20px">
2値もしくは多クラスを分類する際に有効な手法<br>
機械による分類の過程を非常に直感的に理解することが可能<br>
そのため、機械学習本来の目的である未知なデータの予測以外にも、予測に寄与している要因の探索などにも活用できる<br>
端的に言うと、最も綺麗に0と1を分割できる説明変数およびその条件を探す作業を、木構造状に派生させていく手法
</div>

In [28]:
X = data.drop(['都道府県', '大都市圏分類'], axis=1)
Y = data['大都市圏分類']
X.head()

Unnamed: 0,食料,住居,水道光熱費,家具家事用品,衣類,保険医療,交通通信,教育,教養娯楽,諸雑費
0,98.7,82.6,116.3,99.3,103.8,100.2,99.5,93.2,97.1,100.9
1,97.4,95.7,109.0,96.2,97.1,101.0,100.5,93.2,96.4,97.8
2,96.6,89.4,111.0,102.2,97.8,100.4,99.7,90.1,99.8,97.0
3,97.2,97.1,101.3,104.0,95.6,100.9,97.5,99.5,99.3,99.2
4,97.3,86.1,107.2,103.1,102.4,98.9,98.0,87.1,98.0,100.2


<div style="font-size:14px; color:white; margin:20px">
説明変数として物価のデータが、目的変数として大都市圏分類を用意<br>
目的変数が1/0の2値ではあるが、教師データとして説明変数X、目的変数Yを用意する点は、前回の回帰とまったく同じ
</div>

In [7]:
# 機械学習ライブラリscikit-learn(sklearn)のなかから、DecisionTreeClassifier(決定木)を呼び出し
from sklearn.tree import DecisionTreeClassifier
# モデルの条件として、max_depth、random_stateを渡す
# 木の深さ(max_depth)として3階層目までを与える
model = DecisionTreeClassifier(max_depth=3, random_state=0)
# 教師データを先ほど宣言したモデルに代入して、学習を実行し、機械学習モデルを作成
model.fit(X, Y)
# 説明変数Xをモデルに代入し、予測値を出力
model.predict(X)

array([1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1,
       0, 0, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0,
       0])

In [30]:
# データを整えて表示
# model.predict(X)を整形し、predictedへ代入
predicted = pd.DataFrame({'Predicted':model.predict(X)})
# dataとpredictedを結合
data_predicted = pd.concat([data, predicted], axis=1)
data_predicted

Unnamed: 0,都道府県,食料,住居,水道光熱費,家具家事用品,衣類,保険医療,交通通信,教育,教養娯楽,諸雑費,大都市圏分類,Predicted
0,北 海 道,98.7,82.6,116.3,99.3,103.8,100.2,99.5,93.2,97.1,100.9,1,0
1,青 森 県,97.4,95.7,109.0,96.2,97.1,101.0,100.5,93.2,96.4,97.8,0,0
2,岩 手 県,96.6,89.4,111.0,102.2,97.8,100.4,99.7,90.1,99.8,97.0,0,1
3,宮 城 県,97.2,97.1,101.3,104.0,95.6,100.9,97.5,99.5,99.3,99.2,1,1
4,秋 田 県,97.3,86.1,107.2,103.1,102.4,98.9,98.0,87.1,98.0,100.2,0,0
5,山 形 県,101.7,91.3,111.6,93.5,105.7,97.0,99.7,105.4,99.1,97.6,0,0
6,福 島 県,100.0,92.5,108.6,100.9,106.2,99.9,98.8,90.9,96.6,102.9,0,0
7,茨 城 県,99.1,96.3,101.9,93.0,97.5,98.0,96.7,89.5,95.2,101.4,0,0
8,栃 木 県,99.5,87.9,96.7,100.3,115.7,99.1,97.7,101.9,94.9,99.8,0,0
9,群 馬 県,99.1,87.5,91.2,96.9,98.2,100.0,97.1,79.9,95.5,98.9,0,0


<div style="font-size:14px; color:white; margin:20px">
このデータの大都市圏分類が正解のデータで、今回のモデルによって予測した値がPredictedに入っている
</div>

In [12]:
# 精度を数字で出力
# => 全データ数を分母に、教師データと予測データが一致したデータ数を分子とする
sum(model.predict(X)==Y)/len(Y)

0.87234042553191493

<div style="font-size:20px; color:pink; margin:20px">
予測に寄与している変数
</div>
<div style="font-size:14px; color:white; margin:20px">
こちらが、先ほど予測したモデルの木構造であり、決定木が直感的にわかりやすいと言われている所以です。<br>
機械が分類したプロセスの最初は、一番上の教養娯楽が99.85以下なのかどうかで分類しています。<br>
その結果、99.85より大きい場合は9個の都道府県が、class=1、つまり大都市圏に分類できることがわかります。<br>
次に、教養娯楽が99.85以下の38都道府県のなかで、保険医療が99.35以下なのかを分類した際、<br>
99.35以下の場合、14個の都道府県がclass=0に綺麗に分けられるということです。<br>
<br>
決定木のモデルを宣言する際に、max_depth=3としましたが、それはまさに、分岐が3階層という意味です。<br>
当然、この深さを深くすると、より分岐が増え、複雑なモデルを作成することができます。<br>
機械学習モデルを作るというのは、この図からわかるように、どういった分岐をさせれば良いかを決めることです。<br>
この分岐条件を学習によって決定することで、未知なデータが来た際にも、分類することが可能になります。<br>
<br>
さて、この木構造を見ると、教養娯楽、保険医療のみしか説明変数が出てきていません。<br>
これは、珍しいケースで、10項目ある説明変数のうち、ほぼこの2項目で分類が可能であることを示しています。<br>
では、変数の重要度を見てみましょう。
</div>

In [13]:
# 変数の重要度を確認
# => 変数名と機械学習モデルの変数重要度を抽出
#    (model.feature_importances_の部分が、今回のモデルの変数重要度を呼び出している部分)
importance = pd.DataFrame({'変数':X.columns, '重要度':model.feature_importances_})
importance

Unnamed: 0,変数,重要度
0,食料,0.0
1,住居,0.0
2,水道光熱費,0.0
3,家具家事用品,0.0
4,衣類,0.0
5,保険医療,0.266
6,交通通信,0.0
7,教育,0.0
8,教養娯楽,0.734
9,諸雑費,0.0


<div style="font-size:20px; color:pink; margin:20px">
過学習
</div>
<div style="font-size:14px; color:white; margin:20px">
本来、機械学習は未知なデータに対して正しく予測できることが目的<br>
正しくモデル評価を行うためには、あらかじめデータを訓練データとテストデータに分割し、<br>
訓練データでモデルを作成した後、学習に用いていないテストデータを用いてモデル評価を行うのが一般的<br>
手っ取り早くデータを分割するには機械学習ライブラリscikit-learn(sklearn)のなかのtrain_test_splitを用いるのが有効
</div>

In [31]:
# train_test_splitを読み込み
from sklearn.model_selection import train_test_split
# データの分割を行い、説明変数X、目的変数Yをそれぞれ訓練データ、テストデータに分割
# test_size=0.3として、全データの30%をテストデータとする
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, random_state=0, test_size=0.3)
X_train

Unnamed: 0,食料,住居,水道光熱費,家具家事用品,衣類,保険医療,交通通信,教育,教養娯楽,諸雑費
45,99.3,80.5,100.6,94.1,90.1,100.4,99.2,91.3,92.3,96.9
26,99.4,97.6,98.7,99.9,99.1,99.6,101.0,108.9,102.3,96.6
15,100.4,87.3,102.2,101.7,100.0,101.8,97.7,85.7,97.2,102.6
25,100.5,92.3,101.4,100.4,98.7,97.6,102.6,112.3,101.9,101.4
16,103.0,86.0,103.0,99.6,107.2,101.9,98.9,103.2,98.2,101.3
40,97.0,82.6,107.6,96.1,103.9,98.6,98.2,94.8,92.1,98.8
20,97.4,84.1,92.9,94.1,101.9,99.3,100.4,92.5,97.4,99.8
41,99.7,92.8,110.4,100.8,112.3,100.1,100.4,87.1,96.2,101.8
8,99.5,87.9,96.7,100.3,115.7,99.1,97.7,101.9,94.9,99.8
13,102.5,124.7,97.6,101.9,101.7,99.0,104.4,112.6,104.8,102.1


<div style="font-size:14px; color:white; margin:20px">
先ほどと同じ条件で決定木を実行し、モデルの予測まで行なう
</div>

In [32]:
# 決定木によるモデル作成
model = DecisionTreeClassifier(max_depth=3, random_state=0)
model.fit(X_train, Y_train)
# 先ほど算出した精度と同じ計算を簡単に実行するためにmetricsをimport
# => 目的変数Yの正解データと、モデルで予測した値を比較して、正答率を算出
from sklearn import metrics
# テストデータを用いた際の正答率
print(metrics.accuracy_score(Y_test, model.predict(X_test)))
# 訓練データを用いた際の正答率
print(metrics.accuracy_score(Y_train, model.predict(X_train)))

0.666666666667
0.96875


<div style="font-size:14px; color:white; margin:20px">
訓練データでは97%近い精度が出ているが、テストデータにした途端、66%程度にまで精度が下がっている<br>
今回のケースのように、訓練データにモデルがFitしすぎているケースは過学習であると考えられる<br>
過学習の場合、モデルの一般性が失われ、未知のデータに対して良いモデルとは言えない<br>
いくつかパラメータを最適化することで、過学習傾向を脱し、モデルを汎化させることができる<br>
しかし、今回のデータではそもそもデータ数が47個と少ないため、できることが限られてくる<br>
そのため、今回は、モデルの複雑さがモデルにどう影響するかの確認のみを行なう
</div>

<div style="font-size:14px; color:white; margin:20px">
決定木の場合、max_depthを大きくすると、階層が増えるため、よりモデルが複雑になってくる<br>
まずは、max_depthを1に設定し、モデルを簡易化してみる
</div>

In [35]:
model = DecisionTreeClassifier(max_depth=1, random_state=0)
model.fit(X_train, Y_train)
print(metrics.accuracy_score(Y_test, model.predict(X_test)))
print(metrics.accuracy_score(Y_train, model.predict(X_train)))

0.666666666667
0.9375


<div style="font-size:14px; color:white; margin:20px">
訓練データの数字が先ほどよりも少し下がったのを確認<br>
続けて、モデルを複雑な方向に変える
</div>

In [37]:
model = DecisionTreeClassifier(max_depth=5, random_state=0)
model.fit(X_train, Y_train)
print(metrics.accuracy_score(Y_test, model.predict(X_test)))
print(metrics.accuracy_score(Y_train, model.predict(X_train)))

0.666666666667
1.0


<div style="font-size:14px; color:white; margin:20px">
こちらは、逆に訓練データの精度が先ほどよりも増加し、100%の精度が出ています。<br>
しかし、テストデータの精度は上がっておらず、単純にモデルを複雑化しても、<br>
訓練データをよく表現できているモデルに過ぎません。<br>
<br>
今回は、データ数が少ないため、深くは議論できませんが、<br>
良いモデルは、訓練データとテストデータの精度が近い値を示し、かつ精度が高いモデルを指します。<br>
訓練データの精度が高く、テストデータの精度が低い場合は、過学習傾向にあり、<br>
モデルの複雑さを減らしたり、データを増やしたりすることで解決できる場合があります。<br>
常に、モデルの目的を考え、精度に踊らされないようにしていくことが重要です。<br>
<br>
さて、今回は、教師あり学習の分類(決定木)に挑戦しつつ、モデルの評価や過学習に関して取り扱ってきました。<br>
前回よりも一歩進んだ機械学習の世界に触れることができたかと思います。<br>
<br>
ここまでやったことを思い返すと、機械学習のモデルを作る作業は数行で書くことができ、非常に簡単だったかと思います。<br>
しかし、最も重要なのは、ちょっと触って見てモデルが作れた、ではなく、<br>
今回の最後に取り扱ったモデルの精度検証に真摯に向き合っていくことだと思います。<br>
精度検証やデータ分割はいろんな手法があるので、少し調べてみると良いでしょう。<br>
</div>