# 決定木から始める機械学習

In [1]:
try:
    import category_encoders
    import graphviz
except:
    !pip install graphviz
    !pip install category_encoders

In [2]:
# 表形式のデータを操作するためのライブラリ
import pandas as pd

# 機械学習用ライブラリsklearn
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.tree import export_graphviz

# その他
import category_encoders

# グラフ描画ライブラリ
from graphviz import Source
import matplotlib.pyplot as plt
%matplotlib inline


---

## クイズ

以下のコードを実行して`income_df`に格納されるデータは，ある年にアメリカで実施された国勢調査のデータである．

In [3]:
# データの読み込み
income_df = pd.read_table("https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data", sep=',', header=None)

# 列名（特徴）に名前を付ける
income_df.columns = ['age', 'workclass', 'fnlwgt', 'education', 'education-num', 'marital-status', 'occupation', 
                     'relationship', 'race', 'sex', 'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income']

# データ表示（先頭5件）
income_df.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,income
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


データ中の列名（特徴量）の意味は以下の通りである：

* age: 年齢（整数）
* workclass: 雇用形態（公務員，会社員など）
* fnlwgt: 使わない
* education: 学歴
* education-num: 使わない
* marital-status: 婚姻状態
* occupation: 職業
* relationship: 家族内における役割
* race: 人種
* sex: 性別
* capital-gain: 使わない
* capital-loss: 使わない
* hours-per-week: 週あたりの労働時間（整数値）
* native-country: 出身国
* income: 年収（50Kドル以上，50Kドル未満の二値）

このデータに対して決定木アルゴリズムを適用して，ある人物が年間収入が50Kドル以上か未満かを分類する機械学習モデルを構築したい．

(L2-Q1)=
### Q1: ヒストグラム 
機械学習モデルを構築する前に，`income_df`データに含まれる調査対象者の年齢の分布を知りたい．
年齢に関するヒストグラム（階級数は10）を作成せよ．

※ ヒント: ヒストグラムの作成には`pandas.series.hist`関数を用いるとよい（[参考](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.hist.html)）

(L2-Q2)=
### Q2: 出現頻度
機械学習モデルを構築する前に，`income_df`データに含まれる性別，年収の分布を知りたい．
性別（男，女），年収（50K以上，50K未満）について，属性値に対応する人数を求めよ．

※ ヒント: 要素の出現頻度を求めるには`pandas.series.value_counts`メソッドを用いるとよい（[参考](https://note.nkmk.me/python-pandas-value-counts/)）

(L2-Q3)=
### Q3: データの集約
``income_df``データを集約し，学歴ごとに年間収入クラスの内訳（割合）を調べよ．

※ ヒント: pandasの[crosstab](https://pandas.pydata.org/docs/reference/api/pandas.crosstab.html)関数を使う（タイタニックの例でも使ったので，確認してみよう）

(L2-Q4)=
### Q4: 学習のためのデータ分割
`income_df`データに決定木アルゴリズムを適用するために，データを7:3に分割し，7割のデータを学習用データ（`income_train_df`），3割のデータを評価用データ（`income_test_df`）としなさい．

(L2-Q5)=
### Q5: 決定木の構築

以下は，「年齢」「雇用形態」「学歴」「婚姻の有無」「職業」「家族内における役割」「人種」「性別」「週あたりの労働時間」「出身国」の属性に着目して，`income_df`データから年収カテゴリを予測する決定木を構築するコードである．
`# ---------- ` の間を埋めてコードを完成させなさい．

In [9]:
# 注目する属性
target_features = ['age', 'workclass', 'education', 'marital-status', 'occupation', 
                   'relationship', 'race', 'sex', 'hours-per-week', 'native-country']

# 数値に変換したいカテゴリ変数
encoded_features = ['education', 'workclass', 'marital-status', 'relationship', 'occupation', 'native-country', 'race', 'sex']

# カテゴリ変数を数値情報に変換する
encoder = category_encoders.OneHotEncoder(cols=encoded_features, use_cat_names=True)
encoder.fit(income_train_df[target_features])

# ---------------------
# ここから必要なコードを埋める


# ここまで必要なコードを埋める
# ---------------------

# 学習用データを使って学習
model.fit(X_train, y_train)

DecisionTreeClassifier(criterion='entropy', max_depth=5)

(L2-Q6)=
### Q6: 決定木における各属性の寄与度
構築した決定木モデル（`model`）を用いて，年収（`income`）の分類における各属性（列）の寄与度を表示しなさい．
なお，寄与度がゼロのものは表示しなくてよい．

(L2-Q7)=
### Q7: 決定木の再構築
Q6の結果をもとに年収分類に寄与する特徴量を（最大5つ）特定し，その特徴量のみを用いて再度決定木モデルを構築しなさい．
その際，あまり木が深くならないよう調整し，できる限りシンプルなモデルになるようにすること．