# データ＆ライブラリの読み込み

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import display, Image
import seaborn as sns
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.externals.six import StringIO
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import train_test_split
import pydotplus

In [None]:
df = pd.read_csv("../input/mushrooms.csv", dtype="category")
columns = df.columns.values

print("データ数：", len(df.index))
df.head()

---

# 前処理

### データの確認

Attribute Information: (classes: edible=e, poisonous=p)

- cap-shape: bell=b, conical=c, convex=x,flat=f, knobbed(Umbonate)=k, sunken(Funnel-Shaped)=s

- cap-surface: fibrous=f,grooves=g,scaly=y,smooth=s 

- cap-color: brown=n,buff=b,cinnamon=c,gray=g,green=r,pink=p,purple=u,red=e,white=w,yellow=y

- bruises: bruises=t,no=f

- odor: almond=a,anise=l,creosote=c,fishy=y,foul=f,musty=m,none=n,pungent=p,spicy=s

- gill-attachment: attached=a,descending=d,free=f,notched=n

- gill-spacing: close=c,crowded=w,distant=d

- gill-size: broad=b,narrow=n

- gill-color: black=k,brown=n,buff=b,chocolate=h,gray=g, green=r,orange=o,pink=p,purple=u,red=e,white=w,yellow=y

- stalk-shape: enlarging=e,tapering=t

- stalk-root: bulbous=b,club=c,cup=u,equal=e,rhizomorphs=z,rooted=r,missing=?

- stalk-surface-above-ring: fibrous=f,scaly=y,silky=k,smooth=s

- stalk-surface-below-ring: fibrous=f,scaly=y,silky=k,smooth=s

- stalk-color-above-ring: brown=n,buff=b,cinnamon=c,gray=g,orange=o,pink=p,red=e,white=w,yellow=y

- stalk-color-below-ring: brown=n,buff=b,cinnamon=c,gray=g,orange=o,pink=p,red=e,white=w,yellow=y

- veil-type: partial=p,universal=u

- veil-color: brown=n,orange=o,white=w,yellow=y

- ring-number: none=n,one=o,two=t

- ring-type: cobwebby=c,evanescent=e,flaring=f,large=l,none=n,pendant=p,sheathing=s,zone=z

- spore-print-color: black=k,brown=n,buff=b,chocolate=h,green=r,orange=o,purple=u,white=w,yellow=y

- population: abundant=a,clustered=c,numerous=n,scattered=s,several=v,solitary=y

- habitat: grasses=g,leaves=l,meadows=m,paths=p,urban=u,waste=w,woods=d

⇒ 日本語翻訳

属性情報: (classes: 食用キノコ=e, 毒キノコ=p)

- 傘の形状：bell-shaped=b、conical=c、convex=x、flat=f、knobbed=k、sunken=s

- 傘の表面：fibrous=f、grooves=g、scaly=y、smooth=s

- 傘の色：ブラウン=n、薄黄=b、シナモン=c、グレー=g、グリーン=r、ピンク=p、パープル=u、レッド=e、ホワイト=w、イエロー=y

- 傷：あり=t、無し=f

- 匂い：アーモンド=a、西洋ういきょう=l、クレオソート（正露丸）=c、魚介類=y、腐敗臭=f、黴臭い=m、なし=n、辛味=p、スパイシー=s

- （傘の裏の）襞の付き方：attached=a、descending=d、free=f、notched=n

- 襞の隙間：close=c、crowded=w、distant=d

- 襞の大きさ：広い=b、狭い=n

- 襞の色：黒=k、ブラウン=n、薄黄=b、チョコレート=h、グレー=g、グリーン=r、オレンジ=o、ピンク=p、パープル=u、レッド=e、ホワイト=w、イエロー=y

- 茎の形状：拡大=e、先細り=t

- 茎の根：bulbous=b、club=c、cup=u、equal=e、rhizomorphs=z、rooting=r、missing=？

- 茎の表面（リング上）：fibrous=f、scaly=y、silky=k、smooth=s

- 茎の表面（リング下）：fibrous=f、scaly=y、silky=k、smooth=s

- 茎の色（リング上）：ブラウン=n、薄黄=b、シナモン=c、グレー=g、オレンジ=o、ピンク=p、レッド=e、ホワイト=w、イエロー=y

- 茎の色（リング下）：ブラウン=n、薄黄=b、シナモン=c、グレー=g、オレンジ=o、ピンク=p、レッド=e、ホワイト=w、イエロー=y

- つばの形状：partial=p、universal=u

- つばの色：ブラウン=n、オレンジ=o、ホワイト=w、イエロー=y

- リングの数：none=n、one=o、two=t

- リングの形状：cobwebby=c、evanescent=e、flaring=f、large=l、none=n、pendant=p、sheathing=s、zone=z

- 胞子の印刷色：黒=k、茶色=n、淡色=b、チョコレート=h、緑色=r、橙色=o、紫色=u、白色=w、黄色=y

- 生息数：abundant=a、clustered=c、numerous=n、scattered=s、several=v、solitary=y

- 生息地：牧草地=g、葉っぱ=l、草原=m、道端=p、都市=u、ゴミの山=w、森=d

#### キノコに関する関連リンク集
- [Mushroom Tutorial](https://www.slideshare.net/rayborg/mushroom-tutorial)
- [Fungi of Saskachewan](https://www.usask.ca/biology/fungi/glossary.html)

### 欠損値の確認

In [None]:
df.isnull().sum()

### グラフ化による関係性の把握

In [None]:
# matplotlibで描画
for column in columns :
    plt.figure(figsize=(3,2))
    cat = df[column].value_counts().sort_index()
    plt.title(column)
    display(cat.index.codes)
    plt.bar(cat.index.codes, cat.values, tick_label=cat.index.tolist())
    plt.show()

In [None]:
# seabornで描画
for column in columns:
    ax = sns.factorplot(column, col="class", data=df, size=3.0, aspect=.9, kind="count")

### 有効な変数の推測

以下が、「毒キノコ」を判断する有効な変数と思われる

- 傘の色（cap-color）->「Yellow(y)」か「Red(e)」

- 傷（bruises）->「なし（false）」

- 匂い（odor）->「なし（n）」か「腐敗臭（f）」

- 襞の大きさ（gill-size） -> 「広い（b）」「狭い（n）」

- 襞の色（gill-color） -> 「薄黄（b）」か「not 黒（k）」

- 茎の根（stalk-root） -> 「club(c)」か「missing(?)」

- 上下の茎の表面（stalk-surface） -> 「silky(s)」

- 上下の茎の色（stalk-color） -> 「pink(p)」

- リングの形状（ring-type） -> 「large(l)」

- 胞子の印刷色（spore-print-color） -> 「チョコレート(h)」か「not 黒(k)」か「not 茶色(n)」

- 生息数（population） -> 「several(v)」

- 生息地（habitat） -> 「paths(p)」

### ※追記（Day3以降）

- 最初は上記のように、グラフから有効な変数を見つけようというアプローチを取っていたが、ダミー変数化すると１つの説明変数の中でも相関の高いカテゴリと低いカテゴリがあって、１変数をまとめて削除するアプローチは乱暴すぎると感じた

- よって、今後はこういうアプローチは取らないこととする

- なお、「stalk-color-above-ring」と「stalk-color-below-ring」のように明らかに特徴の同じデータの場合、片方の変数を削除する、という判断には使えると思う

---

# 特徴量エンジニアリング

数値化できる変数だけ先に変更しておく

In [None]:
df['class'] = df['class'].map({'e':0, 'p':1})
df['ring-number'] = df['ring-number'].map({'n':0, 'o':1, 't':2})

また、グラフを確認してわかった、データの特徴がほぼ同じ「stalk-surface-above-ring」と「stalk-surface-below-ring」、および「stalk-color-above-ring」と「stalk-color-below-ring」は、それぞれの"below"変数を削除しておく

In [None]:
df = df.drop(['stalk-surface-below-ring','stalk-color-below-ring'], axis=1)

## ダミー変数化

残った説明変数をすべてダミー変数化する

In [None]:
df_dummy = df.copy()
dummy_columns = ['cap-shape','cap-surface','cap-color','bruises','odor','gill-attachment','gill-spacing','gill-size','gill-color','stalk-shape','stalk-root','stalk-surface-above-ring','stalk-color-above-ring','veil-type','veil-color','ring-number','ring-type','spore-print-color','population','habitat']

for column in dummy_columns:
    df_dummy[column+'_str'] = df[column].astype(str).map(lambda x:column+"_"+x)
    df_dummy = pd.concat([df_dummy, pd.get_dummies(df_dummy[column+'_str'])],axis=1)

drop_columns = dummy_columns.copy()
for column in dummy_columns:
    drop_columns.append(column+"_str")

df_dummy_fin = df_dummy.drop(drop_columns,axis=1)
df_dummy_fin.head()

目的変数である"class"を除けば、「104」の説明変数ができあがった

## 多重共線性の検出

各説明変数間の相関係数を確認して、多重共線性（マルチコ）を検出する

なお、量的データなのでVIFは算出できない

相関係数から目検で確認して変数を削除することとする

In [None]:
df2 = df_dummy_fin.drop(['class'], 1)
df2.corr().style.background_gradient().format('{:.2f}')

とても多すぎて目では確認できない・・

よって、相関係数をMax1.0から0.1ずつ減らして対象の説明（ダミー）変数の組み合わせを抜き出すことにする

In [None]:
# グローバル変数として定義
var2,var3,var4,var5,var6,var7,var8,var9,var10 = [],[],[],[],[],[],[],[],[]

In [None]:
# 相関係数のチェック用関数
def check_coef(df):

    # 初期化
    var10.clear(), var9.clear(), var8.clear(), var7.clear(), var6.clear(), var5.clear(), var4.clear(), var3.clear(), var2.clear()

    for v1 in df.columns:
        for v2 in df.columns:
            if v1==v2:
                continue
            else:
                coef = np.corrcoef(df[v1], df[v2])[0,1]
                cont = v1+","+str(df[v1][df[v1]==1].sum())+",  "+v2+","+str(df[v2][df[v2]==1].sum())
                if abs(coef) == 1.0:
                    var10.append(cont)
                elif abs(coef) >= 0.9 and abs(coef) < 1.0:
                    var9.append(cont)
                elif abs(coef) >= 0.8 and abs(coef) < 0.9:
                    var8.append(cont)
                elif abs(coef) >= 0.7 and abs(coef) < 0.8:
                    var7.append(cont)
                elif abs(coef) >= 0.6 and abs(coef) < 0.7:
                    var6.append(cont)
                elif abs(coef) >= 0.5 and abs(coef) < 0.6:
                    var5.append(cont)
                elif abs(coef) >= 0.4 and abs(coef) < 0.5:
                    var4.append(cont)
                elif abs(coef) >= 0.3 and abs(coef) < 0.4:
                    var3.append(cont)
                elif abs(coef) >= 0.2 and abs(coef) < 0.3:
                    var2.append(cont)

※以下で変数を削除することになるが、基本的に件数が多い方がより良い「特徴」を検出しやすいはず・・という方針のもとに、データ数の少ない変数を削除することとする。

#### 相関係数1.0を削除

In [None]:
check_coef(df2)
sorted(set(var10))

まずは、相関係数1.0の変数の片方だけ削って試してみる

In [None]:
drop_df_10 = ['bruises_t','gill-attachment_a','gill-spacing_w','ring-number_0','ring-type_n','stalk-color-above-ring_c','stalk-color-above-ring_y','gill-size_n','stalk-shape_e']
df_dummy_fin_10 = df_dummy_fin.drop(drop_df_10, 1)

check_coef(df_dummy_fin_10.drop(['class'],1))
sorted(set(var10))

相関1.0が無くなったことを確認したので、データ分割して学習

In [None]:
x_train10, x_test10, y_train10, y_test10 = train_test_split(df_dummy_fin_10.drop("class",axis=1), df_dummy_fin_10['class'], test_size=0.3, random_state=12345)

ロジスティクス回帰で学習し、混同行列を試してみる

In [None]:
lr = LogisticRegression()
lr.fit(x_train10,y_train10)
print(classification_report(y_test10,lr.predict(x_test10)))

In [None]:
print(confusion_matrix(y_test10,lr.predict(x_test10)))

1.0のまま。。

よって、同じ手順を繰り返して、0.9 -> 0.8 -> 0.7 ... と順番に削ってみる

#### （補足：Conflusion MatrixとClassification Reportについて）

上記のconfusion_matrixとclassification_reportの表は、混乱しやすいので頭の整理が必要

confusion_matrixで表示される表は以下のような構成になっている

| |Positive|Negative|
|--|--|--|
|True|TP|TN|
|False|FP|FN|

しかし、classification_reportで表示されるのは、以下である

| |presicion(Predict Accuracy)|recall(True Value Accuracy)|
|--|--|--|
|0|TP/(TP+FP)|TP/(TP+TN)|
|1|FN(TN+FN)|FN(FP+FN)|

しかも、左側の「0」と「1」の値が「Positive/Negative」や「True/False」に対応しているのかと思いきや、全く関係ない。おそらく、左の「0」「1」は単なる行番号で、むしろ　「0」の方が「Positive/True」、「1」の方が「Negative/False」に対応しており、逆になっていて直観的に大変わかりづらい。。

似ているが、全く違う表だということを忘れないように頭に叩き込んでおく。

#### 相関係数0.9以上を削除

In [None]:
check_coef(df_dummy_fin_10.drop(['class'], 1))
sorted(set(var9))

In [None]:
drop_df_9 = ['stalk-color-above-ring_o','veil-color_w','ring-number_2']
df_dummy_fin_9 = df_dummy_fin_10.drop(drop_df_9,axis=1)

check_coef(df_dummy_fin_9.drop(['class'],1))
sorted(set(var9))

In [None]:
x_train9, x_test9, y_train9, y_test9 = train_test_split(df_dummy_fin_9.drop("class",axis=1), df_dummy_fin_9['class'], test_size=0.3, random_state=12345)

lr = LogisticRegression()
lr.fit(x_train9,y_train9)
print(classification_report(y_test9,lr.predict(x_test9)))

In [None]:
print(confusion_matrix(y_test9,lr.predict(x_test9)))

1.0のまま。変わらず。

#### 相関係数0.8以上を削除

In [None]:
check_coef(df_dummy_fin_9.drop(['class'], 1))
sorted(set(var8))

In [None]:
drop_df_8 = ['gill-color_b','ring-type_l','stalk-root_?','stalk-surface-above-ring_k']
df_dummy_fin_8 = df_dummy_fin_9.drop(drop_df_8,axis=1)

check_coef(df_dummy_fin_8.drop(['class'],1))
sorted(set(var8))

In [None]:
x_train8, x_test8, y_train8, y_test8 = train_test_split(df_dummy_fin_8.drop("class",axis=1), df_dummy_fin_8['class'], test_size=0.3, random_state=12345)

lr = LogisticRegression()
lr.fit(x_train8,y_train8)
print(classification_report(y_test8,lr.predict(x_test8)))

In [None]:
print(confusion_matrix(y_test8,lr.predict(x_test8)))

変わらず

#### 相関係数0.7以上を削除

In [None]:
check_coef(df_dummy_fin_8.drop(['class'], 1))
sorted(set(var7))

In [None]:
drop_df_7 = ['ring-type_p','cap-shape_f','gill-color_e','population_c','stalk-color-above-ring_e','spore-print-color_h']
df_dummy_fin_7 = df_dummy_fin_8.drop(drop_df_7,axis=1)

check_coef(df_dummy_fin_7.drop(['class'],1))
sorted(set(var7))

In [None]:
x_train7, x_test7, y_train7, y_test7 = train_test_split(df_dummy_fin_7.drop("class",axis=1), df_dummy_fin_7['class'], test_size=0.3, random_state=12345)

lr = LogisticRegression()
lr.fit(x_train7,y_train7)
print(classification_report(y_test7,lr.predict(x_test7)))

In [None]:
print(confusion_matrix(y_test7,lr.predict(x_test7)))

まだ変わらず。

#### 相関係数0.6以上を削除

In [None]:
check_coef(df_dummy_fin_7.drop(['class'], 1))
list(set(var6))

In [None]:
drop_df_6 = ['ring-type_e','veil-color_n','stalk-color-above-ring_p','veil-color_o','habitat_m','spore-print-color_w']
df_dummy_fin_6 = df_dummy_fin_7.drop(drop_df_6,1)

check_coef(df_dummy_fin_6.drop(['class'],1))
sorted(set(var6))

In [None]:
x_train6, x_test6, y_train6, y_test6 = train_test_split(df_dummy_fin_6.drop("class",axis=1), df_dummy_fin_6['class'], test_size=0.3, random_state=12345)

lr = LogisticRegression()
lr.fit(x_train6,y_train6)
print(classification_report(y_test6,lr.predict(x_test6)))

In [None]:
print(confusion_matrix(y_test6,lr.predict(x_test6)))

これでもまだ変わらないのか。。。

In [None]:
len(df_dummy_fin_6.columns)

#### 相関係数0.5以上を削除

In [None]:
check_coef(df_dummy_fin_6.drop(['class'], 1))
list(set(var5))

In [None]:
drop_df_5 = ['stalk-root_e','stalk-root_c','odor_a','odor_l','population_n','population_a','habitat_w','gill-color_y','spore-print-color_r','gill-color_o','ring-type_f','gill-color_r','stalk-surface-above-ring_y','cap-color_r','cap-color_u','veil-color_y','cap-surface_f','cap-surface_s','habitat_g','population_y','odor_f','population_v','habitat_d','bruises_f']
df_dummy_fin_5 = df_dummy_fin_6.drop(drop_df_5,1)

check_coef(df_dummy_fin_5.drop(['class'],1))
sorted(set(var5))

In [None]:
x_train5, x_test5, y_train5, y_test5 = train_test_split(df_dummy_fin_5.drop("class",axis=1), df_dummy_fin_5['class'], test_size=0.3, random_state=12345)

lr = LogisticRegression()
lr.fit(x_train5,y_train5)
print(classification_report(y_test5,lr.predict(x_test5)))

In [None]:
print(confusion_matrix(y_test5,lr.predict(x_test5)))

少しだけ変化が・・・

#### 相関係数0.4以上を削除

In [None]:
check_coef(df_dummy_fin_5.drop(['class'], 1))
list(set(var4))

In [None]:
drop_df_4 = ['habitat_l','odor_s','odor_y','stalk-surface-above-ring_f','spore-print-color_b','spore-print-color_o','spore-print-color_y','cap-color_y','odor_n','stalk-root_b']
df_dummy_fin_4 = df_dummy_fin_5.drop(drop_df_4,1)

check_coef(df_dummy_fin_4.drop(['class'],1))
sorted(set(var4))

In [None]:
x_train4, x_test4, y_train4, y_test4 = train_test_split(df_dummy_fin_4.drop("class",axis=1), df_dummy_fin_4['class'], test_size=0.3, random_state=12345)

lr = LogisticRegression()
lr.fit(x_train4,y_train4)
print(classification_report(y_test4,lr.predict(x_test4)))

In [None]:
print(confusion_matrix(y_test4,lr.predict(x_test4)))

こうなったら減らせるところまで減らしてみる

#### 相関係数3.0以上を削除

In [None]:
check_coef(df_dummy_fin_4.drop(['class'], 1))
list(set(var3))

In [None]:
drop_df_3 = ['cap-color_g','cap-color_e','population_s','cap-color_w','cap-shape_k','gill-color_g','stalk-color-above-ring_g','stalk-color-above-ring_n','stalk-color-above-ring_b','habitat_u','odor_p','odor_c','cap-color_p','spore-print-color_k','spore-print-color_n','cap-surface_y','stalk-color-above-ring_w','stalk-shape_t']
df_dummy_fin_3 = df_dummy_fin_4.drop(drop_df_3,1)

check_coef(df_dummy_fin_3.drop(['class'],1))
sorted(set(var3))

In [None]:
x_train3, x_test3, y_train3, y_test3 = train_test_split(df_dummy_fin_3.drop("class",axis=1), df_dummy_fin_3['class'], test_size=0.3, random_state=12345)

lr = LogisticRegression()
lr.fit(x_train3,y_train3)
print(classification_report(y_test3,lr.predict(x_test3)))

In [None]:
print(confusion_matrix(y_test3,lr.predict(x_test3)))

おぉー、ようやく良い感じになってきた。

In [None]:
len(df_dummy_fin_3.columns)

25のダミー変数化した説明変数（元が104なので、25％くらい）があれば、このデータでは毒キノコ／食用キノコ判別ができる、ってことか

#### 相関係数0.2以上を削除

In [None]:
check_coef(df_dummy_fin_3.drop(['class'], 1))
list(set(var2))

In [None]:
drop_df_2 = ['habitat_p','gill-color_n','gill-color_h','gill-color_w','gill-spacing_c','cap-shape_b','cap-color_c','cap-color_n','odor_m','cap-surface_g','cap-shape_c']
df_dummy_fin_2 = df_dummy_fin_3.drop(drop_df_2,1)

check_coef(df_dummy_fin_2.drop(['class'],1))
sorted(set(var2))

In [None]:
x_train2, x_test2, y_train2, y_test2 = train_test_split(df_dummy_fin_2.drop("class",axis=1), df_dummy_fin_2['class'], test_size=0.3, random_state=12345)

lr = LogisticRegression()
lr.fit(x_train2,y_train2)
print(classification_report(y_test2,lr.predict(x_test2)))

In [None]:
print(confusion_matrix(y_test2,lr.predict(x_test2)))

In [None]:
len(df_dummy_fin_2.columns)

14（元データの10％）しか変数使ってなくてもこのAccuracyが出るか。。。

一旦ここまでで変数削除は止めておく

---

## データ分割

データをマニュアルでトレーニングデータとテストデータに分割する

※まず、ここで上記の変数削除したデータの中から、どのデータを使って学習するかを決定する

In [None]:
#df_data = df_dummy_fin_2
df_data = df_dummy_fin_3

In [None]:
train = df_data[:6000]
test = df_data[6000:-1]

y_train = train['class']
y_test = test['class']
x_train = train.drop('class', 1)
x_test = test.drop('class', 1)

念のため、トレーニングデータとテストデータの目的変数の0/1比率を確認しておく

In [None]:
y_train.plot(kind='hist', figsize=(3,2))

In [None]:
y_test.plot(kind='hist', figsize=(3,2))

- どうやら、単純にこの件数から分割、みたいにデータ分割すると、目的変数が同じ比率にはならないみたい
- 人間が集めたデータだし、最初に集めたデータは精度が低くて、徐々に精度が高くなっていく、とかは普通にありそう。データ集めるのも慣れてくるだろうし
- なので、用意されてる関数使って、比率が同じになるように分割した方が良い

ということで、train_test_split使って、改めてデータ分割することにする

In [None]:
x_train, x_test, y_train, y_test = train_test_split(df_data.drop("class",axis=1), df_data['class'], test_size=0.3, random_state=12345)

In [None]:
y_train.plot(kind='hist', figsize=(3,2))

In [None]:
y_test.plot(kind='hist', figsize=(3,2))

たしかに比率が一緒になってる

トレーニング＆テストデータの0/1比率も確認しておく

In [None]:
print("トレーニングデータのベースレート：", "{:.1%}".format(y_train[y_train==1].count() / y_train.count()))

In [None]:
print("テストデータのベースレート：", "{:.1%}".format(y_test[y_test==1].count() / y_test.count()))

---

# モデル学習

## モデル：ロジスティック回帰モデル

相関係数のチェック時に何度も実行しているが、一応ここでも実行しておく

### 学習

In [None]:
# ロジスティック回帰モデルを使って学習する
clf_lr = LogisticRegression()
clf_lr.fit(x_train,y_train)
#print(clf_lr.coef_,clf_lr.intercept_)

### 混同行列でモデルを評価

In [None]:
print(classification_report(y_test,clf_lr.predict(x_test)))

In [None]:
print(confusion_matrix(y_test,clf_lr.predict(x_test)))

- PrecisionとRecallはほぼ一緒
- 一旦このAccuracyがベンチマークとなる

## モデル：KNN

### 学習

In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import StandardScaler

まずは、直接KNeighborsClassifier使って算出してみる。その際、StraitfiedKFold使って交差検証（CV）は行う。

In [None]:
X, y = x_train.values.astype(np.float64), y_train.values.astype(np.float64)

for nn in range(2,10):
    print("n_neighbors=%s"%nn)
    
    knn = KNeighborsClassifier(n_neighbors=nn)
    kfold = StratifiedKFold(n_splits=5,random_state=1234).split(X, y)

    scores = []
    for k, (train_index, test_index) in enumerate(kfold):
        X_train_knn, X_test_knn = X[train_index], X[test_index]
        y_train_knn, y_test_knn = y[train_index], y[test_index]

        # 標準化
        stdsc = StandardScaler()
        X_train_std = stdsc.fit_transform(X_train_knn)
        X_test_std = stdsc.transform(X_test_knn)

        knn.fit(X_train_std, y_train_knn)
        score = knn.score(X_train_std, y_train_knn)
        scores.append(score)
        print('Fold: %s, Class dist: %s, Accuracy: %.3f' % (k+1, np.bincount(y_train_knn.astype(np.int64)), score))

    print('CV accuracy: %.3f +/- %.3f' % (np.mean(scores), np.std(scores)))
    print()

- n_neighbors＝5以上はほぼ同じ
- 7あたりが良さそうか

次に、同じことをGridSearchCV使って算出してみる

In [None]:
# 標準化
stdsc = StandardScaler()
x_train_std = stdsc.fit_transform(x_train)
x_test_std = stdsc.fit_transform(x_test)

param_grid = {'n_neighbors':range(2,10)}
clf_knn = GridSearchCV(KNeighborsClassifier(), param_grid=param_grid, cv=5)
clf_knn.fit(x_train_std, y_train)

### 混同行列で評価

In [None]:
print(classification_report(y_test, clf_knn.best_estimator_.predict(x_test)))

In [None]:
print(confusion_matrix(y_test, clf_knn.best_estimator_.predict(x_test)))

- 「1:毒キノコ」のRecallの精度が圧倒的に低い
- 「0:食用キノコ」の予測精度も低い
- KNNはデータが同じカテゴリで同程度に分散していないと精度が出ないという話なので、このデータには適合しないモデル・・ということか？

## モデル：決定木

### 学習

In [None]:
from sklearn.tree import DecisionTreeClassifier, export_graphviz

In [None]:
param_grid = {'criterion':['gini','entropy'], 'max_depth':range(2,10), 'min_samples_split':range(2,5), 'min_samples_leaf':range(2,5)}
clf_tree = GridSearchCV(DecisionTreeClassifier(), param_grid=param_grid, cv=5)
clf_tree.fit(x_train,y_train)

In [None]:
clf_tree.best_estimator_

In [None]:
clf_tree.best_params_

### 説明変数の重要度を出力

In [None]:
print(clf_tree.best_estimator_.feature_importances_)
pd.DataFrame(clf_tree.best_estimator_.feature_importances_, index=df_data.columns.values[1:]).plot.bar(figsize=(20,5))
plt.ylabel("Importance")
plt.xlabel("Features")
plt.show()

この重要度が出せるのは、たしかに決定木の良さだと思う。他者に説明しやすい。

- gill-spaceing（ひだの隙間）が「c：close」の場合、毒キノコ
- gill-size（ひだの大きさ）が「b：広い」の場合、食用キノコ
- stalk-surface-above-ring（茎の表面：上）が「s：smooth」の場合、食用キノコ

このたった3変数で、キノコ分類はほぼ正確に判断ができる・・と考えてよいのか？

### 決定木を描画

In [None]:
dot_data = StringIO() #dotファイル情報の格納先
export_graphviz(clf_tree.best_estimator_, out_file=dot_data,  
                     feature_names=df_data.columns.values[0:-1],  
                     class_names=["0","1"],  
                     filled=True, rounded=True,  
                     special_characters=True) 
graph = pydotplus.graph_from_dot_data(dot_data.getvalue()) 
Image(graph.create_png())

### 混同行列でモデルを評価

In [None]:
y_pred_tree = clf_tree.predict(x_test)
print(classification_report(y_test,y_pred_tree))

In [None]:
print(confusion_matrix(y_test, y_pred_tree))

- さすが決定木
- ロジスティクス回帰やKNNと比較して、かなり精度が高い

## モデル：ランダムフォレスト

### 学習

In [None]:
from sklearn.ensemble import RandomForestClassifier

In [None]:
param_grid = {'n_estimators':range(2,13), 'max_depth':range(2,10), 'min_samples_split':range(2,5), 'min_samples_leaf':range(2,5)}
clf_rf = GridSearchCV(RandomForestClassifier(), param_grid=param_grid, cv=5)
clf_rf.fit(x_train, y_train)

In [None]:
clf_rf.best_estimator_

In [None]:
clf_rf.best_params_

### 説明変数の重要度を出力

In [None]:
print(clf_rf.best_estimator_.feature_importances_)
pd.DataFrame(clf_rf.best_estimator_.feature_importances_, index=df_data.columns.values[1:]).plot.bar(figsize=(20,5))
plt.ylabel("Importance")
plt.xlabel("Features")
plt.show()

- 重要度は決定木とほぼ一緒

### 混同行列でモデルを評価

In [None]:
y_pred_rf = clf_rf.best_estimator_.predict(x_test)
print(classification_report(y_test,y_pred_rf))

In [None]:
print(confusion_matrix(y_test, y_pred_rf))

- 決定木と全く同じ結果

## モデル：アダブースト

In [None]:
from sklearn.ensemble import AdaBoostClassifier

In [None]:
param_grid = {'n_estimators':range(2,15), 'learning_rate':[x*0.1 for x in range(1,10)], 'algorithm':['SAMME','SAMME.R']}
clf_ada = GridSearchCV(AdaBoostClassifier(), param_grid=param_grid, cv=5)
clf_ada.fit(x_train, y_train)

In [None]:
clf_ada.best_estimator_

In [None]:
clf_ada.best_params_

In [None]:
y_pred_ada = clf_ada.best_estimator_.predict(x_test)
print(classification_report(y_test,y_pred_ada))

In [None]:
print(confusion_matrix(y_test, y_pred_ada))

- ランダムフォレストと比較して、全体的に精度が落ちている

- 誤りが多いデータに集中して学習させるモデルは、このデータには適合しないということか？

## モデル：SVM

### 学習

In [None]:
from sklearn.svm import SVC

In [None]:
%%time
parameters = {'kernel':['linear', 'rbf'], 'C':[1, 5], 'gamma':[0.1*x for x in range(1,10)]}
model = SVC(probability=True)
clf_svm = GridSearchCV(model, parameters, cv=5)
clf_svm.fit(x_train, y_train)
print(clf_svm.best_params_, clf_svm.best_score_)

In [None]:
y_pred_svm = clf_svm.best_estimator_.predict(x_test)
print(classification_report(y_test,y_pred_svm))

In [None]:
print(confusion_matrix(y_test, y_pred_svm))

- SVMが一番精度が高いというのは本当のようだ

---

# 全モデルをまとめて評価

### まずは単純に混同行列を比較

In [None]:
print("ロジスティック回帰")
print()
print(classification_report(y_test,clf_lr.predict(x_test)))

print("KNN")
print()
print(classification_report(y_test, clf_knn.best_estimator_.predict(x_test)))

print("決定木")
print()
print(classification_report(y_test, clf_tree.best_estimator_.predict(x_test)))

print("ランダムフォレスト")
print()
print(classification_report(y_test, clf_rf.best_estimator_.predict(x_test)))

print("アダブースト")
print()
print(classification_report(y_test, clf_ada.best_estimator_.predict(x_test)))

print("SVM")
print()
print(classification_report(y_test, clf_svm.best_estimator_.predict(x_test)))

- SVMが一番精度が良い

### ROC曲線を確認

In [None]:
from sklearn.metrics import roc_auc_score, roc_curve, auc
from sklearn.metrics import accuracy_score, precision_score, recall_score

In [None]:
fig = plt.figure(figsize=(7,7))
ax = fig.add_subplot(1,1,1)

# まずはランダム線を引く
ax.plot([0, 1], [0, 1], color="gray", alpha=0.2, linestyle="--")

# 各モデルのROC曲線を引く
clf_all = [clf_lr, clf_knn, clf_tree, clf_rf, clf_ada, clf_svm]
clf_labels = ["Logistic Regression", "KNN", "Decision Tree", "Random Forest", "Ada Boost", "SVM"]
colors = ["red", "blue", "green", "yellow", "orange", "pink"]
linestyles = [":", "--", "-.", "-", ":", "-."]

for clf, label, clr, ls in zip(clf_all, clf_labels, colors, linestyles):
    roc_auc = roc_auc_score(y_test, clf.predict(x_test))
    fpr, tpr, thresholds = roc_curve(y_test, clf.predict_proba(x_test)[:, 1])
    ax.step(fpr, tpr, color=clr, linestyle=ls, label="%s (AUC = %0.2f)" % (label, roc_auc))

plt.legend()
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.title("ROC Curve")
plt.xlabel("FP: False Positive Rate")
plt.ylabel("TP: True Positive Rate")
plt.grid(True)

- とりあえずROCグラフやAUCは算出できたが、どのモデルもAUCが大きすぎて差が見えない・・
- これはAUCだけを見て、SVMが一番良い、と判断して良いのだろうか？
- AUCの値は、混同行列のRecallのAccuracyとほぼ同じ。当然と言えば当然だが、仮にそういう結果になるのが当然だとしたら、ROC曲線は別に確認しなくても良いのでは？

### 【結論】

- 毒キノコ判定問題はデータ精度が高すぎるためか、あまりモデルで差がでなかった
- ただし、KNNモデルは明らかにこのデータには適合していない
- 決定木とランダムフォレストでは差がでなかった
- 一番精度高いのはSVM


- この毒キノコ判定という問題であれば、適しているモデルは「決定木」「ランダムフォレスト」「SVM」の3モデル、その中でも特に「SVM」が一番良いモデルと言える

---

## （補足）ちょっとした実験・・

決定木とランダムフォレストで説明変数の重要度を算出したが、重要度が高い3変数に説明変数を絞って、決定木でどれくらい精度が出るか実験してみる

In [None]:
df_y = pd.DataFrame()
df_y['class'] = df_data['class']

df_x = pd.DataFrame()
df_x['gill-spacing_c'] = df_data['gill-spacing_c']
df_x['gill-size_b'] = df_data['gill-size_b']
df_x['stalk-surface-above-ring_s'] = df_data['stalk-surface-above-ring_s']

In [None]:
x_train_t1, x_test_t1, y_train_t1, y_test_t1 = train_test_split(df_x, df_y, test_size=0.3, random_state=12345)

In [None]:
param_grid = {'criterion':['gini','entropy'], 'max_depth':range(2,10), 'min_samples_split':range(2,5), 'min_samples_leaf':range(2,5)}
clf_tree2 = GridSearchCV(DecisionTreeClassifier(), param_grid=param_grid, cv=5)
clf_tree2.fit(x_train_t1, y_train_t1)

In [None]:
print(classification_report(y_test_t1,clf_tree2.predict(x_test_t1)))

In [None]:
print(confusion_matrix(y_test_t1,clf_tree2.predict(x_test_t1)))

- たった3変数に絞っても、「0.95」とかめちゃ高いAccuracyがでる。

- 多重共線性の問題を取り除いたとしても、ちょっとデータ精度が高すぎる。。

- モデルはよりシンプルな方が良い、という原則がある。ということは、3変数でここまで精度が高い方が良い、ということになる。こっちの方が汎化能力は高いはずなので。その場合、0.95のAccuracyまで出ているのであれば、削ったとはいえ、25変数を使っている上記のモデルより良い、という結論になるのだろうか？？

- 目的が「より精度が高いモデルを探すこと」ではなく、「特徴量が高い変数を探すこと」であれば、この少ない変数で出来るだけ精度を高くするというアプローチも良いように思う