# データ＆ライブラリの読み込み

In [None]:
pip install pydotplus

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import display, Image
import seaborn as sns
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from sklearn.externals.six import StringIO
from sklearn.model_selection import GridSearchCV
import pydotplus

In [None]:
df = pd.read_csv("../input/mushrooms.csv", dtype="category")
columns = df.columns.values

print("データ数：", len(df.index))
df.head()

---

# 前処理

### データの確認

Attribute Information: (classes: edible=e, poisonous=p)

- cap-shape: bell=b, conical=c, convex=x,flat=f, knobbed(Umbonate)=k, sunken(Funnel-Shaped)=s

- cap-surface: fibrous=f,grooves=g,scaly=y,smooth=s 

- cap-color: brown=n,buff=b,cinnamon=c,gray=g,green=r,pink=p,purple=u,red=e,white=w,yellow=y

- bruises: bruises=t,no=f

- odor: almond=a,anise=l,creosote=c,fishy=y,foul=f,musty=m,none=n,pungent=p,spicy=s

- gill-attachment: attached=a,descending=d,free=f,notched=n

- gill-spacing: close=c,crowded=w,distant=d

- gill-size: broad=b,narrow=n

- gill-color: black=k,brown=n,buff=b,chocolate=h,gray=g, green=r,orange=o,pink=p,purple=u,red=e,white=w,yellow=y

- stalk-shape: enlarging=e,tapering=t

- stalk-root: bulbous=b,club=c,cup=u,equal=e,rhizomorphs=z,rooted=r,missing=?

- stalk-surface-above-ring: fibrous=f,scaly=y,silky=k,smooth=s

- stalk-surface-below-ring: fibrous=f,scaly=y,silky=k,smooth=s

- stalk-color-above-ring: brown=n,buff=b,cinnamon=c,gray=g,orange=o,pink=p,red=e,white=w,yellow=y

- stalk-color-below-ring: brown=n,buff=b,cinnamon=c,gray=g,orange=o,pink=p,red=e,white=w,yellow=y

- veil-type: partial=p,universal=u

- veil-color: brown=n,orange=o,white=w,yellow=y

- ring-number: none=n,one=o,two=t

- ring-type: cobwebby=c,evanescent=e,flaring=f,large=l,none=n,pendant=p,sheathing=s,zone=z

- spore-print-color: black=k,brown=n,buff=b,chocolate=h,green=r,orange=o,purple=u,white=w,yellow=y

- population: abundant=a,clustered=c,numerous=n,scattered=s,several=v,solitary=y

- habitat: grasses=g,leaves=l,meadows=m,paths=p,urban=u,waste=w,woods=d

⇒ 日本語翻訳

属性情報: (classes: 食用キノコ=e, 毒キノコ=p)

- 傘の形状：bell-shaped=b、conical=c、convex=x、flat=f、knobbed=k、sunken=s

- 傘の表面：fibrous=f、grooves=g、scaly=y、smooth=s

- 傘の色：ブラウン=n、薄黄=b、シナモン=c、グレー=g、グリーン=r、ピンク=p、パープル=u、レッド=e、ホワイト=w、イエロー=y

- 傷：あり=t、無し=f

- 匂い：アーモンド=a、西洋ういきょう=l、クレオソート（正露丸）=c、魚介類=y、腐敗臭=f、黴臭い=m、なし=n、辛味=p、スパイシー=s

- （傘の裏の）襞の付き方：attached=a、descending=d、free=f、notched=n

- 襞の隙間：close=c、crowded=w、distant=d

- 襞の大きさ：広い=b、狭い=n

- 襞の色：黒=k、ブラウン=n、薄黄=b、チョコレート=h、グレー=g、グリーン=r、オレンジ=o、ピンク=p、パープル=u、レッド=e、ホワイト=w、イエロー=y

- 茎の形状：拡大=e、先細り=t

- 茎の根：bulbous=b、club=c、cup=u、equal=e、rhizomorphs=z、rooting=r、missing=？

- 茎の表面（リング上）：fibrous=f、scaly=y、silky=k、smooth=s

- 茎の表面（リング下）：fibrous=f、scaly=y、silky=k、smooth=s

- 茎の色（リング上）：ブラウン=n、薄黄=b、シナモン=c、グレー=g、オレンジ=o、ピンク=p、レッド=e、ホワイト=w、イエロー=y

- 茎の色（リング下）：ブラウン=n、薄黄=b、シナモン=c、グレー=g、オレンジ=o、ピンク=p、レッド=e、ホワイト=w、イエロー=y

- つばの形状：partial=p、universal=u

- つばの色：ブラウン=n、オレンジ=o、ホワイト=w、イエロー=y

- リングの数：none=n、one=o、two=t

- リングの形状：cobwebby=c、evanescent=e、flaring=f、large=l、none=n、pendant=p、sheathing=s、zone=z

- 胞子の印刷色：黒=k、茶色=n、淡色=b、チョコレート=h、緑色=r、橙色=o、紫色=u、白色=w、黄色=y

- 生息数：abundant=a、clustered=c、numerous=n、scattered=s、several=v、solitary=y

- 生息地：牧草地=g、葉っぱ=l、草原=m、道端=p、都市=u、ゴミの山=w、森=d

#### キノコに関する関連リンク集
- [Mushroom Tutorial](https://www.slideshare.net/rayborg/mushroom-tutorial)
- [Fungi of Saskachewan](https://www.usask.ca/biology/fungi/glossary.html)

### 欠損値の確認

In [None]:
df.isnull().sum()

### グラフ化による関係性の把握

In [None]:
# matplotlibで描画
for column in columns :
    plt.figure(figsize=(3,2))
    cat = df[column].value_counts().sort_index()
    plt.title(column)
    display(cat.index.codes)
    plt.bar(cat.index.codes, cat.values, tick_label=cat.index.tolist())
    plt.show()

In [None]:
# seabornで描画
for column in columns:
    ax = sns.factorplot(column, col="class", data=df, size=3.0, aspect=.9, kind="count")

### 有効な変数の推測

以下が、「毒キノコ」を判断する有効な変数と思われる

- 傘の色（cap-color）->「Yellow(y)」か「Red(e)」

- 傷（bruises）->「なし（false）」

- 匂い（odor）->「なし（n）」か「腐敗臭（f）」

- 襞の大きさ（gill-size） -> 「広い（b）」「狭い（n）」

- 襞の色（gill-color） -> 「薄黄（b）」か「not 黒（k）」

- 茎の根（stalk-root） -> 「club(c)」か「missing(?)」

- 上下の茎の表面（stalk-surface） -> 「silky(s)」

- 上下の茎の色（stalk-color） -> 「pink(p)」

- リングの形状（ring-type） -> 「large(l)」

- 胞子の印刷色（spore-print-color） -> 「チョコレート(h)」か「not 黒(k)」か「not 茶色(n)」

- 生息数（population） -> 「several(v)」

- 生息地（habitat） -> 「paths(p)」

---

# モデル学習

## モデル：ロジスティック回帰モデル①

### 特徴量エンジニアリング：ダミー変数化（one hot encoding）

数値化できる変数だけ先に変更しておく

In [None]:
df['class'] = df['class'].map({'e':0, 'p':1})
df['ring-number'] = df['ring-number'].map({'n':0, 'o':1, 't':2})

まずは、全変数でどんな結果になるかやってみる

In [None]:
# カテゴリカル変数をすべてダミー変数に変更する
df_lr1 = df.copy()
dummy_columns = ['cap-shape','cap-surface','cap-color','bruises','odor','gill-attachment','gill-spacing','gill-size','gill-color','stalk-shape','stalk-root','stalk-surface-above-ring','stalk-surface-below-ring','stalk-color-above-ring','stalk-color-below-ring','veil-type','veil-color','ring-number','ring-type','spore-print-color','population','habitat']

for column in dummy_columns:
    df_lr1[column+'_str'] = df[column].astype(str).map(lambda x:column+"_"+x)
    df_lr1 = pd.concat([df_lr1, pd.get_dummies(df_lr1[column+'_str'])],axis=1)

drop_columns = dummy_columns.copy()
for column in dummy_columns:
    drop_columns.append(column+"_str")

df_lr1_fin = df_lr1.drop(drop_columns,axis=1)
df_lr1_fin.head()

### データ分割

データをマニュアルでトレーニングデータとテストデータに分割する

In [None]:
train = df_lr1_fin[:6000]
test = df_lr1_fin[6000:-1]

y_train = train['class']
y_test = test['class']
x_train = train.drop('class', 1)
x_test = test.drop('class', 1)

念のため、トレーニングデータとテストデータの目的変数の0/1比率を確認しておく

In [None]:
y_train.plot(kind='hist', figsize=(3,2))

In [None]:
y_test.plot(kind='hist', figsize=(3,2))

- どうやら、単純にこの件数から分割、みたいにデータ分割すると、目的変数が同じ比率にはならないみたい
- 人間が集めたデータだし、最初に集めたデータは精度が低くて、徐々に精度が高くなっていく、とかは普通にありそう。データ集めるのも慣れてくるだろうし
- なので、用意されてる関数使って、比率が同じになるように分割した方が良い

ということで、train_test_split使って、改めてデータ分割することにする

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(df_lr1_fin.drop("class",axis=1), df_lr1_fin['class'], test_size=0.3, random_state=12345)

In [None]:
y_train.plot(kind='hist', figsize=(3,2))

In [None]:
y_test.plot(kind='hist', figsize=(3,2))

たしかに比率が一緒になってる

### 学習

In [None]:
# ロジスティック回帰モデルを使って学習する
lr = LogisticRegression()
lr.fit(x_train,y_train)
#print(lr.coef_,lr.intercept_)

### 混同行列でモデルを評価

In [None]:
print(classification_report(y_test,lr.predict(x_test)))

- AccuracyがPrecisionとRecallともに1.0？
- 明らかに高すぎる。オーバーフィットしてると思うんだが。。

## モデル：ロジスティック回帰モデル②

### 特徴量エンジニアリング：ダミー変数化（one hot encoding）

次に、有効な変数と推測した変数だけPickUpして学習してみる

In [None]:
df_lr2 = df.copy()
dummy_columns = ['cap-color','bruises','odor','gill-attachment','gill-spacing','gill-size','gill-color','stalk-root','stalk-surface-above-ring','stalk-color-above-ring','ring-type','spore-print-color','population','habitat']

for column in dummy_columns:
    df_lr2[column+'_str'] = df[column].astype(str).map(lambda x:column+"_"+x)
    df_lr2 = pd.concat([df_lr2, pd.get_dummies(df_lr2[column+'_str'])], axis=1)

drop_columns = dummy_columns.copy()
drop_list = list(filter(lambda x:x not in dummy_columns, columns))
drop_list.remove('class')
drop_columns.extend(drop_list)

for column in dummy_columns:
    drop_columns.append(column+"_str")

df_lr2_fin = df_lr2.drop(drop_columns,axis=1)
#fdf_lr2_fin.head(10)

### データ分割

データ分割は、初めからtrain_test_splitを使って行う

In [None]:
x_train_lr2, x_test_lr2, y_train_lr2, y_test_lr2 = train_test_split(df_lr2_fin.drop("class",axis=1), df_lr2_fin['class'], test_size=0.3, random_state=1234)

### 学習

In [None]:
# ロジスティック回帰モデルを使って学習する
lr2 = LogisticRegression()
lr2.fit(x_train_lr2,y_train_lr2)
#print(lr.coef_,lr.intercept_)

### 混同行列でモデルを評価

In [None]:
print(classification_report(y_test_lr2,lr2.predict(x_test_lr2)))

- こっちも同じ結果。データの問題だろうか？

## モデル：KNN

### 学習

In [None]:
from sklearn.metrics import confusion_matrix
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import StratifiedKFold
from sklearn.preprocessing import StandardScaler

まずは、直接KNeighborsClassifier使って算出してみる。その際、StraitfiedKFold使って交差検証（CV）は行う。

In [None]:
X, y = x_train.values, y_train.values

for nn in range(2,10):
    print("n_neighbors=%s"%nn)
    
    knn = KNeighborsClassifier(n_neighbors=nn)
    kfold = StratifiedKFold(n_splits=5,random_state=1234).split(X, y)

    scores = []
    for k, (train_index, test_index) in enumerate(kfold):
        X_train_knn, X_test_knn = X[train_index], X[test_index]
        y_train_knn, y_test_knn = y[train_index], y[test_index]

        #標準化
        stdsc = StandardScaler()
        X_train_std = stdsc.fit_transform(X_train_knn)
        X_test_std = stdsc.transform(X_test_knn)

        knn.fit(X_train_std, y_train_knn)
        score = knn.score(X_train_std, y_train_knn)
        scores.append(score)
        print('Fold: %s, Class dist.: %s, Accuracy: %.3f' % (k+1, np.bincount(y_train_knn), score))

    print('CV accuracy: %.3f +/- %.3f' % (np.mean(scores), np.std(scores)))
    print()

- ほぼすべてのkでAccuracyが1.0。これは明らかにおかしい
- ただ、どこかが設定が間違っているようには見えないのだが。。。。

次に、同じことをGridSearchCV使って算出してみる

In [None]:
# 標準化
stdsc = StandardScaler()
x_train_std = stdsc.fit_transform(x_train)
x_test_std = stdsc.fit_transform(x_test)

param_grid = {'n_neighbors':range(2,10)}
cv_knn = GridSearchCV(KNeighborsClassifier(), param_grid=param_grid, cv=5)
cv_knn.fit(x_train_std, y_train)

In [None]:
cv_knn.best_score_

### 混同行列で評価

In [None]:
print(classification_report(y_test, cv_knn.best_estimator_.predict(x_test)))

- この結果が一番まともに感じる
- 1：毒キノコよりも、0：食用キノコの方がよりRecall（再現率）が高い

## モデル：決定木

### 学習

In [None]:
from sklearn.tree import DecisionTreeClassifier, export_graphviz

#### criterionの検証

In [None]:
clf_tree_en = DecisionTreeClassifier(criterion='entropy', max_depth=None, min_samples_split=5, min_samples_leaf=5, random_state=1234)
clf_tree_en.fit(x_train,y_train)
clf_tree_gini = DecisionTreeClassifier(criterion='gini', max_depth=None, min_samples_split=5, min_samples_leaf=5, random_state=1234)
clf_tree_gini.fit(x_train,y_train)

print('entropy score=', clf_tree_en.score(x_train,y_train))
print('gini score=', clf_tree_gini.score(x_train,y_train))

- 全く一緒。それはそれで変

#### max_depthの検証

In [None]:
for x in range(1,15):
    clf_tree = DecisionTreeClassifier(criterion='entropy', max_depth=x, random_state=1234)
    clf_tree = clf_tree.fit(x_train,y_train)
    print(x, 'score=', clf_tree.score(x_train,y_train))

- Depth:6以上はほぼ変わらずオーバーフィットしてる
- 3くらいがちょうど良いか？

#### 選んだハイパーパラメータで再学習

In [None]:
clf_tree = DecisionTreeClassifier(criterion='entropy', max_depth=3, random_state=1234)
clf_tree.fit(x_train,y_train)

### 説明変数の重要度を出力

In [None]:
print(clf_tree.feature_importances_)
pd.DataFrame(clf_tree.feature_importances_, index=df_lr1_fin.columns.values[1:]).plot.bar(figsize=(20,5))
plt.ylabel("Importance")
plt.xlabel("Features")
plt.show()

#### コメント

- bruises（傷）が「t：あり」の場合、食用キノコ
- odor（匂い）が「n：なし」の場合、食用キノコ

### 決定木を描画

In [None]:
dot_data = StringIO() #dotファイル情報の格納先
export_graphviz(clf_tree, out_file=dot_data,  
                     feature_names=df_lr1_fin.columns.values[0:-1],  
                     class_names=["0","1"],  
                     filled=True, rounded=True,  
                     special_characters=True) 
graph = pydotplus.graph_from_dot_data(dot_data.getvalue()) 
Image(graph.create_png())

### 混同行列でモデルを評価

In [None]:
y_pred_tree = clf_tree.predict(x_test)
print(classification_report(y_test,y_pred_tree))

- さすが決定木、かなり精度が高い

### 上記の一連の流れを、グリッドサーチ＆Cross Validationで実装

In [None]:
param_grid = {'criterion':['gini','entropy'], 'max_depth':range(2,10), 'min_samples_split':range(2,5), 'min_samples_leaf':range(2,5)}
cv_tree = GridSearchCV(DecisionTreeClassifier(), param_grid=param_grid, cv=5)
cv_tree.fit(x_train,y_train)

In [None]:
cv_tree.best_estimator_

In [None]:
cv_tree.best_params_

### 混同行列で評価

In [None]:
print(classification_report(y_test, cv_tree.best_estimator_.predict(x_test)))

- GridSearchCVの場合はすべてAccuracyが1.0？
- どう考えてもおかしいんだが。。。

## モデル：ランダムフォレスト

### 学習

In [None]:
from sklearn.ensemble import RandomForestClassifier

#### criterionの検証

In [None]:
clf_rf_gini = RandomForestClassifier(n_estimators=10, max_depth=5, criterion="gini", min_samples_split=2, min_samples_leaf=2, random_state=1234)
clf_rf_en = RandomForestClassifier(n_estimators=10, max_depth=5, criterion="entropy", min_samples_split=2, min_samples_leaf=2, random_state=1234)

clf_rf_gini.fit(x_train, y_train)
print("gini score=", clf_rf_gini.score(x_train, y_train))
clf_rf_en.fit(x_train, y_train)
print("entropy score=", clf_rf_en.score(x_train, y_train))

- giniの方がscoreが少しだけ良い

#### max_depthの検証

In [None]:
for x in range(2,10):
    clf_rf_en = RandomForestClassifier(n_estimators=10, max_depth=x, criterion="gini", min_samples_split=2, min_samples_leaf=2, random_state=1234)
    clf_rf_en.fit(x_train, y_train)
    print(x, "score=", clf_rf_en.score(x_train, y_train))

- 1.0は明らかにオーバーフィットしている
- 5くらいがちょうど良いかな？？

#### n_estimatorsの検証

In [None]:
for x in range(2,10):
    clf_rf_en = RandomForestClassifier(n_estimators=x, max_depth=5, criterion="gini", min_samples_split=2, min_samples_leaf=2, random_state=1234)
    clf_rf_en.fit(x_train, y_train)
    print(x, "score=", clf_rf_en.score(x_train, y_train))

- 3を頂点に、そこから下がっていく
- なので、3にする

#### min_sample_splitの検証

In [None]:
for x in range(2,10):
    clf_rf_en = RandomForestClassifier(n_estimators=10, max_depth=5, criterion="gini", min_samples_split=x, min_samples_leaf=2, random_state=1234)
    clf_rf_en.fit(x_train, y_train)
    print(x, "score=", clf_rf_en.score(x_train, y_train))

- 全く一緒。つまり、2で良い

#### min_sample_leafの検証

In [None]:
for x in range(2,10):
    clf_rf_en = RandomForestClassifier(n_estimators=10, max_depth=5, criterion="gini", min_samples_split=2, min_samples_leaf=x, random_state=1234)
    clf_rf_en.fit(x_train, y_train)
    print(x, "score=", clf_rf_en.score(x_train, y_train))

- 2～4を頂点に下がっていく。3にしておく。

#### 選んだハイパーパラメータで再学習

In [None]:
clf_rf_en = RandomForestClassifier(n_estimators=3, max_depth=5, criterion="gini", min_samples_split=2, min_samples_leaf=3, random_state=1234)
clf_rf_en.fit(x_train, y_train)

### 説明変数の重要度を出力

In [None]:
print(clf_rf_en.feature_importances_)
pd.DataFrame(clf_rf_en.feature_importances_, index=df_lr1_fin.columns.values[1:]).plot.bar(figsize=(20,5))
plt.ylabel("Importance")
plt.xlabel("Features")
plt.show()

- bruises（傷）が「t：あり」の場合、食用キノコ
- odor（匂い）が「n：none」の場合、食用キノコ
- gill-colorが「b：薄黄」の場合、毒キノコ
- stalk-rootが「c：club」の場合、食用キノコ
- ring-typeが「p：pendant」の場合、食用キノコ
- spore-print-colorが「k：黒色」の場合、食用キノコ

なるほど・・結果を見ると、食用キノコの方が毒キノコよりも特徴が強く出ている。しかし、これは直観的に間違っているように思う。

### 混同行列でモデルを評価

In [None]:
y_pred_rf = clf_rf_en.predict(x_test)
print(classification_report(y_test,y_pred_rf))

- これもほぼ1.0か・・高すぎるんだよな。。

### 上記ハイパーパラメータ検証の一連の流れを、グリッドサーチ＆Cross Validationで実装

In [None]:
param_grid = {'n_estimators':range(2,13), 'max_depth':range(2,10), 'min_samples_split':range(2,5), 'min_samples_leaf':range(2,5)}
cv_rf = GridSearchCV(RandomForestClassifier(), param_grid=param_grid, cv=5)
cv_rf.fit(x_train, y_train)

In [None]:
cv_rf.best_estimator_

In [None]:
cv_rf.best_params_

### 混同行列で評価

In [None]:
print(classification_report(y_test, cv_rf.best_estimator_.predict(x_test)))

- どのモデルでも1.0か・・・

---

# 全モデルをまとめて評価

In [None]:
# ロジスティック回帰：全データ
print("ロジスティック回帰：全データ")
print()
print(classification_report(y_test,lr.predict(x_test)))

# ロジスティック回帰：pickup
print("ロジスティック回帰：変数ピックアップ")
print()
print(classification_report(y_test_lr2,lr2.predict(x_test_lr2)))

# KNN
print("KNN")
print()
print(classification_report(y_test, cv_knn.best_estimator_.predict(x_test)))

# 決定木
print("決定木（マニュアル調整）")
print()
print(classification_report(y_test,y_pred_tree))

# 決定木
print("決定木（CV）")
print()
print(classification_report(y_test, cv_tree.best_estimator_.predict(x_test)))

# ランダムフォレスト（マニュアル調整）
print("ランダムフォレスト（マニュアル調整）")
print()
print(classification_report(y_test,y_pred_rf))

# ランダムフォレスト（CV）
print("ランダムフォレスト（CV）")
print()
print(classification_report(y_test, cv_rf.best_estimator_.predict(x_test)))

- GridSearchCV使うと、どうも結果がおかしい
- マニュアルで調整した方が、まだマシな評価結果になっている
- 何か理由があると思うんだが・・・原因がまだよくわからない。