In [1]:
# === 線形モデルとニューラルネットワーク ===

# ニューラルネットワークを適用する例題として、アヤメの種判別問題に取り組みます。


In [3]:
import numpy as np
import pandas as pd
import scipy as sp

import statsmodels.formula.api as smf
import statsmodels.api as sm

# 多層パーセプトロンを適用
from sklearn.neural_network import MLPClassifier

# サンプルデータの読み込み
from sklearn.datasets import load_iris

# テストデータと訓練データに分ける
from sklearn.model_selection import train_test_split

# データの標準化を行う
from sklearn.preprocessing import StandardScaler

%precision 3

'%.3f'

In [4]:
# === データの読み込みと整形 ===

# scikit-learnに組み込まれているアヤメの種類別の形質データを使います。
# load_iris関数を使ってデータを読み込みます。
iris = load_iris()

In [7]:
# データの中身はガクと花弁の長さと幅のデータです。
# 説明変数（入力ベクトル）の名称を取得します。

iris.feature_names

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [8]:
# 次は応答変数を調べます。３種類のアヤメがあることがわかります。
iris.target_names

array(['setosa', 'versicolor', 'virginica'],
      dtype='<U10')

In [9]:
# 説明変数はiris.data, 応答変数はiris.targetに格納されています。

# 今回は全てのデータではなく、説明変数は２種類だけ、アヤメの種類も２種類に絞ります。
# 50行ごとにアヤメの種類は変わるので[50 : 150]と指定してデータを取得します。

# 説明変数をsepal(ガク)だけにする
X = iris.data[50: 150, 0: 2]

# アヤメを２種類だけにする
y = iris.target[50 :150]

print("説明変数の行列・列数：", X.shape)
print("応答変数の行列・列数：", y.shape)

説明変数の行列・列数： (100, 2)
応答変数の行列・列数： (100,)


In [14]:
# 予測精度を評価するために、訓練データとテストデータに分割します。
# 再現性を保つためにrandom_stateで乱数の種を指定します。

# データを訓練データとテストデータに分ける ( train : test = 75% : 25%)
X_train, X_test, y_train, y_test = train_test_split(
X, y, random_state = 2)

print("説明変数の行列・列数：", X_train.shape)
print("応答変数の行列・列数：", y_train.shape)

説明変数の行列・列数： (75, 2)
応答変数の行列・列数： (75,)


In [15]:
# === ロジスティック回帰 ===

# ニューラルネットワークを実装する前に、ロジスティック回帰を用いた分類を試みます。

# まずは応答変数がどのようなデータなのかを確認します。
y_train[0:10]

array([1, 1, 2, 2, 2, 2, 1, 1, 1, 1])

In [19]:
# 1番と2番で別の種であることを表しています。これをロジスティック回帰にょって、自動で種類判別ができるようにしようというのが今回やることです。
# statsmodelsを使ってロジスティック回帰を実行することにします。そのためにはまずはデータフレームにまとめます。
# また、応答変数は０か１になるように１を引いておくことにします。

# データの整形
# 説目変数のデータフレーム
X_train_df = pd.DataFrame(X_train, columns = ["sepal_len", "sepal_wid"])

# 応答変数のデータフレーム
y_train_df = pd.DataFrame({"species": y_train - 1})

# デーヤフレームを結合
iris_train_df = pd.concat([y_train_df, X_train_df], axis = 1)

# 結果を出力
print(iris_train_df.head(3))

   species  sepal_len  sepal_wid
0        0        5.7        2.8
1        0        6.6        3.0
2        1        6.1        3.0


In [27]:
# モデル化
# 全ての変数を入れたモデル
logi_mod_full = smf.glm("species ~ sepal_len + sepal_wid", data = iris_train_df, family = sm.families.Binomial()).fit()

# 長さのみ
logi_mod_len = smf.glm("species ~ sepal_len", data = iris_train_df, family = sm.families.Binomial()).fit()

# 幅のみ
logi_mod_wid = smf.glm("species ~ sepal_wid", data = iris_train_df, family = sm.families.Binomial()).fit()

# Nullモデル
logi_mod_null = smf.glm("species ~ 1", data = iris_train_df, family = sm.families.Binomial()).fit()

# AICの比較
print("full", logi_mod_full.aic.round(3))
print("len", logi_mod_len.aic.round(3))
print("wid", logi_mod_wid.aic.round(3))
print("null", logi_mod_null.aic.round(3))

full 76.813
len 76.234
wid 92.768
null 105.318


In [28]:
# わずかですがガクの長さだけを使ったモデルの方がAICが低くなったためlogi_mod_lenを採用します。

# 推定された係数を確認します。ガクの長さは正の係数を持っていました。
# そのため。ガクの長さが大きくなると種２になりやすいということがわかります。
logi_mod_len.summary().tables[1]

0,1,2,3,4,5,6
,coef,std err,z,P>|z|,[0.025,0.975]
Intercept,-16.4152,4.000,-4.104,0.000,-24.256,-8.575
sepal_len,2.6478,0.639,4.142,0.000,1.395,3.901


In [31]:
# 最後に訓練データへの当てはめ精度と、テストデータへの予測精度を確認します。

# データの整形
X_test_df = pd. DataFrame(X_test, columns = ["sepal_len", "sepal_wid"])

# 当てはめと予測
logi_fit = logi_mod_len.fittedvalues.round(0)
logi_pred = logi_mod_len.predict(X_test_df).round(0)

# 正答率
true_train = sp.sum(logi_fit == (y_train - 1))
true_test = sp.sum(logi_pred == (y_test - 1))

# 的中率
result_train = true_train / len(y_train)
result_test = true_test / len(y_test)

# 結果の出力
print("訓練データの的中率　：", result_train)
print("テストデータの的中率　：", result_test)


訓練データの的中率　： 0.746666666667
テストデータの的中率　： 0.68


In [32]:
 # 訓練データもテストデータもおよそ７割は的中しているようです。

In [34]:
# === 標準化 ===

# 続いてニューラルネットワークに移ります。

# 標準化のための準備
scaler = StandardScaler()
scaler.fit(X_train)

# 標準化する
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [36]:
# 訓練データの説明変数の標準偏差が１になっていることを確認します
sp.std(X_train_scaled, axis=0)

array([ 1.,  1.])

In [37]:
# テストデータの場合は標準偏差が１になるとは限りません。これは正しい結果です。
# 訓練データとテストデータでは全く同じ変換を適用するのが重要です。私たちはまだテストデータを手にしていないことが前提だからです。
sp.std(X_test_scaled, axis = 0)

array([ 0.74 ,  0.679])

In [45]:
# === ニューラルネットワーク ===

# ニューラルネットワークを適用し、その当てはめ精度とテストデータへの予測精度を出力するコードは以下の通りです。
nnet = MLPClassifier (hidden_layer_sizes = (100,100), 
                                     alpha = 0.07,
                                     max_iter = 10000,
                                     random_state = 0)
nnet.fit(X_train_scaled, y_train)

# 正答率
print("訓練データの的中率：", nnet.score(X_train_scaled, y_train))
print("テストデータの的中率：", nnet.score(X_test_scaled, y_test))


訓練データの的中率： 0.893333333333
テストデータの的中率： 0.68
