In [None]:
#【scikit-learn】
# 手元のデータセットを、学習データとテストデータへ分割する便利な機能がある
# 通常の機械学習では、予測モデルを構築した後に、モデルの性能評価を行う。
# 性能評価のために、データセットを学習用とテスト用に分割して利用するのが一般的
# 予測モデルの学習や評価、予測は、クラスに定義されているメソッドで実行可能。
# scikit-learnには様々な予測モデルのクラスがある

# ◆予測モデルの学習
# 予測モデルによって利用するクラスは異なる。
# fitメソッドは共通

# ◆予測モデルの評価
# 引数にテストデータを指定→学習済みの予測モデルに対してscoreメソッドを実行　共通
# ※ただし、選択した予測モデルによって、出力値の性質が異なる
# 回帰の予測モデル(数値データを予測する手法)の場合、scoreメソッドは決定係数を出力。
# 分類の予測モデル(データを複数のカテゴリに分ける手法)の場合は正解率(適合率、再現率なども可)を出力する。

# ◆予測値の出力
# predictメソッドを実行　引数には、予測に必要なインプットデータを指定する

# ■scikit-learnのプログラム作成の流れ
# 1.サンプルデータの取得
# 2.サンプルデータの分割
# 3.予測モデルのインスタンス化
# 4.予測モデルの学習
# 5.予測モデルの評価
# 6.予測




In [3]:
#【1.サンプルデータの取得】
# ワインの成分とワイン種別のデータ「Wine recognition dataset」を取得する
# datasetsモジュールのload_wine関数を実行することで取得可能

# [from モジュール名 import インポートしたいもの]
# モジュール：sklearn.datasets
# インポートしたいもの：load_wine関数

# from モジュール名 import インポートしたいもの
from sklearn.datasets import load_wine

# インポートしたload_wine関数を実行し、datasetという変数に代入する
dataset = load_wine()
dataset

#情報は、ワインの成分やワイン種別、要素の名称、データの概要説明など (連想配列のデータ)

{'data': array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
         1.065e+03],
        [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
         1.050e+03],
        [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
         1.185e+03],
        ...,
        [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
         8.350e+02],
        [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
         8.400e+02],
        [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
         5.600e+02]]),
 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
        1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1

In [4]:
# 次にワインの成分を表示する。（ワインの成分はdatasetのdataキーに含まれている）
dataset.data

array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
        1.065e+03],
       [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
        1.050e+03],
       [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
        1.185e+03],
       ...,
       [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
        8.350e+02],
       [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
        8.400e+02],
       [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
        5.600e+02]])

In [5]:
import pandas as pd
from sklearn.datasets import load_wine

# Wineデータセットを読み込む
wine_data = load_wine()
load_wine()
print(wine_data.keys())

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names'])


In [6]:
print(wine_data['feature_names'])

['alcohol', 'malic_acid', 'ash', 'alcalinity_of_ash', 'magnesium', 'total_phenols', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins', 'color_intensity', 'hue', 'od280/od315_of_diluted_wines', 'proline']


In [7]:
dataset.data


array([[1.423e+01, 1.710e+00, 2.430e+00, ..., 1.040e+00, 3.920e+00,
        1.065e+03],
       [1.320e+01, 1.780e+00, 2.140e+00, ..., 1.050e+00, 3.400e+00,
        1.050e+03],
       [1.316e+01, 2.360e+00, 2.670e+00, ..., 1.030e+00, 3.170e+00,
        1.185e+03],
       ...,
       [1.327e+01, 4.280e+00, 2.260e+00, ..., 5.900e-01, 1.560e+00,
        8.350e+02],
       [1.317e+01, 2.590e+00, 2.370e+00, ..., 6.000e-01, 1.620e+00,
        8.400e+02],
       [1.413e+01, 4.100e+00, 2.740e+00, ..., 6.100e-01, 1.600e+00,
        5.600e+02]])

In [8]:
dataset.feature_names


['alcohol',
 'malic_acid',
 'ash',
 'alcalinity_of_ash',
 'magnesium',
 'total_phenols',
 'flavanoids',
 'nonflavanoid_phenols',
 'proanthocyanins',
 'color_intensity',
 'hue',
 'od280/od315_of_diluted_wines',
 'proline']

In [9]:
# データを見やすくするため、PandasのDataFrameを利用して表示してみる。
# DataFrameのdataにワインの成分(dataset.data)を、colomnsに要素名(dataset.feature_names)をセットして、DataFrameを生成する。

import pandas as pd
df = pd.DataFrame(data=dataset.data, columns=dataset.feature_names)
df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [10]:
# 次にワインの種別を確認する。ワインの種別は、datasetのtargetキーに含まれている。
dataset.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2])

In [11]:
# ワインの種別が0,1,2という数値で表示された。
# ワインの成分を表示させたDataFrameに、ワインの種別も追加してみる。要素名はcategoryとする。

df['category'] = dataset.target
df.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline,category
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0,0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0,0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0,0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0,0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0,0


In [12]:
# データ数を確認しておく
df.shape

(178, 14)

In [13]:
# 14要素（ワインの成分13要素＋ワインの種別1）のデータが、178レコード存在することが確認できた。

# ↑↑↑↑↑↑　ここまでがサンプルデータの取得　↑↑↑↑↑↑

In [14]:
# 【2.サンプルデータの分割】
# 次は、取得したサンプルデータを、「学習データ」と「テストデータ」に分割する
# 分割前に、機械学習の予測モデルにインプットする側のデータ…説明変数
# 予測値として出力される側のデータを区別しておく。…目的変数

# 説明変数（ワインの成分）を変数Xに代入
# 目的変数（ワインの種別）を変数yに代入

X = dataset.data
y = dataset.target

 # このXとyをそれぞれ、学習データをテストデータに分割する。
 # model_selectionモジュールのtrain_test_split関数を実行することで分割できる。

from sklearn.model_selection import train_test_split

# 次にインポートしたtrain_test_split関数を実行する
# 第1引数に説明変数を、第2引数に目的変数をセットする。

# 学習データとテストデータを7：3で分割（←一般的）する。test_size=0.3(テストに全体の30%を配分する)
# デフォルト設定では、テストデータへ配分されるレコードがランダムに選出されるが、random_stateというパラメータに特定の数値を指定すると、配分されるレコードを固定できる。


train_test_split(X, y, test_size=0.3, random_state=5)


[array([[1.358e+01, 2.580e+00, 2.690e+00, ..., 7.400e-01, 1.800e+00,
         7.500e+02],
        [1.234e+01, 2.450e+00, 2.460e+00, ..., 8.000e-01, 3.380e+00,
         4.380e+02],
        [1.285e+01, 3.270e+00, 2.580e+00, ..., 8.700e-01, 2.110e+00,
         5.700e+02],
        ...,
        [1.225e+01, 3.880e+00, 2.200e+00, ..., 6.500e-01, 2.000e+00,
         8.550e+02],
        [1.277e+01, 3.430e+00, 1.980e+00, ..., 7.000e-01, 2.120e+00,
         3.720e+02],
        [1.229e+01, 3.170e+00, 2.210e+00, ..., 1.420e+00, 2.830e+00,
         4.060e+02]]),
 array([[1.387000e+01, 1.900000e+00, 2.800000e+00, 1.940000e+01,
         1.070000e+02, 2.950000e+00, 2.970000e+00, 3.700000e-01,
         1.760000e+00, 4.500000e+00, 1.250000e+00, 3.400000e+00,
         9.150000e+02],
        [1.311000e+01, 1.010000e+00, 1.700000e+00, 1.500000e+01,
         7.800000e+01, 2.980000e+00, 3.180000e+00, 2.600000e-01,
         2.280000e+00, 5.300000e+00, 1.120000e+00, 3.180000e+00,
         5.020000e+02],
       

In [None]:
# 説明変数Xの学習データ、説明変数Xのテストデータ、目的変数yの学習データ、目的変数yのテストデータ　が出力される

In [15]:
# 出力した4つの要素を、変数X_train,X_test,y_train,y_testに代入する

X_train,X_test,y_train,y_test = train_test_split(X, y, test_size=0.3, random_state=5)

# 7:3に分割されているかレコード数を確認してみる

print(X.shape, X_train.shape, X_test.shape, y.shape, y_train.shape, y_test.shape)

(178, 13) (124, 13) (54, 13) (178,) (124,) (54,)


In [16]:
#【3. 予測モデルのインスタンス化】
# 予測モデルを選択し、クラスをインスタンス化する。
# 予測モデルは【ランダムフォレスト】とする。
# まずは、【ensembleモジュール】の【RandomForestClassifier】クラスをインポートする

from sklearn.ensemble import RandomForestClassifier

# 次にインポートしたRandomForestClassifierクラスをインスタンス化してmodelという変数に代入する
model = RandomForestClassifier(random_state=3)

# 以下のようにrandom_stateを指定しない場合、最終的に生成される予測モデルが実行毎に異なる可能性があります。これは、モデルの評価結果や予測結果が実行毎に変わってしまう可能性があること意味します。
# model = RandomForestClassifier()


# 予測モデルのインスタンス化は完了



In [17]:
#【4. 予測モデルの学習】
# 次はmodelを学習する

# fitメソッドを実行することで学習が行われる
# fitメソッドの引数に指定するデータは、説明変数X(ワインの成分)の学習データと目的変数y(ワインの種別)の学習データ
# 第1引数にX_trainを、第2引数にy_trainを指定する。

model.fit(X_train,y_train)

#　↑↑↑↑↑予測モデルの学習完了↑↑↑↑↑


In [18]:
#【5. 予測モデルの評価】
# 次は、学習済みの予測モデルを評価する。
# 説明変数X(ワインの成分)のテストデータに基づいて、ワインの種別を予測した値と、目的変数y(ワインの種別)のテストデータがどれだけマッチしているか

# まずは、説明変数X(ワインの成分)のテストデータから、ワインの種別を予測する。
# predictメソッドを利用することで予測値が出力できる。
# predictメソッドの引数には、説明変数XのテストデータであるX_testを指定する。
# 予測値を変数y_predに代入して出力させる

y_pred = model.predict(X_test)
y_pred

array([0, 1, 0, 0, 2, 2, 0, 0, 1, 0, 0, 0, 2, 1, 2, 0, 1, 0, 1, 1, 0, 0,
       1, 1, 1, 1, 0, 2, 2, 0, 1, 1, 0, 0, 2, 2, 0, 2, 2, 1, 1, 2, 2, 0,
       2, 1, 0, 2, 0, 1, 0, 1, 1, 0])

In [19]:
# 目的変数y(ワインの種別)のテストデータを確認する
y_test

array([0, 1, 0, 0, 2, 2, 0, 0, 1, 0, 0, 0, 2, 1, 2, 0, 1, 0, 1, 0, 0, 0,
       1, 1, 1, 1, 0, 2, 2, 0, 1, 1, 0, 0, 2, 2, 0, 2, 2, 1, 1, 1, 2, 0,
       2, 1, 0, 2, 0, 1, 0, 1, 1, 0])

In [20]:
# 今回は指標として正解率を利用する
# metricsモジュールのaccuracy_score関数を実行する
# まずは、accuracy_score関数をインポートする

from sklearn.metrics import accuracy_score

# インポートしたaccuracy_score関数を実行する
# 第1引数にテストデータであるy_testを、第2引数に予測値であるy_predをセットする

accuracy_score(y_test,y_pred)


0.9629629629629629

In [21]:
# テストデータ54レコードのうち、予測が約92.6%（50レコード）的中していることを意味する

# 異なる予測モデルの評価方法として、scoreメソッドを活用することも可能
# 引数には、テストデータを指定する

# scoreメソッドを利用すると、分類の予測モデルの場合は正解率が出力される
# 回帰の予測モデルの場合は、決定係数が出力される

model.score(X_test,y_test)


0.9629629629629629

In [22]:
# ↑↑↑↑↑予測モデルの評価完了↑↑↑↑↑↑↑

In [23]:
#【6. 予測】
# 最後に、構築した予測モデルを活用して予測を行う。
# 種別不明のワインについて、成分データから種別を予測する
# 予測モデルの評価と同様に、predictメソッドを利用する。
# 引数には、予測したいワインの成分データを指定する。
# まずは、予測したいワインの成分のダミーデータを3セット作成する。（通常は外部ファイルから取り込むのが一般的）

# 簡易ダミーデータを作成する
import numpy as np

X_real = np.array([
    [13, 1.6, 2.2, 16, 118, 2.6, 2.9, 0.21, 1.6, 5.8, 0.92, 3.2, 1011],
    [12, 2.8, 2.2, 18, 100, 2.5, 2.3, 0.25, 2.0, 2.2, 1.15, 3.3, 1000],
    [14, 4.1, 2.7, 24, 101, 1.6, 0.7, 0.53, 1.4, 9.4, 0.61, 1.6, 560]])

In [24]:
# ワインの成分のダミーデータから、ワインの種別を予測する。
# 予測したいワインの成分データであるX_realを引数に指定して、predictメソッドを実行する

model.predict(X_real)

array([0, 1, 2])

In [25]:
# 3セットのワインの成分から、ワインの種別がそれぞれ0,1,2であると予測できた。以上で予測完了。
