## データの準備

In [25]:
from  pandas import DataFrame
from sklearn.datasets import load_breast_cancer

brest_cancer = load_breast_cancer()

X = brest_cancer.data[:,:10]
y = brest_cancer.target

columns = ['半径', 'テクスチャ', '周囲の長さ', '面積', 'なめらかさ', 'コンパクト性', 'へこみ', 'へこみの数', '対称性', 'フラクタル次元']

df = DataFrame(data=X[:,:10], columns=columns)
df['目的変数'] = y

display(df.head())

Unnamed: 0,半径,テクスチャ,周囲の長さ,面積,なめらかさ,コンパクト性,へこみ,へこみの数,対称性,フラクタル次元,目的変数
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,0
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,0
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,0
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,0
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,0


In [26]:
X = df[['面積', 'へこみ']].values
y = df['目的変数'].values

## 層化k分割交差検証法

In [27]:
import numpy

# ランダムフォレストモデルを作成
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(criterion='gini', max_depth=1, n_estimators=10, random_state=42)

from sklearn.metrics import accuracy_score

# scikit-learn の層化  k  分割交差検証を利用するために、StratifiedKFold クラスを import 
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=10, shuffle=True, random_state=42)
'''
データの分割方法を与えた StratifiedKFold のインスタンスを作成
n_splits パラメータが  k  に相当し、ここでは  k=10  とする
shuffle パラメータはデータの分割時にサンプルをシャッフルするかどうかで、True にすることでシャッフルする。
random_state はこれまでと同じで、再現性の確保のためのパラメータ。
'''

'\nデータの分割方法を与えた StratifiedKFold のインスタンスを作成\nn_splits パラメータが  k  に相当し、ここでは  k=10  とする\nshuffle パラメータはデータの分割時にサンプルをシャッフルするかどうかで、True にすることでシャッフルする。\nrandom_state はこれまでと同じで、再現性の確保のためのパラメータ。\n'

In [29]:
# 各分割毎の正解率を格納するリスト
scores = []

# 各分割に対してランダムフォレストを適応する
# skf.split(X, y)でデータをk分割している
for i, (train_index, test_index) in enumerate(skf.split(X, y)):
    
    # train_index は訓練データに利用するデータのインデックスが格納されたリスト
    # test_index はテストデータに利用するデータのインデックスが格納されたリスト
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    

    # ランダムフォレストモデルの学習
    rf.fit(X_train, y_train)
    
    # テストデータの予測
    pred = rf.predict(X_test)
    
    # 正解率の計算
    acc = accuracy_score(y_test, pred)
    scores.append(acc)
    
    # 正解率の表示
    print(f'分割: {i}, 正解率: {acc}')

分割: 0, 正解率: 0.8793103448275862
分割: 1, 正解率: 0.9137931034482759
分割: 2, 正解率: 0.9298245614035088
分割: 3, 正解率: 0.8771929824561403
分割: 4, 正解率: 0.8596491228070176
分割: 5, 正解率: 0.9649122807017544
分割: 6, 正解率: 0.8947368421052632
分割: 7, 正解率: 0.8214285714285714
分割: 8, 正解率: 0.8928571428571429
分割: 9, 正解率: 0.8928571428571429


In [30]:
# accの平均値を計算
numpy.mean(scores)

0.8926562094892402