In [27]:
import numpy as np # 数値計算のためのパッケージ
import pandas as pd # データの加工用のパッケージ
from sklearn import datasets # サンプルデータセットをインポートするためのモジュール
iris = datasets.load_iris() # アヤメデータの読込
 
dat = pd.DataFrame(data=iris.data, columns=iris.feature_names) # アヤメデータを表形式に変換
dat["species"] = iris.target # ターゲットを表に追加
 
# 特徴量とターゲットの設定
X = dat[["sepal length (cm)", "sepal width (cm)"]].values # 特徴量の設定
y = dat['species'] # ターゲットの設定
 
# ホールドアウト法を行うための関数を定義
def Hold_out(X, y, test_size, random_state):
    
    X_c = X.copy()  # Xの値のコピーを作成
    y_c = y.copy()  # yの値のコピーを作成
    
    # 特徴量とターゲットをシャッフル
    for i in [X_c, y_c]:
        np.random.seed(random_state)
        np.random.shuffle(i)

    # シャッフルしたデータを訓練データとテストデータに分割
    # (1)テストデータのサンプル数(test_num)を、
    # X_cのデータサイズとテストデータの割合(test_size)との積で定義してください
    # （積はint()関数を用いて切り捨てを行い整数に変換してください）
    test_num = int(len(X_c) * test_size)
    X_train = X_c[test_num:, 0:]
    X_test = X_c[0: test_num, 0:]
    y_train = y_c[test_num:]
    y_test = y_c[0: test_num]
    
    # (2) 返り値を以下の順番で指定する。
    # 訓練用の特徴量、テスト用の特徴量、訓練用のターゲット、テスト用のターゲット
    return X_train, X_test, y_train, y_test


# 定義した関数を用いて元データをトレーニングデータとテストデータに分割
X_train, X_test, y_train, y_test = Hold_out(X, y, test_size = 0.3,
                                            random_state=0)
 
# 分割前と分割後のデータサイズを確認
print('Xのサイズ:', X.shape)
print('yのサイズ:', y.shape)
print('X_trainのサイズ:', X_train.shape)
print('y_trainのサイズ:', y_train.shape)
print('X_testのサイズ:', X_test.shape)
print('y_testのサイズ:', y_test.shape)

Xのサイズ: (150, 2)
yのサイズ: (150,)
X_trainのサイズ: (105, 2)
y_trainのサイズ: (105,)
X_testのサイズ: (45, 2)
y_testのサイズ: (45,)
