<a href="https://colab.research.google.com/github/ymuto0302/RW2025/blob/main/comaprsion_holdout_and_CV.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ホールドアウト法と交差検証法の比較実験
以下では digits データセットの場合のコードのみ示している。

## ライブラリのインポート

In [13]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.model_selection import cross_val_score, StratifiedKFold
import numpy as np

## データセットの読み込み ＆ 標準化

In [14]:
digits = load_digits()
X, y = digits.data, digits.target

# データの標準化
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

## モデルの定義

In [15]:
clf = DecisionTreeClassifier(max_depth=10, random_state=42)

## ホールドアウト法

In [19]:
holdout_scores = [] # 正解率を記録するためのリスト

for seed in range(30):
    # random seed を変えて，訓練データ・テストデータへ分割
    X_train, X_test, y_train, y_test = train_test_split(
        X_scaled, y, test_size=0.3,
        stratify=y,
        random_state=seed # random seed を変化させて，データを分割
    )

    clf.fit(X_train, y_train) # 学習
    score = clf.score(X_test, y_test) # テストデータに対する正解率を求める

    holdout_scores.append(score) # 正解率を記録

print(f"正解率の平均: {np.mean(holdout_scores):.3f}")
print(f"正解率の標準偏差: {np.std(holdout_scores):.4f}")

正解率の平均: 0.847
正解率の標準偏差: 0.0140


## 交差検証法

In [20]:
cv_mean_scores = [] # 正解率を記録するためのリスト

for seed in range(30):
    # random seed を変えて，CV を実行
    cv_scores = cross_val_score(
        clf, X_scaled, y,
        cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=seed) # 5-fold CV
    )

    # この実行での5-foldの平均正解率を記録
    cv_mean_scores.append(np.mean(cv_scores))

print(f"正解率の平均: {np.mean(cv_mean_scores):.3f}")
print(f"正解率の標準偏差: {np.std(cv_mean_scores):.4f}")

正解率の平均: 0.852
正解率の標準偏差: 0.0071
