In [5]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, classification_report

# データ読み込み
X, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 決定木モデル
model = DecisionTreeClassifier(random_state=42,
                               max_depth=5, # （木の深さ） 
                                min_samples_split=2 )
model.fit(X_train, y_train)

# 予測と評価
y_pred = model.predict(X_test)
print("決定木")
print("Accuracy:", accuracy_score(y_test, y_pred))
print("\nClassification Report:\n", classification_report(y_test, y_pred))


決定木
Accuracy: 0.9473684210526315

Classification Report:
               precision    recall  f1-score   support

           0       0.93      0.93      0.93        43
           1       0.96      0.96      0.96        71

    accuracy                           0.95       114
   macro avg       0.94      0.94      0.94       114
weighted avg       0.95      0.95      0.95       114



In [7]:
print(X.shape)

(569, 30)


In [9]:
from sklearn.ensemble import RandomForestClassifier

# ランダムフォレストモデル
rf_model = RandomForestClassifier(
    n_estimators=100,
    max_depth=5, # （木の深さ）
    max_features="sqrt",  # （特徴量の平方根までしか分割の候補にしない）
    min_samples_split=2,  # （分割するための最小サンプル数）
    random_state=42
)
rf_model.fit(X_train, y_train)

# 予測と評価
y_pred_rf = rf_model.predict(X_test)
print("ランダムフォレスト")
print("Accuracy:", accuracy_score(y_test, y_pred_rf))
print("\nClassification Report:\n", classification_report(y_test, y_pred_rf))


ランダムフォレスト
Accuracy: 0.9649122807017544

Classification Report:
               precision    recall  f1-score   support

           0       0.98      0.93      0.95        43
           1       0.96      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.97      0.96      0.96       114
weighted avg       0.97      0.96      0.96       114



In [10]:
from sklearn.ensemble import GradientBoostingClassifier

# データセット読み込み
X, y = load_breast_cancer(return_X_y=True)  # yは 0 or 1 の2クラス

# 学習・テスト分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# GBDTモデル作成（2クラスでも同じクラスを使う）
model = GradientBoostingClassifier(
    n_estimators=100, # 木の数
    learning_rate=0.1, # 学習率
    max_depth=5 , # 木の深さ
    min_samples_split=5, # 分割するための最小サンプル数
    random_state=42 # 再現性のための乱数シード
)

# 学習
model.fit(X_train, y_train)

# 予測（クラスラベル）
y_pred = model.predict(X_test)

# 精度
print("勾配ブースティング決定木")
print("Accuracy:", accuracy_score(y_test, y_pred))
print("\nClassification Report:\n", classification_report(y_test, y_pred))


勾配ブースティング決定木
Accuracy: 0.9649122807017544

Classification Report:
               precision    recall  f1-score   support

           0       0.98      0.93      0.95        43
           1       0.96      0.99      0.97        71

    accuracy                           0.96       114
   macro avg       0.97      0.96      0.96       114
weighted avg       0.97      0.96      0.96       114

