In [1]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

data = load_iris()
X = data.data
y = data.target

In [2]:
# Train/Test split
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

In [3]:
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier(random_state=42)

In [4]:
# Кросс-валидация
from sklearn.model_selection import cross_val_score

cv_scores = cross_val_score(
    model,
    X_train,
    y_train,
    cv=5,
    scoring="accuracy"
)

print("CV Accuracy scores:", cv_scores)
print("Mean CV accuracy:", cv_scores.mean())

CV Accuracy scores: [0.91666667 0.95833333 0.95833333 0.95833333 0.95833333]
Mean CV accuracy: 0.95


In [5]:
# Подбор гиперпараметров через GridSearchCV
from sklearn.model_selection import GridSearchCV

param_grid = {
    "n_estimators": [50, 100, 150],
    "max_depth": [None, 3, 5, 7],
    "min_samples_split": [2, 4, 6]
}

grid = GridSearchCV(
    estimator=RandomForestClassifier(random_state=42),
    param_grid=param_grid,
    cv=5,
    scoring="accuracy",
    n_jobs=-1
)

grid.fit(X_train, y_train)

print("Лучшие параметры:", grid.best_params_)
print("Лучшая CV точность:", grid.best_score_)


Лучшие параметры: {'max_depth': 3, 'min_samples_split': 2, 'n_estimators': 50}
Лучшая CV точность: 0.9583333333333334


In [6]:
# Финальная модель с лучшими параметрами
best_model = grid.best_estimator_

best_model.fit(X_train, y_train)

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

y_pred = best_model.predict(X_test)

print("Test Accuracy:", accuracy_score(y_test, y_pred))
print("Test Precision:", precision_score(y_test, y_pred, average="weighted"))
print("Test Recall:", recall_score(y_test, y_pred, average="weighted"))
print("Test F1:", f1_score(y_test, y_pred, average="weighted"))


Test Accuracy: 0.9666666666666667
Test Precision: 0.9696969696969696
Test Recall: 0.9666666666666667
Test F1: 0.9665831244778613


Выводы

В ходе экспериментов была проведена кросс-валидация и подбор гиперпараметров модели случайного леса.

Кросс-валидация (5-fold) позволила получить стабильную оценку качества модели на обучающих данных и выявить, что средняя точность составляет примерно среднее CV значение.

С помощью GridSearchCV были протестированы различные сочетания гиперпараметров: количество деревьев, глубина деревьев и минимальное количество объектов для разделения узла.

Наилучшие параметры были выбраны автоматически на основе результатов кросс-валидации, что позволило избежать переобучения и подобрать оптимальную модель.

Финальная модель показала хорошее качество на тестовой выборке — высокая точность, полнота и F1-мера, что подтверждает корректность применённого подхода.

В целом, кросс-валидация и подбор гиперпараметров являются ключевыми инструментами для построения надёжных моделей машинного обучения и позволяют повысить качество модели без риска переобучения.