In [195]:
import pandas as pd
from sklearn.datasets import load_wine

data = load_wine()
df = pd.DataFrame(data.data, columns=data.feature_names)

selected_features = ['malic_acid', 'flavanoids', 'nonflavanoid_phenols', 'proanthocyanins']
X = df[selected_features]
y = data.target

In [196]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [197]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

# Определение параметров для поиска
param_grid = {
    'max_depth': [1, 2, 3, 4],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

tree_classifier = DecisionTreeClassifier(random_state=42)
grid_search = GridSearchCV(tree_classifier, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

best_tree = grid_search.best_estimator_
print("Лучшие параметры для дерева решений:", grid_search.best_params_)

Лучшие параметры для дерева решений: {'max_depth': 2, 'min_samples_leaf': 1, 'min_samples_split': 2}


In [198]:
from sklearn.ensemble import RandomForestClassifier

param_grid_rf = {
    'max_depth': [1, 2, 3, 4],
    'min_samples_split': [2, 5, 10, 40],
    'min_samples_leaf': [1, 2, 4]
}

rf_classifier = RandomForestClassifier(random_state=42)
grid_search_rf = GridSearchCV(rf_classifier, param_grid_rf, cv=5, scoring='accuracy')
grid_search_rf.fit(X_train, y_train)

best_rf = grid_search_rf.best_estimator_
print("Лучшие параметры случайного леса наименьшей высоты:", grid_search_rf.best_params_)

Лучшие параметры случайного леса наименьшей высоты: {'max_depth': 4, 'min_samples_leaf': 4, 'min_samples_split': 10}


In [199]:
param_grid_opt = {
    'n_estimators': [20, 25, 30],
    'max_depth': [1, 2, 3, 4],
    'min_samples_split': [10, 20, 25],
    'min_samples_leaf': [1, 2, 4]
}

grid_search_opt = GridSearchCV(rf_classifier, param_grid_opt, cv=5, scoring='accuracy')
grid_search_opt.fit(X_train, y_train)

best_rf_opt = grid_search_opt.best_estimator_
print("Лучшие параметры для оптимального случайного леса наименьшей высоты и с минимальным количеством деревьев:", grid_search_opt.best_params_)

Лучшие параметры для оптимального случайного леса наименьшей высоты и с минимальным количеством деревьев: {'max_depth': 4, 'min_samples_leaf': 4, 'min_samples_split': 10, 'n_estimators': 25}


In [200]:
from sklearn.metrics import accuracy_score

y_pred_tree = best_tree.predict(X_test)
accuracy_tree = accuracy_score(y_test, y_pred_tree)
print("Точность дерева решений:", accuracy_tree)

y_pred_rf = best_rf.predict(X_test)
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print("Точность случайного леса:", accuracy_rf)

y_pred_rf_opt = best_rf_opt.predict(X_test)
accuracy_rf_opt = accuracy_score(y_test, y_pred_rf_opt)
print("Точность оптимального случайного леса:", accuracy_rf_opt)

Точность дерева решений: 0.8148148148148148
Точность случайного леса: 0.8518518518518519
Точность оптимального случайного леса: 0.8518518518518519


In [201]:
## Наилучшие результаты показали случайные деревья, значения точности которых оказались равны. Это значит, что для случайного леса были выбраны наилучшие параметры,
##как по высоте деревьев, так и по количеству деревьев, что подтвердилось при выборе параметров для оптимального леса