# Оцінка точності та налаштування гіперпараметрів моделі

### 1. Методи оцінки точності моделі

In [None]:
%pip install scikit-learn pandas

In [14]:

# Імпорт необхідних бібліотек
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

from sklearn import datasets


# Завантаження набору даних Iris
iris = datasets.load_iris()

# Перетворення даних у формат DataFrame для зручності роботи
iris_df = pd.DataFrame(
    data=iris.data,
    columns=iris.feature_names
)

# Додавання колонок з мітками класів
iris_df['species'] = iris.target
iris_df['species'] = iris_df['species'].map({0: 'setosa', 1: 'versicolor', 2: 'virginica'})

# Виведення кількох перших рядків для перевірки
print(iris_df.head())


   sepal length (cm)  sepal width (cm)  petal length (cm)  petal width (cm)  \
0                5.1               3.5                1.4               0.2   
1                4.9               3.0                1.4               0.2   
2                4.7               3.2                1.3               0.2   
3                4.6               3.1                1.5               0.2   
4                5.0               3.6                1.4               0.2   

  species  
0  setosa  
1  setosa  
2  setosa  
3  setosa  
4  setosa  


Результат
Набір даних iris містить:

Вхідні ознаки (features):
Довжина чашолистка (sepal length)
Ширина чашолистка (sepal width)
Довжина пелюстки (petal length)
Ширина пелюстки (petal width)
Цільову змінну (target): Класи квітів:
0 - Setosa
1 - Versicolor
2 - Virginica
Це готовий набір, який добре підходить для задач класифікації. Ви можете з ним працювати без необхідності створювати власні локальні набори даних.

In [16]:


data = iris_df

# Підготовка даних
X = data.drop('species', axis=1)
y = data['species']

# Розділення на тренувальні та тестові вибірки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Побудова базової моделі
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Оцінка точності базової моделі
y_pred = model.predict(X_test)
base_accuracy = accuracy_score(y_test, y_pred)
classification_rep = classification_report(y_test, y_pred, zero_division=0)
print("Base Accuracy:", base_accuracy)
print("Classification Report:", classification_rep)

# Перехресна перевірка
cv_scores = cross_val_score(model, X, y, cv=2)
cv_accuracy = cv_scores.mean()
print("Cross-Validation Accuracy:", cv_accuracy)


Base Accuracy: 1.0
Classification Report:               precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       1.00      1.00      1.00         9
   virginica       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30

Cross-Validation Accuracy: 0.9533333333333334


### 2. Методи налаштування гіперпараметрів моделі

In [17]:

# Налаштування гіперпараметрів
param_grid = {
    'n_estimators': [10, 50],
    'max_depth': [None, 10],
    'min_samples_split': [2, 5]
}

grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42),
                           param_grid=param_grid, cv=2, scoring='accuracy')

grid_search.fit(X_train, y_train)

# Найкращі параметри та модель
best_params = grid_search.best_params_
best_model = grid_search.best_estimator_

# Оцінка моделі з оптимальними параметрами
y_pred_optimized = best_model.predict(X_test)
optimized_accuracy = accuracy_score(y_test, y_pred_optimized)
print("Best Parameters:", best_params)
print("Optimized Accuracy:", optimized_accuracy)


Best Parameters: {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 10}
Optimized Accuracy: 1.0
