<h3>Загрузка датасету</h3>

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import RandomizedSearchCV, GridSearchCV
import numpy as np

# Завантаження та підготовка даних
dataset = pd.read_csv('Social_Network_Ads.csv')
dataset

Unnamed: 0,User ID,Gender,Age,EstimatedSalary,Purchased
0,15624510,Male,19,19000,0
1,15810944,Male,35,20000,0
2,15668575,Female,26,43000,0
3,15603246,Female,27,57000,0
4,15804002,Male,19,76000,0
...,...,...,...,...,...
395,15691863,Female,46,41000,1
396,15706071,Male,51,23000,1
397,15654296,Female,50,20000,1
398,15755018,Male,36,33000,0


<h3>Розділення даних на X та Y</h3>

In [2]:
X = dataset[['Age', 'EstimatedSalary']]
y = dataset['Purchased']

<h3>Розділення на тестову та тренувальну вибірки</h3>

In [3]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

<h3>Стандартизація ознак</h3>

In [4]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

<h3>Рандомний та сітковий пошук оптимальниї параметрів (з використанням тренувальної вибірки)</h3>

In [5]:
from sklearn.model_selection import train_test_split, RandomizedSearchCV, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
# Визначаємо параметри, які ми хочемо оптимізувати
param_grid = {
    'n_estimators': [10, 50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Random Search
rf = RandomForestClassifier(random_state=42)
random_search = RandomizedSearchCV(rf, param_distributions=param_grid, n_iter=10, random_state=42, cv=5)
random_search.fit(X_train, y_train)

# Grid Search
grid_search = GridSearchCV(rf, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Виводимо найкращі параметри для Random Search та Grid Search
print("Найкращі параметри для Random Search:")
print(random_search.best_params_)

print("\nНайкращі параметри для Grid Search:")
print(grid_search.best_params_)

Найкращі параметри для Random Search:
{'n_estimators': 50, 'min_samples_split': 10, 'min_samples_leaf': 1, 'max_depth': 30}

Найкращі параметри для Grid Search:
{'max_depth': None, 'min_samples_leaf': 2, 'min_samples_split': 2, 'n_estimators': 50}


<h3>Оцінювання точністі моделі з найкращими параметрами (рандомного та сіткового пошуку)</h3>

In [6]:
from sklearn.metrics import accuracy_score

# Використовуємо найкращі параметри для Random Search та Grid Search
best_params_random = random_search.best_params_
best_params_grid = grid_search.best_params_

# Ініціалізуємо моделі з найкращими параметрами
rf_random = RandomForestClassifier(random_state=42, **best_params_random)
rf_grid = RandomForestClassifier(random_state=42, **best_params_grid)

# Тренуємо моделі на тренувальних даних
rf_random.fit(X_train, y_train)
rf_grid.fit(X_train, y_train)

# Робимо прогнози на тестових даних
y_pred_random = rf_random.predict(X_test)
y_pred_grid = rf_grid.predict(X_test)

# Оцінюємо точність моделей
accuracy_random = accuracy_score(y_test, y_pred_random)
accuracy_grid = accuracy_score(y_test, y_pred_grid)

print("Точність моделі з найкращими параметрами (Random Search): {:.2f}%".format(accuracy_random * 100))
print("Точність моделі з найкращими параметрами (Grid Search): {:.2f}%".format(accuracy_grid * 100))


Точність моделі з найкращими параметрами (Random Search): 95.00%
Точність моделі з найкращими параметрами (Grid Search): 95.00%


<h3>Оцінювання точністі після крос-валідації</h3>

In [9]:
from sklearn.model_selection import cross_val_score

# Крос-валідація для моделі з найкращими параметрами (Random Search)
cross_val_scores_random = cross_val_score(rf_random, X_train, y_train, cv=5)
mean_accuracy_random = cross_val_scores_random.mean()

# Крос-валідація для моделі з найкращими параметрами (Grid Search)
cross_val_scores_grid = cross_val_score(rf_grid, X_train, y_train, cv=5)
mean_accuracy_grid = cross_val_scores_grid.mean()

print("Середня точність після крос-валідації (Random Search): {:.2f}%".format(mean_accuracy_random * 100))
print("Середня точність після крос-валідації (Grid Search): {:.2f}%".format(mean_accuracy_grid * 100))


Середня точність після крос-валідації (Random Search): 89.29%
Середня точність після крос-валідації (Grid Search): 89.64%


<h3>Точність моделі без крос-валідації</h3>

In [10]:
# Ініціалізуємо та тренуємо модель на всьому наборі даних
rf = RandomForestClassifier(random_state=42)
rf.fit(X, y)

# Робимо прогнози на тому ж наборі даних
y_pred = rf.predict(X)

# Оцінюємо точність моделі
accuracy = accuracy_score(y, y_pred)

print("Точність моделі без крос-валідації: {:.2f}%".format(accuracy * 100))

Точність моделі без крос-валідації: 99.50%


<h3>Поєднання Random та Grid Search</h3>

In [11]:
# Імпортуємо необхідні бібліотеки
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, RandomizedSearchCV, GridSearchCV
from sklearn.ensemble import RandomForestClassifier

# Розділяємо датасет на тренувальні та тестові дані
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Визначаємо параметри, які ми хочемо оптимізувати
param_grid = {
    'n_estimators': [10, 50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

# Random Search (грубий пошук)
rf = RandomForestClassifier(random_state=42)
random_search = RandomizedSearchCV(rf, param_distributions=param_grid, n_iter=10, random_state=42, cv=5)
random_search.fit(X_train, y_train)

# Використовуємо найкращі параметри з Random Search для подальшого Grid Search (деталізований пошук)
best_params_random = random_search.best_params_
param_grid = {
    'n_estimators': [best_params_random['n_estimators']],
    'max_depth': [best_params_random['max_depth'], best_params_random['max_depth'] + 1, best_params_random['max_depth'] - 1],
    'min_samples_split': [best_params_random['min_samples_split'], best_params_random['min_samples_split'] + 1, best_params_random['min_samples_split'] - 1],
    'min_samples_leaf': [best_params_random['min_samples_leaf'], best_params_random['min_samples_leaf'] + 1, best_params_random['min_samples_leaf'] - 1]
}

grid_search = GridSearchCV(rf, param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Виводимо найкращі параметри для Random Search та Grid Search
print("Найкращі параметри для Random Search:")
print(random_search.best_params_)

print("\nНайкращі параметри для Grid Search:")
print(grid_search.best_params_)

from sklearn.metrics import accuracy_score

# Використовуємо найкращі параметри для Random Search та Grid Search
best_params_random = random_search.best_params_
best_params_grid = grid_search.best_params_

# Ініціалізуємо моделі з найкращими параметрами
rf_random = RandomForestClassifier(random_state=42, **best_params_random)
rf_grid = RandomForestClassifier(random_state=42, **best_params_grid)

# Тренуємо моделі на тренувальних даних
rf_random.fit(X_train, y_train)
rf_grid.fit(X_train, y_train)

# Робимо прогнози на тестових даних
y_pred_random = rf_random.predict(X_test)
y_pred_grid = rf_grid.predict(X_test)

# Оцінюємо точність моделей
accuracy_random = accuracy_score(y_test, y_pred_random)
accuracy_grid = accuracy_score(y_test, y_pred_grid)

print("Точність моделі з найкращими параметрами (Random Search): {:.2f}%".format(accuracy_random * 100))
print("Точність моделі з найкращими параметрами (Grid Search): {:.2f}%".format(accuracy_grid * 100))

Найкращі параметри для Random Search:
{'n_estimators': 50, 'min_samples_split': 2, 'min_samples_leaf': 4, 'max_depth': 20}

Найкращі параметри для Grid Search:
{'max_depth': 20, 'min_samples_leaf': 5, 'min_samples_split': 2, 'n_estimators': 50}
Точність моделі з найкращими параметрами (Random Search): 92.50%
Точність моделі з найкращими параметрами (Grid Search): 92.50%


45 fits failed out of a total of 135.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
45 fits failed with the following error:
Traceback (most recent call last):
  File "C:\Users\amigo\anaconda3\Lib\site-packages\sklearn\model_selection\_validation.py", line 732, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\amigo\anaconda3\Lib\site-packages\sklearn\base.py", line 1144, in wrapper
    estimator._validate_params()
  File "C:\Users\amigo\anaconda3\Lib\site-packages\sklearn\base.py", line 637, in _validate_params
    validate_parameter_constraints(
  File "C:\Users\amigo\anaconda3\Lib\site-packages\sklearn\utils\_param_validation.py", line 95, in validate_parameter_constraints
    raise InvalidParamete

<h3><em>Висновки</em></h3>
<p style='font-size:16px'>Модель RandomForestClassifier навчається добре, але є деякі нюанси з оптимальними параметрами. Простий підбір рандомного та сіткового пошуку виводить точність 95%, що є досить добрим результатом. Після крос-валідації ми можемо побачити, що результат точністі зменшився до плюс-мінус 89%. Це не критично, тому що точність лишається доволі високою, просто оцінюється більш об'єктивно. А ось ми можемо побачити, що точність без крос-валідації буде 99.50%. Це показує нам, що модель має нахил до перенавчання (overfitting) або задача класіфікації RandomForestClassifier є дуже простою і легко справляється.</p>
<p style='font-size:16px'>Ще ми можемо побачити, що при поєднанні рандомного та сіткового пошуку точність моделі може варіюватись від 89 до 95%, що є досить добрим результатом, але це краще перевіряти на іншому датасеті, де к-сть даних багато (>1000)</p>