## Лабораторная работа №5

### Задание 1
Провести классификацию найденного датасета, методами решающего дерева и случайного леса . В формате Markdown написать пояснения. Объяснить почему были выбраны именно такие гиперпараметры, была ли перекрестная проверка, и т.д.

### Выполнение работы:

#### Шаг 1. Загрузка датасета

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score, classification_report
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler
from tqdm import tqdm

# Загрузка датасета
file_path = "../../dataset/result_dataset.csv"
data = pd.read_csv(file_path)

data

Unnamed: 0,Date,Day,Month,Year,Customer_Age,Age_Group,Customer_Gender,Country,State,Product_Category,Sub_Category,Product,Order_Quantity,Unit_Cost,Unit_Price,Profit,Cost,Revenue
0,1.385424e+09,26,0,2013,19,0,0,0,0,0,0,0,8,45,120,1,360,950
1,1.448496e+09,26,0,2015,19,0,0,0,0,0,0,0,8,45,120,1,360,950
2,1.395533e+09,23,1,2014,49,1,0,1,1,0,0,0,23,45,120,1,1035,2401
3,1.458691e+09,23,1,2016,49,1,0,1,1,0,0,0,20,45,120,1,900,2088
4,1.400112e+09,15,2,2014,47,1,1,1,1,0,0,0,4,45,120,0,180,418
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
113031,1.460419e+09,12,11,2016,41,1,0,5,9,1,16,129,3,24,64,0,72,184
113032,1.396397e+09,2,11,2014,18,0,0,1,8,1,16,128,22,24,64,1,528,1183
113033,1.459555e+09,2,11,2016,18,0,0,1,8,1,16,128,22,24,64,1,528,1183
113034,1.393891e+09,4,1,2014,37,1,1,4,17,1,16,127,24,24,64,1,576,1260


#### Шаг 2. Разделение данных и нормализация

In [2]:
# Разделение на признаки (X) и целевую переменную (y)
X = data.drop('Profit', axis=1)
y = data['Profit']

# Разделение данных на тренировочный и тестовый наборы
# random_state=42 - гарантирует, что данные каждый раз будут одинакого разбиваться
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование признаков (нормализация)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

### Метод решающего дерева

#### Шаг 3. Гиперпараметры:

max_depth: Максимальная глубина дерева. Ограничивает количество уровней в дереве. Значение None позволяет узлам расширяться до тех пор, пока все листовые узлы не будут содержать минимальное количество выборок.
min_samples_split: Минимальное количество выборок, необходимых для разделения внутреннего узла. Если количество выборок в узле меньше этого значения, узел не будет разделяться.
min_samples_leaf: Минимальное количество выборок, необходимых для существования листового узла. Это определяет, сколько выборок должно быть на каждом листе.

In [3]:
param_grid_tree = {
    'max_depth': [None, 5, 10, 15],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4]
}

In [4]:
# Создание модели решающего дерева
decision_tree = DecisionTreeClassifier()

# Поиск лучших параметров для решающего дерева
grid_search_tree = GridSearchCV(decision_tree, param_grid_tree, refit=True, verbose=3, cv=5)
grid_search_tree.fit(X_train_scaled, y_train)

# Лучшие параметры для решающего дерева
best_params_tree = grid_search_tree.best_params_
best_score_tree = grid_search_tree.best_score_

Fitting 5 folds for each of 36 candidates, totalling 180 fits
[CV 1/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2;, score=1.000 total time=   0.1s
[CV 2/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2;, score=0.999 total time=   0.1s
[CV 3/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2;, score=1.000 total time=   0.1s
[CV 4/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2;, score=0.999 total time=   0.1s
[CV 5/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2;, score=0.999 total time=   0.1s
[CV 1/5] END max_depth=None, min_samples_leaf=1, min_samples_split=5;, score=1.000 total time=   0.1s
[CV 2/5] END max_depth=None, min_samples_leaf=1, min_samples_split=5;, score=0.999 total time=   0.1s
[CV 3/5] END max_depth=None, min_samples_leaf=1, min_samples_split=5;, score=0.999 total time=   0.1s
[CV 4/5] END max_depth=None, min_samples_leaf=1, min_samples_split=5;, score=1.000 total time=   0.1s
[CV 5/5] END max_dep

#### Шаг 4. Обучение решающего дерева

In [5]:
best_tree = DecisionTreeClassifier(**best_params_tree)
best_tree.fit(X_train_scaled, y_train)

#### Шаг 5. Результаты решающего дерева

In [6]:
accuracy_tree = best_tree.score(X_test_scaled, y_test)
print("Лучшие параметры для решающего дерева:", best_params_tree)
print("Точность решающего дерева на тестовом наборе:", accuracy_tree)

predictions = best_tree.predict(X_test_scaled)

# Отчет по классификации
print("\nОтчет по классификации:")
print(classification_report(y_test, predictions))

Лучшие параметры для решающего дерева: {'max_depth': 15, 'min_samples_leaf': 1, 'min_samples_split': 2}
Точность решающего дерева на тестовом наборе: 0.9994692144373672

Отчет по классификации:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     15691
           1       1.00      1.00      1.00      6917

    accuracy                           1.00     22608
   macro avg       1.00      1.00      1.00     22608
weighted avg       1.00      1.00      1.00     22608



### Метод случайного леса

#### Шаг 6. Гиперпараметры:

n_estimators: Количество деревьев в лесу. Большее количество деревьев может улучшить производительность, но с большими затратами на вычислительные ресурсы.
max_depth: Максимальная глубина каждого дерева в лесу. Это ограничивает глубину каждого дерева в лесу, что помогает управлять переобучением.
min_samples_split: Минимальное количество выборок, необходимых для разделения внутреннего узла дерева. Определяет, сколько выборок должно быть в узле, чтобы он был разделен.
min_samples_leaf: Минимальное количество выборок, необходимых для существования листового узла. Это определяет, сколько выборок должно быть на каждом листе дерева.

In [7]:
# Определение параметров для случайного леса
# Указал маленькие значения для ускорения обучения
param_grid_forest = {
    'n_estimators': range(2, 10),
    'max_depth': [None, 5, 10, 15],
    'min_samples_split': [2, 5],
    'min_samples_leaf': [1, 2, 4]
}

In [8]:
# Создание модели случайного леса
random_forest = RandomForestClassifier()

# Поиск лучших параметров для случайного леса
grid_search_forest = GridSearchCV(random_forest, param_grid_forest, refit=True, verbose=3, cv=5)
grid_search_forest.fit(X_train_scaled, y_train)

# Лучшие параметры для случайного леса
best_params_forest = grid_search_forest.best_params_
best_score_forest = grid_search_forest.best_score_

Fitting 5 folds for each of 192 candidates, totalling 960 fits
[CV 1/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=2;, score=0.996 total time=   0.1s
[CV 2/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=2;, score=0.994 total time=   0.1s
[CV 3/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=2;, score=0.996 total time=   0.1s
[CV 4/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=2;, score=0.997 total time=   0.1s
[CV 5/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=2;, score=0.995 total time=   0.1s
[CV 1/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=3;, score=0.999 total time=   0.1s
[CV 2/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=3;, score=0.998 total time=   0.1s
[CV 3/5] END max_depth=None, min_samples_leaf=1, min_samples_split=2, n_estimators=3;, score=0.998 total time= 

#### Шаг 7. Обучение случайного леса

In [9]:
best_forest = RandomForestClassifier(**best_params_forest)
best_forest.fit(X_train_scaled, y_train)

#### Шаг 8. Результаты случайного леса

In [10]:
accuracy_forest = best_forest.score(X_test_scaled, y_test)
print("Лучшие параметры для случайного леса:", best_params_forest)
print("Точность случайного леса на тестовом наборе:", accuracy_forest)

predictions = best_forest.predict(X_test_scaled)

# Отчет по классификации
print("\nОтчет по классификации:")
print(classification_report(y_test, predictions))

Лучшие параметры для случайного леса: {'max_depth': 15, 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 8}
Точность случайного леса на тестовом наборе: 0.9988941967445152

Отчет по классификации:
              precision    recall  f1-score   support

           0       1.00      1.00      1.00     15691
           1       1.00      1.00      1.00      6917

    accuracy                           1.00     22608
   macro avg       1.00      1.00      1.00     22608
weighted avg       1.00      1.00      1.00     22608

