## Лабораторная работа №6

### Задание 1
Провести классификацию найденного датасета, методами CatBoost . В формате Markdown написать пояснения. Объяснить почему были выбраны именно такие гиперпараметры, была ли перекрестная проверка, и т.д.

### Выполнение работы:

Если не установлен модуль CatBoost необходимо в консоль ввести команду pip install catboost

#### Шаг 1. Загрузка датасета

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from catboost import CatBoostClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, classification_report
from tqdm import tqdm

# Загрузка датасета
file_path = "../../dataset/result_dataset.csv"
data = pd.read_csv(file_path)

data

Unnamed: 0,Date,Day,Month,Year,Customer_Age,Age_Group,Customer_Gender,Country,State,Product_Category,Sub_Category,Product,Order_Quantity,Unit_Cost,Unit_Price,Profit,Cost,Revenue
0,1.385424e+09,26,0,2013,19,0,0,0,0,0,0,0,8,45,120,1,360,950
1,1.448496e+09,26,0,2015,19,0,0,0,0,0,0,0,8,45,120,1,360,950
2,1.395533e+09,23,1,2014,49,1,0,1,1,0,0,0,23,45,120,1,1035,2401
3,1.458691e+09,23,1,2016,49,1,0,1,1,0,0,0,20,45,120,1,900,2088
4,1.400112e+09,15,2,2014,47,1,1,1,1,0,0,0,4,45,120,0,180,418
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
113031,1.460419e+09,12,11,2016,41,1,0,5,9,1,16,129,3,24,64,0,72,184
113032,1.396397e+09,2,11,2014,18,0,0,1,8,1,16,128,22,24,64,1,528,1183
113033,1.459555e+09,2,11,2016,18,0,0,1,8,1,16,128,22,24,64,1,528,1183
113034,1.393891e+09,4,1,2014,37,1,1,4,17,1,16,127,24,24,64,1,576,1260


#### Шаг 2. Разделение данных и нормализация

In [2]:
# Разделение на признаки (X) и целевую переменную (y)
X = data.drop('Profit', axis=1)
y = data['Profit']

# Разделение данных на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование признаков (нормализация)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

#### Шаг 3. Метод CatBoost
Гиперпараметры:

depth: Этот параметр определяет глубину дерева. Увеличение значения этого параметра увеличивает сложность модели, что может привести к более точной подгонке к тренировочным данным, но также увеличивает риск переобучения.
learning_rate: Определяет скорость обучения модели. Этот параметр контролирует величину, на которую обновляются веса модели при каждой итерации. Более низкие значения могут способствовать стабильному обучению, но могут потребовать большего количества итераций для достижения оптимальной точности.
l2_leaf_reg: Этот параметр отвечает за коэффициент регуляризации L2 (Ridge). Он контролирует сложность модели, ограничивая веса и предотвращая переобучение. Большие значения могут уменьшить сложность модели, но могут также уменьшить её точность на тренировочных данных.

In [3]:
# Определение параметров для CatBoost
param_grid_catboost = {
    'depth': [1, 4, 7, 10],
    'learning_rate': [0.01, 0.1, 1],
    'l2_leaf_reg': [1, 3, 5, 9],
    'iterations': [100, 200,],
    'depth': [0, 3, 6],
    'loss_function': ['MultiClass', 'Logloss']
}

In [None]:
# Создание модели CatBoost
catboost = CatBoostClassifier()

# Подбор оптимальных параметров с помощью перекрестной проверки для CatBoost
grid_search_catboost = GridSearchCV(catboost, param_grid_catboost, refit=True, verbose=3, cv=5)
grid_search_catboost.fit(X_train_scaled, y_train)

# Получение лучших параметров для CatBoost
best_params_catboost = grid_search_catboost.best_params_
best_score_catboost = grid_search_catboost.best_score_

Fitting 5 folds for each of 144 candidates, totalling 720 fits
0:	learn: 0.6915626	total: 51.6ms	remaining: 5.11s
1:	learn: 0.6900095	total: 54ms	remaining: 2.65s
2:	learn: 0.6884872	total: 56ms	remaining: 1.81s
3:	learn: 0.6869951	total: 58.1ms	remaining: 1.39s
4:	learn: 0.6855325	total: 60.2ms	remaining: 1.14s
5:	learn: 0.6840989	total: 62.1ms	remaining: 973ms
6:	learn: 0.6826935	total: 64.1ms	remaining: 851ms
7:	learn: 0.6813159	total: 66ms	remaining: 759ms
8:	learn: 0.6799653	total: 67.9ms	remaining: 686ms
9:	learn: 0.6786413	total: 70ms	remaining: 630ms
10:	learn: 0.6773434	total: 71.8ms	remaining: 581ms
11:	learn: 0.6760708	total: 73.5ms	remaining: 539ms
12:	learn: 0.6748232	total: 75.1ms	remaining: 503ms
13:	learn: 0.6736001	total: 76.7ms	remaining: 471ms
14:	learn: 0.6724008	total: 78.4ms	remaining: 444ms
15:	learn: 0.6712249	total: 79.9ms	remaining: 420ms
16:	learn: 0.6700720	total: 81.5ms	remaining: 398ms
17:	learn: 0.6689416	total: 83.1ms	remaining: 379ms
18:	learn: 0.667833

#### Шаг 4. Вывод результатов

In [None]:
test_score = grid_search_catboost.score(X_test_scaled, y_test)
print("Лучшие параметры для CatBoost:", best_params_catboost)
print("Лучший результат (точность) для CatBoost:", best_score_catboost)
print("Точность на тестовом наборе данных:", test_score)

best_model = grid_search_catboost.best_estimator_
predictions = best_model.predict(X_test_scaled)

# Отчет по классификации
print("\nОтчет по классификации:")
print(classification_report(y_test, predictions))