## Лабораторная работа №6

#### Задание 1
Провести классификацию найденного датасета, методами CatBoost . В формате Markdown написать пояснения. Объяснить почему были выбраны именно такие гиперпараметры, была ли перекрестная проверка, и т.д.

#### Ход работы:

Если не установлен модуль CatBoost:

In [2]:
pip install catboost

Collecting catboost
  Obtaining dependency information for catboost from https://files.pythonhosted.org/packages/e2/63/379617e3d982e8a66c9d66ebf4621d3357c7c18ad356473c335bffd5aba6/catboost-1.2.2-cp311-cp311-win_amd64.whl.metadata
  Downloading catboost-1.2.2-cp311-cp311-win_amd64.whl.metadata (1.2 kB)
Collecting graphviz (from catboost)
  Downloading graphviz-0.20.1-py3-none-any.whl (47 kB)
     ---------------------------------------- 0.0/47.0 kB ? eta -:--:--
     -------- ------------------------------- 10.2/47.0 kB ? eta -:--:--
     ------------------------ ------------- 30.7/47.0 kB 325.1 kB/s eta 0:00:01
     -------------------------------------- 47.0/47.0 kB 391.5 kB/s eta 0:00:00
Downloading catboost-1.2.2-cp311-cp311-win_amd64.whl (101.0 MB)
   ---------------------------------------- 0.0/101.0 MB ? eta -:--:--
   ---------------------------------------- 0.0/101.0 MB 2.0 MB/s eta 0:00:50
   ---------------------------------------- 0.1/101.0 MB 1.1 MB/s eta 0:01:37
   -------

Импортируем библиотеки и загружаем датасет

In [11]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from catboost import CatBoostClassifier
from sklearn.model_selection import GridSearchCV
from tqdm import tqdm

# Загрузка датасета
file_path = "../Dataset.xls"
df = pd.read_excel(file_path)

Разделение данных и нормализация

In [12]:
# Разделение на признаки (X) и целевую переменную (y)
X = df.drop('default payment next month', axis=1)
y = df['default payment next month']

# Разделение данных на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование признаков (нормализация)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

#### Метод CatBoost

Гиперпараметры:
   - depth: Этот параметр определяет глубину дерева. Увеличение значения этого параметра увеличивает сложность модели, что может привести к более точной подгонке к тренировочным данным, но также увеличивает риск переобучения.
   - learning_rate: Определяет скорость обучения модели. Этот параметр контролирует величину, на которую обновляются веса модели при каждой итерации. Более низкие значения могут способствовать стабильному обучению, но могут потребовать большего количества итераций для достижения оптимальной точности.
   - l2_leaf_reg: Этот параметр отвечает за коэффициент регуляризации L2 (Ridge). Он контролирует сложность модели, ограничивая веса и предотвращая переобучение. Большие значения могут уменьшить сложность модели, но могут также уменьшить её точность на тренировочных данных.

In [14]:
# Определение параметров для CatBoost
param_grid_catboost = {
    'depth': [4, 7, 10],
    'learning_rate': [0.03, 0.1, 0.15],
    'l2_leaf_reg': [1, 3, 5, 9]
}


In [None]:
# Создание модели CatBoost
catboost = CatBoostClassifier(iterations=100, loss_function='Logloss', verbose=0)

# Подбор оптимальных параметров с помощью перекрестной проверки для CatBoost
grid_search_catboost = GridSearchCV(catboost, param_grid_catboost, cv=5)
grid_search_catboost.fit(X_train_scaled, y_train)

# Получение лучших параметров для CatBoost
best_params_catboost = grid_search_catboost.best_params_
best_score_catboost = grid_search_catboost.best_score_


""" Время работы ~1 минута

Ниже код для индикации процесса обучения

catboost = CatBoostClassifier(iterations=100, loss_function='Logloss', verbose=0)

# Подбор оптимальных параметров с помощью перекрестной проверки для CatBoost
grid_search_catboost = GridSearchCV(catboost, param_grid_catboost, cv=5)

best_score_catboost = 0
best_params_catboost = {}

with tqdm(total=len(param_grid_catboost['depth']) * len(param_grid_catboost['learning_rate'])
          * len(param_grid_catboost['l2_leaf_reg'])) as pbar:
    for depth in param_grid_catboost['depth']: #глубина деревьев
        for lr in param_grid_catboost['learning_rate']: #скорость обучения
            for l2_reg in param_grid_catboost['l2_leaf_reg']: #параметр регуляризации L2
                catboost = CatBoostClassifier(depth=depth, learning_rate=lr, l2_leaf_reg=l2_reg,
                                              iterations=100, loss_function='Logloss', verbose=0)
                catboost.fit(X_train_scaled, y_train)
                score = catboost.score(X_test_scaled, y_test)
                if score > best_score_catboost:
                    best_score_catboost = score
                    best_params_catboost = {'depth': depth, 'learning_rate': lr, 'l2_leaf_reg': l2_reg}
                pbar.update(1)
"""

Вывод результатов:

In [10]:
test_score = grid_search_catboost.score(X_test_scaled, y_test)
print("Лучшие параметры для CatBoost:", best_params_catboost)
print("Лучший результат (точность) для CatBoost:", best_score_catboost)
print("Точность на тестовом наборе данных:", test_score)

Лучшие параметры для CatBoost: {'depth': 7, 'learning_rate': 0.1, 'l2_leaf_reg': 1}
Лучший результат (точность) для CatBoost: 0.8218333333333333
