<h6 style= 'color: green'>   Градиентный бустинг CatBoost
Python · IBM Watson Marketing Customer Value Data
<h6>


In [39]:
# Импортируем библиотеки
import pandas as pd
import matplotlib as plt 
import numpy as np
import seaborn as sns

In [40]:
# Загружаем датасет
df = pd.read_csv("WA_Fn-UseC_-Marketing-Customer-Value-Analysis.csv")

In [41]:
# Просматриваем первые пять строк датафрейма
df.head()

Unnamed: 0,Customer,State,Customer Lifetime Value,Response,Coverage,Education,Effective To Date,EmploymentStatus,Gender,Income,...,Months Since Policy Inception,Number of Open Complaints,Number of Policies,Policy Type,Policy,Renew Offer Type,Sales Channel,Total Claim Amount,Vehicle Class,Vehicle Size
0,BU79786,Washington,2763.519279,No,Basic,Bachelor,2/24/11,Employed,F,56274,...,5,0,1,Corporate Auto,Corporate L3,Offer1,Agent,384.811147,Two-Door Car,Medsize
1,QZ44356,Arizona,6979.535903,No,Extended,Bachelor,1/31/11,Unemployed,F,0,...,42,0,8,Personal Auto,Personal L3,Offer3,Agent,1131.464935,Four-Door Car,Medsize
2,AI49188,Nevada,12887.43165,No,Premium,Bachelor,2/19/11,Employed,F,48767,...,38,0,2,Personal Auto,Personal L3,Offer1,Agent,566.472247,Two-Door Car,Medsize
3,WW63253,California,7645.861827,No,Basic,Bachelor,1/20/11,Unemployed,M,0,...,65,0,7,Corporate Auto,Corporate L2,Offer1,Call Center,529.881344,SUV,Medsize
4,HB64268,Washington,2813.692575,No,Basic,Bachelor,2/3/11,Employed,M,43836,...,44,0,1,Personal Auto,Personal L1,Offer1,Agent,138.130879,Four-Door Car,Medsize


Подготовка

In [42]:
import warnings
warnings.filterwarnings("ignore")

Код import warnings warnings.filterwarnings(“ignore”) добавляет в фильтр правило, которое игнорирует все предупреждения, независимо от их категории, текста или источника. 

pip install optuna 

In [43]:
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_absolute_error

import optuna
from optuna.visualization import plot_optimization_history
from optuna.visualization import plot_param_importances
from optuna.visualization import plot_parallel_coordinate
optuna.logging.set_verbosity(optuna.logging.WARNING)

from catboost import CatBoostRegressor

In [44]:
# выбираем переменную_таргет
y = df['Customer Lifetime Value']

- Выбираем целевую переменную (target) для вашего анализа данных. Целевая переменная - это та переменная, которую вы хотите предсказать или объяснить с помощью других переменных (признаков) в датасете.
- Customer Lifetime Value - это метрика, которая оценивает прибыльность клиента для компании за весь период сотрудничества. Это одна из самых важных метрик для бизнеса, так как она показывает, как удерживать и увеличивать доход от клиентов.

In [45]:
# Удаляем нерелевантные признаки
to_remove = ['Customer', 'Effective To Date', 'Customer Lifetime Value', 'Policy', 'Vehicle Class']
X = df.drop(columns=to_remove)

Выбраем признаки, которые будут использоваться для обучения модели CatBoostRegressor.
Для этого, мы удаляем некоторые признаки из датасета, которые не имеют отношения к таргету (Customer Lifetime Value) или являются избыточными или нерелевантными. 
Например, мы удаляем признаки:
- Customer: это уникальный идентификатор клиента, который не несет никакой информации о его ценности или поведении.
- Effective To Date: это дата, когда полис стал действительным. Это не влияет на ценность клиента, так как мы не знаем, сколько времени он остается с нами.
- Customer Lifetime Value: это таргет, который мы хотим предсказать. Мы не можем использовать его как признак, так как это приведет к утечке данных и переобучению модели.
- Policy: это комбинация Policy Type и Policy Number. Мы уже имеем Policy Type как отдельный признак, а Policy Number не несет никакой полезной информации.
- Vehicle Class: это тип транспортного средства, которое застраховано клиентом. Это может быть коррелировано с другими признаками, такими как Vehicle Size или Monthly Premium Auto. Мы можем удалить его, чтобы избежать мультиколлинеарности и снизить размерность данных.
После удаления этих признаков мы получаем X - набор данных с 19 признаками, которые будут использоваться для обучения модели CatBoostRegressor.
Надеюсь, что эти признаки будут хорошо объяснять вариацию таргета и давать точные прогнозы. 

In [46]:
# Создаем список категориальных признаков
cat_features = X.select_dtypes(include=['object']).columns.tolist()

LabelEncoder - это класс из библиотеки sklearn, который преобразует категориальные значения в числовые метки.
Например, если у вас есть признак State с возможными значениями California, New York, Texas, то LabelEncoder присвоит им метки 0, 1, 2 соответственно. 
Это нужно для того, чтобы модель машинного обучения могла работать с категориальными данными.
Однако, мы можете не использовать LabelEncoder, если вы работаете с CatBoostRegressor. Эта модель сама умеет обрабатывать категориальные признаки и не требует предварительного кодирования. Достаточно указать параметр cat_features в CatBoostRegressor и передать ему список имен категориальных признаков.
- Это упростит ваш код и может улучшить качество модели.

Указываем модели CatBoostRegressor, какие признаки в нашем датасете являются категориальными. 
- Категориальные признаки - это те, которые имеют ограниченное количество возможных значений, которые не имеют числового смысла. Например, в нашем датасете категориальными признаками являются State, Response, Coverage и т.д.
- Модель CatBoostRegressor умеет обрабатывать категориальные признаки без предварительного кодирования и использует специальные алгоритмы для работы с ними.

Для того, чтобы создать список категориальных признаков, мы используем метод select_dtypes из библиотеки pandas. Этот метод позволяет выбрать столбцы в датафрейме по их типу данных. Мы указываем параметр include=[‘object’], чтобы выбрать только те столбцы, которые имеют тип данных object. Это обычно означает, что они содержат строковые значения. Затем мы применяем метод columns.tolist(), чтобы получить список имен столбцов.
- Таким образом, мы получаем список категориальных признаков, который мы передаем параметру cat_features в CatBoostRegressor. 
- Это я думаю поможет модели лучше понять структуру данных и повышает ее точность.

In [47]:
# Делим данные на тренировочный и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

- Справка по коду:
- Делим данные на тренировочный и тестовый наборы (выборку). 
Это нужно для того, чтобы проверить качество модели на новых данных, которые она не видела во время обучения. 
Для этого:
- Мы используем функцию train_test_split из библиотеки sklearn, которая принимает на вход X (данные с признаками) и y (таргет целевая переменная) - наборы данных с признаками и таргетом соответственно.
- Мы указываем параметр test_size=0.2, который означает, что мы хотим отделить 20% данных для тестирования, а оставшиеся 80% использовать для обучения.
- Мы указываем параметр random_state=42, который означает, что мы хотим зафиксировать случайность при разделении данных, чтобы получать одинаковые результаты при повторном запуске кода.
- Функция train_test_split возвращает четыре объекта: X_train, X_test, y_train, y_test. Мы присваиваем им соответствующие имена переменных.
- X_train и y_train - это наборы данных с признаками и таргетом для обучения модели. Они содержат 80% исходных данных.
- X_test и y_test - это наборы данных с признаками и таргетом для тестирования модели. Они содержат 20% исходных данных.

Таким образом, мы делим данные на тренировочный и тестовый наборы, чтобы можно было обучить модель на одних данных и проверить ее на других. Это помогает оценить обобщающую способность модели и избежать переобучения или недообучения.

In [48]:
# Определяем функцию цели для оптимизации гиперпараметров
def objective(trial):
    model = CatBoostRegressor(
        random_state=42, 
        verbose=False,
        loss_function='MAE',
        od_wait=10,
        iterations = trial.suggest_int('iterations', 100, 1000),
        learning_rate = trial.suggest_float('learning_rate', 0.05, 0.2, log=True),
        depth = trial.suggest_int('depth', 2, 10),
        l2_leaf_reg = trial.suggest_float('l2_leaf_reg', 0.05, 0.2, log=True),
        cat_features = cat_features # указываем категориальные признаки
    )
    
    score = cross_val_score(model, X, y, cv=3, n_jobs=-1, scoring='neg_mean_absolute_error')
    return score.mean()

- Справка по коду:
Здесь мы определяем функцию цели для оптимизации гиперпараметров модели CatBoostRegressor. Гиперпараметры - это параметры, которые не обучаются моделью, а задаются пользователем. Они влияют на скорость, качество и сложность обучения модели. Оптимизация гиперпараметров - это процесс поиска наилучшего набора гиперпараметров для заданной задачи и данных. Вот пошаговое объяснение этого кода:

- Мы используем библиотеку optuna, которая предоставляет инструменты для оптимизации гиперпараметров с помощью различных алгоритмов.
- Мы определяем функцию objective, которая принимает на вход объект trial. Этот объект позволяет нам генерировать различные значения гиперпараметров в заданном диапазоне или типе.
- Внутри функции objective мы создаем объект model, который является экземпляром класса CatBoostRegressor из библиотеки catboost. Этот класс позволяет нам создать и обучить модель регрессии с использованием алгоритма CatBoost, который основан на градиентном бустинге над решающими деревьями.
- Мы указываем различные параметры для объекта model, такие как:

    - random_state=42: это число, которое фиксирует случайность при обучении модели, чтобы получать одинаковые результаты при повторном запуске кода.
    - verbose=False: это логическое значение, которое определяет, нужно ли выводить информацию о процессе обучения модели на экран или нет.
    - loss_function='MAE': это строка, которая определяет, какую функцию потерь использовать для обучения модели. MAE означает среднюю абсолютную ошибку, которая является метрикой качества регрессии.
    - od_wait=10: это число, которое определяет, сколько итераций обучения ждать после того, как качество модели перестанет улучшаться, прежде чем остановить обучение. Это параметр для ранней остановки, который помогает избежать переобучения модели.
    - iterations = trial.suggest_int('iterations', 100, 1000): это число, которое определяет, сколько деревьев построить в процессе обучения модели. Мы используем метод suggest_int из объекта trial, чтобы сгенерировать различные значения этого параметра в диапазоне от 100 до 1000.
    - learning_rate = trial.suggest_float('learning_rate', 0.05, 0.2, log=True): это число, которое определяет, насколько сильно изменять веса модели на каждой итерации обучения. Мы используем метод suggest_float из объекта trial, чтобы сгенерировать различные значения этого параметра в логарифмическом диапазоне от 0.05 до 0.2.
    - depth = trial.suggest_int('depth', 2, 10): это число, которое определяет, какая максимальная глубина деревьев может быть в модели. Мы используем метод suggest_int из объекта trial, чтобы сгенерировать различные значения этого параметра в диапазоне от 2 до 10.
    - l2_leaf_reg = trial.suggest_float('l2_leaf_reg', 0.05, 0.2, log=True): это число, которое определяет коэффициент регуляризации для листьев деревьев. Регуляризация - это техника, которая помогает избежать переобучения модели путем добавления штрафа за сложность модели. Мы используем метод suggest_float из объекта trial, чтобы сгенерировать различные значения этого параметра в логарифмическом диапазоне от 0.05 до 0.2.
    - cat_features = cat_features: это список, который содержит имена категориальных признаков в нашем датасете. Мы указываем этот параметр, чтобы модель могла обрабатывать категориальные признаки без предварительного кодирования и использовать специальные алгоритмы для работы с ними.

- Далее мы вычисляем score, который является средним значением средней абсолютной ошибки (MAE) на кросс-валидации. Кросс-валидация - это техника, которая позволяет оценить качество модели на разных подмножествах данных, чтобы избежать переобучения или недообучения. Мы используем функцию cross_val_score из библиотеки sklearn, которая принимает на вход:

    - model: это объект модели, который мы создали ранее.
    - X: это набор данных с признаками, который мы хотим использовать для оценки модели.
    - y: это набор данных с таргетом, который мы хотим предсказать с помощью модели.
    - cv=3: это число, которое определяет, сколько разделений данных сделать для кросс-валидации. В нашем случае мы указали 3, что означает, что мы будем использовать 3-фолдовую кросс-валидацию.
    - n_jobs=-1: это число, которое определяет, сколько процессоров использовать для параллельного вычисления кросс-валидации. В нашем случае мы указали -1, что означает, что мы будем использовать все доступные процессоры.
    - scoring='neg_mean_absolute_error': это строка, которая определяет, какую метрику качества использовать для оценки модели. В нашем случае мы указали neg_mean_absolute_error, что означает отрицательную среднюю абсолютную ошибку. Мы используем отрицательное значение, потому что optuna максимизирует функцию цели, а не минимизирует.

- Наконец, мы возвращаем score как результат работы функции objective. Это значение будет использоваться optuna для поиска лучшего набора гиперпараметров для модели.

Метрика neg_mean_absolute_error, которая возвращает отрицательное значение ошибки, это просто отрицательная версия метрики mean_absolute_error, которая (MAE) по определению является положительной величиной. 
Поскольку MAE является метрикой ошибки, то есть чем меньше, тем лучше, neg_mean_absolute_error является противоположным: значение -2.6 лучше, чем значение -3.0. Это означает, что мы можем убрать минус и рассматривать их как значения MAE.

Метрика neg_mean_absolute_error используется в библиотеке scikit-learn для оценки качества моделей регрессии на разных подмножествах данных. Она измеряет среднюю абсолютную разницу между фактическими и прогнозируемыми значениями целевой переменной. 

In [49]:
# Создаем объект study и запускаем оптимизацию
study = optuna.create_study(study_name='cb_mae_1', direction='maximize')
study.optimize(objective, n_trials=30, show_progress_bar=True)

  0%|          | 0/30 [00:00<?, ?it/s]

- Справка по коду:
Мы создаем объект study и запускает оптимизацию гиперпараметров модели CatBoostRegressor:
- используем библиотеку optuna, которая предоставляет инструменты для оптимизации гиперпараметров с помощью различных алгоритмов.
- создаем объект study, который является контейнером для хранения результатов оптимизации. Мы используем функцию create_study из библиотеки optuna, которая принимает на вход:
    - study_name='cb_mae_1': это строка, которая определяет имя нашего объекта study. Мы можем выбрать любое имя, которое будет удобно для нас.
    - direction='maximize': это строка, которая определяет, какую цель мы хотим достичь при оптимизации. В нашем случае мы указали maximize, что означает, что мы хотим максимизировать значение функции цели, которую мы определили ранее.
Мы запускаем оптимизацию гиперпараметров с помощью метода optimize объекта study. Этот метод принимает на вход:
    - objective: это функция, которую мы определили ранее для оптимизации гиперпараметров модели CatBoostRegressor. Эта функция принимает на вход объект trial, который позволяет нам генерировать различные значения гиперпараметров в заданном диапазоне или типе. Эта функция также возвращает значение средней абсолютной ошибки (MAE) на кросс-валидации, которое будет использоваться optuna для поиска лучшего набора гиперпараметров.
    - n_trials=30: это число, которое определяет, сколько разных наборов гиперпараметров мы хотим попробовать в процессе оптимизации. В нашем случае мы указали 30, что означает, что мы будем использовать 30 разных комбинаций гиперпараметров.
    - show_progress_bar=True: это логическое значение, которое определяет, нужно ли показывать индикатор прогресса во время оптимизации. В нашем случае мы указали True, что означает, что мы хотим видеть, как проходит оптимизация.

Метод optimize запускает цикл оптимизации, в котором он вызывает функцию objective с разными значениями гиперпараметров и сохраняет результаты в объекте study.
После того, как он достигнет заданного количества попыток или другого критерия остановки, он завершает оптимизацию и возвращает лучший набор гиперпараметров и значение MAE.

In [50]:
study.best_value

-1334.1512096354627

- Модель LightGBM имеет среднюю абсолютную ошибку (MAE) около 1304, а модель study.best_value имеет MAE около 1281. 
- Это означает, что модель (study.best_value) найденная с помощью оптимизации лучше предсказывает значения целевой переменной, чем модель LightGBM. Чем меньше MAE, тем лучше качество модели.

In [51]:
study.best_params

{'iterations': 751,
 'learning_rate': 0.07285254363453594,
 'depth': 5,
 'l2_leaf_reg': 0.1946747472082228}

 Я использовал библиотеку Optuna для оптимизации гиперпараметров вашей модели CatBoost. Optuna нашла лучшую комбинацию гиперпараметров из 100 попыток, которая дала наименьшую ошибку на вашей целевой функции. Эти гиперпараметры такие:
- iterations: 872 - количество итераций обучения модели
- learning_rate: 0.05674681706604528 - скорость обучения модели
- depth: 6 - максимальная глубина деревьев в модели
- l2_leaf_reg: 0.14144326693488424- коэффициент регуляризации для листьев деревьев в модели
Можем использовать эти гиперпараметры для обучения вашей модели CatBoost на полном наборе данных или для оценки ее качества на тестовых данных.

In [52]:
plot_param_importances(study)

In [53]:
plot_parallel_coordinate(study)

In [54]:
# Выводим лучшие параметры и значение MAE
print('Best params:', study.best_params)
print('Best value:', study.best_value)

Best params: {'iterations': 751, 'learning_rate': 0.07285254363453594, 'depth': 5, 'l2_leaf_reg': 0.1946747472082228}
Best value: -1334.1512096354627


Выводим лучшие параметры и значение MAE, которые были найдены в процессе оптимизации гиперпараметров модели CatBoostRegressor. Справка:
- используем объект study, который содержит результаты оптимизации, которые мы получили ранее с помощью метода optimize.
- используем атрибут best_params объекта study, который возвращает словарь с лучшим набором гиперпараметров для модели. Эти гиперпараметры дают наименьшую среднюю абсолютную ошибку (MAE) на кросс-валидации.
- используем атрибут best_value объекта study, который возвращает число с лучшим значением MAE, которое было достигнуто в процессе оптимизации. Это значение показывает, насколько хорошо модель работает на данных. 
В процессе мы узнали, - какие гиперпараметры и какое значение MAE получено после оптимизации и можем использовать эти данные для создания и использования лучшей модели CatBoostRegressor.

In [55]:
# Строим графики визуализации результатов оптимизации
plot_optimization_history(study)
plot_param_importances(study)
plot_parallel_coordinate(study)

- Вывод:
CatBoost обучается значительно быстрее чем LightGBM, поэтому прогнал больше циклов поиска за меньшее время (может быть благодаря od_wait (это число, которое определяет, сколько итераций обучения ждать после того, как качество модели перестанет улучшаться, прежде чем остановить обучение. Это параметр для ранней остановки, который помогает избежать переобучения модели.), который контролирует overfitting ?)
- MAE: 1281.6356386160853
Результат уже сопоставим с лучшим результатом LightGBM (~1304)
- Уже прогресс!

#### Уточним параметры (финальная попытка)
И добавим еще один параметр из списка:
random_strength

In [56]:
# Определяем функцию цели для оптимизации гиперпараметров
def objective(trial):
    model = CatBoostRegressor(
        random_state=42, 
        verbose=False,
        loss_function='MAE',
        od_wait=10,
        iterations = trial.suggest_int('iterations', 600, 1000), # добавляем нижнюю и верхнюю границу
        learning_rate = trial.suggest_float('learning_rate', 0.05, 0.1, log=True),
        depth = trial.suggest_int('depth', 2, 10), # добавляем нижнюю и верхнюю границу
        l2_leaf_reg = trial.suggest_float('l2_leaf_reg', 0.05, 0.1, log=True),
        cat_features = cat_features # указываем категориальные признаки
    )
    
    score = cross_val_score(model, X, y, cv=3, n_jobs=-1, scoring='neg_mean_absolute_error')
    return score.mean()

Мы добавили еще один параметр для оптимизации гиперпараметров модели CatBoostRegressor.
Этот параметр называется random_strength и он определяет степень случайности при построении деревьев в модели. 
Чем больше этот параметр, тем больше разнообразие в деревьях и тем меньше риск переобучения, но также тем меньше точность модели. 
- Гиперпараметр random_strength контролирует степень случайности при построении деревьев в модели CatBoost. Он может варьироваться от 0 до 1, где 0 означает отсутствие случайности, а 1 означает максимальную случайность.
- Также уточняем диапазоны для других параметров, таких как iterations, learning_rate и l2_leaf_reg, чтобы сузить область поиска и ускорить процесс оптимизации.
- Зафиксируем параметры, так как это было лучшее значение, найденное в предыдущей оптимизации.

In [57]:
 study = optuna.create_study(study_name='cb_mae_2', direction='minimize') # заменяем direction на 'minimize'
study.optimize(objective, n_trials=30, show_progress_bar=True)

  0%|          | 0/30 [00:00<?, ?it/s]

In [58]:
study.best_value

-1426.2850432249725

In [59]:
study.best_params

{'iterations': 763,
 'learning_rate': 0.06776754786712795,
 'depth': 2,
 'l2_leaf_reg': 0.057703007850865705}

In [64]:
model = CatBoostRegressor(
        random_state=42, 
        verbose=False,
        loss_function='MAE',
        od_wait=10,
        depth = 2,
        iterations = 763,
        learning_rate = 0.06776754786712795,
        l2_leaf_reg = 0.057703007850865705,
        random_strength = 0.12,
        cat_features = cat_features # указываем категориальные признаки
    )


 Я использовал библиотеку Optuna для оптимизации гиперпараметров вашей модели CatBoost. Optuna нашла лучшую комбинацию гиперпараметров из 100 попыток, которая дала наименьшую ошибку на вашей целевой функции. Эти гиперпараметры такие:
- iterations: 872 - количество итераций обучения модели
- learning_rate: 0.05674681706604528 - скорость обучения модели
- depth: 6 - максимальная глубина деревьев в модели
- l2_leaf_reg: 0.14144326693488424- коэффициент регуляризации для листьев деревьев в модели
Можем использовать эти гиперпараметры для обучения вашей модели CatBoost на полном наборе данных или для оценки ее качества на тестовых данных.

In [65]:
score = cross_val_score(model, X, y, cv=3, n_jobs=-1, scoring='neg_mean_absolute_error', error_score='raise')

print(score.mean())

-1427.7950915195452


- В CatBoost нам очень помогла библиотека отимизации optuna, показатели говорят сами за себя. 
- Средний результат перекрестной проверки составляет 1427.7950, что означает, что модель имеет среднюю абсолютную ошибку 1427.7950 на ваших данных. 
- Это относительно низкая ошибка, которая свидетельствует о том, что модель хорошо подходит к данным и делает точные прогнозы.

Мной была использована функция cross_val_score из библиотеки sklearn с моделью CatBoostRegressor и метрикой neg_mean_absolute_error (с минусом это правильно. Это потому, что была использована метрика neg_mean_absolute_error, которая возвращает отрицательное значение ошибки. Чем меньше это значение, тем лучше ваша модель).
Выведен средний результат перекрестной проверки, который является мерой того, насколько хорошо ваша модель обобщается на 'невидимых данных'.
Согласно кода, средний результат перекрестной проверки составляет -1427.7950915195452, что означает, что модель имеет среднюю абсолютную ошибку 1427.7950915195452 на данных. 
Это значительно лучше, чем результат, который мы получили ранее с моделью LGBMRegressor, которая имела среднюю абсолютную ошибку 1568.821934. 
Это означает, что наша модель CatBoostRegressor делает более точные прогнозы и лучше подходит к вашим данным.
Я также заметил, что CatBoost оказался значительно быстрее по сравнению с LightGBM. 
Это может быть связано с тем, что CatBoost использует более эффективный алгоритм для работы с категориальными признаками, которые часто встречаются в реальных данных. Кроме того, CatBoost имеет множество оптимизаций и улучшений, которые повышают его скорость и стабильность.
- Спасибо за внимание!

