Прежде чем проверять задания:
- **Перезапустите ядро** (**restart the kernel**) (В меню, выбрать Ядро (Kernel) $\rightarrow$ Перезапустить (Restart)
- Затем **Выполнить все ячейки**  **run all cells** (В меню, выбрать Ячейка (Cell) $\rightarrow$ Запустить все (Run All).

Убедитесь, что заполнены все ячейки с комментарием "НАЧАЛО ВАШЕГО РЕШЕНИЯ".

После ячеек с заданием следуют ячейки с проверкой с помощью assert.

Если в коде есть ошибки, assert выведет уведомление об ошибке.

Если в коде нет ошибок, assert отработает без вывода дополнительной информации.

---

# Цель занятия
На этом занятии мы на практике закрепим работу с градиентным бустингом на основе библиотек XGBoost и Catboost.

## Часть 1. XGBoost.

**XGBoost (eXtreme Gradient Boosting)** - это оптимизированная реализация алгоритма градиентного бустинга над решающими деревьями. Он является одним из наиболее популярных и эффективных алгоритмов машинного обучения, широко применяемым для задач классификации и регрессии.

XGBoost использует ансамбль деревьев решений, которые обучаются последовательно, каждое следующее дерево исправляет ошибки предыдущих. Основная идея заключается в том, чтобы строить деревья, которые учитывают остатки (разницу между предсказанными и фактическими значениями) предыдущих деревьев. Это позволяет модели постепенно улучшать свою способность к прогнозированию и достигать лучшей обобщающей способности.

XGBoost предоставляет множество параметров, которые можно настраивать для достижения оптимальной производительности и обобщающей способности модели. Он обладает высокой скоростью обучения и предсказания, хорошей обработкой категориальных признаков, встроенной обработкой пропущенных значений и возможностью регуляризации для снижения переобучения.

установка xgboost:
`pip install xgboost`

Для обработки датасета в XGBoost требуется выполнить следующие преобразования:

1. Разделите данные на признаки (X) и целевую переменную (y). Признаки должны быть представлены в виде двумерного массива (например, в виде списка списков или в формате pandas DataFrame), а целевая переменная - в виде одномерного массива или списка.

2. Преобразуйте категориальные признаки в числовой формат. XGBoost не может обрабатывать категориальные данные напрямую, поэтому необходимо выполнить кодирование категориальных признаков. Вы можете использовать методы, такие как one-hot encoding или label encoding, чтобы преобразовать категориальные значения в числовые.

   - One-Hot Encoding: Создает дополнительные бинарные признаки для каждой категории и присваивает им значение 0 или 1, в зависимости от принадлежности исходного значения к соответствующей категории. Многие библиотеки, включая pandas и scikit-learn, предоставляют инструменты для выполнения one-hot encoding.
   
   - Label Encoding: Присваивает каждой уникальной категории целочисленное значение. Например, "красный" может быть закодирован как 0, "синий" - как 1 и т. д. В библиотеке scikit-learn есть класс LabelEncoder, который можно использовать для выполнения label encoding.
   
3. Выполните масштабирование признаков, если это необходимо. XGBoost не требует масштабирования признаков, так как сам алгоритм деревьев решений не зависит от масштаба. Однако, если в вашем датасете присутствуют числовые признаки с различными диапазонами значений, масштабирование может быть полезным для улучшения сходимости и производительности модели.

4. Разделите данные на обучающую и тестовую выборки. Рекомендуется разделить данные на две непересекающиеся части: одну для обучения модели (обычно 70-80% от исходного датасета) и другую для оценки производительности модели (обычно 20-30% от исходного датасета). Это поможет вам проверить качество модели на новых данных и оценить ее способность к обобщению.

После выполнения этих шагов вы можете использовать преобразованные данные для обучения модели XGBoost.

GridSearchCV - это инструмент в библиотеке scikit-learn, который предоставляет функциональность для систематического поиска наилучших гиперпараметров модели машинного обучения. Гиперпараметры являются настройками модели, которые не могут быть обучены в процессе обучения, а должны быть заданы до начала обучения. Примерами гиперпараметров могут быть глубина дерева в решающем дереве, скорость обучения в алгоритмах градиентного спуска и степень регуляризации в линейных моделях.

GridSearchCV позволяет определить набор возможных значений гиперпараметров, которые вы хотите проверить, и автоматически перебирает все возможные комбинации этих значений, обучая и оценивая модель на каждой комбинации. Затем он возвращает модель с наилучшими найденными значениями гиперпараметров.

В процессе использования GridSearchCV вам необходимо предоставить следующие элементы:
1. Модель машинного обучения, которую вы хотите настроить с помощью поиска по сетке гиперпараметров.
2. Словарь или список возможных значений для каждого гиперпараметра, которые вы хотите проверить.
3. Метод оценки, который будет использоваться для сравнения различных комбинаций гиперпараметров. Например, это может быть точность (accuracy) или площадь под ROC-кривой (AUC-ROC).

GridSearchCV автоматически перебирает все возможные комбинации гиперпараметров, выполняет обучение и оценку модели на каждой комбинации с использованием выбранного метода оценки. Затем он возвращает наилучшую модель с оптимальными значениями гиперпараметров, которые были найдены в результате перебора. Эта модель может быть использована для предсказания на новых данных.

In [1]:
# импорт необходимых библиотек
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score
import xgboost as xgb

In [2]:
# Загрузка данных
data = pd.read_csv("Telco-Customer-Churn.csv")
X = data.drop(["customerID", "Churn"], axis=1)
y = data["Churn"]
# Целевая переменная для модели XGBoost должна быть представлена целым числом.
y = data["Churn"].apply(lambda x: 1 if x == "Yes" else 0)

In [5]:
data.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,...,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,...,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,...,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,...,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,...,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


In [9]:
"""
Задание 1. 

1.1 Выполните для столбца "TotalCharges" преобразование к вещественному типу
    Пример
    df["column_name"] = pd.to_numeric(X["column_name"], errors="coerce")

1.2 Создайте пустой список categorical_columns
1.3 Создайте цикл для прохода по каждому столбцу в DataFrame X: 
    если количество уникальных элементов в столбце меньше 5:
        добавить имя столбца в categorical_columns
    Пример:    
    for column in df.columns:
        if len(df[column].unique()) < 10:
            list_to_add.append(column)  
1.4 Создайте экземпляр класса LabelEncoder, сохраните его в label_encoder
    Пример:
    encoder = LabelEncoder()
1.5 Примените LabelEncoder к каждому категориальному признаку
    Пример:
    for column in categorical_columns:
        # Замена значений в столбце X[column] на их числовое представление
        df[column] = label_encoder.fit_transform(df[column])
"""


# НАЧАЛО ВАШЕГО РЕШЕНИЯ
# Задание 1.1
X["TotalCharges"] = pd.to_numeric(X["TotalCharges"], errors="coerce")
# Задание 1.2
categorical_columns = []
# Задание 1.3
for col in X.columns:
    if X[col].nunique() < 5:
        categorical_columns.append(col)
# Задание 1.4
label_encoder = LabelEncoder()
# Задание 1.5
for col in categorical_columns:
    X[col] = label_encoder.fit_transform(X[col])
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [10]:
assert X["TotalCharges"].dtype == float
assert len(categorical_columns) == 16

In [12]:
"""
Задание 2.
2.1 Разбейте датасет X и метки y, сохранив результат в X_train, X_test, y_train, y_test 
    с помощью train_test_split. Параметры train_test_split: X, y, test_size=0.2, random_state=42
"""
# НАЧАЛО ВАШЕГО РЕШЕНИЯ
# Задание 2.1
X_train, X_test, y_train, y_test = train_test_split(
    X, y, random_state=42, test_size=0.2
)
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [13]:
assert len(X_train) == len(y_train) == 5634

In [14]:
"""
Задание 3. Инициализируйте экземпляр класса XGBClassifier без параметров и сохраните 
его в переменную xgb_classifier.
Пример для регрессора:
xgb_regressor = xgb.XGBRegressor()
"""
# НАЧАЛО ВАШЕГО РЕШЕНИЯ
# Задание 3
xgb_classifier = xgb.XGBClassifier()
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [15]:
assert type(xgb_classifier) == xgb.XGBClassifier

In [16]:
"""
Задание 4. 
Определение сетки параметров для перебора.
Создайте словарь parameters со следующими парами ключ-значение:
max_depth - [3, 5, 7]
learning_rate - [0.1, 0.01, 0.001]
n_estimators - [30, 50, 100]
Пример:
params = {
    'key1': [1,2,3],
    'key2': [1,2,3],
    'key3': [1,2,3]
}
"""

# НАЧАЛО ВАШЕГО РЕШЕНИЯ
# Задание 4
parameters = {
    "max_depth": [3, 5, 7],
    "learning_rate": [0.1, 0.01, 0.001],
    "n_estimators": [30, 50, 100],
}
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [17]:
assert type(parameters) == dict
assert sorted(parameters["max_depth"]) == [3, 5, 7]
assert sorted(parameters["learning_rate"]) == [0.001, 0.01, 0.1]
assert sorted(parameters["n_estimators"]) == [30, 50, 100]

In [22]:
"""
Задание 5.
Создайте экземпляр класса GridSearchCV, передав в него ряд параметров:
estimator=xgb_classifier, 
param_grid=parameters, 
scoring='accuracy',
cv=5
Сохранить в переменную grid_search
Пример:
grid_search = GridSearchCV(par1=val1, par2=val2)
"""

# НАЧАЛО ВАШЕГО РЕШЕНИЯ
# Задание 5
grid_search = GridSearchCV(
    xgb_classifier, param_grid=parameters, cv=5, scoring="accuracy"
)
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [23]:
assert type(grid_search) == GridSearchCV
assert grid_search.__dict__["scoring"] == "accuracy"
assert grid_search.__dict__["cv"] == 5

In [24]:
# Обучение модели с перебором параметров
# !!! Может выполняться несколько минут
grid_search.fit(X_train, y_train)

In [25]:
# Лучшие параметры и точность модели
best_params = grid_search.best_params_
best_score = grid_search.best_score_

print("Лучшие параметры:", best_params)
print("Точность на обучающем наборе:", best_score)

# Оценка модели на тестовом наборе
y_pred = grid_search.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Точность на тестовом наборе:", accuracy)

Лучшие параметры: {'learning_rate': 0.1, 'max_depth': 3, 'n_estimators': 50}
Точность на обучающем наборе: 0.8033367953714811
Точность на тестовом наборе: 0.8076650106458482


## Часть 2. Catboost

CatBoost — это открытая библиотека градиентного бустинга на деревьях решений. Она разработана компанией Яндекс и предназначена для решения задач машинного обучения, таких как классификация, регрессия и ранжирование. CatBoost предлагает высокую скорость обучения и прогнозирования, а также хорошую устойчивость к различным типам данных и категориальным признакам. Особенностью CatBoost является его способность автоматически обрабатывать категориальные признаки без необходимости их предварительного преобразования или использования кодирования, что делает эту библиотеку особенно полезной для работы с данными с множеством категориальных переменных.

установка catboost:
`pip install catboost`

Hyperopt - это библиотека для автоматической оптимизации гиперпараметров моделей машинного обучения. Она предоставляет простой и гибкий интерфейс для поиска наилучших значений гиперпараметров, используя алгоритмы оптимизации.

Основной идеей Hyperopt является применение адаптивной модели оптимизации для нахождения комбинации гиперпараметров, которая минимизирует или максимизирует заданную функцию оценки (например, функцию потерь или метрику качества). Библиотека предлагает несколько алгоритмов оптимизации, включая Tree of Parzen Estimators (TPE) и Random Search.

Процесс использования Hyperopt обычно включает в себя следующие шаги:

1. Определение пространства поиска: Задается пространство гиперпараметров, которое нужно оптимизировать. Это может быть сделано с использованием объектов из модуля `hyperopt.hp`, которые представляют различные типы параметров (например, вещественные числа, целые числа, категориальные значения и др.).

2. Определение функции оценки (целевой функции): Задается функция, которую нужно минимизировать или максимизировать. Обычно это функция потерь или метрика качества, связанная с моделью машинного обучения.

3. Создание объекта `Trials`: Создается объект `Trials`, который будет использоваться для хранения информации о проведенных оптимизациях.

4. Запуск оптимизации: Вызывается функция `fmin` с указанием функции оценки, пространства поиска и алгоритма оптимизации. Hyperopt будет итеративно предлагать наборы гиперпараметров, вычислять значение функции оценки и обновлять модель оптимизации для принятия решения о следующем наборе гиперпараметров.

5. Получение лучших гиперпараметров: По окончании оптимизации можно получить значения лучших гиперпараметров, найденных в ходе процесса оптимизации.

Установка библиотеки: `pip install hyperopt`

In [26]:
# Импортируем необходимые библиотеки
import catboost as cb
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from hyperopt import hp, fmin, tpe, Trials

# Загрузка данных
data = pd.read_csv("Telco-Customer-Churn.csv")
X = data.drop(["customerID", "Churn"], axis=1)
y = data["Churn"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

In [27]:
"""
Задание 6. 

1.1 Выполните для столбца "TotalCharges" преобразование к вещественному типу
    Пример
    df["column_name"] = pd.to_numeric(X["column_name"], errors="coerce")

1.2 Создайте пустой список categorical_columns_indices
1.3 Создайте цикл с enumerate для прохода по каждому столбцу в DataFrame X: 
    если количество уникальных элементов в столбце меньше 5:
        добавить индекс столбца в categorical_columns_indices
    Пример:    
    for index, column in enumerate(df.columns):
        if len(df[column].unique()) < 10:
            list_to_add.append(index)
"""


# НАЧАЛО ВАШЕГО РЕШЕНИЯ
# Задание 1.1
X["TotalCharges"] = pd.to_numeric(X["TotalCharges"], errors="coerce")
# Задание 1.2
categorical_columns_indices = []
# Задание 1.3
for i, col in enumerate(X.columns):
    if X[col].nunique() < 5:
        categorical_columns_indices.append(i)
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [28]:
assert X["TotalCharges"].dtype == float
assert len(categorical_columns_indices) == 16

In [29]:
"""
Задание 7. 

1.1 Создайте словарь dict_of_params со следующими парами ключ - значение:
    "iterations": [30, 50, 70],
    "depth": [3, 5, 7],
    "learning_rate": [0.01, 0.3],
    "l2_leaf_reg": [1, 3, 5, 7, 9]
"""

# НАЧАЛО ВАШЕГО РЕШЕНИЯ
# Задание 1.1
dict_of_params = {
    "iterations": [30, 50, 70],
    "depth": [3, 5, 7],
    "learning_rate": [0.01, 0.3],
    "l2_leaf_reg": [1, 3, 5, 7, 9],
}
# КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [30]:
assert sorted(dict_of_params["iterations"]) == [30, 50, 70]

In [32]:
# Переводим словарь dict_of_params в формат Hyperopt
space = {
    "iterations": hp.choice("iterations", dict_of_params["iterations"]),
    "depth": hp.choice("depth", dict_of_params["depth"]),
    "learning_rate": hp.uniform(
        "learning_rate",
        dict_of_params["learning_rate"][0],
        dict_of_params["learning_rate"][1],
    ),
    "l2_leaf_reg": hp.choice("l2_leaf_reg", dict_of_params["l2_leaf_reg"]),
}

In [33]:
"""
Задание 7. 
Определяем функцию для оптимизации с гиперпараметрами и параметром cat_features, 
указывающим индексы категориальных признаков
1.1 определите функцию с именем objective с параметром params
    Пример :
    def objective(parameters):

!!! Внутри функции objective:
1.2 инициализируйте cb.CatBoostClassifier(), передав в качестве параметров
    **params, cat_features=categorical_columns_indices
    Сохраните экземпляр в переменную model
    Пример:
    model = cb.CatBoostClassifier(**parameters, cat_features=indices)
1.3 Обучите модель на X_train, y_train с помощью метода fit(X_train, y_train, silent=True) , 
    silent=True убирает вывод подробной информации об обучении
1.4 Сделайте предсказания для X_test с помощью метода predict(),
    ответ сохраните в y_pred
1.5 Сохраните в переменную score результат вызова accuracy_score() с параметрами y_test, y_pred
1.6 Верните через return -score
"""


# НАЧАЛО ВАШЕГО РЕШЕНИЯ
# Задание 1.1
def objective(parameters):
    # Задание 1.2
    model = cb.CatBoostClassifier(
        **parameters, cat_features=categorical_columns_indices
    )
    # Задание 1.3
    model.fit(X_train, y_train, silent=True)
    # Задание 1.4
    y_pred = model.predict(X_test)
    # Задание 1.5
    score = accuracy_score(y_test, y_pred)
    # Задание 1.6
    return score


# КОНЕЦ ВАШЕГО РЕШЕНИЯ

In [34]:
assert callable(objective)

In [35]:
# Запускаем оптимизацию с помощью Hyperopt
trials = Trials()
best = fmin(objective, space, algo=tpe.suggest, max_evals=100, trials=trials)

100%|██████████| 100/100 [00:08<00:00, 12.30trial/s, best loss: 0.7863733144073811]


In [36]:
# Получаем лучшие значения гиперпараметров
final_best_params = {}
for key in best:
    try:
        final_best_params[key] = dict_of_params[key][best[key]]
    except:
        final_best_params[key] = best[key]


# Обучаем модель с лучшими гиперпараметрами
# Создание экземпляра CatBoostClassifier с передачей списка индексов категориальных признаков
model = cb.CatBoostClassifier(
    **final_best_params, cat_features=categorical_columns_indices
)
model.fit(X_train, y_train, silent=True)


# Предсказываем классы для тестовых данных
y_pred = model.predict(X_test)

# Вычисляем точность модели
accuracy = accuracy_score(y_test, y_pred)

# Выводим результаты
print("Точность модели:", accuracy)

Точность модели: 0.7863733144073811


Мы можем видеть, что подготовка данных для Catboost занимает меньше времени. 
Если сравнивать GridSearchCV и Hyperopt, то Hyperopt устроен сложнее, однако может выдавать более оптимальные результаты.