# Цель занятия
На этом занятии мы рассмотрим применение алгоритма Catboost для задачи регрессии.

CatBoost (Categorical Boosting) - это библиотека машинного обучения для градиентного бустинга на деревьях решений. Она была разработана компанией Яндекс и имеет ряд преимуществ в сравнении с другими алгоритмами бустинга, такими как XGBoost и LightGBM.

Одно из главных преимуществ CatBoost заключается в том, что она автоматически обрабатывает категориальные признаки, не требуя их предварительной обработки. Кроме того, она имеет встроенные методы обработки пропущенных значений и автоматический подбор гиперпараметров. Также CatBoost поддерживает распараллеливание и может работать с различными типами данных.

In [1]:
# Установка библиотеки catboost
# !pip install catboost

In [1]:
# Импортирование необходимых библиотек
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from catboost import CatBoostRegressor
from sklearn.metrics import mean_squared_error

In [2]:
# Загрузка данных и разделение на обучающий и тестовый наборы
data = fetch_california_housing()
X = pd.DataFrame(data["data"], columns=data["feature_names"])
y = pd.Series(data["target"])
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

In [3]:
# Инициализация и обучение модели CatBoostRegressor
model = CatBoostRegressor()
model.fit(X_train, y_train)

Learning rate set to 0.063766
0:	learn: 1.1147097	total: 49.4ms	remaining: 49.3s
1:	learn: 1.0778029	total: 51.5ms	remaining: 25.7s
2:	learn: 1.0430071	total: 53.1ms	remaining: 17.6s
3:	learn: 1.0106614	total: 55.2ms	remaining: 13.7s
4:	learn: 0.9819674	total: 58ms	remaining: 11.5s
5:	learn: 0.9546991	total: 61.3ms	remaining: 10.2s
6:	learn: 0.9281868	total: 63.6ms	remaining: 9.02s
7:	learn: 0.9037831	total: 65.3ms	remaining: 8.1s
8:	learn: 0.8825569	total: 67.1ms	remaining: 7.38s
9:	learn: 0.8608727	total: 68.8ms	remaining: 6.82s
10:	learn: 0.8418439	total: 70.7ms	remaining: 6.36s
11:	learn: 0.8242003	total: 72.4ms	remaining: 5.96s
12:	learn: 0.8085311	total: 73.9ms	remaining: 5.61s
13:	learn: 0.7918148	total: 75.2ms	remaining: 5.3s
14:	learn: 0.7785217	total: 76.8ms	remaining: 5.04s
15:	learn: 0.7662624	total: 78ms	remaining: 4.8s
16:	learn: 0.7528313	total: 79.2ms	remaining: 4.58s
17:	learn: 0.7416752	total: 80.3ms	remaining: 4.38s
18:	learn: 0.7316411	total: 81.7ms	remaining: 4.22s

<catboost.core.CatBoostRegressor at 0x7f58ba879ed0>

In [4]:
# Предсказание на тестовом наборе
y_pred = model.predict(X_test)

In [5]:
# Оценка качества модели
mse = mean_squared_error(y_test, y_pred)

print(f"Mean Squared Error: {mse}")

Mean Squared Error: 0.19760814499635423
