# Цель занятия
На этом занятии мы рассмотрим применение алгоритма Catboost для задачи регрессии.

CatBoost (Categorical Boosting) - это библиотека машинного обучения для градиентного бустинга на деревьях решений. Она была разработана компанией Яндекс и имеет ряд преимуществ в сравнении с другими алгоритмами бустинга, такими как XGBoost и LightGBM.

Одно из главных преимуществ CatBoost заключается в том, что она автоматически обрабатывает категориальные признаки, не требуя их предварительной обработки. Кроме того, она имеет встроенные методы обработки пропущенных значений и автоматический подбор гиперпараметров. Также CatBoost поддерживает распараллеливание и может работать с различными типами данных.

In [4]:
#pip install -U pip

Collecting pip
  Downloading pip-23.3-py3-none-any.whl (2.1 MB)
[K     |████████████████████████████████| 2.1 MB 1.7 MB/s eta 0:00:01
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 21.2.4
    Uninstalling pip-21.2.4:
      Successfully uninstalled pip-21.2.4
Successfully installed pip-23.3
Note: you may need to restart the kernel to use updated packages.


In [5]:
#pip install --upgrade setuptools

Collecting setuptools
  Downloading setuptools-68.2.2-py3-none-any.whl.metadata (6.3 kB)
Downloading setuptools-68.2.2-py3-none-any.whl (807 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m807.9/807.9 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0mm
[?25hInstalling collected packages: setuptools
  Attempting uninstall: setuptools
    Found existing installation: setuptools 58.1.0
    Uninstalling setuptools-58.1.0:
      Successfully uninstalled setuptools-58.1.0
Successfully installed setuptools-68.2.2
[0mNote: you may need to restart the kernel to use updated packages.


In [6]:
#pip install catboost

Collecting catboost
  Downloading catboost-1.2.2-cp39-cp39-macosx_11_0_universal2.whl.metadata (1.2 kB)
Collecting graphviz (from catboost)
  Downloading graphviz-0.20.1-py3-none-any.whl (47 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m47.0/47.0 kB[0m [31m623.9 kB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
Downloading catboost-1.2.2-cp39-cp39-macosx_11_0_universal2.whl (25.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m25.8/25.8 MB[0m [31m37.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: graphviz, catboost
Successfully installed catboost-1.2.2 graphviz-0.20.1
[0mNote: you may need to restart the kernel to use updated packages.


In [7]:
# Импортирование необходимых библиотек
import pandas as pd
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from catboost import CatBoostRegressor
from sklearn.metrics import mean_squared_error

In [8]:
# Загрузка данных и разделение на обучающий и тестовый наборы
data = fetch_california_housing()
X = pd.DataFrame(data['data'], columns=data['feature_names'])
y = pd.Series(data['target'])
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [9]:
# Инициализация и обучение модели CatBoostRegressor
model = CatBoostRegressor()
model.fit(X_train, y_train)

Learning rate set to 0.063766
0:	learn: 1.1147097	total: 69ms	remaining: 1m 8s
1:	learn: 1.0778029	total: 73.4ms	remaining: 36.6s
2:	learn: 1.0430071	total: 76.5ms	remaining: 25.4s
3:	learn: 1.0106614	total: 80.5ms	remaining: 20.1s
4:	learn: 0.9819674	total: 87.4ms	remaining: 17.4s
5:	learn: 0.9546991	total: 91.4ms	remaining: 15.1s
6:	learn: 0.9281868	total: 94.8ms	remaining: 13.5s
7:	learn: 0.9037831	total: 98ms	remaining: 12.2s
8:	learn: 0.8825569	total: 102ms	remaining: 11.2s
9:	learn: 0.8608727	total: 105ms	remaining: 10.4s
10:	learn: 0.8418439	total: 107ms	remaining: 9.62s
11:	learn: 0.8242003	total: 109ms	remaining: 8.99s
12:	learn: 0.8085311	total: 112ms	remaining: 8.47s
13:	learn: 0.7918148	total: 114ms	remaining: 7.99s
14:	learn: 0.7785217	total: 119ms	remaining: 7.78s
15:	learn: 0.7662624	total: 121ms	remaining: 7.44s
16:	learn: 0.7528313	total: 123ms	remaining: 7.11s
17:	learn: 0.7416752	total: 126ms	remaining: 6.87s
18:	learn: 0.7316411	total: 128ms	remaining: 6.61s
19:	lea

<catboost.core.CatBoostRegressor at 0x126bb8f40>

In [10]:
# Предсказание на тестовом наборе
y_pred = model.predict(X_test)

In [11]:
# Оценка качества модели
mse = mean_squared_error(y_test, y_pred)

print(f"Mean Squared Error: {mse}")

Mean Squared Error: 0.19760814499635423
