# Цель занятия
На этом занятии мы рассмотрим применение алгоритма XGBoost для задачи регрессии.

XGBoost (eXtreme Gradient Boosting) - это открытая библиотека машинного обучения, которая используется для задач регрессии, классификации и ранжирования. Она была разработана с целью обеспечить эффективный и высококачественный алгоритм градиентного бустинга над деревьями решений.

XGBoost использует ансамбль деревьев решений, что позволяет достичь высокой точности при обработке больших объемов данных. Он использует градиентный подход для обучения ансамбля деревьев решений, в котором каждое следующее дерево обучается на ошибках, сделанных предыдущими деревьями, чтобы улучшить качество предсказаний.

XGBoost может работать с разными типами данных и поддерживает распределенную обработку на нескольких ядрах и узлах. Он также имеет множество параметров для настройки, что позволяет пользователю оптимизировать производительность и качество модели под конкретную задачу. 

In [1]:
# Установка библиотеки xgboost
# !pip install xgboost

In [2]:
# Импортируем необходимые библиотеки
import numpy as np
import pandas as pd
from sklearn.datasets import fetch_california_housing
import xgboost as xgb
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

In [3]:
# Загружаем датасет California Housing
data = fetch_california_housing()

In [4]:
# Определяем признаки и целевую переменную
X = data['data']
y = data['target']

# Разбиваем данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)

In [5]:
# Определяем матрицу данных XGBoost
dtrain = xgb.DMatrix(X_train, label=y_train)
dtest = xgb.DMatrix(X_test, label=y_test)

In [8]:
# Определяем модель и ее параметры
params = {
    'objective': 'reg:squarederror',
    'max_depth': 3,
    'learning_rate': 0.1,
    'silent': 1,
    'n_estimators': 100
}

In [9]:
# Обучаем модель на обучающей выборке
xgb_model = xgb.train(params, dtrain)

# Получаем предсказания на тестовой выборке
y_pred = xgb_model.predict(dtest)

Parameters: { "n_estimators", "silent" } are not used.



In [10]:
# Оцениваем качество модели на тестовой выборке
mse = mean_squared_error(y_test, y_pred)
print("MSE:", mse)

MSE: 0.9513326781355264
