# XGBoost

#### Веса на листьях

Каждое дерево решений в XGBoost состоит из узлов и листьев. Листья представляют собой конечные точки дерева, в которых делаются предсказания. Для каждого листа назначается вес — это значение, которое используется для предсказания целевой переменной для всех данных, попавших в этот лист. Эти веса обновляются на каждой итерации, чтобы минимизировать ошибку модели. Вес листа отражает величину корректировки предсказаний для данных, попавших в этот сегмент.

#### Регуляризация (L1 и L2)

XGBoost вводит регуляризационные методы L1 (Lasso) и L2 (Ridge), которые помогают контролировать сложность модели. Эти штрафы применяются к весам листьев деревьев, чтобы избежать переобучения модели. Регуляризация минимизирует чрезмерное влияние отдельных признаков и сглаживает весовые значения, что делает модель более устойчивой к шуму в данных.

#### Обрезка деревьев (Tree Pruning)

XGBoost использует стратегию обрезки деревьев для уменьшения их сложности. Если очередное разбиение не приводит к значительному снижению функции потерь, оно отбрасывается. Это улучшает общую производительность модели и предотвращает создание слишком глубоких деревьев, которые могут привести к переобучению.

С момента своего появления в 2014 году XGBoost стал алгоритмом машинного обучения, который предпочитают ученые, изучающие данные, и инженеры машинного обучения. Это библиотека с открытым исходным кодом, которая позволяет обучать и тестировать модели на больших объемах данных. Она используется во многих областях, от прогнозирования количества кликов по рекламным объявлениям до классификации событий в физике высоких энергий.

XGBoost особенно популярен, потому что он (по сравнению с классическим градиентным бустингом) очень быстрый, и эта скорость достигается без ущерба для точности!

#### Особенности XGBoost
Давайте обсудим некоторые особенности XGBoost, которые делают его таким привлекательным.

Как мы уже отметили, XGBoost предлагает регуляризацию, которая позволяет контролировать перебор путем введения штрафов L1/L2 на весах и смещениях каждого дерева. Эта функция недоступна во многих других реализациях градиентного бустинга.
Еще одной особенностью XGBoost является возможность работы с разреженными наборами данных с помощью алгоритма взвешенного квантильного эскиза. Этот алгоритм позволяет нам работать с ненулевыми значениями в матрице признаков, сохраняя при этом ту же вычислительную сложность, что и другие алгоритмы, например стохастический градиентный спуск.
XGBoost также имеет блочную структуру для параллельного обучения. Это позволяет легко масштабировать его на многоядерных машинах или кластерах. Кроме того, он использует кэш, что позволяет сократить расход памяти при обучении моделей с большими наборами данных.
Наконец, XGBoost предлагает возможности внеядерных вычислений, используя на этапе вычислений структуры данных на диске, а не в памяти.

#### Почему именно XGBoost?
XGBoost традиционно использовался по двум причинам: скорость и производительность модели.

Скорость выполнения очень важна, поскольку она необходима для работы с большими наборами данных. При использовании XGBoost нет ограничений на размер набора данных, поэтому вы можете работать с большими наборами данных, чем это было бы возможно при использовании других алгоритмов.

Производительность модели также очень важна, поскольку позволяет создавать модели, которые могут работать лучше других. XGBoost сравнивался с различными алгоритмами, такими как случайный лес (RF), машины градиентного усиления (GBM) и деревья решений с градиентным усилением (GBDT). Эти сравнения показали, что XGBoost превосходит другие алгоритмы по скорости выполнения и производительности модели.

В то же время следует отметить, что с момента появления этого алгоритма прошло уже более 10 лет и за это время появились более быстрые и (на мой взгляд) мощные с предсказательной точки зрения реализации градиентного бустинга, такие как LightGBM и, в особенности, catBoost.

### Основные отличия XGBoost от классического градиентного бустинга:

-    **Регуляризация**: XGBoost добавляет L1 (Lasso) и L2 (Ridge) регуляризации, что помогает избежать переобучения и улучшает обобщающую способность модели. Классический градиентный бустинг обычно не включает эти дополнительные методы регуляризации.

-    **Параллелизация**: XGBoost поддерживает параллельную обработку, что значительно ускоряет обучение моделей, особенно на больших объемах данных. В то время как классический градиентный бустинг следует строгой последовательной схеме, XGBoost использует параллельные вычисления для ускорения процесса построения деревьев.

-    **Обработка пропущенных данных**: В XGBoost встроена поддержка пропущенных данных. Алгоритм автоматически определяет, как лучше обрабатывать пропущенные значения, что позволяет избежать предварительной обработки данных. Классический бустинг требует ручной обработки пропусков.

-    **Обрезка деревьев (Tree Pruning)**: XGBoost использует стратегию "умного обрезания" деревьев, чтобы удалять ветви, которые не приносят значительного улучшения модели, основываясь на параметре γ (Gamma). Это помогает избежать создания слишком сложных моделей. Классический градиентный бустинг часто просто останавливает рост дерева при достижении негативной функции потерь, что может привести к субоптимальным результатам. 

-    **Параметр γ (Gamma) в XGBoost** — это гиперпараметр, который контролирует минимальное снижение функции потерь, необходимое для того, чтобы продолжить разбиение узла дерева на подузлы. Чем выше значение γ, тем более строго алгоритм будет "обрезать" дерево, отсекая малозначимые разбиения. Это помогает избежать создания слишком сложных деревьев и предотвращает переобучение. Когда значение γ увеличивается, модель становится проще, так как XGBoost отклоняет разбиения, которые дают только незначительное улучшение предсказаний. Если значение γ равно 0, алгоритм работает без ограничений на разбиение узлов.

-    **Использование Dropout**: XGBoost поддерживает технику Dropout (метод DART), которая случайно отключает деревья в процессе бустинга, что дополнительно снижает вероятность переобучения (тем самым значение каждого индивидуального дерева уменьшается). Этот метод аналогичен регуляризации Dropout в нейронных сетях ;).

-    **Встроенная кросс-валидация**: XGBoost включает встроенную поддержку кросс-валидации, что позволяет автоматически оценивать модель на разных итерациях и предотвращать переобучение. В классическом градиентном бустинге кросс-валидацию приходится настраивать вручную с помощью внешних инструментов.



In [2]:
pip install xgboost --break-system-packages

Defaulting to user installation because normal site-packages is not writeable
Collecting xgboost
  Downloading xgboost-2.1.3-py3-none-manylinux_2_28_x86_64.whl.metadata (2.1 kB)
Collecting nvidia-nccl-cu12 (from xgboost)
  Downloading nvidia_nccl_cu12-2.25.1-py3-none-manylinux2014_x86_64.manylinux_2_17_x86_64.whl.metadata (1.8 kB)
Downloading xgboost-2.1.3-py3-none-manylinux_2_28_x86_64.whl (153.9 MB)
[2K   [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m153.9/153.9 MB[0m [31m359.3 kB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:13[0m
Downloading nvidia_nccl_cu12-2.25.1-py3-none-manylinux2014_x86_64.manylinux_2_17_x86_64.whl (201.4 MB)
[2K   [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m201.4/201.4 MB[0m [31m313.7 kB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:16[0m
Installing collected packages: nvidia-nccl-cu12, xgboost
Successfully installed nvidia-nccl-cu12-2.25.1 xgboost-2.1.3
Note: you may need to restart th

In [2]:
import pandas as pd 
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt 
import plotly.express as px

import warnings

In [3]:
warnings.filterwarnings('ignore')

In [4]:
dia = sns.load_dataset('diamonds')
dia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53940 non-null  float64 
 1   cut      53940 non-null  category
 2   color    53940 non-null  category
 3   clarity  53940 non-null  category
 4   depth    53940 non-null  float64 
 5   table    53940 non-null  float64 
 6   price    53940 non-null  int64   
 7   x        53940 non-null  float64 
 8   y        53940 non-null  float64 
 9   z        53940 non-null  float64 
dtypes: category(3), float64(6), int64(1)
memory usage: 3.0 MB


In [7]:
dia.isna().sum()

carat      0
cut        0
color      0
clarity    0
depth      0
table      0
price      0
x          0
y          0
z          0
dtype: int64

In [8]:
dia.describe()

Unnamed: 0,carat,depth,table,price,x,y,z
count,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0,53940.0
mean,0.79794,61.749405,57.457184,3932.799722,5.731157,5.734526,3.538734
std,0.474011,1.432621,2.234491,3989.439738,1.121761,1.142135,0.705699
min,0.2,43.0,43.0,326.0,0.0,0.0,0.0
25%,0.4,61.0,56.0,950.0,4.71,4.72,2.91
50%,0.7,61.8,57.0,2401.0,5.7,5.71,3.53
75%,1.04,62.5,59.0,5324.25,6.54,6.54,4.04
max,5.01,79.0,95.0,18823.0,10.74,58.9,31.8


In [9]:
dia.describe(exclude = np.number)

Unnamed: 0,cut,color,clarity
count,53940,53940,53940
unique,5,7,8
top,Ideal,G,SI1
freq,21551,11292,13065


In [5]:
from sklearn.model_selection import train_test_split

X, y = dia.drop(columns = ['price']), dia['price']
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53940 non-null  float64 
 1   cut      53940 non-null  category
 2   color    53940 non-null  category
 3   clarity  53940 non-null  category
 4   depth    53940 non-null  float64 
 5   table    53940 non-null  float64 
 6   x        53940 non-null  float64 
 7   y        53940 non-null  float64 
 8   z        53940 non-null  float64 
dtypes: category(3), float64(6)
memory usage: 2.6 MB


In [6]:
for col in X.select_dtypes(exclude = np.number).columns:
    X[col] = X[col].astype('category')

In [66]:
X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53940 entries, 0 to 53939
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype   
---  ------   --------------  -----   
 0   carat    53940 non-null  float64 
 1   cut      53940 non-null  category
 2   color    53940 non-null  category
 3   clarity  53940 non-null  category
 4   depth    53940 non-null  float64 
 5   table    53940 non-null  float64 
 6   x        53940 non-null  float64 
 7   y        53940 non-null  float64 
 8   z        53940 non-null  float64 
dtypes: category(3), float64(6)
memory usage: 2.6 MB


In [7]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state = 13)

### xgboost

>XGBoost поставляется с собственным классом для хранения наборов данных, который называется DMatrix. Это высоко оптимизированный класс для памяти и скорости. Поэтому преобразование наборов данных в этот формат является обязательным условием для родного API XGBoost:

>Класс принимает как обучающие признаки, так и метки. Чтобы включить автоматическое кодирование столбцов категорий Pandas, мы также установили enable_categorical в True.

In [8]:
import xgboost as xgb

dtrain_reg = xgb.DMatrix(X_train, y_train, enable_categorical=True)
dtest_reg = xgb.DMatrix(X_test, y_test, enable_categorical=True)

### Обучение
>Выбранная объективная функция и любые другие гиперпараметры XGBoost должны быть указаны в словаре, который по условию должен называться params:

In [9]:
# Определяем гиперпараметры
params = {"objective": "reg:squarederror", "tree_method": "hist"}

In [82]:
n = 100
model = xgb.train(
   params=params,
   dtrain=dtrain_reg,
   num_boost_round=n,
)

In [83]:
from sklearn.metrics import mean_squared_error

preds = model.predict(dtest_reg)

In [84]:
rmse = mean_squared_error(y_test, preds, squared=False)

print(f'RMSE базовой модели: {rmse:.3f}')
#RMSE базовой модели: 543.203

RMSE базовой модели: 557.008


In [12]:
evals = [(dtrain_reg, "train"), (dtest_reg, "validation")]

model = xgb.train(
   params=params,
   dtrain=dtrain_reg,
   num_boost_round=100,
   evals=evals,
    verbose_eval = 10
)

[0]	train-rmse:2861.72581	validation-rmse:2863.67303
[10]	train-rmse:550.47204	validation-rmse:588.22753
[20]	train-rmse:494.49628	validation-rmse:559.03764
[30]	train-rmse:469.03745	validation-rmse:550.02711
[40]	train-rmse:452.49707	validation-rmse:552.34149
[50]	train-rmse:433.34989	validation-rmse:549.71882
[60]	train-rmse:418.86832	validation-rmse:553.17431
[70]	train-rmse:408.78509	validation-rmse:553.45774
[80]	train-rmse:397.81548	validation-rmse:553.97016
[90]	train-rmse:389.04545	validation-rmse:555.17282
[99]	train-rmse:378.85757	validation-rmse:557.00836
