In [2]:
!pip install xgboost



In [4]:
'''
Импорт необходимых библиотек
'''

import xgboost as xgb
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, mean_squared_error

In [6]:
'''
Для примера классификации используем набор данных Iris (или любой другой набор данных).
'''

# Загрузим набор данных Iris
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data
y = iris.target

# Разделим данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [8]:
# Создаем модель XGBoost для классификации
model = xgb.XGBClassifier(
    objective='multi:softmax',  # Многоклассовая классификация
    eval_metric='mlogloss',      # Метрика для оценки
    learning_rate=0.1,           # Скорость обучения
    n_estimators=100,            # Количество деревьев
    max_depth=3,                 # Максимальная глубина деревьев
    subsample=0.8,               # Доля обучающих данных
    colsample_bytree=0.8         # Доля признаков
)

# Обучение модели
model.fit(X_train, y_train)


In [10]:
# Предсказание на тестовых данных
y_pred = model.predict(X_test)

# Оценка точности
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.2f}')


Accuracy: 1.00


In [20]:
# Для примера регрессии используем набор данных california housing.

from sklearn.datasets import fetch_california_housing
housing = fetch_california_housing()

X = housing.data
y = housing.target

# Разделим данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [16]:
# Создаем модель XGBoost для регрессии
model = xgb.XGBRegressor(
    objective='reg:squarederror',  # Задача регрессии
    eval_metric='rmse',             # Метрика для оценки
    learning_rate=0.1,              # Скорость обучения
    n_estimators=100,               # Количество деревьев
    max_depth=3,                    # Максимальная глубина деревьев
    subsample=0.8,                  # Доля обучающих данных
    colsample_bytree=0.8            # Доля признаков
)

# Обучение модели
model.fit(X_train, y_train)


In [18]:
# Предсказание на тестовых данных
y_pred = model.predict(X_test)

# Оценка среднеквадратичной ошибки
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse:.2f}')


Mean Squared Error: 0.29


In [None]:
'''
Важные параметры XGBoost
Общие параметры:

objective: Определяет задачу (например, binary:logistic для бинарной классификации, multi:softmax для многоклассовой классификации, reg:squarederror для регрессии).
eval_metric: Метрика для оценки (например, logloss, error, rmse).
Параметры обучения:

learning_rate (или eta): Скорость обучения, обычно от 0.01 до 0.3.
n_estimators: Количество деревьев (итераций), обычно от 100 до 1000.
max_depth: Максимальная глубина деревьев, обычно от 3 до 10.
'''

In [22]:
# Установка CatBoost

!pip install catboost

Collecting catboost
  Downloading catboost-1.2.7-cp311-cp311-manylinux2014_x86_64.whl.metadata (1.2 kB)
Collecting graphviz (from catboost)
  Downloading graphviz-0.20.3-py3-none-any.whl.metadata (12 kB)
Downloading catboost-1.2.7-cp311-cp311-manylinux2014_x86_64.whl (98.7 MB)
[2K   [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m98.7/98.7 MB[0m [31m2.6 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:01[0m[0m
[?25hDownloading graphviz-0.20.3-py3-none-any.whl (47 kB)
[2K   [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m47.1/47.1 kB[0m [31m4.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: graphviz, catboost
Successfully installed catboost-1.2.7 graphviz-0.20.3


In [None]:
'''
Основные параметры CatBoost
Вот некоторые из основных параметров, которые вы можете использовать при создании модели CatBoost:

iterations: Количество итераций (или деревьев), которые будут построены.
learning_rate: Скорость обучения. Меньшие значения могут привести к более точной модели, но требуют большего количества итераций.
depth: Глубина деревьев. Обычно значения от 4 до 10.
l2_leaf_reg: Регуляризация L2 для листьев. Помогает предотвратить переобучение.
loss_function: Функция потерь, которую вы хотите использовать (например, 'Logloss' для классификации, 'RMSE' для регрессии).
cat_features: Список категориальных признаков.
'''

In [38]:
# Рассмотрим пример классификации на основе набора данных Iris.

import pandas as pd
from catboost import CatBoostClassifier, Pool
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Загрузка данных
data = pd.read_csv('https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv', header=None)
data.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'species']

# Преобразование целевой переменной в числовые значения
data['species'] = data['species'].astype('category')

data.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [40]:
# Разделение на признаки и целевую переменную
X = data.drop('species', axis=1)
y = data['species']

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [44]:
# Создание и обучение модели
# В данном случае у нас нет категориальных признаков, поэтому cat_features не нужно указывать
model = CatBoostClassifier(iterations=100, learning_rate=0.1, depth=3, verbose=0)
model.fit(X_train, y_train)

# Предсказание
y_pred = model.predict(X_test)

# Оценка точности
accuracy = accuracy_score(y_test, y_pred)

print(accuracy)

1.0


In [50]:
# Пример использования CatBoost для регрессии

from catboost import CatBoostRegressor
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Загрузка данных
data = fetch_california_housing()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = pd.Series(data.target)

X.head()

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.97188,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.80226,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25


In [52]:
# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [54]:
# Создание и обучение модели
model = CatBoostRegressor(iterations=100, learning_rate=0.1, depth=6, verbose=0)
model.fit(X_train, y_train)

# Предсказание
y_pred = model.predict(X_test)

# Оценка RMSE
rmse = mean_squared_error(y_test, y_pred, squared=False)
print(f'RMSE: {rmse:.2f}')

RMSE: 0.51
