Начиная с вашего запроса, вот подробное руководство по использованию XGBoost, CatBoost, LightGBM, PyTorch Lightning и Transformers, включая методы, примеры с NumPy и PyTorch, объяснения и шаги по обучению на вашем собственном наборе данных.

## Руководство по использованию библиотек машинного обучения

Это руководство охватывает пять мощных библиотек, широко используемых в машинном обучении и глубоком обучении.

### 1\. XGBoost (Extreme Gradient Boosting)

XGBoost - это оптимизированная распределенная библиотека градиентного бустинга, предназначенная для высокой производительности, гибкости и переносимости. Она реализует алгоритмы машинного обучения под общим фреймворком градиентного бустинга.

**Что это делает:**
XGBoost специализируется на задачах табличных данных, таких как классификация, регрессия и ранжирование. Он очень эффективен, масштабируем и часто выигрывает соревнования по машинному обучению благодаря своей способности обрабатывать различные типы данных, обрабатывать пропущенные значения и выполнять регуляризацию для предотвращения переобучения.

**Установка:**
`pip install xgboost`

**Основные методы и атрибуты:**

  * `XGBClassifier`: Для задач классификации.
  * `XGBRegressor`: Для задач регрессии.
  * `fit(X, y)`: Обучает модель.
  * `predict(X)`: Делает предсказания.
  * `predict_proba(X)`: Возвращает вероятности классов для классификации.
  * `feature_importances_`: Важность признаков после обучения.
  * `set_params(**params)`: Устанавливает параметры для модели.

**Примеры использования с NumPy и PyTorch:**

**Пример с NumPy (Классификация):**

In [None]:
import xgboost as xgb
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Генерация синтетических данных NumPy
X_np = np.random.rand(1000, 10) # 1000 образцов, 10 признаков
y_np = np.random.randint(0, 2, 1000) # Бинарная метка (0 или 1)

# Разделение на обучающую и тестовую выборки
X_train_np, X_test_np, y_train_np, y_test_np = train_test_split(X_np, y_np, test_size=0.2, random_state=42)

# Инициализация и обучение XGBoost Classifier
xgb_model = xgb.XGBClassifier(objective='binary:logistic', eval_metric='logloss', use_label_encoder=False)
xgb_model.fit(X_train_np, y_train_np)

# Предсказания
y_pred_np = xgb_model.predict(X_test_np)
accuracy_np = accuracy_score(y_test_np, y_pred_np)
print(f"XGBoost (NumPy) Accuracy: {accuracy_np:.4f}")

# Важность признаков
print("XGBoost (NumPy) Feature Importances:", xgb_model.feature_importances_)

**Пример с PyTorch (классификация, используя .numpy() для преобразования):**

XGBoost не принимает напрямую тензоры PyTorch. Вам нужно преобразовать их в массивы NumPy.

In [None]:
import xgboost as xgb
import torch
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Генерация синтетических данных PyTorch
X_torch = torch.rand(1000, 10)
y_torch = torch.randint(0, 2, (1000,))

# Преобразование в NumPy для XGBoost
X_np_from_torch = X_torch.numpy()
y_np_from_torch = y_torch.numpy()

# Разделение на обучающую и тестовую выборки (теперь в NumPy)
X_train_np_t, X_test_np_t, y_train_np_t, y_test_np_t = train_test_split(X_np_from_torch, y_np_from_torch, test_size=0.2, random_state=42)

# Инициализация и обучение XGBoost Classifier
xgb_model_torch = xgb.XGBClassifier(objective='binary:logistic', eval_metric='logloss', use_label_encoder=False)
xgb_model_torch.fit(X_train_np_t, y_train_np_t)

# Предсказания
y_pred_np_t = xgb_model_torch.predict(X_test_np_t)
accuracy_np_t = accuracy_score(y_test_np_t, y_pred_np_t)
print(f"XGBoost (PyTorch -> NumPy) Accuracy: {accuracy_np_t:.4f}")

### 2\. CatBoost

CatBoost - это алгоритм градиентного бустинга на деревьях решений, разработанный Яндекс. Он отличается специализированной обработкой категориальных признаков и симметричными деревьями.

**Что это делает:**
CatBoost предназначен для работы с категориальными данными без предварительной обработки, такой как one-hot encoding. Он использует специальную схему кодирования категориальных признаков во время обучения, что помогает снизить переобучение. Он также известен своей высокой точностью и скоростью.

**Установка:**
`pip install catboost`

**Основные методы и атрибуты:**

  * `CatBoostClassifier`: Для задач классификации.
  * `CatBoostRegressor`: Для задач регрессии.
  * `fit(X, y, cat_features)`: Обучает модель. `cat_features` - необязательный список индексов категориальных признаков.
  * `predict(X)`: Делает предсказания.
  * `predict_proba(X)`: Возвращает вероятности классов для классификации.
  * `get_feature_importance()`: Важность признаков после обучения.

**Примеры использования с NumPy и PyTorch:**

**Пример с NumPy (Классификация):**

In [None]:
from catboost import CatBoostClassifier
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import pandas as pd

# Генерация синтетических данных NumPy с категориальными признаками
data_np = {
    'feature1': np.random.rand(1000),
    'feature2': np.random.randint(0, 3, 1000).astype(str), # Категориальный признак
    'feature3': np.random.rand(1000),
    'target': np.random.randint(0, 2, 1000)
}
df_np = pd.DataFrame(data_np)

X_np = df_np[['feature1', 'feature2', 'feature3']]
y_np = df_np['target']

# Определяем индексы категориальных признаков
categorical_features_indices_np = [X_np.columns.get_loc('feature2')]

# Разделение на обучающую и тестовую выборки
X_train_np, X_test_np, y_train_np, y_test_np = train_test_split(X_np, y_np, test_size=0.2, random_state=42)

# Инициализация и обучение CatBoost Classifier
cat_model = CatBoostClassifier(iterations=100,  # Количество деревьев
                                 learning_rate=0.1,
                                 depth=6,
                                 loss_function='Logloss',
                                 eval_metric='Accuracy',
                                 random_seed=42,
                                 verbose=False) # Отключение подробного вывода
cat_model.fit(X_train_np, y_train_np, cat_features=categorical_features_indices_np)

# Предсказания
y_pred_cat_np = cat_model.predict(X_test_np)
accuracy_cat_np = accuracy_score(y_test_np, y_pred_cat_np)
print(f"CatBoost (NumPy) Accuracy: {accuracy_cat_np:.4f}")

# Важность признаков
print("CatBoost (NumPy) Feature Importances:", cat_model.get_feature_importance())

**Пример с PyTorch (Использование .numpy() для преобразования):**

Как и XGBoost, CatBoost ожидает массивы NumPy или Pandas DataFrame.

In [None]:
from catboost import CatBoostClassifier
import torch
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Генерация синтетических данных PyTorch с категориальными признаками
X_torch = torch.rand(1000, 2) # Числовые признаки
# Категориальный признак, преобразованный в строки для CatBoost
cat_torch = torch.randint(0, 3, (1000,)).numpy().astype(str)
y_torch = torch.randint(0, 2, (1000,))

# Преобразование в Pandas DataFrame для CatBoost
df_torch = pd.DataFrame(X_torch.numpy(), columns=['feature1', 'feature3'])
df_torch['feature2'] = cat_torch
y_np_from_torch = y_torch.numpy()

categorical_features_indices_torch = [df_torch.columns.get_loc('feature2')]

# Разделение на обучающую и тестовую выборки (теперь в Pandas)
X_train_torch_df, X_test_torch_df, y_train_torch_np, y_test_torch_np = train_test_split(df_torch, y_np_from_torch, test_size=0.2, random_state=42)

# Инициализация и обучение CatBoost Classifier
cat_model_torch = CatBoostClassifier(iterations=100,
                                       learning_rate=0.1,
                                       depth=6,
                                       loss_function='Logloss',
                                       eval_metric='Accuracy',
                                       random_seed=42,
                                       verbose=False)
cat_model_torch.fit(X_train_torch_df, y_train_torch_np, cat_features=categorical_features_indices_torch)

# Предсказания
y_pred_cat_torch = cat_model_torch.predict(X_test_torch_df)
accuracy_cat_torch = accuracy_score(y_test_torch_np, y_pred_cat_torch)
print(f"CatBoost (PyTorch -> Pandas) Accuracy: {accuracy_cat_torch:.4f}")

### 3\. LightGBM (Light Gradient Boosting Machine)

LightGBM - это фреймворк градиентного бустинга, разработанный Microsoft, который использует древовидные алгоритмы обучения. Он разработан для высокой скорости и распределенного обучения.

**Что это делает:**
LightGBM оптимизирован для больших наборов данных, используя технику на основе гистограммы, которая группирует непрерывные значения признаков в дискретные интервалы (бины), что значительно ускоряет обучение. Он также использует алгоритм роста дерева на основе листьев (leaf-wise), в отличие от алгоритма роста дерева по уровню (level-wise), используемого в других реализациях. Это часто приводит к более быстрым и точным моделям.

**Установка:**
`pip install lightgbm`

**Основные методы и атрибуты:**

  * `LGBMClassifier`: Для задач классификации.
  * `LGBMRegressor`: Для задач регрессии.
  * `fit(X, y)`: Обучает модель.
  * `predict(X)`: Делает предсказания.
  * `predict_proba(X)`: Возвращает вероятности классов для классификации.
  * `feature_importances_`: Важность признаков после обучения.

**Примеры использования с NumPy и PyTorch:**

**Пример с NumPy (Классификация):**

In [None]:
import lightgbm as lgb
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Генерация синтетических данных NumPy
X_np = np.random.rand(1000, 10)
y_np = np.random.randint(0, 2, 1000)

# Разделение на обучающую и тестовую выборки
X_train_np, X_test_np, y_train_np, y_test_np = train_test_split(X_np, y_np, test_size=0.2, random_state=42)

# Инициализация и обучение LightGBM Classifier
lgb_model = lgb.LGBMClassifier(objective='binary', metric='binary_logloss', random_state=42)
lgb_model.fit(X_train_np, y_train_np)

# Предсказания
y_pred_lgb_np = lgb_model.predict(X_test_np)
accuracy_lgb_np = accuracy_score(y_test_np, y_pred_lgb_np)
print(f"LightGBM (NumPy) Accuracy: {accuracy_lgb_np:.4f}")

# Важность признаков
print("LightGBM (NumPy) Feature Importances:", lgb_model.feature_importances_)

**Пример с PyTorch (Использование .numpy() для преобразования):**

LightGBM также ожидает массивы NumPy или Pandas DataFrame.

In [None]:
import lightgbm as lgb
import torch
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

# Генерация синтетических данных PyTorch
X_torch = torch.rand(1000, 10)
y_torch = torch.randint(0, 2, (1000,))

# Преобразование в NumPy для LightGBM
X_np_from_torch = X_torch.numpy()
y_np_from_torch = y_torch.numpy()

# Разделение на обучающую и тестовую выборки (теперь в NumPy)
X_train_np_t, X_test_np_t, y_train_np_t, y_test_np_t = train_test_split(X_np_from_torch, y_np_from_torch, test_size=0.2, random_state=42)

# Инициализация и обучение LightGBM Classifier
lgb_model_torch = lgb.LGBMClassifier(objective='binary', metric='binary_logloss', random_state=42)
lgb_model_torch.fit(X_train_np_t, y_train_np_t)

# Предсказания
y_pred_lgb_torch = lgb_model_torch.predict(X_test_np_t)
accuracy_lgb_torch = accuracy_score(y_test_np_t, y_pred_lgb_torch)
print(f"LightGBM (PyTorch -> NumPy) Accuracy: {accuracy_lgb_torch:.4f}")

### 4\. PyTorch Lightning

PyTorch Lightning - это легковесная оболочка для PyTorch, которая обеспечивает высокоуровневый интерфейс для организации и масштабирования моделей PyTorch.

**Что это делает:**
PyTorch Lightning помогает инженерам по машинному обучению и исследователям:

  * **Упорядочивать код:** Разделяет код исследования и инженерный код.
  * **Уменьшать количество шаблонного кода:** Автоматизирует циклы обучения, логирование, сохранение контрольных точек и другие общие задачи.
  * **Обеспечивать воспроизводимость:** Упрощает воспроизведение экспериментов.
  * **Поддерживать масштабирование:** Легко переключается между CPU, GPU и распределенным обучением.

**Установка:**
`pip install pytorch-lightning`

**Основные компоненты:**

  * `LightningModule`: Основной класс, где вы определяете свою модель PyTorch, прямую передачу, шаг обучения, шаг валидации и оптимизатор.
  * `Trainer`: Оркестратор, который обрабатывает цикл обучения, валидацию, тестирование и т.д.
  * `Dataloader`: Стандартный PyTorch `DataLoader` для загрузки данных.
  * `LightningDataModule`: Необязательный, но рекомендуемый способ инкапсуляции всей логики подготовки данных (загрузка, разделение, преобразование).

**Примеры использования с NumPy и PyTorch:**

PyTorch Lightning изначально работает с тензорами PyTorch, поэтому преобразование NumPy будет происходить на этапе создания `Dataset` и `DataLoader`.

**Пример с PyTorch (Классификация):**

In [None]:
import torch
from torch import nn
from torch.utils.data import DataLoader, TensorDataset
import pytorch_lightning as pl
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# 1. Создание LightningModule
class SimpleClassifier(pl.LightningModule):
    def __init__(self, input_dim, num_classes):
        super().__init__()
        self.fc1 = nn.Linear(input_dim, 64)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(64, num_classes)
        self.loss_fn = nn.CrossEntropyLoss()

    def forward(self, x):
        return self.fc2(self.relu(self.fc1(x)))

    def training_step(self, batch, batch_idx):
        x, y = batch
        logits = self(x)
        loss = self.loss_fn(logits, y)
        self.log('train_loss', loss, on_step=True, on_epoch=True, prog_bar=True)
        return loss

    def validation_step(self, batch, batch_idx):
        x, y = batch
        logits = self(x)
        loss = self.loss_fn(logits, y)
        preds = torch.argmax(logits, dim=1)
        acc = accuracy_score(y.cpu(), preds.cpu())
        self.log('val_loss', loss, on_step=False, on_epoch=True)
        self.log('val_acc', acc, on_step=False, on_epoch=True, prog_bar=True)
        return {'val_loss': loss, 'val_acc': acc}

    def configure_optimizers(self):
        optimizer = torch.optim.Adam(self.parameters(), lr=1e-3)
        return optimizer

# 2. Создание данных
# Генерация синтетических данных NumPy
X_np = np.random.rand(1000, 10).astype(np.float32)
y_np = np.random.randint(0, 2, 1000).astype(np.int64)

# Преобразование в тензоры PyTorch
X_torch = torch.from_numpy(X_np)
y_torch = torch.from_numpy(y_np)

# Разделение на обучающую и тестовую выборки
X_train_torch, X_val_torch, y_train_torch, y_val_torch = train_test_split(X_torch, y_torch, test_size=0.2, random_state=42)

# Создание PyTorch Datasets и DataLoaders
train_dataset = TensorDataset(X_train_torch, y_train_torch)
val_dataset = TensorDataset(X_val_torch, y_val_torch)

train_loader = DataLoader(train_dataset, batch_size=32)
val_loader = DataLoader(val_dataset, batch_size=32)

# 3. Инициализация модели и тренера
model = SimpleClassifier(input_dim=10, num_classes=2)
trainer = pl.Trainer(max_epochs=5, enable_progress_bar=True, accelerator='cpu') # Используйте 'gpu' если доступно

# 4. Обучение модели
print("Начало обучения PyTorch Lightning...")
trainer.fit(model, train_loader, val_loader)
print("Обучение PyTorch Lightning завершено.")

# (Необязательно) Тестирование модели после обучения
# trainer.test(model, test_loader)

**Пример с NumPy (для Lightning нужно преобразовать в PyTorch):**

Как показано выше, данные NumPy преобразуются в тензоры PyTorch, а затем используются с `TensorDataset` и `DataLoader`.

### 5\. Transformers (Hugging Face)

Библиотека Hugging Face Transformers предоставляет тысячи предварительно обученных моделей для выполнения задач на различных модальностях, таких как текст, изображение и аудио.

**Что это делает:**
Она предлагает унифицированный API для использования, обучения и тонкой настройки моделей на основе трансформаторов, таких как BERT, GPT-2, T5, ViT и многих других. Это позволяет быстро экспериментировать с передовыми моделями глубокого обучения для NLP (обработка естественного языка), компьютерного зрения и аудио.

**Установка:**
`pip install transformers`

**Основные компоненты:**

  * `AutoTokenizer`: Загружает токенизатор, соответствующий предварительно обученной модели.
  * `AutoModelForSequenceClassification`, `AutoModelForCausalLM` и т.д.: Загружает соответствующую предварительно обученную архитектуру модели для конкретной задачи.
  * `pipeline`: Высокоуровневый API для быстрого использования моделей для общих задач (анализ настроений, генерация текста, вопросно-ответная система и т.д.).
  * `Trainer`: Специализированный класс для обучения моделей Transformers, часто используемый с `pytorch-lightning` под капотом (или просто PyTorch).

**Примеры использования (в основном с PyTorch):**

Transformers глубоко интегрированы с PyTorch (и TensorFlow/JAX), поэтому примеры будут демонстрировать работу с тензорами PyTorch. NumPy используется для подготовки необработанных данных перед токенизацией.

**Пример 1: Анализ настроений с использованием `pipeline` (высокоуровневый):**

In [None]:
from transformers import pipeline

# Загрузка предварительно обученной модели для анализа настроений
sentiment_analyzer = pipeline("sentiment-analysis")

texts = [
    "Я люблю эту библиотеку! Она очень крутая.",
    "Это было довольно скучно.",
    "Я не уверен, что об этом думать."
]

results = sentiment_analyzer(texts)
for text, result in zip(texts, results):
    print(f"Текст: '{text}' -> Настроение: {result['label']} (Степень: {result['score']:.4f})")

**Пример 2: Классификация текста с использованием `AutoModel` и `AutoTokenizer` (низкоуровневый):**

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Загрузка токенизатора и модели для классификации последовательностей
# (Используем небольшую модель для демонстрации)
model_name = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Пример текста
texts = [
    "Hugging Face Transformers - это потрясающе!",
    "Я не наслаждался этим фильмом."
]

# Токенизация входных данных
# `return_tensors='pt'` указывает на возвращение тензоров PyTorch
encoded_input = tokenizer(texts, padding=True, truncation=True, return_tensors='pt')

# Прямая передача через модель
with torch.no_grad(): # Отключение вычисления градиентов для инференса
    outputs = model(**encoded_input)

# Получение логитов и применение softmax для получения вероятностей
logits = outputs.logits
probabilities = torch.softmax(logits, dim=1)

# Получение предсказанных классов
predicted_class_ids = torch.argmax(probabilities, dim=1)

# Декодирование меток (для этой модели: 0 - отрицательный, 1 - положительный)
id_to_label = model.config.id2label

for i, text in enumerate(texts):
    predicted_label = id_to_label[predicted_class_ids[i].item()]
    print(f"Текст: '{text}' -> Предсказанная метка: {predicted_label} (Вероятности: {probabilities[i]})")

**Пример с NumPy (для Transformers, нужно преобразовать в PyTorch/TensorFlow):**

Непосредственно NumPy не используется для инференса или обучения в Transformers. Вместо этого данные NumPy преобразуются в тензоры PyTorch (или TensorFlow) после предварительной обработки (например, токенизации).

In [None]:
import numpy as np
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

model_name = "distilbert-base-uncased-finetuned-sst-2-english"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Пример текстовых данных, представленных как массив NumPy (например, из CSV)
# В реальном сценарии это были бы строки, а не случайные числа
text_data_np = np.array([
    "This is a positive review.",
    "I really disliked this product.",
    "It's okay, not great."
])

# Токенизация текстовых данных из NumPy (они должны быть строками)
encoded_input_np = tokenizer(text_data_np.tolist(), padding=True, truncation=True, return_tensors='pt')

# Продолжение как в примере PyTorch выше
with torch.no_grad():
    outputs = model(**encoded_input_np)

logits = outputs.logits
probabilities = torch.softmax(logits, dim=1)
predicted_class_ids = torch.argmax(probabilities, dim=1)
id_to_label = model.config.id2label

for i, text in enumerate(text_data_np):
    predicted_label = id_to_label[predicted_class_ids[i].item()]
    print(f"Текст: '{text}' -> Предсказанная метка: {predicted_label} (Вероятности: {probabilities[i]})")

-----

## Обучение на своем датасете

Давайте пройдемся по общим шагам для обучения моделей на вашем собственном наборе данных. Мы сосредоточимся на каждом типе библиотеки.

### Общие шаги для всех библиотек:

1.  **Загрузка данных:** Прочтите ваш набор данных (CSV, TXT, JSON, изображения и т.д.) в подходящую структуру данных (Pandas DataFrame, NumPy array, списки строк).
2.  **Разделение данных:** Разделите набор данных на обучающие, валидационные и/или тестовые выборки. Это важно для оценки производительности модели на невидимых данных.
3.  **Предварительная обработка данных:**
      * **Числовые данные:** Масштабирование (StandardScaler, MinMaxScaler), обработка пропущенных значений.
      * **Категориальные данные:** One-hot encoding, Label encoding (CatBoost обрабатывает их сам).
      * **Текстовые данные:** Токенизация, создание встраиваний, паддинг.
      * **Изображения:** Изменение размера, нормализация, аугментация.
4.  **Обучение модели:** Инициализируйте модель и обучите ее на обучающих данных.
5.  **Оценка модели:** Оцените производительность модели на валидационных/тестовых данных с использованием соответствующих метрик.
6.  **Настройка гиперпараметров (необязательно):** Используйте методы, такие как Grid Search, Random Search, Optuna или Ray Tune, чтобы найти оптимальные гиперпараметры.
7.  **Сохранение/загрузка модели:** Сохраните обученную модель для будущего использования.

### 1\. Обучение XGBoost/CatBoost/LightGBM на своем датасете (Табличные данные)

Предположим, у вас есть CSV-файл `my_dataset.csv` с табличными данными.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import accuracy_score, mean_squared_error

# Импортируйте нужную модель
# import xgboost as xgb
# from catboost import CatBoostClassifier
# import lightgbm as lgb

# 1. Загрузка данных
try:
    df = pd.read_csv('my_dataset.csv')
except FileNotFoundError:
    print("my_dataset.csv не найден. Создаю синтетический датасет для демонстрации.")
    # Создание синтетического датасета для демонстрации
    data = {
        'feature_A': np.random.rand(1000),
        'feature_B': np.random.randint(0, 5, 1000), # Категориальный признак
        'feature_C': np.random.randn(1000) * 10,
        'target_class': np.random.randint(0, 2, 1000), # Для классификации
        'target_reg': np.random.rand(1000) * 100 # Для регрессии
    }
    df = pd.DataFrame(data)
    df.to_csv('my_dataset.csv', index=False)
    print("my_dataset.csv создан.")

# Предположим, вы хотите предсказать 'target_class' (классификация)
# Или 'target_reg' (регрессия)

# Разделение признаков (X) и целевой переменной (y)
X = df.drop(['target_class', 'target_reg'], axis=1) # Удалите те, которые не используете
y_class = df['target_class']
y_reg = df['target_reg']

# Идентификация числовых и категориальных признаков
numerical_cols = X.select_dtypes(include=np.number).columns
categorical_cols = X.select_dtypes(include='object').columns # Если есть столбцы-объекты

# 2. Предварительная обработка данных
# Масштабирование числовых признаков (для XGBoost/LightGBM это не всегда строго необходимо,
# но может помочь в некоторых случаях)
scaler = StandardScaler()
X[numerical_cols] = scaler.fit_transform(X[numerical_cols])

# Для категориальных признаков:
# CatBoost обрабатывает их сам, но для XGBoost/LightGBM вам может понадобиться кодирование
# Пример One-Hot Encoding для XGBoost/LightGBM
X = pd.get_dummies(X, columns=categorical_cols, drop_first=True)

# 3. Разделение данных
X_train, X_test, y_train, y_test = train_test_split(X, y_class, test_size=0.2, random_state=42)
# Или для регрессии:
# X_train, X_test, y_train, y_test = train_test_split(X, y_reg, test_size=0.2, random_state=42)

print(f"Размер обучающей выборки: {X_train.shape}")
print(f"Размер тестовой выборки: {X_test.shape}")

# 4. Обучение модели

# --- Пример с XGBoost (классификация) ---
print("\nОбучение XGBoost...")
xgb_model = xgb.XGBClassifier(objective='binary:logistic', eval_metric='logloss', use_label_encoder=False, random_state=42)
xgb_model.fit(X_train, y_train)
y_pred_xgb = xgb_model.predict(X_test)
print(f"XGBoost Accuracy: {accuracy_score(y_test, y_pred_xgb):.4f}")

# --- Пример с CatBoost (классификация) ---
print("\nОбучение CatBoost...")
# CatBoost предпочитает необработанные категориальные данные или явное указание
# Если вы уже использовали pd.get_dummies, то CatBoost будет воспринимать их как числовые.
# Если вы хотите, чтобы CatBoost обрабатывал категориальные признаки,
# то не делайте get_dummies до CatBoost, а просто передайте categorical_features_indices
cat_model = CatBoostClassifier(iterations=100, learning_rate=0.1, depth=6,
                               loss_function='Logloss', eval_metric='Accuracy',
                               random_seed=42, verbose=False)
# Пример с категориальным столбцом:
# Если 'feature_B' была бы объектом/строкой до get_dummies:
# cat_features_indices = [X.columns.get_loc('feature_B')] # Пример для одной колонки
# cat_model.fit(X_train, y_train, cat_features=cat_features_indices)
cat_model.fit(X_train, y_train) # Если категориальные уже закодированы (one-hot)
y_pred_cat = cat_model.predict(X_test)
print(f"CatBoost Accuracy: {accuracy_score(y_test, y_pred_cat):.4f}")


# --- Пример с LightGBM (классификация) ---
print("\nОбучение LightGBM...")
lgb_model = lgb.LGBMClassifier(objective='binary', metric='binary_logloss', random_state=42)
lgb_model.fit(X_train, y_train)
y_pred_lgb = lgb_model.predict(X_test)
print(f"LightGBM Accuracy: {accuracy_score(y_test, y_pred_lgb):.4f}")

# 5. Сохранение/Загрузка модели
# Для XGBoost
# xgb_model.save_model("xgb_model.json")
# loaded_xgb_model = xgb.XGBClassifier()
# loaded_xgb_model.load_model("xgb_model.json")

# Для CatBoost
# cat_model.save_model("cat_model.cbm")
# loaded_cat_model = CatBoostClassifier()
# loaded_cat_model.load_model("cat_model.cbm")

# Для LightGBM
# lgb_model.booster_.save_model("lgbm_model.txt")
# loaded_lgb_model = lgb.Booster(model_file="lgbm_model.txt")
# # Для предсказаний с загруженным бустером: loaded_lgb_model.predict(X_test)
# # Если вы хотите использовать API LGBMClassifier, загружайте так:
# loaded_lgb_classifier = lgb.LGBMClassifier()
# loaded_lgb_classifier.booster_ = lgb.Booster(model_file="lgbm_model.txt")

### 2\. Обучение PyTorch Lightning на своем датасете

Предположим, у вас есть CSV-файл с числовыми данными для классификации.

In [None]:
import pandas as pd
import numpy as np
import torch
from torch.utils.data import DataLoader, TensorDataset
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
import pytorch_lightning as pl
from torch import nn

# 1. Загрузка данных (синтетический пример)
try:
    df_pl = pd.read_csv('my_dataset_pl.csv')
except FileNotFoundError:
    print("my_dataset_pl.csv не найден. Создаю синтетический датасет для демонстрации.")
    data_pl = {
        'feature_1': np.random.rand(1000).astype(np.float32),
        'feature_2': np.random.rand(1000).astype(np.float32),
        'feature_3': np.random.rand(1000).astype(np.float32),
        'target': np.random.randint(0, 2, 1000).astype(np.int64)
    }
    df_pl = pd.DataFrame(data_pl)
    df_pl.to_csv('my_dataset_pl.csv', index=False)
    print("my_dataset_pl.csv создан.")

X_pl = df_pl.drop('target', axis=1)
y_pl = df_pl['target']

# 2. Предварительная обработка данных
scaler_pl = StandardScaler()
X_scaled_pl = scaler_pl.fit_transform(X_pl)

# Преобразование в тензоры PyTorch
X_torch_pl = torch.from_numpy(X_scaled_pl)
y_torch_pl = torch.from_numpy(y_pl.values)

# 3. Разделение данных
X_train_pl, X_val_pl, y_train_pl, y_val_pl = train_test_split(X_torch_pl, y_torch_pl, test_size=0.2, random_state=42)

# Создание PyTorch Datasets и DataLoaders
train_dataset_pl = TensorDataset(X_train_pl, y_train_pl)
val_dataset_pl = TensorDataset(X_val_pl, y_val_pl)

train_loader_pl = DataLoader(train_dataset_pl, batch_size=32, shuffle=True)
val_loader_pl = DataLoader(val_dataset_pl, batch_size=32)

# 4. Определение LightningModule (как в примере выше)
class MyClassifier(pl.LightningModule):
    def __init__(self, input_dim, num_classes):
        super().__init__()
        self.fc1 = nn.Linear(input_dim, 64)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(64, num_classes)
        self.loss_fn = nn.CrossEntropyLoss()

    def forward(self, x):
        return self.fc2(self.relu(self.fc1(x)))

    def training_step(self, batch, batch_idx):
        x, y = batch
        logits = self(x)
        loss = self.loss_fn(logits, y)
        self.log('train_loss', loss, on_step=True, on_epoch=True, prog_bar=True)
        return loss

    def validation_step(self, batch, batch_idx):
        x, y = batch
        logits = self(x)
        loss = self.loss_fn(logits, y)
        preds = torch.argmax(logits, dim=1)
        acc = accuracy_score(y.cpu(), preds.cpu())
        self.log('val_loss', loss, on_step=False, on_epoch=True)
        self.log('val_acc', acc, on_step=False, on_epoch=True, prog_bar=True)
        return {'val_loss': loss, 'val_acc': acc}

    def configure_optimizers(self):
        optimizer = torch.optim.Adam(self.parameters(), lr=1e-3)
        return optimizer

# Инициализация модели и тренера
input_dim = X_train_pl.shape[1]
num_classes = len(y_pl.unique())
model_pl = MyClassifier(input_dim=input_dim, num_classes=num_classes)
trainer_pl = pl.Trainer(max_epochs=5, enable_progress_bar=True, accelerator='cpu') # Используйте 'gpu' если доступно

# 5. Обучение модели
print("\nНачало обучения PyTorch Lightning на своем датасете...")
trainer_pl.fit(model_pl, train_loader_pl, val_loader_pl)
print("Обучение PyTorch Lightning завершено.")

# 6. Сохранение/Загрузка модели
# trainer_pl.save_checkpoint("my_lightning_model.ckpt")
# loaded_model_pl = MyClassifier.load_from_checkpoint("my_lightning_model.ckpt", input_dim=input_dim, num_classes=num_classes)

### 3\. Обучение Transformers на своем датасете (Классификация текста)

Предположим, у вас есть CSV-файл `my_text_dataset.csv` с двумя столбцами: `text` и `label`.

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from datasets import Dataset # Hugging Face datasets library
from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
import numpy as np

# 1. Загрузка данных (синтетический пример)
try:
    df_hf = pd.read_csv('my_text_dataset.csv')
except FileNotFoundError:
    print("my_text_dataset.csv не найден. Создаю синтетический датасет для демонстрации.")
    texts_hf = [
        "Я абсолютно люблю этот продукт, он великолепен!",
        "Это было худшее впечатление в моей жизни.",
        "Немного скучно, но не ужасно.",
        "Очень понравилось, определенно рекомендую.",
        "Это просто мусор, не покупайте."
    ]
    labels_hf = [1, 0, 1, 1, 0] # 1 - положительный, 0 - отрицательный

    df_hf = pd.DataFrame({'text': texts_hf, 'label': labels_hf})
    df_hf.to_csv('my_text_dataset.csv', index=False)
    print("my_text_dataset.csv создан.")

# 2. Разделение данных
train_df_hf, test_df_hf = train_test_split(df_hf, test_size=0.2, random_state=42)

# Преобразование Pandas DataFrame в Hugging Face Dataset
train_dataset_hf = Dataset.from_pandas(train_df_hf, preserve_index=False)
test_dataset_hf = Dataset.from_pandas(test_df_hf, preserve_index=False)

# 3. Предварительная обработка данных (Токенизация)
model_checkpoint = "distilbert-base-uncased" # Выберите модель, которую хотите использовать
tokenizer_hf = AutoTokenizer.from_pretrained(model_checkpoint)

def tokenize_function(examples):
    return tokenizer_hf(examples["text"], padding="max_length", truncation=True)

# Применение токенизации к датасетам
tokenized_train_dataset = train_dataset_hf.map(tokenize_function, batched=True)
tokenized_test_dataset = test_dataset_hf.map(tokenize_function, batched=True)

# Удаление исходного текстового столбца, так как он больше не нужен
tokenized_train_dataset = tokenized_train_dataset.remove_columns(["text"])
tokenized_test_dataset = tokenized_test_dataset.remove_columns(["text"])

# Назначение правильного формата для PyTorch
tokenized_train_dataset.set_format("torch")
tokenized_test_dataset.set_format("torch")

# Создание словаря map ID к метке и наоборот
label_names = df_hf['label'].unique().tolist()
label_names.sort() # Убедитесь, что метки отсортированы
id2label = {idx: label for idx, label in enumerate(label_names)}
label2id = {label: idx for idx, label in enumerate(label_names)}

# 4. Инициализация модели и Trainer
model_hf = AutoModelForSequenceClassification.from_pretrained(
    model_checkpoint, num_labels=len(label_names), id2label=id2label, label2id=label2id
)

# Определение аргументов для обучения
training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=8,
    per_device_eval_batch_size=8,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
    evaluation_strategy="epoch", # Оценка после каждой эпохи
    save_strategy="epoch",       # Сохранение после каждой эпохи
    load_best_model_at_end=True, # Загрузка лучшей модели после обучения
    metric_for_best_model="accuracy",
)

# Определение функции для вычисления метрик
from datasets import load_metric
metric = load_metric("accuracy")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

# Инициализация Trainer
trainer_hf = Trainer(
    model=model_hf,
    args=training_args,
    train_dataset=tokenized_train_dataset,
    eval_dataset=tokenized_test_dataset, # Используем тестовый набор для оценки
    tokenizer=tokenizer_hf,
    compute_metrics=compute_metrics,
)

# 5. Обучение модели
print("\nНачало обучения Transformers на своем датасете...")
trainer_hf.train()
print("Обучение Transformers завершено.")

# 6. Оценка модели на тестовом наборе
results = trainer_hf.evaluate()
print(f"Оценка на тестовом наборе: {results}")

# 7. Сохранение/Загрузка модели
trainer_hf.save_model("./my_trained_transformer_model")
# Чтобы загрузить:
# loaded_tokenizer = AutoTokenizer.from_pretrained("./my_trained_transformer_model")
# loaded_model = AutoModelForSequenceClassification.from_pretrained("./my_trained_transformer_model")

-----

Это всестороннее руководство должно дать вам прочную основу для начала работы с каждой из этих мощных библиотек и обучения их на ваших собственных данных. Не стесняйтесь задавать вопросы, если вам нужны более конкретные примеры или уточнения\!