In [1]:
# Для быстрого старта
import pandas as pd
from catboost import CatBoostClassifier, CatBoostRegressor
from sklearn.model_selection import train_test_split

# Исходный DataFrame
df = pd.DataFrame({
    "x1": ["Круто", "Норм", "нормас", "плохо"],
    "x2": [123, 532, 23, 635],
    "x3": ["da", "net", "net", "net"]
})

# Целевая переменная
y_multiclass = [0, 1, 2, 3]  # мультикласс
y_binary = [0, 1, 1, 0]     # бинарная классификация (пример)
y_reg = [0.1, 1.4, 2.8, 3.2]  # регрессия (непрерывная метка)

X = df.copy()
cat_features = ["x1", "x3"]  # категориальные признаки

In [2]:
# from sklearn.feature_extraction.text import TfidfVectorizer

# # TFIDF (ЕСЛИ НАДО)
# tfidf = TfidfVectorizer(
#     lowercase=True,
#     ngram_range=(1, 1),  # можно (1,2) для биграмм
#     max_features=50      # ограничим признаки
# )
# tfidf_train = tfidf.fit_transform(X_train["x1"])
# tfidf_test = tfidf.transform(X_test["x1"])

# # Преобразуем в DataFrame с оригинальными именами признаков (с префиксом)
# tfidf_train_df = pd.DataFrame(
#     tfidf_train.toarray(),
#     columns=[f"x1_tfidf_{i}" for i in tfidf.get_feature_names_out()],
#     index=X_train.index
# )
# tfidf_test_df = pd.DataFrame(
#     tfidf_test.toarray(),
#     columns=[f"x1_tfidf_{i}" for i in tfidf.get_feature_names_out()],
#     index=X_test.index
# )

# X_train_final = pd.concat([num_train, tfidf_train_df], axis=1)
# X_test_final = pd.concat([num_test, tfidf_test_df], axis=1)

In [3]:
# (A) Мультиклассовая классификация
X_train, X_test, y_train, y_test = train_test_split(X, y_multiclass, test_size=0.5, random_state=42)

model_multi = CatBoostClassifier(
    iterations=100,
    learning_rate=0.1,
    depth=4,
    loss_function='MultiClass',
    cat_features=cat_features,
    verbose=False,
    random_seed=42
)

model_multi.fit(X_train, y_train)
pred_multi = model_multi.predict(X_test)
print("Мультикласс — предсказания:", pred_multi.tolist())

Мультикласс — предсказания: [[0], [0]]


In [4]:
# (B) Бинарная классификация («обычная»)
X_train, X_test, y_train, y_test = train_test_split(X, y_binary, test_size=0.5, random_state=42)

model_bin = CatBoostClassifier(
    iterations=100,
    learning_rate=0.1,
    depth=4,
    loss_function='Logloss',  # стандарт для бинарной классификации
    cat_features=cat_features,
    verbose=False,
    random_seed=42
)

model_bin.fit(X_train, y_train)
pred_bin = model_bin.predict(X_test)
print("Бинарная классификация — предсказания:", pred_bin.tolist())

Бинарная классификация — предсказания: [0, 0]


In [5]:
# (C) Регрессия
X_train, X_test, y_train, y_test = train_test_split(X, y_reg, test_size=0.5, random_state=42)

model_reg = CatBoostRegressor(
    iterations=100,
    learning_rate=0.1,
    depth=4,
    loss_function='RMSE',
    cat_features=cat_features,
    verbose=False,
    random_seed=42
)

model_reg.fit(X_train, y_train)
pred_reg = model_reg.predict(X_test)
print("Регрессия — предсказания:", pred_reg.tolist())

Регрессия — предсказания: [1.1972680875570736, 1.1972680875570736]
