**Подготовка к обучению моделей**

Импорт необходимых библиотек

In [None]:
import joblib
import pandas as pd
from sklearn.compose import ColumnTransformer
from sklearn.dummy import DummyClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder

Загрузка данных и отбор признаков

In [None]:
# загрузка датасета
dataframe = pd.read_csv('data/dataset.csv')

# категориальные признаки
categorical_features = dataframe.nunique()[3:].index.to_list()
# числовые признаки
numeric_features = dataframe.nunique()[:2].index.to_list()

x = dataframe.drop('target', axis=1)
y = dataframe['target']

random_state = 77
#  разделяем  выборку на тестовую (20%), обучающую (60%) и валидационную (20%)
x_train_val, x_test, y_train_val, y_test = train_test_split(
    x, y,
    test_size=0.2,
    stratify=y,
    random_state=random_state
)

x_train, x_val, y_train, y_val = train_test_split(
    x_train_val, y_train_val,
    test_size=0.25,  # четверть обучающей выборки
    stratify=y_train_val,
    random_state=random_state
)

**Baseline**

In [None]:
dummy = DummyClassifier(strategy="prior")
dummy.fit(x_train, y_train)
roc_auc = roc_auc_score(y_test, dummy.predict_proba(x_test)[:, 1])
print(f"Значение метрики ROC-AUC для Baseline: {roc_auc:.4f}")

**Логистическая регрессия**

В качестве первой модели мы взяли логистическую регрессию. Будем использовать прямое кодирование (One Hot Encoding) для категориальных признаков и стандартизацию (Standard Scaler) для числовых

In [None]:
model = Pipeline([
    ('data_preprocessing', ColumnTransformer(
        transformers=[
            ('numeric', StandardScaler(), numeric_features),
            ('categorical', OneHotEncoder(), categorical_features)
        ])
     ),
    ('classification', LogisticRegression(
        class_weight='balanced',
        random_state=random_state
    ))
])

Обучение модели

In [None]:
model.fit(x_train_val, y_train_val)

Оценка модели линейной регрессии (ROC-AUC)

In [None]:
y_pred = model.predict(x_test)
roc_auc = roc_auc_score(y_test, y_pred)
print(f"Значение метрики ROC-AUC для линейной регрессии: {roc_auc:.4f}")

Сохранение модели

In [None]:
joblib.dump(model, 'models/logistic_regression.joblib')

**Градиентный бустинг**

In [None]:
params = {
    'n_estimators': 150,
    'learning_rate': 0.2,
    'max_depth': 3,
    'min_samples_split': 20,
    'min_samples_leaf': 10,
    'max_features': 'auto',
    'subsample': 0.8,
    'random_state': random_state
}

model = Pipeline([
    ('data_preprocessing', ColumnTransformer(
        transformers=[
            ('num', StandardScaler(), numeric_features),
            ('cat', OneHotEncoder(), categorical_features)
        ])
     ),
    ('classification', GradientBoostingClassifier(**params))
])

Обучение модели

In [None]:
model.fit(x_train_val, y_train_val)

Оценка модели линейной регрессии (ROC-AUC)

In [None]:
y_pred = model.predict(x_test)
roc_auc = roc_auc_score(y_test, y_pred)
print(f"Значение метрики ROC-AUC для градиентного бустинга: {roc_auc:.4f}")

Сохранение модели

In [None]:
joblib.dump(model, 'models/gradient_boosting.joblib')