In [None]:
!pip install -q sqlalchemy psycopg2 tqdm optuna category_encoders catboost

**ТЗ:**

Задача проекта - построить модель бинарной классификации исхода матча в игре Dota 2.

В Dota 2 участвуют две команды: Radiant и Dire. Нужно оценить вероятность победы команды Radiant. 

В обычной игре Dota 2 каждая из двух команд — Radiant и Dire — состоит из 5 игроков. Каждый игрок выбирает героя, который играет определённую роль. Dota 2 — командная игра, поэтому состав команды имеет большое значение. Карта игры содержит базы команд (фонтан), 3 линии для каждой стороны, магазины, логово Рошана и другие элементы.
В течение игры игроки улучшают своих героев, покупают предметы, разрушают башни, убивают героев противника, фармят крипов врага и "отрекаются" от своих крипов (не дают их убивать врагу). Цель игры — разрушить фонтан противника, и ничья невозможна.

Для оценки используется метрика ROC-AUC. Результат этой задачи — бинарный: для каждой игры нужно предсказать победу команды Radiant (1) или поражение (0). Поскольку мы оцениваем вероятность исхода, результат будет находиться в интервале [0,1]. Затем это значение сравнивается с определённым порогом для получения бинарного ответа.

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import optuna
import math
import numpy as np

from IPython.display import display
from sqlalchemy import create_engine
from tqdm import tqdm
from sklearn.metrics import f1_score, precision_score, recall_score, accuracy_score, roc_auc_score
from sklearn.model_selection import cross_val_predict, train_test_split, KFold
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import MinMaxScaler, OneHotEncoder
from sklearn.dummy import DummyClassifier
from sklearn.linear_model import LogisticRegression
from category_encoders import TargetEncoder
from catboost import CatBoostClassifier

In [None]:
RANDOM_STATE = 42
N_TRIALS = 50

**0. Загрузка данных**

In [None]:
def load_jsonl_with_progress(filepath):
    # Функция построчного считывания JSON файла
    data = []
    with open(filepath, 'r') as f:
        for line in tqdm(f, desc=f"Loading {filepath}"):
            data.append(json.loads(line.strip()))
    return pd.DataFrame(data)

Для подключения к БД используются следующие параметры

In [None]:
db_params = {
    'dbname': 'dota_2',
    'user': 'student',
    'password': 'uvBbBm8gn',
    'host': '158.160.146.146',
    'port': '5432'
}

connection_string = (
    f"postgresql+psycopg2://{db_params['user']}:{db_params['password']}@"
    f"{db_params['host']}:{db_params['port']}/{db_params['dbname']}"
)

engine = create_engine(
    connection_string,
    pool_size=5,
    max_overflow=10
)

query_train_features = "SELECT * FROM train_features;"
query_train_target = "SELECT * FROM train_targets;"
query_test_features = "SELECT * FROM test_features;"


with engine.connect() as connection:
    
    df_train_features_raw = pd.read_sql_query(query_train_features, connection)
    df_train_target_raw = pd.read_sql_query(query_train_target, connection)
    df_test_features_raw = pd.read_sql_query(query_train_target, engine)
    
engine.dispose()

Подключение к БД и выгрузка необходимых данных

In [None]:
# df_train_raw_json = load_jsonl_with_progress('train_matches.jsonl')
# df_test_raw_json = load_jsonl_with_progress('test_matches.jsonl')

Загрузка данных из JSON файла

Данные загружены, можно приступать к их обработке

**1. Исследовательский анализ данных**

In [None]:
def display_data(data):
    # Функция вывода необходимой информации по датафрейму
    display(data.head(5))
    display(data.info())
    display(data.describe())

In [None]:
def create_stat_plots(data, target):
    # Функция вывода графика распределения значений признака
    if pd.api.types.is_numeric_dtype(data[target]):
        fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(8, 4))
        sns.histplot(data[target], bins=30, kde=True, ax=ax1)
        ax1.set_title(f'Histogram of {target}')
        sns.boxplot(x=data[target], ax=ax2)
        ax2.set_title(f'Box Plot for {target}')
        plt.tight_layout()
        plt.show()
    else:
        print(f"Столбец {target} имеет неверный тип данных")

    print(data[target].describe())

In [None]:
def delete_outliers(data, target):
    # Функция удаления выбросов из признака
    Q1 = data[target].quantile(0.25)
    Q3 = data[target].quantile(0.75)
    IQR = Q3 - Q1

    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    data = data[(data[target] >= lower_bound) & (data[target] <= upper_bound)]
    print('Удаляю выбросы')
    return data

In [None]:
def change_reg_to_cat(feature, large=False):
    # Функция изменения списка для фичи с численных признаков на категориальные
    try:
        numeric_features.remove(feature)
        if large:
            categorical_features_large.append(feature)
        else:
            categorical_features.append(feature)
    except: 
        print(f'В numeric_features нет {feature}')

In [None]:
display_data(df_train_features_raw)

Сырой тренировочный датафрейм признаков содержит 33723 строки и 246 столбцов

In [None]:
display_data(df_train_target_raw)

Сырой тренировочный датафрейм тагргетов содержит 33723 строки и 6 столбцов

In [None]:
display_data(df_test_features_raw)

In [None]:
# display_data(df_train_raw_json)

In [None]:
# display_data(df_test_raw_json)

In [None]:
df_train_features_raw.rename(columns={'game_time_x': 'game_time'}, inplace=True)

In [None]:
categorical_features = []
categorical_features_large = []
numeric_features = []

for column in df_train_features_raw.columns:
    if pd.api.types.is_numeric_dtype(df_train_features_raw[column]):
        numeric_features.append(column)
    else:
        categorical_features.append(column)

Определю списки количественных и категориальных данных

In [None]:
n_cols = 3
n_rows = math.ceil(len(numeric_features) / n_cols)

fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 3 * n_rows))
fig.tight_layout(pad=5.0)

for i, column in tqdm(enumerate(numeric_features), desc="Построение гистограмм"):
    row = i // n_cols
    col = i % n_cols
    sns.histplot(df_train_features_raw[column], bins=10, ax=axes[row, col])
    axes[row, col].set_title(f'Гистограмма для {column}')
    axes[row, col].set_xlabel(column)
    axes[row, col].set_ylabel('Частота')

if len(numeric_features) % n_cols != 0:
    for j in range(len(numeric_features) % n_cols, n_cols):
        fig.delaxes(axes[-1, j])

plt.show()

In [None]:
train_data_raw = pd.merge(df_train_features_raw, df_train_target_raw, how='inner', on='match_id_hash')

In [None]:
train_data_raw.info()

In [None]:
train_data = train_data_raw.copy()

Для дальнейшей обработки данных создам новый датафрейм на основании "сырого"

In [None]:
train_data.rename(columns={'game_time_x': 'game_time'}, inplace=True)

In [None]:
train_data.drop('game_time_y', axis=1)

In [None]:
create_stat_plots(train_data, 'game_time')

Временная метка игры, когда были получены данные

In [None]:
create_stat_plots(train_data, 'game_mode')

In [None]:
train_data['game_mode'].unique()

In [None]:
change_reg_to_cat('game_mode', large=True)

Очевидно, что из-за типа данных, моя программа оценила эту фичу как регрессионную, однако это классы, и необходимо это изменить. По графику наблюдается дисбаланс классов.

In [None]:
create_stat_plots(train_data, 'lobby_type')

In [None]:
train_data['lobby_type'].unique()

In [None]:
change_reg_to_cat('lobby_type')

Очевидно, что из-за типа данных, моя программа оценила эту фичу как регрессионную, однако это классы, и необходимо это изменить. По графику наблюдается дисбаланс классов.

In [None]:
create_stat_plots(train_data, 'objectives_len')

Из названия не ясно что это за признак, в документации информации тоже нет. Возможно, имеются ввиду уничтожение общего количества всех построек (с учетом "туалетов" и статуй на базе + убийства Рошана). Тогда максимальное количество 25 (количество уничтожаемых построек) + 3-4 за Рошана. Возможно, что значения за 3 квантилем можно считать выбросами и удалить.

In [None]:
create_stat_plots(train_data, 'chat_len')

Вероятно, признак описывающий количество сообщений в чате. Много выбросов.

In [None]:
create_stat_plots(train_data, 'r1_hero_id')

In [None]:
train_data['r1_hero_id']

In [None]:
for column in train_data.columns:
    if 'hero_id' in column:
        change_reg_to_cat(column, large=True)

Несмотря на большое количество уникальных значений, этот признак является категориальным, так же сделаю для всех подобных признаков других игроков

In [None]:
create_stat_plots(train_data, 'r1_kills')

32 убийства - исключение, но не аномалия.

In [None]:
create_stat_plots(train_data, 'r1_deaths')

In [None]:
create_stat_plots(train_data, 'r1_assists')

Аналогично предыдущему.

In [None]:
create_stat_plots(train_data, 'r1_denies')

Сделать много денаев возможно, этим чаще занимаются мидеры и керри

In [None]:
create_stat_plots(train_data, 'r1_gold')

In [None]:
create_stat_plots(train_data, 'r1_xp')

Странная аномалия около 27к опыта. Пока не знаю с чем это связано

In [None]:
create_stat_plots(train_data, 'r1_health')

In [None]:
create_stat_plots(train_data, 'r1_max_mana')

In [None]:
create_stat_plots(train_data, 'r1_level')

In [None]:
create_stat_plots(train_data, 'r1_x')

Непонятный признак

In [None]:
create_stat_plots(train_data, 'r1_y')

In [None]:
create_stat_plots(train_data, 'r1_stuns')

Вот эти данные выглядят не очень реалистичными, однако не стоит исключать

In [None]:
create_stat_plots(train_data, 'r1_creeps_stacked')

In [None]:
create_stat_plots(train_data, 'r1_camps_stacked')

In [None]:
create_stat_plots(train_data, 'r1_rune_pickups')

In [None]:
create_stat_plots(train_data, 'r1_firstblood_claimed')

In [None]:
for column in train_data.columns:
    if 'firstblood_claimed' in column:
        change_reg_to_cat(column)

Этот признак необходимо перевести в категориальные

In [None]:
create_stat_plots(train_data, 'r1_teamfight_participation')

In [None]:
create_stat_plots(train_data, 'r1_towers_killed')

In [None]:
create_stat_plots(train_data, 'r1_roshans_killed')

In [None]:
create_stat_plots(train_data, 'r1_obs_placed')

In [None]:
create_stat_plots(train_data, 'r1_sen_placed')

In [None]:
create_stat_plots(train_data, 'duration')

In [None]:
train_data[['game_time', 'duration']]

**Извлеку новые признаки**

In [None]:
train_data_extended = train_data.copy()

In [None]:
radiant_list = ['r1', 'r2', 'r3', 'r4', 'r5']
dire_list = ['d1', 'd2', 'd3', 'd4', 'd5']
players_list = radiant_list + dire_list

In [None]:
for player in players_list:
    train_data_extended[player+"_gpm"] = np.where(
        train_data_extended['game_time'] != 0,
        train_data_extended[player+'_gold'] / train_data_extended['game_time'],
        0
    )
    numeric_features.append(player+"_gpm")

Статистика ГПМ для каждого игрока

In [None]:
for player in players_list:
    train_data_extended[player+"_expm"] = np.where(
        train_data_extended['game_time'] != 0,
        train_data_extended[player+'_xp'] / train_data_extended['game_time'],
        0
    )
    numeric_features.append(player+"_expm")

Статистика ЭксПМ для каждого игрока

In [None]:
for player in players_list:
    train_data_extended[player+"_support_activity"] = train_data_extended[player+'_camps_stacked'] +  train_data_extended[player+'_obs_placed'] +  train_data_extended[player+'_sen_placed']
    numeric_features.append(player+"_support_activity")

Количество действий на должности саппорта у игрока

In [None]:
def team_firstblood(row):
    if any(row[col + '_firstblood_claimed'] == 1 for col in radiant_list):
        return 'radiant'
    if any(row[col + '_firstblood_claimed'] == 1 for col in dire_list):
        return 'dire'
    return None

In [None]:
train_data_extended['firstblood_team'] = train_data_extended.apply(team_firstblood, axis=1)
train_data_extended['firstblood_team'] = train_data_extended['firstblood_team'].fillna('Unknown')
categorical_features.append('firstblood_team')

In [None]:
train_data_extended['next_roshan_team'] = train_data_extended['next_roshan_team'].fillna('Unknown')

Какая команда сделала firstblood

In [None]:
numeric_cols = train_data_extended.select_dtypes(include=[np.number])
inf_cols = numeric_cols.columns[np.isinf(numeric_cols).any()]

if len(inf_cols) > 0:
    print("Столбцы с бесконечными значениями:", inf_cols)
else:
    print("Бесконечные значения не найдены.")

ПРоверка на наличие бесконечых значений

In [None]:
for feature in categorical_features:
    train_data_extended[feature] = train_data_extended[feature].astype('category')

In [None]:
for feature in categorical_features_large:
    train_data_extended[feature] = train_data_extended[feature].astype('category')

Замена типа данных у категориальных столбцов

**2. Предобработка данных**

In [None]:
# categorical_features.remove('match_id_hash')

In [None]:
X = train_data_extended.drop(['radiant_win', 'match_id_hash'], axis=1)
y = train_data_extended['radiant_win']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=RANDOM_STATE)

In [None]:
categorical_features.remove('match_id_hash')

Выделяю признаки и целевую переменную, а также разбиваю выборку на тренировочную и тестовую

In [None]:
display(X_train.shape)
display(X_test.shape)

После разделения датафремы имеют следующий размер

In [None]:
numeric_transformer = MinMaxScaler()
categorical_transformer = OneHotEncoder(handle_unknown='ignore', drop='first')
categorical_large_transformer = TargetEncoder()

Для масштабирования числовых признаков использую MinMaxScaler, для кодирования категориальных - OneHotEncoder, для кодировки больших категориальных признаков (где много категорий) - 

In [None]:
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features),
        ('cat_large', categorical_large_transformer, categorical_features_large)
    ]
)

**3. Построение и обучение моделей**

In [None]:
def create_pipeline(model):
    return Pipeline(steps=[
        ('preprocessor', preprocessor),
        ('regressor', model)
    ])

In [None]:
def metrics_report(pipeline, X, y, cv):
    y_pred = cross_val_predict(pipeline, X, y, cv=cv)
    y_prob = cross_val_predict(pipeline, X, y, cv=cv, method='predict_proba')[:, 1]
    
    precision = precision_score(y, y_pred)
    recall = recall_score(y, y_pred)
    f1 = f1_score(y, y_pred)
    accuracy = accuracy_score(y, y_pred)
    roc_auc = roc_auc_score(y, y_prob)
    
    return precision, recall, f1, accuracy, roc_auc

In [None]:
def add_best_metrics_to_df(df, model_type, best_params, accuracy, precision, recall, f1, roc_auc):
    new_row = pd.DataFrame([{
        'BestModel': model_type,
        'BestParameters': best_params,
        'Accuracy': accuracy,
        'Precision': precision,
        'Recall': recall,
        'F1': f1,
        'ROC AUC': roc_auc
    }])
    
    df = pd.concat([df, new_row], ignore_index=True)
    return df

In [None]:
def train_dummy_model(X_train, y_train, X_test, y_test):
    model = DummyClassifier(strategy='most_frequent')

    model.fit(X_train, y_train)
    
    y_pred = model.predict(X_test)
    y_proba = model.predict_proba(X_test)[:, 1]
    
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, zero_division=0) 
    recall = recall_score(y_test, y_pred, zero_division=0)
    f1 = f1_score(y_test, y_pred, zero_division=0)
    roc_auc = roc_auc_score(y_test, y_proba)
    
    metrics = {
        'BestModel': 'dummy_model',
        'BestParameters': 'N/A',
        'Accuracy': accuracy,
        'Precision': precision,
        'Recall': recall,
        'F1': f1,
        'ROC AUC': roc_auc
    }
    
    return metrics

In [None]:
def objective_logistic_regression(trial):
    C = trial.suggest_float('C', 1e-3, 1e3, log=True) 
    model = LogisticRegression(C=C, random_state=RANDOM_STATE, solver='liblinear')
    pipeline = create_pipeline(model)
    
    cv = KFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)
    precision, recall, f1, accuracy, roc_auc = metrics_report(pipeline, X_train, y_train, cv)
    
    trial.set_user_attr('model_type', 'logistic_regression')
    trial.set_user_attr('precision', precision)
    trial.set_user_attr('recall', recall)
    trial.set_user_attr('f1', f1)
    trial.set_user_attr('accuracy', accuracy)
    trial.set_user_attr('roc_auc', roc_auc)
    
    return roc_auc 

In [None]:
def objective_catboost_classification(trial):
    learning_rate = trial.suggest_float('learning_rate', 0.01, 0.3, log=True)
    depth = trial.suggest_int('depth', 3, 10)
    l2_leaf_reg = trial.suggest_float('l2_leaf_reg', 1, 10)
    iterations = trial.suggest_int('iterations', 100, 1000)
    
    model = CatBoostClassifier(
        learning_rate=learning_rate,
        depth=depth,
        l2_leaf_reg=l2_leaf_reg,
        iterations=iterations,
        task_type='CPU',
        random_state=RANDOM_STATE,
        verbose=0
    )
    
    pipeline = create_pipeline(model)
    
    cv = KFold(n_splits=5, shuffle=True, random_state=RANDOM_STATE)
    try:
        precision, recall, f1, accuracy, roc_auc = metrics_report(pipeline, X_train, y_train, cv)
        trial.set_user_attr('model_type', 'catboost')
        trial.set_user_attr('precision', precision)
        trial.set_user_attr('recall', recall)
        trial.set_user_attr('f1', f1)
        trial.set_user_attr('accuracy', accuracy)
        trial.set_user_attr('roc_auc', roc_auc)
        return roc_auc
    except Exception as e:
        print(f"An error occurred: {e}")
        return float('inf')

In [None]:
columns = ['BestModel', 'BestParameters', 'Accuracy', 'Precision', 'Recall', 'F1', 'ROC-AUC']
metrics_df = pd.DataFrame(columns=columns)

In [None]:
dummy_metrics = train_dummy_model(X_train, y_train, X_test, y_test)

dummy_metrics_df = pd.DataFrame([dummy_metrics])
metrics_df = pd.concat([metrics_df, dummy_metrics_df], ignore_index=True)

In [None]:
# study_logistic = optuna.create_study(direction='maximize')

# for _ in tqdm(range(N_TRIALS), desc="Оптимизация модели"):
#     study_logistic.optimize(objective_logistic_regression, n_trials=1)

# best_logistic_trial = study_logistic.best_trial

# metrics_df = add_best_metrics_to_df(
#     metrics_df,
#     best_logistic_trial.user_attrs['model_type'],
#     best_logistic_trial.params,
#     best_logistic_trial.user_attrs['precision'],
#     best_logistic_trial.user_attrs['recall'],
#     best_logistic_trial.user_attrs['f1'],
#     best_logistic_trial.user_attrs['accuracy'],
#     best_logistic_trial.user_attrs['roc_auc']
# )

Лучшая модель показала метрику ROC AUC = 0.819

In [None]:
study_catboost = optuna.create_study(direction='maximize')
study_catboost.optimize(objective_catboost_classification, n_trials=N_TRIALS)

best_catboost_trial = study_catboost.best_trial

metrics_df = add_best_metrics_to_df(
    metrics_df,
    best_catboost_trial.user_attrs['model_type'],
    best_catboost_trial.params,
    best_catboost_trial.user_attrs['precision'],
    best_catboost_trial.user_attrs['recall'],
    best_catboost_trial.user_attrs['f1']
)

In [None]:
metrics_df