In [303]:
Dota 2 — многопользовательская компьютерная игра жанра MOBA. Игроки играют между собой матчи. 
В каждом матче, как правило, участвует 10 человек. Матчи формируются из живой очереди, с учётом уровня игры всех игроков. 
Перед началом игры игроки автоматически разделяются на две команды по пять человек. 
Одна команда играет за светлую сторону (The Radiant), другая — за тёмную (The Dire). 
Цель каждой команды — уничтожить главное здание базы противника, трон.

Вам нужно построить модель, которая по данным о первых пяти минутах матча будет предсказывать его исход — то есть определять команду-победителя.

In [None]:
import time
import datetime
import numpy as np
import pandas as pd
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

In [None]:
Подход 1: градиентный бустинг "в лоб"
Решаемые задачи:    
1. Какие признаки имеют пропуски среди своих значений (приведите полный список имен этих признаков)? 
Что могут означать пропуски в этих признаках (ответьте на этот вопрос для двух любых признаков)?
2. Как называется столбец, содержащий целевую переменную?
3. Как долго проводилась кросс-валидация для градиентного бустинга с 30 деревьями? 
Инструкцию по измерению времени можно найти выше по тексту. Какое качество при этом получилось?
4. Имеет ли смысл использовать больше 30 деревьев в градиентном бустинге? 
Что можно сделать, чтобы ускорить его обучение при увеличении количества деревьев?    

In [304]:
#пункты задания 1-4 подхода 1
features = pd.read_csv('features.csv', index_col='match_id')
y_train = features["radiant_win"] #извлекаем целевую переменную и отбрасываем итоговые признаки
x_train_orig = features.iloc[:, 0:-6]
count = x_train_orig.count() #считаем число наблюдений по признакам
features_with_na = count[count<len(x_train_orig)] #отбираем признаки с пропусками
na_sum = sum(len(x_train_orig)-features_with_na) #суммарное число пропусков по признакам
x_train = x_train_orig.fillna(0) #заменяем пропуски в данных на нули

In [92]:
#пункт задания 5 подхода 1, вариант для 30 деревьев с замером времени
clf = GradientBoostingClassifier(n_estimators=30, random_state=42) #задаем классификатор 
cv = KFold(n_splits=5, shuffle=True, random_state=42) #и модель кросс-валидации
start_time = datetime.datetime.now() #оценивание модели с замером времени 
score = cross_val_score(estimator=clf, cv=cv, X=x_train, y=y_train, scoring="roc_auc")
print('Time elapsed:', datetime.datetime.now() - start_time) 
print("AUC-ROC:", (np.mean(score))) #вывод средней метрики по 5 блокам

Time elapsed: 0:02:01.653958
AUC-ROC: 0.6900064710388155


In [122]:
#дополнительный вариант с заполнением пропущенных значений по минимальному значению
x_train_na_min = x_train_orig.apply(lambda x: x.fillna(min(x)), axis=1)
clf = GradientBoostingClassifier(n_estimators=30, random_state=42) #задаем классификатор 
cv = KFold(n_splits=5, shuffle=True, random_state=42) #и модель кросс-валидации
start_time = datetime.datetime.now() #оценивание модели с замером времени  
score = cross_val_score(estimator=clf, cv=cv, X=x_train_na_min, y=y_train, scoring="roc_auc")
print('Time elapsed:', datetime.datetime.now() - start_time) 
print("AUC-ROC:", (np.mean(score))) #вывод средней метрики по 5 блокам

Time elapsed: 0:02:03.809081
AUC-ROC: 0.689975068812293


In [123]:
#дополнительный вариант с заполнением пропущенных значений по среднему значению
x_train_na_mean = x_train_orig.apply(lambda x: x.fillna(np.mean(x)), axis=1)
clf = GradientBoostingClassifier(n_estimators=30, random_state=42) #задаем классификатор 
cv = KFold(n_splits=5, shuffle=True, random_state=42) #и модель кросс-валидации
start_time = datetime.datetime.now() #оценивание модели с замером времени   
score = cross_val_score(estimator=clf, cv=cv, X=x_train_na_mean, y=y_train, scoring="roc_auc")
print('Time elapsed:', datetime.datetime.now() - start_time) 
print("AUC-ROC:", (np.mean(score))) #вывод средней метрики по 5 блокам

Time elapsed: 0:02:10.309453
AUC-ROC: 0.6899747563380221


In [113]:
#пункт задания 5 подхода 1, вариант с подбором числа деревьев с помощью GridSearchCV
clf = GradientBoostingClassifier(random_state=42) #задаем классификатор 
cv = KFold(n_splits=5, shuffle=True, random_state=42) #и модель кросс-валидации 
param = {'n_estimators': list(range(10, 101, 10))}
grid = GridSearchCV(estimator=clf, cv=cv, scoring="roc_auc", param_grid=param)
grid.fit(x_train, y_train)
grid.best_score_

In [None]:
Подведение итога для подхода 1:
    
1. Пропуски имеют следующие признаки:

first_blood_time first_blood_team first_blood_player1 first_blood_player2 radiant_bottle_time radiant_courier_time radiant_flying_courier_time radiant_first_ward_time dire_bottle_time dire_courier_time dire_flying_courier_time dire_first_ward_time

Обоснование по группам признаков:

first_blood_... - возможны как игры без убийств в первые 5 минут, так и без убийств вообще. Что, например, может быть связано с преднамеренной сдачей игры одной из сторон посредством выхода всех ее игроков или дисконнектом всех участников по техническим причинам.

first_blood_player2 - меньше остальных из группы в связи с тем, что если убийство и было, то в нем может участвовать только 1 игрок.

..._bottle_time - возможны игры с покупкой этого предмета позже или вообще без него

..._courier_time -возможны игры с покупкой курьера позже или вообще без него

..._flying_courier_time - к играм без курьера в первые 5 минут добавляются те, где он не был улучшен за это время

..._first_ward_time - игры без установки вардов в первые 5 минут или вообще

2. столбец "radiant_win", позволяющий установить результат игры, что и требуется предсказать.

3. Время для 30 деревьев: Time elapsed: 0:02:01

Качество : AUC-ROC: 0.69

4. GridSearch по числу деревьев от 10 до 100 показывает, что лучшее качество достигается именно при 100 деревьях, 
так что увеличение числа деревьев может иметь смысл. Однако разница по метрике AUC-ROC с моделью по 30 деревьям 
составляет всего около 0.016, так что для улучшения модели, вероятно, следует рассматривать другие способы. 

Возможные варианты ускорения обучения модели:

уменьшение числа используемых признаков
нормализация значений признаков
изменение параметров классификатора (коэффициента скорости обучения, минимального числа наблюдений для ветвления, минимального числа наблюдений в листе дерева, итд)
изменение параметров кросс-валидации (например, уменьшение числа блоков)

In [None]:
Подход 2: логистическая регрессия
Решаемые задачи:  
1. Какое качество получилось у логистической регрессии над всеми исходными признаками? 
Как оно соотносится с качеством градиентного бустинга? Чем можно объяснить эту разницу? 
Быстрее ли работает логистическая регрессия по сравнению с градиентным бустингом?
2. Как влияет на качество логистической регрессии удаление категориальных признаков (укажите новое значение метрики качества)? 
Чем можно объяснить это изменение?
3. Сколько различных идентификаторов героев существует в данной игре?
4. Какое получилось качество при добавлении "мешка слов" по героям? 
Улучшилось ли оно по сравнению с предыдущим вариантом? Чем можно это объяснить?
5. Какое минимальное и максимальное значение прогноза на тестовой выборке получилось у лучшего из алгоритмов?    

In [305]:
# пункт задания 1 подхода 2, предобработка
scaler = StandardScaler()
scaled = pd.DataFrame(scaler.fit_transform(x_train)) #стандартизируем признаки и оборачиваем в df
scaled.columns = x_train.columns #возвращаем исходные названия признаков
x_train_scaled = scaled

In [306]:
# пункт задания 1 подхода 2, GridSearch
reg = LogisticRegression(penalty="l2", random_state=42) #задаем классификатор
cv = KFold(n_splits=5, shuffle=True, random_state=42) #и модель кросс-валидации
param = {'C': [0.001, 0.05, 0.5, 1, 5, 10, 25, 50, 100, 1000]} #задаем варианты для параметра C
grid = GridSearchCV(estimator=reg, cv=cv, scoring="roc_auc", param_grid=param)
grid.fit(x_train_scaled, y_train)
grid.best_estimator_ #узнаем лучший параметр C

LogisticRegression(C=0.05, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=42, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [8]:
# пункт задания 1 подхода 2, проверка качества и скорости с лучшим параметром С по нормализованной выборке
reg = LogisticRegression(penalty="l2", C=0.05, random_state=42) #задаем классификатор
cv = KFold(n_splits=5, shuffle=True, random_state=42) #и модель кросс-валидации
start_time = datetime.datetime.now() #оценивание модели с замером времени 
score = cross_val_score(estimator=reg, cv=cv, X=x_train_scaled, y=y_train, scoring="roc_auc")
print('Time elapsed:', datetime.datetime.now() - start_time) 
print("AUC-ROC:", (np.mean(score))) #вывод средней метрики по 5 блокам 

Time elapsed: 0:00:05.149295
AUC-ROC: 0.7165312477339544


In [128]:
# пункт задания 1 подхода 2, проверка качества и скорости с лучшим параметром С по исходной выборке
reg = LogisticRegression(penalty="l2", C=0.05, random_state=42) #задаем классификатор
cv = KFold(n_splits=5, shuffle=True, random_state=42) #и модель кросс-валидации
start_time = datetime.datetime.now() #оценивание модели с замером времени 
score = cross_val_score(estimator=reg, cv=cv, X=x_train, y=y_train, scoring="roc_auc")
print('Time elapsed:', datetime.datetime.now() - start_time) 
print("AUC-ROC:", (np.mean(score))) #вывод средней метрики по 5 блокам

Time elapsed: 0:00:01.869107
AUC-ROC: 0.513447617665222


In [307]:
# пункт задания 2 подхода 2, исключение категориальных признаков
columns_drop = x_train.filter(regex='_hero$', axis=1).columns
x_train_cleaned = x_train.drop(columns_drop, axis=1)
x_train_cleaned = x_train_cleaned.drop("lobby_type", axis=1)
x_train_scaled_cleaned = x_train_scaled.drop(columns_drop, axis=1)
x_train_scaled_cleaned = x_train_scaled_cleaned.drop("lobby_type", axis=1)

In [259]:
# пункт задания 2 подхода 2, GridSearch
reg = LogisticRegression(penalty="l2", random_state=42) #задаем классификатор
cv = KFold(n_splits=5, shuffle=True, random_state=42) #и модель кросс-валидации
param = {'C': [0.001, 0.05, 0.5, 1, 5, 10, 25, 50, 100, 1000]} #задаем варианты для параметра C
grid = GridSearchCV(estimator=reg, cv=cv, scoring="roc_auc", param_grid=param)
grid.fit(x_train_scaled_cleaned, y_train)
grid.best_estimator_ #узнаем лучший параметр C

LogisticRegression(C=0.05, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=42, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [260]:
# пункт задания 2 подхода 2, проверка качества и скорости с лучшим параметром С
reg = LogisticRegression(penalty="l2", C=0.05, random_state=42) #задаем классификатор
cv = KFold(n_splits=5, shuffle=True, random_state=42) #и модель кросс-валидации
start_time = datetime.datetime.now() #оценивание модели с замером времени 
score = cross_val_score(estimator=reg, cv=cv, X=x_train_scaled_cleaned, y=y_train, scoring="roc_auc")
print('Time elapsed:', datetime.datetime.now() - start_time) 
print("AUC-ROC:", (np.mean(score))) #вывод средней метрики по 5 блокам 

Time elapsed: 0:00:07.394423
AUC-ROC: 0.7165372973746911


In [255]:
# пункт задания 3 подхода 2
heroes = x_train.filter(regex='_hero$', axis=1) #отбираем признаки с выбранными героями
unique, counts= np.unique(heroes.values.flatten(), return_counts=True) #и их уникальные значения
len(unique)

108

In [308]:
# пункт задания 4 подхода 2, извлекаем индексы признаков по героям для создания "мешка слов"
columns = x_train.filter(regex='_hero$', axis=1).columns #отбор имен признаков по героям 
r_loc = [0]*len(columns[0:5]) #колонки героев света
d_loc = [0]*len(columns[5:10]) #колонки героев тьмы
for i, col in enumerate(columns[0:5]): #индексы колонок героев света
    r_loc[i] = x_train.keys().get_loc(col)
for i, col in enumerate(columns[5:10]): #индексы колонок героев тьмы
    d_loc[i] = x_train.keys().get_loc(col)

In [309]:
# пункт задания 4 подхода 2, создание "мешка слов"
X_pick = np.zeros((x_train.shape[0], max(unique)))
for i in range(len(x_train)):
    for p in range(5):
        X_pick[i, x_train.iloc[i, r_loc[p]]-1] = 1
        X_pick[i, x_train.iloc[i, d_loc[p]]-1] = -1

In [310]:
# пункт задания 4 подхода 2, добавление "мешка слов" к данным без категориальных признаков
x_heroes = pd.DataFrame(X_pick) #оборачиваем "мешок слов" в дата фрейм
names = [0]*len(x_heroes.columns) #создаем имена для переменных по героям
for i in range(len(x_heroes.columns)):
    names[i] = "hero_"+str(i+1)
x_heroes.columns = names
x_heroes = x_heroes.set_index(x_train_scaled_cleaned.index.values) #слияние данных по индексу
x_with_heroes = x_train_scaled_cleaned.join(x_heroes)

In [269]:
# пункт задания 5 подхода 2, GridSearch
reg = LogisticRegression(penalty="l2", random_state=42, max_iter=1000) #задаем классификатор
cv = KFold(n_splits=5, shuffle=True, random_state=42) #и модель кросс-валидации
param = {'C': [0.001, 0.05, 0.5, 1, 5, 10, 25, 50, 100, 1000]} #задаем варианты для параметра C
grid = GridSearchCV(estimator=reg, cv=cv, scoring="roc_auc", param_grid=param)
grid.fit(x_with_heroes, y_train)
grid.best_estimator_ #узнаем лучший параметр C

LogisticRegression(C=0.05, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=1000,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=42, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [311]:
# пункт задания 5 подхода 2, проверка качества и скорости с лучшим параметром С
reg = LogisticRegression(penalty="l2", C=0.05, random_state=42, max_iter=1000) #задаем классификатор
cv = KFold(n_splits=5, shuffle=True, random_state=42) #и модель кросс-валидации
start_time = datetime.datetime.now() #оценивание модели с замером времени 
score = cross_val_score(estimator=reg, cv=cv, X=x_with_heroes, y=y_train, scoring="roc_auc")
print('Time elapsed:', datetime.datetime.now() - start_time) 
print("AUC-ROC:", (np.mean(score))) #вывод средней метрики по 5 блокам 

Time elapsed: 0:00:19.590120
AUC-ROC: 0.7519498731973165


In [297]:
# пункт задания 6 подхода 2, предобработка тестовых данных
features_test = pd.read_csv('features_test.csv', index_col='match_id')
x_test = features_test.fillna(0) #заполняем пропуски

#нормализация
scaler = StandardScaler()
scaled = pd.DataFrame(scaler.fit_transform(x_test)) #стандартизируем признаки и оборачиваем в df
scaled.columns = x_test.columns #возвращаем исходные названия признаков
x_test_scaled = scaled

#исключение категориальных признаков
columns_drop = x_train.filter(regex='_hero$', axis=1).columns
x_test_scaled_cleaned = x_test_scaled.drop(columns_drop, axis=1)
x_test_scaled_cleaned = x_test_scaled_cleaned.drop("lobby_type", axis=1)

#создание "мешка слов"
X_pick = np.zeros((x_test.shape[0], max(unique))) #используем значения, определенные ранее
for i in range(len(x_test)):
    for p in range(5):
        X_pick[i, x_train.iloc[i, r_loc[p]]-1] = 1
        X_pick[i, x_train.iloc[i, d_loc[p]]-1] = -1

#присоединение "мешка слов" к данным     
x_heroes = pd.DataFrame(X_pick) #оборачиваем "мешок слов" в дата фрейм
names = [0]*len(x_heroes.columns) #создаем имена для переменных по героям
for i in range(len(x_heroes.columns)):
    names[i] = "hero_"+str(i+1)
x_heroes.columns = names
x_heroes = x_heroes.set_index(x_test_scaled_cleaned.index.values) #слияние данных по индексу
x_test_with_heroes = x_test_scaled_cleaned.join(x_heroes)

In [328]:
# пункт задания 6 подхода 2, прогноз по тестовым данным
reg = LogisticRegression(penalty="l2", C=0.05, random_state=42, max_iter=1000) #задаем классификатор
reg.fit(x_with_heroes, y_train) #подгонка модели по тренировочным данным
y_pred = reg.predict_proba(x_test_with_heroes) #прогноз классов
r_win = y_pred[:,1] #прогноз класса 1 - победы светлой стороны

In [329]:
max(r_win)

0.9975963558459781

In [330]:
min(r_win)

0.004777206936445505

In [None]:
Подведение итога для подхода 2:
    
1. AUC-ROC модели составил 0.51, что почти на 0.2 хуже лучшей модели градиентного бустинга. 
Такой результат может объясняться универсальностью градиентного бустинга при работе с признаками: применение логистической регрессии к исходной выборке без отбора признаков не позволяет получить достаточно хороший результат. 
Так, при использовании нормализации данных логистическая регрессия достигает значения AUC-ROC 0.717, что лучше примененных "в лоб" моделей градиентного бустинга.
По скорости работы логистическая регрессия имеет большое преимущество против градиентного бустинга: не более 5 секунд по сравнению с примерно 2 минутами. 
Линейные методы в целом являются одними из наиболее быстрых, в данном же случае также можно отметить наличие большого числа 
порядковых и категориальных переменных в выборке, а также степень разряженности данных (нулевых значений, в том числе за счет заполнения пропущенных данных), 
что нормально для логистической регрессии, но может замедлять градиентный бустинг.

2. После удаления категориальных признаков значение метрики качества незначительно улучшилось - AUC-ROC=0.716537 против 0.716531 до удаления.
Так как в линейных моделях каждому признаку соответствует некоторый коэффициент, с которым значение признака входит 
в сумму и который можно интерпретировать по его абсолютной величине как значимость признака, то, вероятно, 
данные категориальные признаки не учитывались в модели в силу их малой информативности.

3. 112 героев, но в выборке использовалось только 108 

4. После добавления "мешка слов" AUC-ROC составил 0.7519, что в сравнении со значением 0.7165 говорит об ощутимом улучшении качества модели. 
Из этого можно сделать вывод, что состав команды в разрезе героев является информативным для определения победителя - 
некоторые герои побеждают значимо чаще.

5. Минимальное значение прогноза=0.0048; Максимальное значение прогноза=0.9976.