In [1]:
import numpy as np
import pandas as pd
import time
import datetime
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold, cross_val_score
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import roc_auc_score as auc
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

In [2]:
features = pd.read_csv('features.csv', index_col='match_id')

features.shape

(97230, 108)

In [3]:
features.head()

Unnamed: 0_level_0,start_time,lobby_type,r1_hero,r1_level,r1_xp,r1_gold,r1_lh,r1_kills,r1_deaths,r1_items,...,dire_boots_count,dire_ward_observer_count,dire_ward_sentry_count,dire_first_ward_time,duration,radiant_win,tower_status_radiant,tower_status_dire,barracks_status_radiant,barracks_status_dire
match_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,1430198770,7,11,5,2098,1489,20,0,0,7,...,4,2,2,-52.0,2874,1,1796,0,51,0
1,1430220345,0,42,4,1188,1033,9,0,1,12,...,4,3,1,-5.0,2463,1,1974,0,63,1
2,1430227081,7,33,4,1319,1270,22,0,0,12,...,4,3,1,13.0,2130,0,0,1830,0,63
3,1430263531,1,29,4,1779,1056,14,0,0,5,...,4,2,0,27.0,1459,0,1920,2047,50,63
4,1430282290,7,13,4,1431,1090,8,1,0,8,...,3,3,0,-16.0,2449,0,4,1974,3,63


# Подход 1: градиентный бустинг "в лоб"

## Какие признаки имеют пропуски среди своих значений (приведите полный список имен этих признаков)? Что могут означать пропуски в этих признаках (ответьте на этот вопрос для двух любых признаков)?

In [4]:
for col in features.columns[pd.DataFrame(features.count())[0]<features.shape[0]].tolist() :
    print('Признак: {} должно быть {:d} значений, по факту {:d}, не хватает {:d}'.format(col,
                                            features.shape[0],
                                            features[col].count(),
                                            features.shape[0]-features[col].count()))

Признак: first_blood_time должно быть 97230 значений, по факту 77677, не хватает 19553
Признак: first_blood_team должно быть 97230 значений, по факту 77677, не хватает 19553
Признак: first_blood_player1 должно быть 97230 значений, по факту 77677, не хватает 19553
Признак: first_blood_player2 должно быть 97230 значений, по факту 53243, не хватает 43987
Признак: radiant_bottle_time должно быть 97230 значений, по факту 81539, не хватает 15691
Признак: radiant_courier_time должно быть 97230 значений, по факту 96538, не хватает 692
Признак: radiant_flying_courier_time должно быть 97230 значений, по факту 69751, не хватает 27479
Признак: radiant_first_ward_time должно быть 97230 значений, по факту 95394, не хватает 1836
Признак: dire_bottle_time должно быть 97230 значений, по факту 81087, не хватает 16143
Признак: dire_courier_time должно быть 97230 значений, по факту 96554, не хватает 676
Признак: dire_flying_courier_time должно быть 97230 значений, по факту 71132, не хватает 26098
Признак:

- `first_blood*` Судя по описанию задачи, существуют такие игровые моменты, что first_blood в течении первых 5 минут не случилось и признаки приняли пропущенное значение 
- `*bottle_time` команды (radiant|dire) не приобретали объект bottle
- `*courier_time` команды (radiant|dire) не приобретали объект courier
- `*flying_courier_time` команды (radiant|dire) не приобретали объект flying_courier
- `*first_ward_time` команды (radiant|dire) не приобретали объект first_ward

In [5]:
features.fillna(0,inplace=True)
y = features['radiant_win'].to_frame()
features.drop(['duration', 'radiant_win', 'tower_status_radiant', 
               'tower_status_dire', 'barracks_status_radiant', 
               'barracks_status_dire'], 
              axis=1, inplace=True)
X = features.copy()

Проверяем, что отсутствуют пропуски

In [6]:
print(X.columns[X.isna().any()].tolist())
print(y.columns[y.isna().any()].tolist())

[]
[]


Столбец содержащий целевую переменную `radiant_win`

In [7]:
trees_cnt = [10, 20, 30, 100, 200]

In [8]:
kf = KFold(n_splits=5, shuffle=True, random_state=241)
scores = []
for n_est in trees_cnt:
    print('n_estimators={}'.format(n_est))
    model = GradientBoostingClassifier(n_estimators=n_est, random_state=241)
    start_time = datetime.datetime.now()
    score = cross_val_score(model, X, y, cv=kf, scoring='roc_auc', n_jobs=-1)
    scores.append(np.mean(score))
    print('scores={} \ntime={}\n'.format(scores, (datetime.datetime.now() - start_time)))


n_estimators=10
scores=[0.6643877206345741] 
time=0:00:11.923191

n_estimators=20
scores=[0.6643877206345741, 0.6828535735340823] 
time=0:00:20.677570

n_estimators=30
scores=[0.6643877206345741, 0.6828535735340823, 0.6894962060591201] 
time=0:00:29.729697

n_estimators=100
scores=[0.6643877206345741, 0.6828535735340823, 0.6894962060591201, 0.7063262181631453] 
time=0:01:34.980914

n_estimators=200
scores=[0.6643877206345741, 0.6828535735340823, 0.6894962060591201, 0.7063262181631453, 0.713527508807472] 
time=0:03:09.201578



In [46]:
model = GradientBoostingClassifier(n_estimators=30, random_state=241)
model.fit(X, y)

  y = column_or_1d(y, warn=True)


GradientBoostingClassifier(criterion='friedman_mse', init=None,
              learning_rate=0.1, loss='deviance', max_depth=3,
              max_features=None, max_leaf_nodes=None,
              min_impurity_decrease=0.0, min_impurity_split=None,
              min_samples_leaf=1, min_samples_split=2,
              min_weight_fraction_leaf=0.0, n_estimators=30,
              n_iter_no_change=None, presort='auto', random_state=241,
              subsample=1.0, tol=0.0001, validation_fraction=0.1,
              verbose=0, warm_start=False)

Значимые признаки

In [71]:
cols = pd.DataFrame(list(zip(X.columns, model.feature_importances_)),columns=['f_name','f_imp'])
a = cols[cols['f_imp']>0]
a.sort_values(by=['f_imp'], ascending=False)

Unnamed: 0,f_name,f_imp
13,r2_gold,0.096906
84,first_blood_player1,0.094796
5,r1_gold,0.092631
29,r4_gold,0.085846
37,r5_gold,0.08509
53,d2_gold,0.085066
45,d1_gold,0.082102
77,d5_gold,0.077313
69,d4_gold,0.070134
21,r3_gold,0.069948


Бустинг с 30 деревьями завершился за ~30 секунд, показатель AUC_ROC при этом

In [11]:
round(dict(zip(trees_cnt, scores))[30], 2)

0.69

Скорость бустинг на большем кол-ве деревьев падает (см. вывод)
Для увеличения производительности можно сократить обучающую выборку, уменьшить кол-во уровней деревьев (хотя и так деревья не большой глубины)

# Подход 2: логистическая регрессия

In [12]:
kf = KFold(n_splits=5, shuffle=True, random_state=241)
scaler = StandardScaler()
X_sc = scaler.fit_transform(X)

  return self.partial_fit(X, y)
  return self.fit(X, **fit_params).transform(X)


In [13]:
kfl = KFold(n_splits=5, shuffle=True, random_state=17)
scores = []
for C_idx in [10.0 ** i for i in range(-5,3)]:
    print('C={}'.format(C_idx))
    start_time = datetime.datetime.now()
    model = LogisticRegression(C=C_idx, random_state=17, n_jobs=-1)
    score = cross_val_score(model, X_sc, y, cv=kfl, scoring='roc_auc', n_jobs=-1)
    scores.append([C_idx,np.mean(score)])
    print('scores={} \ntime={}\n'.format(scores, (datetime.datetime.now() - start_time)))


C=1e-05
scores=[[1e-05, 0.6950671060455955]] 
time=0:00:02.078916

C=0.0001
scores=[[1e-05, 0.6950671060455955], [0.0001, 0.7111751693895906]] 
time=0:00:03.300630

C=0.001
scores=[[1e-05, 0.6950671060455955], [0.0001, 0.7111751693895906], [0.001, 0.7161380771088343]] 
time=0:00:04.881985

C=0.01
scores=[[1e-05, 0.6950671060455955], [0.0001, 0.7111751693895906], [0.001, 0.7161380771088343], [0.01, 0.7163254738869566]] 
time=0:00:07.268478

C=0.1
scores=[[1e-05, 0.6950671060455955], [0.0001, 0.7111751693895906], [0.001, 0.7161380771088343], [0.01, 0.7163254738869566], [0.1, 0.7163004594754305]] 
time=0:00:07.097285

C=1.0
scores=[[1e-05, 0.6950671060455955], [0.0001, 0.7111751693895906], [0.001, 0.7161380771088343], [0.01, 0.7163254738869566], [0.1, 0.7163004594754305], [1.0, 0.716296996207044]] 
time=0:00:06.111433

C=10.0
scores=[[1e-05, 0.6950671060455955], [0.0001, 0.7111751693895906], [0.001, 0.7161380771088343], [0.01, 0.7163254738869566], [0.1, 0.7163004594754305], [1.0, 0.716296

In [14]:
scores

[[1e-05, 0.6950671060455955],
 [0.0001, 0.7111751693895906],
 [0.001, 0.7161380771088343],
 [0.01, 0.7163254738869566],
 [0.1, 0.7163004594754305],
 [1.0, 0.716296996207044],
 [10.0, 0.7162968163324395],
 [100.0, 0.7162967655736445]]

In [15]:
print('Лучшее С={:.2f} AUC_ROC={:.4f}'.format(pd.DataFrame(scores).sort_values(by=[1],ascending=False).iloc[0,:][0],
               pd.DataFrame(scores).sort_values(by=[1],ascending=False).iloc[0,:][1]))

Лучшее С=0.01 AUC_ROC=0.7163


Это лучше бустинга с 200 деревьями и быстрее в несколько раз

In [16]:
X_sc = X.drop([col for col in X.columns if 'hero' in col],axis=1)
X_sc.drop('lobby_type', axis=1, inplace=True)

In [17]:
scaler = StandardScaler()
X_sc = scaler.fit_transform(X_sc)
kfl = KFold(n_splits=5, shuffle=True, random_state=17)
scores = []
for C_idx in [10.0 ** i for i in range(-5,3)]:
    print('C={}'.format(C_idx))
    start_time = datetime.datetime.now()
    model = LogisticRegression(C=C_idx, random_state=17, n_jobs=-1)
    score = cross_val_score(model, X_sc, y, cv=kfl, scoring='roc_auc', n_jobs=-1)
    scores.append([C_idx,np.mean(score)])
    print('scores={} \ntime={}\n'.format(scores, (datetime.datetime.now() - start_time)))

  return self.partial_fit(X, y)
  return self.fit(X, **fit_params).transform(X)


C=1e-05
scores=[[1e-05, 0.6950129835407391]] 
time=0:00:01.643229

C=0.0001
scores=[[1e-05, 0.6950129835407391], [0.0001, 0.7111777383642851]] 
time=0:00:02.420940

C=0.001
scores=[[1e-05, 0.6950129835407391], [0.0001, 0.7111777383642851], [0.001, 0.7161749611547793]] 
time=0:00:04.434083

C=0.01
scores=[[1e-05, 0.6950129835407391], [0.0001, 0.7111777383642851], [0.001, 0.7161749611547793], [0.01, 0.7163666615286292]] 
time=0:00:05.753119

C=0.1
scores=[[1e-05, 0.6950129835407391], [0.0001, 0.7111777383642851], [0.001, 0.7161749611547793], [0.01, 0.7163666615286292], [0.1, 0.716341677250904]] 
time=0:00:05.538197

C=1.0
scores=[[1e-05, 0.6950129835407391], [0.0001, 0.7111777383642851], [0.001, 0.7161749611547793], [0.01, 0.7163666615286292], [0.1, 0.716341677250904], [1.0, 0.7163378941148857]] 
time=0:00:06.126627

C=10.0
scores=[[1e-05, 0.6950129835407391], [0.0001, 0.7111777383642851], [0.001, 0.7161749611547793], [0.01, 0.7163666615286292], [0.1, 0.716341677250904], [1.0, 0.71633789

In [18]:
scores

[[1e-05, 0.6950129835407391],
 [0.0001, 0.7111777383642851],
 [0.001, 0.7161749611547793],
 [0.01, 0.7163666615286292],
 [0.1, 0.716341677250904],
 [1.0, 0.7163378941148857],
 [10.0, 0.7163375277647255],
 [100.0, 0.7163374048828152]]

In [19]:
print('Лучшее С={:.2f} AUC_ROC={:.4f}'.format(pd.DataFrame(scores).sort_values(by=[1],ascending=False).iloc[0,:][0],
               pd.DataFrame(scores).sort_values(by=[1],ascending=False).iloc[0,:][1]))

Лучшее С=0.01 AUC_ROC=0.7164


Удаление категориальных признаков ничтожно мало повлияло на качество предсказания. 
Наилучшее значение показателя AUC-ROC так же достигается при `C = 0.01 и равно 0.7164`. 
В предыдущем эксперименте `Лучшее С=0.01 AUC_ROC=0.7163`
 В предыдущей модели признаки `*hero` никак не влияли на результат, возможно, модель посчитала признаки не значимыми (см вывод "Значимые признаки")

In [20]:
df_unique = pd.DataFrame(np.unique(X[[col for col in X.columns if 'hero' in col]].values))
h_unq_cnt = df_unique.count()[0]
h = pd.read_csv('./dictionaries/heroes.csv')
h_all_cnt = h.shape[0]

In [21]:
print('Различных (уникальных) геров в данных = {}'.format(h_unq_cnt))

Различных (уникальных) геров в данных = 108


In [34]:
print('Всего геров = {}'.format(h_all_cnt))

Всего геров = 112


In [22]:
X_pick = np.zeros((X.shape[0], h_all_cnt))

for i, match_id in enumerate(X.index):
    for p in range(1,5):
        X_pick[i, X.loc[match_id, 'r%d_hero' % (p+1)]-1] = 1
        X_pick[i, X.loc[match_id, 'd%d_hero' % (p+1)]-1] = -1

In [97]:
XX_pick = pd.concat([X.reset_index(drop=True), pd.DataFrame(X_pick).reset_index(drop=True)], axis=1, ignore_index=True)
scaler = StandardScaler()
XX_pick_sc = scaler.fit_transform(XX_pick)

  return self.partial_fit(X, y)
  return self.fit(X, **fit_params).transform(X)


In [24]:
kfl = KFold(n_splits=5, shuffle=True, random_state=241)
scores = []
for C_idx in [10.0 ** i for i in range(-5,3)]:
    print('C={}'.format(C_idx))
    start_time = datetime.datetime.now()
    model = LogisticRegression(C=C_idx, random_state=241, n_jobs=-1)
    score = cross_val_score(model, XX_pick_sc, y, cv=kfl, scoring='roc_auc', n_jobs=-1)
    scores.append([C_idx,np.mean(score)])
    print('scores={} \ntime={}\n'.format(scores, (datetime.datetime.now() - start_time)))

  return self.partial_fit(X, y)
  return self.fit(X, **fit_params).transform(X)


C=1e-05
scores=[[1e-05, 0.7101158659962329]] 
time=0:00:04.563647

C=0.0001
scores=[[1e-05, 0.7101158659962329], [0.0001, 0.7352713688169008]] 
time=0:00:05.629531

C=0.001
scores=[[1e-05, 0.7101158659962329], [0.0001, 0.7352713688169008], [0.001, 0.7429377117190608]] 
time=0:00:08.668448

C=0.01
scores=[[1e-05, 0.7101158659962329], [0.0001, 0.7352713688169008], [0.001, 0.7429377117190608], [0.01, 0.7431920652419957]] 
time=0:00:12.239337

C=0.1
scores=[[1e-05, 0.7101158659962329], [0.0001, 0.7352713688169008], [0.001, 0.7429377117190608], [0.01, 0.7431920652419957], [0.1, 0.7431576342382402]] 
time=0:00:12.880193

C=1.0
scores=[[1e-05, 0.7101158659962329], [0.0001, 0.7352713688169008], [0.001, 0.7429377117190608], [0.01, 0.7431920652419957], [0.1, 0.7431576342382402], [1.0, 0.7431529441214357]] 
time=0:00:13.503205

C=10.0
scores=[[1e-05, 0.7101158659962329], [0.0001, 0.7352713688169008], [0.001, 0.7429377117190608], [0.01, 0.7431920652419957], [0.1, 0.7431576342382402], [1.0, 0.74315

In [25]:
scores

[[1e-05, 0.7101158659962329],
 [0.0001, 0.7352713688169008],
 [0.001, 0.7429377117190608],
 [0.01, 0.7431920652419957],
 [0.1, 0.7431576342382402],
 [1.0, 0.7431529441214357],
 [10.0, 0.743152356836584],
 [100.0, 0.7431523717205947]]

In [26]:
print('Лучшее С={:.2f} AUC_ROC={:.4f}'.format(pd.DataFrame(scores).sort_values(by=[1],ascending=False).iloc[0,:][0],
               pd.DataFrame(scores).sort_values(by=[1],ascending=False).iloc[0,:][1]))

Лучшее С=0.01 AUC_ROC=0.7432


Добавления "мешка слов" улучшает качество модели. 
Наилучшее значение показателя AUC-ROC достигается при C = 0.1 и равно 0.7432. 
Это объясняется тем, что добавились признаки о героях.

In [27]:
df_test = pd.read_csv('./features_test.csv', index_col='match_id')

In [90]:
df_test.fillna(0,inplace=True)
X_test_pick = np.zeros((X_test.shape[0], h_all_cnt))

for i, match_id in enumerate(X_test.index):
    for p in range(1,5):
        X_test_pick[i, X_test.loc[match_id, 'r%d_hero' % (p+1)]-1] = 1
        X_test_pick[i, X_test.loc[match_id, 'd%d_hero' % (p+1)]-1] = -1
print(X_test.shape,X_test_pick.shape)

(17177, 102) (17177, 112)


In [99]:
XX_test_pick = pd.concat([X_test.reset_index(drop=True), pd.DataFrame(X_test_pick).reset_index(drop=True)], axis=1, ignore_index=True)

In [103]:
XX_test_pick_sc = scaler.transform(XX_test_pick)
model = LogisticRegression(C=0.01, random_state=241, n_jobs=-1)
model.fit(XX_pick_sc, y)
y_test = model.predict_proba(XX_test_pick_sc)[:, 1]

  """Entry point for launching an IPython kernel.
  y = column_or_1d(y, warn=True)
  " = {}.".format(effective_n_jobs(self.n_jobs)))


In [104]:
res = pd.DataFrame({'radiant_win': y_test}, index=X_test.index)
res.head()

Unnamed: 0_level_0,radiant_win
match_id,Unnamed: 1_level_1
6,0.760812
7,0.71594
10,0.237363
13,0.870139
16,0.313584


In [105]:
print('Минимальное значение прогноза = {:.4f}\nМаксимальное значение прогноза = {:.4f}'.format(res.min()[0], res.max()[0]))

Минимальное значение прогноза = 0.0086
Максимальное значение прогноза = 0.9938


In [106]:
res.to_csv('kaggle_dota2.csv')

In [107]:
!head -10 ./kaggle_dota2.csv

match_id,radiant_win
6,0.7608118098289546
7,0.7159404392087882
10,0.2373627252328378
13,0.8701386038252102
16,0.3135840755129491
18,0.39518684021739653
19,0.5308655479687442
24,0.5593024502519423
33,0.17805842301459363
