# Играем в Dota 2

### `Сергей Филатьев`

### Градиентный бустинг "в лоб"

In [1]:
import pandas as pd
import numpy as np
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import roc_auc_score
from sklearn.cross_validation import KFold
from sklearn.linear_model import LogisticRegression
import time
import datetime
from sklearn.preprocessing import StandardScaler,scale


Считаем таблицу с признаками из файла features.csv с помощью кода, приведенного выше. Удалим признаки, связанные с итогами матча, так же создадим переменную result из столбца radiant_win содержащим целевую переменную.

In [2]:
features = pd.read_csv('./features.csv', index_col='match_id')
result=features['radiant_win'].values
feat_drop=['duration','radiant_win','tower_status_radiant','tower_status_dire','barracks_status_radiant',
           'barracks_status_dire']
features.drop(feat_drop,axis=1,inplace=True)

Найдем признаки с пропущенными значениями

In [3]:
tot_size=features.shape[0]
Tot_count=features.count(axis=0)
NA_count=tot_size-Tot_count[Tot_count<tot_size]
NA_count

first_blood_time               19553
first_blood_team               19553
first_blood_player1            19553
first_blood_player2            43987
radiant_bottle_time            15691
radiant_courier_time             692
radiant_flying_courier_time    27479
radiant_first_ward_time         1836
dire_bottle_time               16143
dire_courier_time                676
dire_flying_courier_time       26098
dire_first_ward_time            1826
dtype: int64

Например, у признаков first_blood_time, first_blood_team, и first_blood_player1 отсутствуют 19553 зачения. Это связано с тем, что за первые 5 минут игры первая кровь еще не пролилась.

Заменим пропуски на нули

In [4]:
cleaned=features.fillna(0)

Теперь проведем кросс-валидацию по 5 блокам для проверки качества градиентного бустинга для 10, 20, 30 и 40 деревьев и узнаем время выполнения процесса.

In [5]:
kf=KFold(tot_size, n_folds=5, shuffle=True, random_state=137264)
X= cleaned.values
for ntrees in range(10,50,10):
    start_time = datetime.datetime.now()
    gbc=GradientBoostingClassifier(random_state=15837,n_estimators=ntrees)
    error=np.zeros(5)
    index=0
    for train_index, test_index in kf:
        X_train, X_test = X[train_index,:], X[test_index,:]
        y_train, y_test = result[train_index], result[test_index]
        gbc.fit(X_train,y_train)
        y_pred=gbc.predict_proba(X_test)[:, 1]
        error[index]=roc_auc_score(y_test,y_pred)
        index+=1
    print 'Время:', datetime.datetime.now() - start_time
    print 'Число деревьев =',ntrees,'; Качество=',np.mean(error),'( std =',np.std(error),')'

Время: 0:00:27.081421
Число деревьев = 10 ; Качество= 0.664615447226 ( std = 0.00277288839722 )
Время: 0:00:49.534624
Число деревьев = 20 ; Качество= 0.682292361314 ( std = 0.00473376279984 )
Время: 0:01:10.630890
Число деревьев = 30 ; Качество= 0.689151078573 ( std = 0.0048867508197 )
Время: 0:01:35.498363
Число деревьев = 40 ; Качество= 0.693825095081 ( std = 0.00431108398128 )


С увеличением числа деревьев качество улучшается. Скорее всего мы еще не достигли максимума. К сожалению время исполнения значительно увеличивается с каждым добавлением 10 деревьев. Это связано с тем, что каждый раз все деревья пересчитываются заново. Чтобы не пересчитывать все, а только добавлять новые 10 деревьев, можно установить параметр warm_start=True в GradientBoostingClassifier. Чтобы уменьшить время обучения на каждом новом дереве, можно уменьшить их глубину (параметр max_depth) 

In [7]:
gbc=[("gbc0", GradientBoostingClassifier(random_state=15837,n_estimators=10,warm_start=True)),
    ("gbc1", GradientBoostingClassifier(random_state=15837,n_estimators=10,warm_start=True)),
    ("gbc2", GradientBoostingClassifier(random_state=15837,n_estimators=10,warm_start=True)),
    ("gbc3", GradientBoostingClassifier(random_state=15837,n_estimators=10,warm_start=True)),
    ("gbc4", GradientBoostingClassifier(random_state=15837,n_estimators=10,warm_start=True))]
for ntrees in range(10,400,10):
    start_time = datetime.datetime.now()
    error=np.zeros(5)
    index=0
    for train_index, test_index in kf:
        count=0
        for lab,gb in gbc:
            if index==count: break
            count+=1
        X_train, X_test = X[train_index,:], X[test_index,:]
        y_train, y_test = result[train_index], result[test_index]
        gb.fit(X_train,y_train)
        y_pred=gb.predict_proba(X_test)[:, 1]
        gb.n_estimators+=10
        error[index]=roc_auc_score(y_test,y_pred)
        index+=1
    print 'Время:', datetime.datetime.now() - start_time
    print 'Число деревьев =',ntrees,'; Качество=',np.mean(error),'( std =',np.std(error),')'

Время: 0:00:25.911078
Число деревьев = 10 ; Качество= 0.664615447226 ( std = 0.00277288839722 )
Время: 0:00:25.424228
Число деревьев = 20 ; Качество= 0.682292361314 ( std = 0.00473376279984 )
Время: 0:00:25.566026
Число деревьев = 30 ; Качество= 0.689151078573 ( std = 0.0048867508197 )
Время: 0:00:25.645954
Число деревьев = 40 ; Качество= 0.693825095081 ( std = 0.00431108398128 )
Время: 0:00:25.864894
Число деревьев = 50 ; Качество= 0.697231778399 ( std = 0.00433342779513 )
Время: 0:00:26.164574
Число деревьев = 60 ; Качество= 0.699935325247 ( std = 0.00417637501723 )
Время: 0:00:26.300458
Число деревьев = 70 ; Качество= 0.702089160856 ( std = 0.00413293630799 )
Время: 0:00:26.281397
Число деревьев = 80 ; Качество= 0.703813671814 ( std = 0.00391141009218 )
Время: 0:00:26.218174
Число деревьев = 90 ; Качество= 0.705101592969 ( std = 0.00407960703583 )
Время: 0:00:27.023735
Число деревьев = 100 ; Качество= 0.70631155834 ( std = 0.00395408133001 )
Время: 0:00:27.182559
Число деревьев = 11

### Логистическая регрессия

Нормализуем параметры

In [8]:
numpyMatrix = X.astype(float)
scaler = StandardScaler().fit(numpyMatrix)
X_norm = scaler.transform(numpyMatrix)

Выберем параметр С

In [9]:
power=range(-5,1)
C_values=np.power(10.,power)
for C1 in C_values:
    start_time = datetime.datetime.now()
    gbc=LogisticRegression(C=C1)
    error=np.zeros(5)
    index=0
    for train_index, test_index in kf:
        X_train, X_test = X_norm[train_index,:], X_norm[test_index,:]
        y_train, y_test = result[train_index], result[test_index]
        gbc.fit(X_train,y_train)
        y_pred=gbc.predict_proba(X_test)[:, 1]
        error[index]=roc_auc_score(y_test,y_pred)
        index+=1
    print 'Время:', datetime.datetime.now() - start_time
    print 'C =',C1,'; Качество=',np.mean(error),'( std =',np.std(error),')'

Время: 0:00:02.338357
C = 1e-05 ; Качество= 0.695090219411 ( std = 0.00368993016562 )
Время: 0:00:03.721846
C = 0.0001 ; Качество= 0.711244490876 ( std = 0.00399143691571 )
Время: 0:00:06.752859
C = 0.001 ; Качество= 0.716188863701 ( std = 0.0042703262083 )
Время: 0:00:08.870484
C = 0.01 ; Качество= 0.716345032942 ( std = 0.00430835650746 )
Время: 0:00:09.619271
C = 0.1 ; Качество= 0.716309972403 ( std = 0.00430890057932 )
Время: 0:00:09.553372
C = 1.0 ; Качество= 0.716305354595 ( std = 0.00430930173302 )


Наилучшим параметром С из рассмотренных вариантов является 0.01 с качеством (0.716345) превосходящим 40 деревьев градиентного бустинга и значительно быстрее. Логистическая регрессия представляет собой достаточно простую зависимость по сравнению с градиентным бустингом. Поэтому не стоит удивляться, что она работает быстрее. В общем случае, градиентный бустинг может найти достаточно сложные нелинейные зависимости и стоит ожидать для него более высокую точность (при достаточном количестве деревьев - выше 260 в нашем случае).    

Теперь удалим одиннадцать категориальных признаков в этой задаче : lobby_type и r1_hero, r2_hero, ..., r5_hero, d1_hero, d2_hero, ..., d5_hero и проверим результат

In [10]:
X=cleaned.drop(['lobby_type','r1_hero','r2_hero','r3_hero','r4_hero','r5_hero','d1_hero','d2_hero','d3_hero','d4_hero','d5_hero'],
               axis=1).values
numpyMatrix = X.astype(float)
scaler = StandardScaler().fit(numpyMatrix)
X_norm = scaler.transform(numpyMatrix)
power=range(-5,1)
C_values=np.power(10.,power)
for C1 in C_values:
    start_time = datetime.datetime.now()
    gbc=LogisticRegression(C=C1)
    error=np.zeros(5)
    index=0
    for train_index, test_index in kf:
        X_train, X_test = X_norm[train_index,:], X_norm[test_index,:]
        y_train, y_test = result[train_index], result[test_index]
        gbc.fit(X_train,y_train)
        y_pred=gbc.predict_proba(X_test)[:, 1]
        error[index]=roc_auc_score(y_test,y_pred)
        index+=1
    print 'Время:', datetime.datetime.now() - start_time
    print 'C =',C1,'; Качество=',np.mean(error),'( std =',np.std(error),')'

Время: 0:00:01.934789
C = 1e-05 ; Качество= 0.695036700677 ( std = 0.003678256477 )
Время: 0:00:03.093336
C = 0.0001 ; Качество= 0.711241475924 ( std = 0.00397050638038 )
Время: 0:00:06.046785
C = 0.001 ; Качество= 0.716236637142 ( std = 0.00428113957158 )
Время: 0:00:07.773684
C = 0.01 ; Качество= 0.716395315996 ( std = 0.00433440986998 )
Время: 0:00:08.270489
C = 0.1 ; Качество= 0.716363173642 ( std = 0.00433681267311 )
Время: 0:00:08.222556
C = 1.0 ; Качество= 0.716358126631 ( std = 0.0043370765197 )


Как и в предыдущем случае наилучшим параметром С из рассмотренных вариантов является 0.01. Качество практически не изменилось (отличие в пределах среднего квадратического отклонения) - 0.716395. Это говорит о том, что удаленные параметры практически не использовались в регрессии. 

Теперь определим количество идентификаторов героев

In [14]:
Heroes=['r1_hero','r2_hero','r3_hero','r4_hero','r5_hero','d1_hero','d2_hero','d3_hero','d4_hero','d5_hero']
v=np.unique(cleaned['r1_hero'].values)
for col in Heroes:
    v1=np.unique(cleaned[col].values)
    v=np.append(v,v1)
N_Heroes=np.unique(v)
print 'количество идентификаторов героев =', N_Heroes.shape[0]

количество идентификаторов героев = 108


Создадим "мешок слов" для кодирования информации о героях и проверим результат

In [15]:
N=max(np.unique(v))
X_pick = np.zeros((cleaned.shape[0], N))

for i, match_id in enumerate(cleaned.index):
    for p in xrange(5):
        X_pick[i, cleaned.ix[match_id, 'r%d_hero' % (p+1)]-1] = 1
        X_pick[i, cleaned.ix[match_id, 'd%d_hero' % (p+1)]-1] = -1
ind=np.max(X_pick,axis=0)-np.min(X_pick,axis=0)>0
X_pick_cleaned=X_pick[:,ind]
X=np.append(X,X_pick_cleaned,axis=1)

numpyMatrix = X.astype(float)
scaler = StandardScaler().fit(numpyMatrix)
X_norm = scaler.transform(numpyMatrix)
power=range(-5,1)
C_values=np.power(10.,power)
for C1 in C_values:
    start_time = datetime.datetime.now()
    gbc=LogisticRegression(C=C1)
    error=np.zeros(5)
    index=0
    for train_index, test_index in kf:
        X_train, X_test = X_norm[train_index,:], X_norm[test_index,:]
        y_train, y_test = result[train_index], result[test_index]
        gbc.fit(X_train,y_train)
        y_pred=gbc.predict_proba(X_test)[:, 1]
        error[index]=roc_auc_score(y_test,y_pred)
        index+=1
    print 'Время:', datetime.datetime.now() - start_time
    print 'C =',C1,'; Качество=',np.mean(error),'( std =',np.std(error),')'

Время: 0:00:03.994133
C = 1e-05 ; Качество= 0.714815857533 ( std = 0.00417876497459 )
Время: 0:00:06.068922
C = 0.0001 ; Качество= 0.742735239159 ( std = 0.00459853651442 )
Время: 0:00:12.257955
C = 0.001 ; Качество= 0.75152913749 ( std = 0.00458063455078 )
Время: 0:00:16.534414
C = 0.01 ; Качество= 0.751855206622 ( std = 0.00451792566938 )
Время: 0:00:16.915783
C = 0.1 ; Качество= 0.751816418963 ( std = 0.00449450264044 )
Время: 0:00:16.931583
C = 1.0 ; Качество= 0.7518101755 ( std = 0.00449138216906 )


Как и в предыдущем случае наилучшим параметром С из рассмотренных вариантов является 0.01. Произошло значительное улучшение качества (0.751855). Изначально категориальные признаки использовались как числовые и регрессия строилась на этих бесполезных значениях. Сейчас же мы использовали признаки больше как индикаторы присутствия либо отсутствия определенных героев и это сильно помогло.

### Тестовая выборка

Теперь мы применим нашу лучшую модель логистической регрессии к тестовой выборке

In [18]:
features_test = pd.read_csv('./features_test.csv', index_col='match_id')
cleaned_test=features_test.fillna(0)
X_all_test=cleaned_test.drop(['lobby_type','r1_hero','r2_hero','r3_hero','r4_hero','r5_hero','d1_hero'
                              ,'d2_hero','d3_hero','d4_hero','d5_hero'],axis=1).values
v=np.unique(cleaned_test['r1_hero'].values)
for col in Heroes:
    v1=np.unique(cleaned_test[col].values)
    v=np.append(v,v1)
N=max(np.unique(v))
X_pick_test = np.zeros((cleaned_test.shape[0], N))

for i, match_id in enumerate(cleaned_test.index):
    for p in xrange(5):
        X_pick_test[i, cleaned_test.ix[match_id, 'r%d_hero' % (p+1)]-1] = 1
        X_pick_test[i, cleaned_test.ix[match_id, 'd%d_hero' % (p+1)]-1] = -1
ind=np.max(X_pick_test,axis=0)-np.min(X_pick_test,axis=0)>0
X_pick_cleaned_test=X_pick_test[:,ind]
X_all_test=np.append(X_all_test,X_pick_cleaned_test,axis=1)

numpyMatrix = X_all_test.astype(float)
X_norm_test = scaler.transform(numpyMatrix)

gbc1=LogisticRegression(C=0.01)
gbc1.fit(X_norm,result)
y_probLR_test=gbc1.predict_proba(X_norm_test)[:, 1]

Проверим, что результаты лежат между 0 и 1 и не все одинаковы

In [19]:
print 'max =', np.max(y_probLR_test),'; min =', np.min(y_probLR_test)

max = 0.996277624036 ; min = 0.00849095194724


Теперь сохраним в .csv файле и отправим в Kaggle на проверку

In [20]:
pd.DataFrame({"match_id": features_test.index, "radiant_win": y_probLR_test}).to_csv('Dota2_hw.csv',index=False)

И в результате получим качество 0.75526.