In [1]:
import pandas as pd

data = pd.read_csv('features.csv', index_col='match_id')
print data.columns[data.isna().any()].tolist()

['first_blood_time', 'first_blood_team', 'first_blood_player1', 'first_blood_player2', 'radiant_bottle_time', 'radiant_courier_time', 'radiant_flying_courier_time', 'radiant_first_ward_time', 'dire_bottle_time', 'dire_courier_time', 'dire_flying_courier_time', 'dire_first_ward_time']


Все пустые поля это не случившиеся события за первые 5 минут игры. 
Курьера почти во всех матчах успевали купить, а вот проапгрейдить до летающего уже много меньше.

Целевая переменная radiant_win

In [2]:
data.head()

Unnamed: 0_level_0,start_time,lobby_type,r1_hero,r1_level,r1_xp,r1_gold,r1_lh,r1_kills,r1_deaths,r1_items,...,dire_boots_count,dire_ward_observer_count,dire_ward_sentry_count,dire_first_ward_time,duration,radiant_win,tower_status_radiant,tower_status_dire,barracks_status_radiant,barracks_status_dire
match_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,1430198770,7,11,5,2098,1489,20,0,0,7,...,4,2,2,-52.0,2874,1,1796,0,51,0
1,1430220345,0,42,4,1188,1033,9,0,1,12,...,4,3,1,-5.0,2463,1,1974,0,63,1
2,1430227081,7,33,4,1319,1270,22,0,0,12,...,4,3,1,13.0,2130,0,0,1830,0,63
3,1430263531,1,29,4,1779,1056,14,0,0,5,...,4,2,0,27.0,1459,0,1920,2047,50,63
4,1430282290,7,13,4,1431,1090,8,1,0,8,...,3,3,0,-16.0,2449,0,4,1974,3,63


In [3]:
import datetime
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

# Выбираются все столбцы, кроме start_time, radiant_win и столбцов, 
#     которые были известны только после окончания матча
X = data.iloc[:,1:102].fillna(300)
y = data.radiant_win
cv = KFold(n_splits=5, shuffle=True, random_state=42)

for n_tree in [10, 20, 30, 40, 50, 100]:
    ts = datetime.datetime.now()
    est = GradientBoostingClassifier(n_estimators=n_tree, random_state=42, max_depth=5)
    score = cross_val_score(est, X, y, scoring='roc_auc', cv=cv).mean()
    print 'N_Tree: {} Score: {:.5f} Time: {}'.format(n_tree, score, (datetime.datetime.now() - ts))

N_Tree: 10 Score: 0.67963 Time: 0:01:16.825000
N_Tree: 20 Score: 0.69197 Time: 0:02:25.684000
N_Tree: 30 Score: 0.69815 Time: 0:03:22.920000
N_Tree: 40 Score: 0.70218 Time: 0:04:13.577000
N_Tree: 50 Score: 0.70489 Time: 0:05:23.797000
N_Tree: 100 Score: 0.71197 Time: 0:10:42.340000


Смысл использовать больше 30 деревьев есть, но прирост небольшой(в районе 1-2 процентов), с большими временными затратами.  
К примеру, для рассмотренного выше случая на 30 деревьях получили качество 0.69815 и 3 минуты работы кросс валидации.  
Если же взять уже 100 деревьев, качество вырастет до 0.71197, а время почти до 11 минут.  
С увеличением количества деревьев, прирост качества замедляется, а время продолжает расти.  
Время обучения можно уменьшить, если ограничить глубину  деревьев(только не слишком сильно, иначе будет страдать качество) или обучать на части выборки(обязательно случайной, иначе - переобучение)

In [4]:
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
logreg = LogisticRegression(random_state=42)    
X_scale = pd.DataFrame(scaler.fit_transform(X), X.index, X.columns)

ts = datetime.datetime.now()
score = cross_val_score(logreg, X_scale, y, scoring='roc_auc', cv=cv).mean()
print 'Score: {:.5f} Time: {}'.format(score, (datetime.datetime.now() - ts))

Score: 0.71694 Time: 0:00:29.524000


In [5]:
cols = [a for a in X_scale.columns.values if a.endswith('_hero') or a == 'lobby_type']
X_scale_drop = X_scale.drop(columns=cols)

ts = datetime.datetime.now()
score = cross_val_score(logreg, X_scale_drop, y, scoring='roc_auc', cv=cv).mean()
print 'Score: {:.5f} Time: {}'.format(score, (datetime.datetime.now() - ts))

Score: 0.71697 Time: 0:00:25.906000


In [6]:
import numpy as np
print 'Max hero_id value: {}'.format(np.max([data[a].max() for a in data.columns.values if a.endswith('_hero')]))
print 'Used hero_id values: {}'.format(np.max([len(np.unique([data[a]])) for a in data.columns.values if a.endswith('_hero')]))

Max hero_id value: 112
Used hero_id values: 108


Максимальное значение hero_id: 112

In [7]:
from scipy.sparse import csr_matrix
from sklearn.preprocessing import OneHotEncoder

oh = OneHotEncoder()

In [8]:
oh.fit(np.arange(1, 113).reshape(-1, 1))
sm = csr_matrix((data.shape[0], 112), dtype=np.int8)
for i in xrange(1,6):
    sm += oh.transform(data['r{}_hero'.format(i)].values.reshape(-1,1))
    sm -= oh.transform(data['d{}_hero'.format(i)].values.reshape(-1,1))
X_h = pd.DataFrame(sm.toarray(), data.index, columns=['h_{}'.format(i) for i in xrange(1, 113)])

In [9]:
oh.fit(np.arange(8).reshape(-1,1))
m = oh.transform(data.lobby_type.values.reshape(-1,1))
X_l = pd.DataFrame(m.toarray(), data.index, columns=['l_{}'.format(i) for i in xrange(8)])

In [10]:
ts = datetime.datetime.now()
score = cross_val_score(logreg, pd.concat([X_scale_drop, X_h, X_l], axis=1), y, scoring='roc_auc', cv=cv).mean()
print 'Score: {:.5f} Time: {}'.format(score, (datetime.datetime.now() - ts))

Score: 0.75255 Time: 0:00:43.656000


In [11]:
data_test = pd.read_csv('features_test.csv', index_col='match_id')

def prepare(df):
    cols = [a for a in df.columns.values if a.endswith('_hero') or a == 'lobby_type']
    r = df.iloc[:,1:102].drop(columns=cols).fillna(300)
    r_d = pd.DataFrame(scaler.fit_transform(r), r.index, r.columns)
    
    oh.fit(np.arange(1, 113).reshape(-1, 1))
    sm = csr_matrix((df.shape[0], 112), dtype=np.int8)
    for i in xrange(1,6):
        sm += oh.transform(df['r{}_hero'.format(i)].values.reshape(-1,1))
        sm -= oh.transform(df['d{}_hero'.format(i)].values.reshape(-1,1))
    r_h = pd.DataFrame(sm.toarray(), df.index, columns=['h_{}'.format(i) for i in xrange(1, 113)])
    
    oh.fit(np.arange(8).reshape(-1,1))
    m = oh.transform(df.lobby_type.values.reshape(-1,1))
    r_l = pd.DataFrame(m.toarray(), df.index, columns=['l_{}'.format(i) for i in xrange(8)])
    return pd.concat([r_d, r_h, r_l], axis=1)
    
ts = datetime.datetime.now()

logreg.fit(prepare(data), y)
proba = logreg.predict_proba(prepare(data_test))[:,1]

print 'Time: {}'.format(datetime.datetime.now() - ts)
print 'Min: {:.5f} Mean: {:.5f} Max: {:.5f}'.format(proba.min(), proba.mean(), proba.max())

Time: 0:00:10.897000
Min: 0.00898 Mean: 0.51832 Max: 0.99682
