In [1]:
import pandas
import numpy as np
features = pandas.read_csv('C:\Users\Piton\data/features.csv', index_col='match_id')
features_test = pandas.read_csv('C:\Users\Piton\data/features_test.csv', index_col='match_id')
heroes = pandas.read_csv('C:\Users\Piton\data/dictionaries/heroes.csv')

In [2]:
# удаляем признаки связанные с итогами матча из features.csv
X = features[features_test.columns]
print "удалили следующие колоники: ", set(features.columns) - set(features_test)

удалили следующие колоники:  set(['tower_status_dire', 'barracks_status_dire', 'barracks_status_radiant', 'tower_status_radiant', 'duration', 'radiant_win'])


In [3]:
# названия колонок с пропущенными значениями
X.count()[X.count() < 97230]

first_blood_time               77677
first_blood_team               77677
first_blood_player1            77677
first_blood_player2            53243
radiant_bottle_time            81539
radiant_courier_time           96538
radiant_flying_courier_time    69751
radiant_first_ward_time        95394
dire_bottle_time               81087
dire_courier_time              96554
dire_flying_courier_time       71132
dire_first_ward_time           95404
dtype: int64

In [4]:
# first_blood_time и first_blood_team могут содержать пропущенные значения, 
# так как  событие "первая кровь" не всегда успевает произойти за первые 5 минут

In [5]:
# заменяем пропущенные значения на среднее
X=X.fillna(X.mean())
X_test = features_test.fillna(features_test.mean())

In [6]:
# колонка 'radiant_win' являеся целевой 
Y = features.radiant_win

In [7]:
# импортируем библиотеки
import time
import datetime
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score, GridSearchCV
from sklearn.metrics import log_loss, roc_auc_score

## 1 Метод. Градиентный бустинг деревьев решений

In [8]:
# разбиваем тренировочкую выборку на 5 кусков, перемешиваем и задаем random state
kf = KFold(n_splits=5, random_state=42, shuffle=True)
params = { "n_estimators": [10, 20, 30]}
clf = GradientBoostingClassifier(n_estimators=30)

In [9]:
# инициализируем сетку для перебора параметров
grad_grid = GridSearchCV(clf, params, cv=5, n_jobs=-1, verbose=True)

In [10]:
# здесь находим оптимальные параметры нашей модели и считаем время перебора
start_time = datetime.datetime.now()
clf.fit(X, Y)
print('Time elapsed:', datetime.datetime.now() - start_time)

('Time elapsed:', datetime.timedelta(0, 32, 388000))


In [11]:
#{'learning_rate': 0.8, 'max_depth': 3, 'n_estimators': 10}
#{'max_depth': 3, 'n_estimators': 20}
#grad_grid.best_params_

In [12]:
scores = cross_val_score(clf, X, Y, cv=kf, scoring="roc_auc")
scores

array([ 0.68679836,  0.69049064,  0.68466605,  0.68999469,  0.69272758])

In [19]:
# измеряем качество
print "roc_auc: ", roc_auc_score(Y, clf.predict_proba(X)[:,1])

roc_auc:  0.699572010813


In [14]:
# чтобы сократить время можно уменьшить глубину дерева, также увеличить learning rate.

## 2 метод. Логистическая регрессия

In [27]:
from sklearn.linear_model import LogisticRegression
from sklearn import preprocessing

In [21]:
params = {'C': np.linspace(0.1,1,10)}
l2 = LogisticRegression()

In [29]:
# Отскалируем данные
X_scale = preprocessing.scale(X)

In [30]:
# инициализируем сетку для перебора параметров
l2_grid = GridSearchCV(l2, params, cv=5, n_jobs=-1, verbose=True)

In [38]:
# перебираем параметр C
start_time = datetime.datetime.now()
l2_grid.fit(X_scale, Y)
print('Time elapsed:', datetime.datetime.now() - start_time)

Fitting 5 folds for each of 10 candidates, totalling 50 fits


[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed:  1.8min
[Parallel(n_jobs=-1)]: Done  50 out of  50 | elapsed:  2.0min finished


('Time elapsed:', datetime.timedelta(0, 126, 50000))


In [39]:
print "best C: ", l2_grid.best_params_

best C:  {'C': 0.30000000000000004}


In [40]:
scores = cross_val_score(l2, X, Y, cv=kf, scoring="roc_auc")
scores

array([ 0.51184163,  0.51560695,  0.51597178,  0.50921324,  0.51460449])

In [42]:
# измеряем качество
print "roc_auc: ", roc_auc_score(Y, l2_grid.predict_proba(X_scale)[:,1])

roc_auc:  0.718379316695


In [43]:
#Качество выросло после того  как отмасштабировали признаки. Логрегрессия быстрее работает, чем град бустинг.

In [44]:
# удалим категориальные признаки
X.drop(["lobby_type", "r1_hero", "r2_hero", "r3_hero", "r4_hero", "r5_hero", "d1_hero", 
 "d2_hero", "d3_hero", "d4_hero", "d5_hero"], axis=1, inplace = True)

In [45]:
X_scale = preprocessing.scale(X)

In [46]:
# перебираем параметр C
start_time = datetime.datetime.now()
l2_grid.fit(X_scale, Y)
print('Time elapsed:', datetime.datetime.now() - start_time)

Fitting 5 folds for each of 10 candidates, totalling 50 fits


[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed:  1.6min
[Parallel(n_jobs=-1)]: Done  50 out of  50 | elapsed:  1.8min finished


('Time elapsed:', datetime.timedelta(0, 111, 945000))


In [47]:
print "best C: ", l2_grid.best_params_

best C:  {'C': 0.10000000000000001}


In [49]:
# измеряем качество
print "roc_auc: ", roc_auc_score(Y, l2_grid.predict_proba(X_scale)[:,1])

 roc_auc:  0.718246615054


In [50]:
scores = cross_val_score(l2, X_scale, Y, cv=kf, scoring="roc_auc")
scores

array([ 0.7151817 ,  0.71623508,  0.71631005,  0.71827989,  0.71886808])

In [51]:
# От удаления столбцов с категириальными переменными качество практически не поменялось

In [82]:
# Загружаем опять датасет и отбираем различные индентификаторы героев
X = features[features_test.columns]
X = X.fillna(X.mean())


In [83]:
hr = X[[ "r1_hero", "r2_hero", "r3_hero", "r4_hero", "r5_hero", "d1_hero", 
 "d2_hero", "d3_hero", "d4_hero", "d5_hero"]]

In [84]:
lst= []
for column in hr.columns:
    lst.extend(hr[column].unique())

In [85]:
# всего в игре существует от 1 до 113 индентификаторов
set(lst)

{1,
 2,
 3,
 4,
 5,
 6,
 7,
 8,
 9,
 10,
 11,
 12,
 13,
 14,
 15,
 16,
 17,
 18,
 19,
 20,
 21,
 22,
 23,
 25,
 26,
 27,
 28,
 29,
 30,
 31,
 32,
 33,
 34,
 35,
 36,
 37,
 38,
 39,
 40,
 41,
 42,
 43,
 44,
 45,
 46,
 47,
 48,
 49,
 50,
 51,
 52,
 53,
 54,
 55,
 56,
 57,
 58,
 59,
 60,
 61,
 62,
 63,
 64,
 65,
 66,
 67,
 68,
 69,
 70,
 71,
 72,
 73,
 74,
 75,
 76,
 77,
 78,
 79,
 80,
 81,
 82,
 83,
 84,
 85,
 86,
 87,
 88,
 89,
 90,
 91,
 92,
 93,
 94,
 95,
 96,
 97,
 98,
 99,
 100,
 101,
 102,
 103,
 104,
 105,
 106,
 109,
 110,
 112}

In [86]:
# N — количество различных героев в выборке
X_pick = np.zeros((X.shape[0], 113))

for i, match_id in enumerate(X.index):
    for p in xrange(5):
        X_pick[i, X.ix[match_id, 'r%d_hero' % (p+1)]-1] = 1
        X_pick[i, X.ix[match_id, 'd%d_hero' % (p+1)]-1] = -1

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate_ix
  


In [87]:
X_scale = preprocessing.scale(X)

In [88]:
# Создаем новый датасет с дополительными фичами (113)
X_new = np.hstack((preprocessing.scale(X_scale),X_pick))

In [89]:
# инициализируем параметры
params = {'C': np.linspace(0.1,1,10)}
l2 = LogisticRegression()


In [90]:
# инициализируем сетку для перебора параметров
l2_grid = GridSearchCV(l2, params, cv=5, n_jobs=-1, verbose=True)

In [93]:
# перебираем параметр C
start_time = datetime.datetime.now()
l2_grid.fit(X_new, Y)
print('Time elapsed:', datetime.datetime.now() - start_time)


Fitting 5 folds for each of 10 candidates, totalling 50 fits


[Parallel(n_jobs=-1)]: Done  42 tasks      | elapsed:  4.4min
[Parallel(n_jobs=-1)]: Done  50 out of  50 | elapsed:  5.1min finished


('Time elapsed:', datetime.timedelta(0, 317, 306000))


In [94]:
print "best C: ", l2_grid.best_params_

best C:  {'C': 0.59999999999999998}


In [95]:
# измеряем качество
print "roc_auc: ", roc_auc_score(Y, l2_grid.predict_proba(X_new)[:,1])

roc_auc:  0.754613764452


In [96]:
scores = cross_val_score(l2, X_new, Y, cv=kf, scoring="roc_auc")
scores

array([ 0.74959876,  0.75289552,  0.74927886,  0.75667235,  0.75169591])

In [97]:
# лучшей моделью по кроссвалидации оказалась логрегрессия с доплнительными фичами и скалингом. На нем и получим предсказанияок

In [98]:
proba = l2_grid.predict_proba(X_new)[:,1]

In [99]:
print "максимальное значение вероятности :", proba.max()
print "минимальное значение вероятности :", proba.min()

максимальное значение вероятности : 0.99886755385
минимальное значение вероятности : 0.00137315772508
