# Финальное задание по анализу данных из Dota2

In [1]:
import pandas as pd
import numpy as np

X = features = pd.read_csv('./features.csv', index_col='match_id')
y = target = features[u'radiant_win']

del features[u'duration'],features[u'radiant_win'], features[u'tower_status_radiant']
del features[u'tower_status_dire'],features[u'barracks_status_radiant'], features[u'barracks_status_dire']

str_num,col_num = features.shape
col_names = features.columns

### Подход 1: градиентный бустинг "в лоб"
Выведем столбцы с пропусками и сразу же заполним пропущенные элементы

In [2]:
for name in col_names:
    num = features[name].count()
    if num < str_num:
        features[name] = features[name].fillna(value = 0)
        print('%d Null elements in column %s') %(str_num - num, name)

19553 Null elements in column first_blood_time
19553 Null elements in column first_blood_team
19553 Null elements in column first_blood_player1
43987 Null elements in column first_blood_player2
15691 Null elements in column radiant_bottle_time
692 Null elements in column radiant_courier_time
27479 Null elements in column radiant_flying_courier_time
1836 Null elements in column radiant_first_ward_time
16143 Null elements in column dire_bottle_time
676 Null elements in column dire_courier_time
26098 Null elements in column dire_flying_courier_time
1826 Null elements in column dire_first_ward_time


#### Какие признаки имеют пропуски среди своих значений? Что могут означать пропуски в этих признаках (ответьте на этот вопрос для двух любых признаков)?
Пропущенные значения в столбцах признаков события first_blood_time, first_blood_team, first_blood_player1 скорее всего связаны с тем, что за первые 5 минут события не произошло. В столбце first_blood_player2 нулевых значений гораздо больше, наверно оно используется, если событие происходит одновременно, а это бывает редко. 
Аналогично столбцы признаков команд.
#### Как называется столбец, содержащий целевую переменную?
Целевой столбец radiant_win. 

In [4]:
import sklearn.cross_validation as cross_val
from sklearn.ensemble import GradientBoostingClassifier
from sklearn import grid_search
import time, datetime

cv = cross_val.KFold(len(features),n_folds=5, shuffle=True)
for n_estimator in [10,20,30]:
    GBC = GradientBoostingClassifier(n_estimators=n_estimator)
    start_time = datetime.datetime.now()
    score = cross_val.cross_val_score(GBC, features, target, cv = cv, scoring='roc_auc').mean()
    print 'Time elapsed:', datetime.datetime.now() - start_time
    print ('trees number = %d, score = %f') % (n_estimator, score)

Time elapsed: 0:01:49.062409
trees number = 10, score = 0.664641
Time elapsed: 0:03:38.642305
trees number = 20, score = 0.681212
Time elapsed: 0:05:05.655119
trees number = 30, score = 0.688616


#### Как долго проводилась кросс-валидация для градиентного бустинга с 30 деревьями? Инструкцию по измерению времени можно найти ниже по тексту. Какое качество при этом получилось? 
Обучение по 30 деревьям шло 3 минуты 48 секунд, при этом качество оказалось 69%, что на 1% процент больше, чем при использовании 20 деревьев, а время время обучение увеличилось примерно на 50%.
#### Имеет ли смысл использовать больше 30 деревьев в градиентном бустинге? Что бы вы предложили делать, чтобы ускорить его обучение при увеличении количества деревьев?
В данном случае увеличение времени обучения не критичное, поэтому возможно имеет смысл использовать 30 деревьев. 
Для ускорения обучения можно, например, сократить количество признаков при помощи метода главных компонент.  

### Подход 2: логистическая регрессия

In [5]:
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import roc_auc_score

X = StandardScaler().fit_transform(features)

for reg in np.arange(0.005,0.01,0.001):
    LR = LogisticRegression(penalty = 'l2', C = reg)
    start_time = datetime.datetime.now()
    predict = cross_val.cross_val_predict(LR, X, target, cv = cv)
    score = roc_auc_score(target,predict)
    print 'Time elapsed:', datetime.datetime.now() - start_time
    print ('regularization strength = %f, score = %f') % (reg, score)

Time elapsed: 0:00:23.111543
regularization strength = 0.005000, score = 0.653996
Time elapsed: 0:00:23.544226
regularization strength = 0.006000, score = 0.653948
Time elapsed: 0:00:20.906021
regularization strength = 0.007000, score = 0.653925
Time elapsed: 0:00:24.493259
regularization strength = 0.008000, score = 0.653905
Time elapsed: 0:00:27.264751
regularization strength = 0.009000, score = 0.653884


#### Какое качество получилось у логистической регрессии над всеми исходными признаками? Как оно соотносится с качеством градиентного бустинга? Чем вы можете объяснить эту разницу? Быстрее ли работает логистическая регрессия по сравнению с градиентным бустингом?
Максимальное качество логистической регрессии над всеми признаками получилось 65%, это на 4% меньше, чем показатель градиентного бустинга. Скорость работы логистической регрессии в разы быстрее, чем у градиентного бустинга.

Объяснить разницу

In [7]:
X = features
del X[u'lobby_type'],X[u'r1_hero'],X[u'r2_hero'],X[u'r3_hero'],X[u'r4_hero'],X[u'r5_hero']
del X[u'd1_hero'],X[u'd2_hero'],X[u'd3_hero'],X[u'd4_hero'],X[u'd5_hero']
X = StandardScaler().fit_transform(X)

In [13]:
for reg in np.arange(0.01,1.0,0.1):#0.31-1.0 best score = 0.654247
    LR = LogisticRegression(penalty = 'l2', C = reg)
    start_time = datetime.datetime.now()
    predict = cross_val.cross_val_predict(LR, X, target, cv = cv)
    score = roc_auc_score(target,predict)
    print 'Time elapsed:', datetime.datetime.now() - start_time
    print ('regularization strength = %f, score = %f') % (reg, score)

Time elapsed: 0:00:16.874939
regularization strength = 0.010000, score = 0.653935
Time elapsed: 0:00:18.756939
regularization strength = 0.110000, score = 0.654194
Time elapsed: 0:00:19.481813
regularization strength = 0.210000, score = 0.654246
Time elapsed: 0:00:15.631732
regularization strength = 0.310000, score = 0.654247
Time elapsed: 0:00:24.950345
regularization strength = 0.410000, score = 0.654247
Time elapsed: 0:00:15.203889
regularization strength = 0.510000, score = 0.654257
Time elapsed: 0:00:16.006301
regularization strength = 0.610000, score = 0.654257
Time elapsed: 0:00:15.067789
regularization strength = 0.710000, score = 0.654247
Time elapsed: 0:00:15.760332
regularization strength = 0.810000, score = 0.654247
Time elapsed: 0:00:17.206616
regularization strength = 0.910000, score = 0.654247
