# Финальное задание

[Dota 2](https://ru.wikipedia.org/wiki/Dota_2) — многопользовательская компьютерная игра жанра [MOBA](https://ru.wikipedia.org/wiki/MOBA). Игроки играют между собой матчи. В каждом матче участвует две команды, 5 человек в каждой. Одна команда играет за светлую сторону (The Radiant), другая — за тёмную (The Dire). Цель каждой команды — уничтожить главное здание базы противника (трон).


## Задача: предсказание победы по данным о первых 5 минутах игры

По первым 5 минутам игры предсказать, какая из команд победит: Radiant или Dire?

In [1]:
import pandas as pd
import numpy as np
import scipy as sp

## Решение задания

## Препроцессинг данных

### 1.Читаем данные из файла

In [2]:
features = pd.read_csv('./features.csv')
features_check = pd.read_csv('./features_test.csv')
features.head()

Unnamed: 0,match_id,start_time,lobby_type,r1_hero,r1_level,r1_xp,r1_gold,r1_lh,r1_kills,r1_deaths,...,dire_boots_count,dire_ward_observer_count,dire_ward_sentry_count,dire_first_ward_time,duration,radiant_win,tower_status_radiant,tower_status_dire,barracks_status_radiant,barracks_status_dire
0,0,1430198770,7,11,5,2098,1489,20,0,0,...,4,2,2,-52,2874,1,1796,0,51,0
1,1,1430220345,0,42,4,1188,1033,9,0,1,...,4,3,1,-5,2463,1,1974,0,63,1
2,2,1430227081,7,33,4,1319,1270,22,0,0,...,4,3,1,13,2130,0,0,1830,0,63
3,3,1430263531,1,29,4,1779,1056,14,0,0,...,4,2,0,27,1459,0,1920,2047,50,63
4,4,1430282290,7,13,4,1431,1090,8,1,0,...,3,3,0,-16,2449,0,4,1974,3,63


#### Формируем вектор, релевантных для классификации столбцов 

ID матча и время начала у каждого матча свои и зависимости между ними нет, поэтому их нельзя использовать для классификации. Также мы удаляем данные, не содержащиеся в контрольной выборке, так как использовать мы их тоже не сможем

In [3]:
name_vector = features_check.columns[2:]

### 2. Находим пропуски в данных

Для каждого столбца рассчитываем и выводим количество нулевых значений   
**Ответ на вопрос1: Какие признаки имеют пропуски среди своих значений?**

In [4]:
len(features) - features.count()[features.count() < len(features)]

first_blood_time               19553
first_blood_team               19553
first_blood_player1            19553
first_blood_player2            43987
radiant_bottle_time            15691
radiant_courier_time             692
radiant_flying_courier_time    27479
radiant_first_ward_time         1836
dire_bottle_time               16143
dire_courier_time                676
dire_flying_courier_time       26098
dire_first_ward_time            1826
dtype: int64

**Ответ на вопрос 1: Что могут означать пропуски в этих признаках?**   
Как мы видим столбы с отсутствующими значениями связаны исключительно с событиями матча, которые могли не произойти в первые пять минут матча. Для примера в случае, если в первые пять минут не было убито ни одного игрока, столбцы *first_blood_time, first_blood_team, first_blood_player1, first_blood_player2* будут пустыми; или, другой пример, если первое убийство произошло соло, будет пропуск только в столбце *first_blood_player2*.

Анализируем данные для контрольной выборки

In [6]:
len(features_check) - features_check.count()[features_check.count() < len(features_check)]

first_blood_time               3552
first_blood_team               3552
first_blood_player1            3552
first_blood_player2            7766
radiant_bottle_time            2895
radiant_courier_time            127
radiant_flying_courier_time    4885
radiant_first_ward_time         330
dire_bottle_time               2842
dire_courier_time               130
dire_flying_courier_time       4524
dire_first_ward_time            263
dtype: int64

### 3. Заполняем пропуски в данных значением 0 (ноль)

In [7]:
features=features.fillna(0)

In [8]:
features_check=features_check.fillna(0)

### 4. Целевая переменная

**Ответ на вопрос 2: Как называется столбец, содержащий целевую переменную?**   
Столбец содержащий, целевую переменную называется 'radiant_win', который принимает значение 1, если выиграла команда The Radiant и 0, если выиграла команда The Dire. (Ответ на вопрос: Как называется столбец, содержащий целевую переменную?) 

Выделяем столбец в отдельный вектор y:

In [9]:
y = features['radiant_win']

### 5. Делим обучающие данные на обучающие и валидационные

In [10]:
from sklearn.cross_validation import train_test_split

In [11]:
X_train, X_test, y_train, y_test = train_test_split(
...     features[name_vector], y, test_size=0.2, random_state=1)

## Подход 1. Градиентный бустинг "в лоб"

In [78]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.metrics import roc_auc_score
from sklearn.cross_validation import KFold
from sklearn.cross_validation import cross_val_score
import sklearn.grid_search as grid_search

In [79]:
kf = KFold(len(X_train), n_folds=5, shuffle=True, random_state=42)

In [15]:
num_trees=[10,20,30]

In [16]:
import time
import datetime

In [17]:
max_acc=0
max_i=0
for i in num_trees:
    modelGB = GradientBoostingClassifier(n_estimators=i, verbose=False, random_state=241, learning_rate=0.3)
    start_time = datetime.datetime.now()
    acc=cross_val_score(modelGB, X_train, y_train, cv=kf, scoring='roc_auc').mean();
    print i
    print acc
    print 'Time elapsed:', datetime.datetime.now() - start_time
    if max_acc<acc:
        max_acc=acc;
        max_i=i
print 'Максимальная точность', max_acc
print 'Итерация', max_i

10
0.678547091364
Time elapsed: 0:00:17.880000
20
0.691687181224
Time elapsed: 0:00:32.172000
30
0.697597555286
Time elapsed: 0:00:44.550000
Максимальная точность 0.697597555286
Итерация 30


 **Ответы на вопрос 3:**
 - Как долго проводилась кросс-валидация для градиентного бустинга с 30 деревьями?
         - 1 минута (офисный ноутбук)
 - Какое качество при этом получилось? 
         - 0.7

**Ответ на вопрос 4:**
- Имеет ли смысл использовать более чем 30 деревьев? 
      - да, при увеличении числа деревьев с 10 до 30 точность растет, необходимо проверить большие значения деревьев
      - также ответ зависит от вариаций других параметров: *learning rate, max_depth, min_samples_leaf*, в большинстве случаев необходимо решать оптимизационную задачу с этими параметрами, например с помощью GridSearchCV. Также для задачи с таким количеством объектов и признаков имеет смысл использовать специализированные вычислительные мощности, например инстансы в AWS
- Что бы вы предложили делать, чтобы ускорить его обучение при увеличении количества деревьев? 
      - Ограничить глубину дерева: max_depth = 3
      - Использовать параметры ранней остановки: например,min_samples_leaf = 10000 (если в узле менее 10000 объектов -  ветвление не производится)

## Подход 2. Логистическая регрессия

In [19]:
from sklearn.linear_model import LogisticRegression

In [20]:
#model2 = LogisticRegression(C=0.01, penalty='l1', tol=0.001, random_state=142)
model2 = LogisticRegression(random_state=142)
model2.fit(X_train,y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr',
          penalty='l2', random_state=142, solver='liblinear', tol=0.0001,
          verbose=0)

**Вопрос 1. Какое качество получилось у логистической регрессии над всеми исходными признаками? Как оно соотносится с качеством градиентного бустинга? Чем можно объяснить эту разницу? Быстрее ли работает логистическая регрессия по сравнению с градиентным бустингом?**

In [21]:
pred1 = model2.predict_proba(X_test)[:,1]
print roc_auc_score(y_test, pred1)

0.711471683456


**Ответы**:
- качество у логистической регрессии над всеми признаками с параметрами по умолчанию получилось сравнимым с градиентым бустингов с n_estimators > 100. Схожесть результатов можно объяснить тем, что использовались одни и те же данные, регуляризация параметров не проводилась. Для увеличения точности обоих алгоритмов имеет смысл провести работу с признаками (feature engineering)
- скорость работы логистической регрессии значительно больше, чем у градиентного бустинга с n_estimators > 100

**Вопрос 2. Как влияет на качество логистической регрессии удаление категориальных признаков (укажите новое значение метрики качества)? Чем вы можете объяснить это изменение?**

Составим вектор наименований категориальных признаков - героев

In [22]:
h=list()
for j in ['r','d']:  
    for i in xrange(5):
        index=[j+str(i+1)+'_hero']
        h = h+index

In [27]:
no_heroes = filter(lambda x: x not in h, name_vector)

In [29]:
model2.fit(X_train[no_heroes],y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr',
          penalty='l2', random_state=142, solver='liblinear', tol=0.0001,
          verbose=0)

In [32]:
pred1 = model2.predict_proba(X_test[no_heroes])[:,1]
print roc_auc_score(y_test, pred1)

0.711546816054


На качество логистической регрессии удаление категориальных признаков не влияет. Почему?

**Вопрос 3. Сколько различных идентификаторов героев существует в данной игре?**

In [33]:
num_heroes = np.unique(features[h].values)

In [36]:
len(num_heroes)

108

In [34]:
N=max(num_heroes)
N

112

**Вопрос 4. Какое получилось качество при добавлении "мешка слов" по героям? Улучшилось ли оно по сравнению с предыдущим вариантом? Чем вы можете это объяснить?**

In [47]:
# N — количество различных героев в выборке
def bag_of_heroes(features, N):
    X_pick = np.zeros((features.shape[0], N))

    for i, match_id in enumerate(features.index):
        for p in xrange(5):
            X_pick[i, features.ix[match_id, 'r%d_hero' % (p+1)]-1] = 1
            X_pick[i, features.ix[match_id, 'd%d_hero' % (p+1)]-1] = -1
    return X_pick

In [51]:
data=np.hstack([X_train[no_heroes],bag_of_heroes(X_train, N)])

In [83]:
data.shape

(77784L, 203L)

In [60]:
model2.fit(data,y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr',
          penalty='l2', random_state=142, solver='liblinear', tol=0.0001,
          verbose=0)

In [61]:
data_test=np.hstack([X_test[no_heroes],bag_of_heroes(X_test, N)])

In [71]:
pred1 = model2.predict_proba(data_test)[:,1]
print roc_auc_score(y_test, pred1)

0.750749258377


Точность значительно увеличилась. Объяснить почему

** Вопрос 5. Какое минимальное и максимальное значение прогноза на тестовой выборке получилось у лучшего из алгоритмов?**


In [86]:
grid = {'C': np.power(10.0, np.arange(-5, 6))}
cv = KFold(y_train.size, n_folds=5, shuffle=True, random_state=142)
clf = LogisticRegression(random_state=142)
gs = grid_search.GridSearchCV(clf, grid, scoring='roc_auc', cv=cv)

In [None]:
gs.fit(data, y_train)

In [None]:
gs.grid_scores_