# Финальное задание

## Предметная область: Игра Dota 2

[Dota 2](https://ru.wikipedia.org/wiki/Dota_2) — многопользовательская компьютерная игра жанра [MOBA](https://ru.wikipedia.org/wiki/MOBA). Игроки играют между собой матчи. В каждом матче участвует две команды, 5 человек в каждой. Одна команда играет за светлую сторону (The Radiant), другая — за тёмную (The Dire). Цель каждой команды — уничтожить главное здание базы противника (трон).

Существуют [разные режимы игры](http://dota2.gamepedia.com/Game_modes/ru), мы будем рассматривать режим [Captain's Mode](http://dota2.gamepedia.com/Game_modes/ru#Captain.27s_Mode), в формате которого происходит большая часть киберспортивных мероприятий по Dota 2.

### Как проходит матч

#### 1. Игроки выбирают героев

Всего в игре чуть более 100 различных героев (персонажей). В начале игры, команды в определенном порядке выбирают героев себе и запрещают выбирать определенных героев противнику (баны). Каждый игрок будет управлять одним героем, в рамках одного матча не может быть несколько одинаковых героев.  Герои различаются между собой своими характеристиками и способностями. От комбинации выбранных героев во многом зависит успех команды.

![](http://imgur.com/XFr4HYE.jpg)

#### 2. Основная часть

Игроки могут получать золото и опыт за убийство чужих героев или прочих юнитов. Накопленный опыт влияет на уровень героя, который в свою очередь позволяет улучшать способности. За накопленное золото игроки покупают предметы, которые улучшают характеристики героев или дают им новые способности.

После смерти герой отправляется в "таверну" и возрождается только по прошествии некоторого времени, таким образом команда на некоторое время теряет игрока, однако игрок может досрочно выкупить героя из таверны за определенную сумму золота.

В течение игры команды развивают своих героев, обороняют свою часть поля и нападают на вражескую.

![](http://imgur.com/5b0SlQb.jpg)

#### 3. Конец игры

Игра заканчивается, когда одна из команд разрушет определенное число "башен" противника и уничтожает трон.

![](http://imgur.com/Du79Kzf.jpg)

## Задача: предсказание победы по данным о первых 5 минутах игры

По первым 5 минутам игры предсказать, какая из команд победит: Radiant или Dire?

## Набор данных

Набор данных с матчами записан в файле `matches.jsonlines.bz2`.
В каталоге `dictionaries` приведены расшифровки идентификаторов, которые присутствуют в записях матчей.

#### Чтение информации о матчах

Информация о матчах записана в сжатом текстовом файле `matches.jsonlines.bz2`, каждая строчка которого содержит объект в формате [JSON](https://ru.wikipedia.org/wiki/JSON). Запись в формате JSON преобразуется в python-объект при помощи стандартного модуля `json`. Пример чтения матчей:

In [5]:
import json
import bz2

with bz2.BZ2File('./matches.jsonlines.bz2') as matches_file:
    for line in matches_file:
        match = json.loads(line)
        
        # Обработка матча
        break

#### Описание полей в записи матча

```python
{
    "match_id": 247,            # идентификатор матча
    "start_time": 1430514316,   # дата/время начала матча, unixtime
    "lobby_type": 0,            # тип комнаты, в которой собираются игроки 
                                #   (расшифровка в dictionaries/lobbies.csv)
 
    # стадия выбора героев
    "picks_bans": [
        {
            "order": 0,       # порядковый номер действия
            "is_pick": false, # true если команда выбирает героя, false — если банит
            "team": 1,        # команда, совершающая действие (0 — Radiant, 1 — Dire)
            "hero_id": 95     # герой, связанный с действием 
                              #    (расшифровка в dictionaries/heroes.csv)
        }, 
        ...
    ],

    # информация про каждого игрока, список ровно из 10 элементов
    # игроки с индексами от 0 до 4 — из команды Radiant, от 5 до 9 — Dire
    "players": [ 
        { 
        
            # герой игрока (расшифровка в dictionaries/heroes.csv)
            "hero_id": 67,  

            # временные ряды (отсчеты указаны в поле "times")
            "xp_t": [0, 13, 115, 177, 335, ...],   # опыт
            "gold_t": [0, 99, 243, 343, 499, ...], # золото + стоимость всех купленных вещей (net worth)
            "lh_t": [0, 0, 2, 2, 2, ...],          # количество убитых юнитов (не героев) противника

            # список событий: улучшение способностей героя
            "ability_upgrades": [
                {
                    "time": 51,      # игровое время
                    "level": 1,      # уровень игрока, на котором произошло улучшение
                    "ability": 5334  # способность, которая была улучшена 
                                     # (расшифровка в dictionaries/abilities.csv)
                }, 
                ...
            ],

            # список событий: убийства
            "kills_log": [
                {
                    "time": 831,    # игровое время
                    "player": 7,    # индекс игрока, чей герой был убит 
                                    #   (не заполнено, если был убит не герой)
                    "unit": "npc_dota_hero_viper" # тип убитого юнита
                }, 
                ...
            ],

            # список событий: покупка предметов
            "purchase_log": [
                {
                    "time": -73,     # игровое время
                                     #   точка отсчета игрового времени (ноль) начинается через
                                     #   несколько минут после фактического начала матча, поэтому
                                     #   время некоторых событий может быть отрицательным
                    "item_id": 44    # купленный предмер (расшифровка в dictionaries/items.csv)
                }, 
                ...
            ]

            # список событий: выкуп героя из таверны
            "buyback_log": [
                {"time": 2507},
                ...
            ],

            # список событий: установка героем "наблюдателей", позволяющих команде 
            # следить за чатью игрового поля на некотором расстоянии от точки установки
            "obs_log": [
                {
                    "time": 1711,    # игровое время установки
                    "xy": [111, 130] # координаты игрового поля
                }, 
                ...
            ],
            "sen_log": [], # аналогично полю obs_log, другой тип "наблюдателя"

        },
        ...
    ],
    
    # отсчеты игрового времени, в которые вычисляются значения временных рядов
    "times": [0, 60, 120, 180, ...],

    # ключевые события игры
    "objectives": [
        {
            "time": 198,           # время события
            "type": "firstblood",  # тип события
            "player1": 6,          # параметры события, могут содержать
            "player2": 1           #   индексы игроков (player), 
                                   #   номер команды (team, 0 — Radiant, 1 — Dire)
        }, 
        {
            "time": 765, 
            "type": "tower_kill", 
            "player": 7, 
            "team": 1
        }, 
        ...
    ]
    
    # итог матча (отсутствует в тестовых матчах)
    "finish": {
        "duration": 2980,             # длительность в секундах
        "radiant_win": false,         # true, если победила команда Radiant
        "tower_status_radiant": 0,    # состояние башен у команд к концу игры
        "tower_status_dire": 1972,    #   (см. описание битовой маски)
        "barracks_status_dire": 63,   # состояние бараков у команд к концу игры
        "barracks_status_radiant": 0  #   (см. описание битовой маски)
    }
}
```

#### Описание полей состояния башен и бараков

Состояние башен к концу игры задается целым числом, закодировано в битах:

```
┌─┬─┬─┬─┬─────────────────────── Not used.
│ │ │ │ │ ┌───────────────────── Ancient Bottom
│ │ │ │ │ │ ┌─────────────────── Ancient Top
│ │ │ │ │ │ │ ┌───────────────── Bottom Tier 3
│ │ │ │ │ │ │ │ ┌─────────────── Bottom Tier 2
│ │ │ │ │ │ │ │ │ ┌───────────── Bottom Tier 1
│ │ │ │ │ │ │ │ │ │ ┌─────────── Middle Tier 3
│ │ │ │ │ │ │ │ │ │ │ ┌───────── Middle Tier 2
│ │ │ │ │ │ │ │ │ │ │ │ ┌─────── Middle Tier 1
│ │ │ │ │ │ │ │ │ │ │ │ │ ┌───── Top Tier 3
│ │ │ │ │ │ │ │ │ │ │ │ │ │ ┌─── Top Tier 2
│ │ │ │ │ │ │ │ │ │ │ │ │ │ │ ┌─ Top Tier 1
│ │ │ │ │ │ │ │ │ │ │ │ │ │ │ │
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
```

Состояние бараков к концу игры закодировано в битах целого числа:

```
┌─┬───────────── Not used.
│ │ ┌─────────── Bottom Ranged
│ │ │ ┌───────── Bottom Melee
│ │ │ │ ┌─────── Middle Ranged
│ │ │ │ │ ┌───── Middle Melee
│ │ │ │ │ │ ┌─── Top Ranged
│ │ │ │ │ │ │ ┌─ Top Melee
│ │ │ │ │ │ │ │
0 0 0 0 0 0 0 0
```

## Извлечение признаков

Скрипт extract_features.py производит извлечение признаков из известной информации о матче за первые 5 игровых минут, составляет из них таблицу. Таблица поможет вам быстрее сформировать матрицу объект-признак, вектор ответов и начать применять методы машинного обучения для решения поставленной задачи.

Признаки, представленные в таблице `features.csv`, по мнению экспертов в предметной области являются наиболее важными для решения задачи предсказания победы команды. Тем не менее, не обязательно использовать эти признаки в исходном виде для применения методов машинного обучения — вы можете сделать новые признаки из имеющихся. Более того, признаки в файле `features.csv` содержат не всю информацию, известную про матч за первые 5 игровых минут. Вы можете использовать скрипт `extract_features.py` как пример и добавлять свои признаки для улучшения качества предсказания.

#### Пример чтения файла с признаками

In [2]:
import pandas 
features = pandas.read_csv('./features.csv', index_col='match_id')

features.head()

Unnamed: 0_level_0,start_time,lobby_type,r1_hero,r1_level,r1_xp,r1_gold,r1_lh,r1_kills,r1_deaths,r1_items,...,dire_boots_count,dire_ward_observer_count,dire_ward_sentry_count,dire_first_ward_time,duration,radiant_win,tower_status_radiant,tower_status_dire,barracks_status_radiant,barracks_status_dire
match_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0,1430198770,7,11,5,2098,1489,20,0,0,7,...,4,2,2,-52.0,2874,1,1796,0,51,0
1,1430220345,0,42,4,1188,1033,9,0,1,12,...,4,3,1,-5.0,2463,1,1974,0,63,1
2,1430227081,7,33,4,1319,1270,22,0,0,12,...,4,3,1,13.0,2130,0,0,1830,0,63
3,1430263531,1,29,4,1779,1056,14,0,0,5,...,4,2,0,27.0,1459,0,1920,2047,50,63
4,1430282290,7,13,4,1431,1090,8,1,0,8,...,3,3,0,-16.0,2449,0,4,1974,3,63


#### Описание признаков в таблице

- `match_id`: идентификатор матча в наборе данных
- `start_time`: время начала матча (unixtime)
- `lobby_type`: тип комнаты, в которой собираются игроки (расшифровка в `dictionaries/lobbies.csv`)
- Наборы признаков для каждого игрока (игроки команды Radiant — префикс `rN`, Dire — `dN`):
    - `r1_hero`: герой игрока (расшифровка в dictionaries/heroes.csv)
    - `r1_level`: максимальный достигнутый уровень героя (за первые 5 игровых минут)
    - `r1_xp`: максимальный полученный опыт
    - `r1_gold`: достигнутая ценность героя
    - `r1_lh`: число убитых юнитов
    - `r1_kills`: число убитых игроков
    - `r1_deaths`: число смертей героя
    - `r1_items`: число купленных предметов
- Признаки события "первая кровь" (first blood). Если событие "первая кровь" не успело произойти за первые 5 минут, то признаки принимают пропущенное значение
    - `first_blood_time`: игровое время первой крови
    - `first_blood_team`: команда, совершившая первую кровь (0 — Radiant, 1 — Dire)
    - `first_blood_player1`: игрок, причастный к событию
    - `first_blood_player2`: второй игрок, причастный к событию
- Признаки для каждой команды (префиксы `radiant_` и `dire_`)
    - `radiant_bottle_time`: время первого приобретения командой предмета "bottle"
    - `radiant_courier_time`: время приобретения предмета "courier" 
    - `radiant_flying_courier_time`: время приобретения предмета "flying_courier" 
    - `radiant_tpscroll_count`: число предметов "tpscroll" за первые 5 минут
    - `radiant_boots_count`: число предметов "boots"
    - `radiant_ward_observer_count`: число предметов "ward_observer"
    - `radiant_ward_sentry_count`: число предметов "ward_sentry"
    - `radiant_first_ward_time`: время установки командой первого "наблюдателя", т.е. предмета, который позволяет видеть часть игрового поля
- Итог матча (данные поля отсутствуют в тестовой выборке, поскольку содержат информацию, выходящую за пределы первых 5 минут матча)
    - `duration`: длительность
    - `radiant_win`: 1, если победила команда Radiant, 0 — иначе
    - Состояние башен и барраков к концу матча (см. описание полей набора данных)
        - `tower_status_radiant`
        - `tower_status_dire`
        - `barracks_status_radiant`
        - `barracks_status_dire`

## Метрика качества

В качестве метрики качества мы будем использовать площадь под ROC-кривой (AUC-ROC). Обратите внимание, что AUC-ROC — это метрика качества для алгоритма, выдающего оценки принадлежности первому классу. Оба алгоритма, которые будут использоваться в проекте — градиентный бустинг, и логистическая регрессия — умеют выдавать такие оценки. Для этого нужно получать предсказания с помощью функции predict_proba. Она возвращает два столбца: первый содержит оценки принадлежности нулевому классу, второй — первому классу. Вам нужны значения из второго столбца:
```python
pred = clf.predict_proba(X_test)[:, 1]
```

## Руководство по решению

Вам необходимо провести описанные ниже два этапа исследования, написать по результатам каждого этапа небольшой отчет (ниже указаны вопросы, ответы на которые должны содержаться в отчете), и предоставить для ревью данный отчет и код, с помощью которого вы выполнили задание.

**Обратите внимание:** высокое качество работы на кросс-валидации (близкое к 100%) — это в первую очередь повод задуматься о том, правильно ли вы обучаете модель. Возможно, вы заглядываете в будущее или настраиваетесь на неправильном наборе признаков.

### Подход 1: градиентный бустинг "в лоб"
Один из самых универсальных алгоритмов, изученных в нашем курсе, является градиентный бустинг. Он не очень требователен к данным, восстанавливает нелинейные зависимости, и хорошо работает на многих наборах данных, что и обуславливает его популярность. Вполне разумной мыслью будет попробовать именно его в первую очередь.

1. Считайте таблицу с признаками из файла features.csv с помощью кода, приведенного выше. Удалите признаки, связанные с итогами матча (они помечены в описании данных как отсутствующие в тестовой выборке).
2. Проверьте выборку на наличие пропусков с помощью функции count(), которая для каждого столбца показывает число заполненных значений. Много ли пропусков в данных? Запишите названия признаков, имеющих пропуски, и попробуйте для любых двух из них дать обоснование, почему их значения могут быть пропущены.
3. Замените пропуски на нули с помощью функции fillna(). На самом деле этот способ является предпочтительным для логистической регрессии, поскольку он позволит пропущенному значению не вносить никакого вклада в предсказание. Для деревьев часто лучшим вариантом оказывается замена пропуска на очень большое или очень маленькое значение — в этом случае при построении разбиения вершины можно будет отправить объекты с пропусками в отдельную ветвь дерева. Также есть и другие подходы — например, замена пропуска на среднее значение признака. Мы не требуем этого в задании, но при желании попробуйте разные подходы к обработке пропусков и сравните их между собой.
3. Какой столбец содержит целевую переменную? Запишите его название.
4. Забудем, что в выборке есть категориальные признаки, и попробуем обучить градиентный бустинг над деревьями на имеющейся матрице "объекты-признаки". Зафиксируйте генератор разбиений для кросс-валидации по 5 блокам (KFold), не забудьте перемешать при этом выборку (shuffle=True), поскольку данные в таблице отсортированы по времени, и без перемешивания можно столкнуться с нежелательными эффектами при оценивании качества. Оцените качество градиентного бустинга (GradientBoostingClassifier) с помощью данной кросс-валидации, попробуйте при этом разное количество деревьев (как минимум протестируйте следующие значения для количества деревьев: 10, 20, 30). Долго ли настраивались классификаторы? Достигнут ли оптимум на испытанных значениях параметра n_estimators, или же качество, скорее всего, продолжит расти при дальнейшем его увеличении?

##### Что указать в отчете
В отчете по данному этапу вы должны ответить на следующие вопросы:
1. Какие признаки имеют пропуски среди своих значений? Что могут означать пропуски в этих признаках (ответьте на этот вопрос для двух любых признаков)?
2. Как называется столбец, содержащий целевую переменную?
3. Как долго проводилась кросс-валидация для градиентного бустинга с 30 деревьями? Инструкцию по измерению времени можно найти ниже по тексту. Какое качество при этом получилось? Напомним, что в данном задании мы используем метрику качества AUC-ROC.
4. Имеет ли смысл использовать больше 30 деревьев в градиентном бустинге? Что бы вы предложили делать, чтобы ускорить его обучение при увеличении количества деревьев?


##### Рекомендации и советы

- Если все работает очень медлено:
   - Используйте для обучения и кросс-валидации не всю выборку, а некоторое ее подмножество — например, половину объектов. Подмножество лучше всего брать случайным, а не формировать его из первых m объектов.
   - Попробуйте упростить модель — например, уменьшить глубину деревьев в градиентом бустинге (max_depth).
   
##### Измерение времени работы кода
```python
import time
import datetime

start_time = datetime.datetime.now()

time.sleep(3) # вместо этой строчки разместить замеряемый код

print 'Time elapsed:', datetime.datetime.now() - start_time
```

## Решение

### Шаг 1
Удалите признаки, связанные с итогами матча (они помечены в описании данных как отсутствующие в тестовой выборке).

In [493]:
import pandas
features = pandas.read_csv('./features.csv', index_col='match_id')

### Удаляем **duration, tower_status_radiant, tower_status_dire, barracks_status_radiant, barracks_status_dire**, <br/> а **radiant_win** выделяем в целевую переменную

In [494]:
X = features.iloc[:, :-6]
y = features.iloc[:, -5] # radiant_win

### Шаг 2
Много ли пропусков в данных? Запишите названия признаков, имеющих пропуски, и попробуйте для любых двух из них дать обоснование, почему их значения могут быть пропущены

In [153]:
X.describe()

Unnamed: 0,start_time,lobby_type,r1_hero,r1_level,r1_xp,r1_gold,r1_lh,r1_kills,r1_deaths,r1_items,...,radiant_ward_sentry_count,radiant_first_ward_time,dire_bottle_time,dire_courier_time,dire_flying_courier_time,dire_tpscroll_count,dire_boots_count,dire_ward_observer_count,dire_ward_sentry_count,dire_first_ward_time
count,97230.0,97230.0,97230.0,97230.0,97230.0,97230.0,97230.0,97230.0,97230.0,97230.0,...,97230.0,95394.0,81087.0,96554.0,71132.0,97230.0,97230.0,97230.0,97230.0,95404.0
mean,1444232000.0,2.630999,51.517104,3.442672,1233.405801,1147.899702,11.231996,0.357009,0.362285,8.271315,...,0.71625,-6.875747,127.215028,-80.191893,214.870536,2.965566,3.349553,2.448339,0.689119,-6.901922
std,5515393.0,2.835761,32.564211,1.111741,566.588895,464.111662,9.04162,0.663889,0.626704,2.497575,...,0.725331,39.50865,62.442018,15.26195,34.137158,1.907288,1.155609,0.813459,0.710122,40.701397
min,1430199000.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,-236.0,-45.0,-90.0,180.0,0.0,0.0,0.0,0.0,-84.0
25%,1440815000.0,1.0,22.0,3.0,767.0,746.0,2.0,0.0,0.0,7.0,...,0.0,-31.0,83.0,-86.0,185.0,2.0,3.0,2.0,0.0,-31.0
50%,1446338000.0,1.0,50.0,3.0,1175.0,1113.0,11.0,0.0,0.0,8.0,...,1.0,-15.0,131.0,-84.0,203.0,3.0,3.0,2.0,1.0,-16.0
75%,1448829000.0,7.0,75.0,4.0,1704.0,1479.0,19.0,1.0,1.0,10.0,...,1.0,9.0,165.0,-79.0,238.0,4.0,4.0,3.0,1.0,8.0
max,1450313000.0,7.0,112.0,6.0,3319.0,4332.0,47.0,8.0,5.0,34.0,...,25.0,300.0,300.0,296.0,300.0,21.0,9.0,9.0,13.0,300.0


**Так как длина выборки (len(X)) равна 97230 (и для большинства признаков у нас есть именно 97230 значений), выведем все признаки у которых значений меньше.**

In [495]:
for field, value in X.count().iteritems():
    if (value != 97230):
        print(field, value)

first_blood_time 77677
first_blood_team 77677
first_blood_player1 77677
first_blood_player2 53243
radiant_bottle_time 81539
radiant_courier_time 96538
radiant_flying_courier_time 69751
radiant_first_ward_time 95394
dire_bottle_time 81087
dire_courier_time 96554
dire_flying_courier_time 71132
dire_first_ward_time 95404


### Объяснение пропусков в данных

Такое событие как "первая кровь" просто могло "не успеть" произойти за первые 5 минут. Соответсвенно все связанные с этим событием признаки (**first_blood_time, first_blood_team, first_blood_player1, first_blood_player2**) могут быть пропущены.

Признаки **bottle_time, courier_time, flying_courier_time** (для обоих команд) – это временные отметки первых приобретений командами разных предметов – они, так же, могли не произойти в первые 5 минут.

**first_ward_time** – время установки командой первого "наблюдателя", т.е. предмета, который позволяет видеть часть игрового поля – это так же могло не произойти в первые 5 минут.

### Шаг 3
Замените пропуски на нули с помощью функции fillna()

`
**Сравнить разные методы замены!**
Так как "Замените пропуски на нули с помощью функции fillna(). На самом деле этот способ является предпочтительным для логистической регрессии, поскольку он позволит пропущенному значению не вносить никакого вклада в предсказание. Для деревьев часто лучшим вариантом оказывается замена пропуска на очень большое или очень маленькое значение — в этом случае при построении разбиения вершины можно будет отправить объекты с пропусками в отдельную ветвь дерева. Также есть и другие подходы — например, замена пропуска на среднее значение признака. Мы не требуем этого в задании, но при желании попробуйте разные подходы к обработке пропусков и сравните их между собой."
`

N estimators | zeros | mean | MAX | "smart" | inv "smart" | TIME
:-|:-|:-:|:-:|:-:|:-:|:-:
**10**| 0.6649558681563331| 0.6635333194156015 | 0.6647780915249151 | 0.6647617665735694 | **0.6672066401102352** | 33.445419
**20**| 0.6814950788414773| 0.6829242149793624 | 0.6834380810939771 | 0.6818640354231186 | **0.6840134232351188** | 1:07.740243
**30**| 0.689191650297613 | 0.6890508403322704 | **0.6904314881653921** | 0.6895054917489568 | 0.6903342322631149 | 1:36.066576
**40**| 0.6937108190451439 |  |  |  |  | 2:13.122062
**50**| 0.6974049246815414 |  |  |  |  | 2:49.254025
**100**| 0.7060767478561737 |  | **0.7064713320156679** |  | 0.7060297461364655 | 5:34.729552

In [496]:
# inverted smart
X['first_blood_time'].fillna((X['first_blood_time'].mean()), inplace=True)
X['first_blood_team'].fillna(100**10, inplace=True)
X['first_blood_player1'].fillna(100**10, inplace=True)
X['first_blood_player2'].fillna(100**10, inplace=True)

X['radiant_bottle_time'].fillna((X['radiant_bottle_time'].mean()), inplace=True)
X['radiant_courier_time'].fillna((X['radiant_courier_time'].mean()), inplace=True)
X['radiant_flying_courier_time'].fillna((X['radiant_flying_courier_time'].mean()), inplace=True)
X['radiant_first_ward_time'].fillna((X['radiant_first_ward_time'].mean()), inplace=True)

X['dire_bottle_time'].fillna((X['dire_bottle_time'].mean()), inplace=True)
X['dire_courier_time'].fillna((X['dire_courier_time'].mean()), inplace=True)
X['dire_flying_courier_time'].fillna((X['dire_flying_courier_time'].mean()), inplace=True)
X['dire_first_ward_time'].fillna((X['dire_first_ward_time'].mean()), inplace=True)

for field, value in X.count().iteritems():
    if (value != 97230):
        print(field, value)

### Шаг 5
Обучаем градиентный бустинг

Забудем, что в выборке есть категориальные признаки, и попробуем обучить градиентный бустинг над деревьями на имеющейся матрице "объекты-признаки". Зафиксируйте генератор разбиений для кросс-валидации по 5 блокам (KFold), не забудьте перемешать при этом выборку (shuffle=True), поскольку данные в таблице отсортированы по времени, и без перемешивания можно столкнуться с нежелательными эффектами при оценивании качества. Оцените качество градиентного бустинга (GradientBoostingClassifier) с помощью данной кросс-валидации, попробуйте при этом разное количество деревьев (как минимум протестируйте следующие значения для количества деревьев: 10, 20, 30). Долго ли настраивались классификаторы? Достигнут ли оптимум на испытанных значениях параметра n_estimators, или же качество, скорее всего, продолжит расти при дальнейшем его увеличении?

In [497]:
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import KFold, cross_val_score
from sklearn.metrics import roc_auc_score
import numpy as np
import time
import datetime

In [503]:
for n in [100]:
    run_model(n)

n = 20
mean accuracy = 0.697009988560141
time: 0:02:47.467221


In [504]:
def run_model(n_estimators):
    start_time = datetime.datetime.now()

    cv = KFold(n_splits=5, shuffle=True)
    clf = GradientBoostingClassifier(n_estimators=n_estimators, max_depth=7)

    accuracies = cross_val_score(estimator=clf, X=X, y=y, cv=cv, scoring='roc_auc')
    #accuracies = custom_cross_val(clf, cv, X, y)
    
    print(f'n = {n_estimators}')
    print(f'mean accuracy = {np.mean(accuracies)}')
    
    print('time:', datetime.datetime.now() - start_time)

### Подход 2: логистическая регрессия

Линейные методы работают гораздо быстрее композиций деревьев, поэтому кажется разумным воспользоваться именно ими для ускорения анализа данных. Одним из наиболее распространенных методов для классификации является логистическая регрессия.

**Важно:** не забывайте, что линейные алгоритмы чувствительны к масштабу признаков! Может пригодиться sklearn.preprocessing.StandartScaler.

1. Оцените качество логистической регрессии (sklearn.linear_model.LogisticRegression с L2-регуляризацией) с помощью кросс-валидации по той же схеме, которая использовалась для градиентного бустинга. Подберите при этом лучший параметр регуляризации (C). Какое наилучшее качество у вас получилось? Как оно соотносится с качеством градиентного бустинга? Чем вы можете объяснить эту разницу? Быстрее ли работает логистическая регрессия по сравнению с градиентным бустингом?
2. Среди признаков в выборке есть категориальные, которые мы использовали как числовые, что вряд ли является хорошей идеей. Категориальных признаков в этой задаче одиннадцать: lobby_type и r1_hero, r2_hero, ..., r5_hero, d1_hero, d2_hero, ..., d5_hero. Уберите их из выборки, и проведите кросс-валидацию для логистической регрессии на новой выборке с подбором лучшего параметра регуляризации. Изменилось ли качество? Чем вы можете это объяснить?
3. На предыдущем шаге мы исключили из выборки признаки rM_hero и dM_hero, которые показывают, какие именно герои играли за каждую команду. Это важные признаки — герои имеют разные характеристики, и некоторые из них выигрывают чаще, чем другие. Выясните из данных, сколько различных идентификаторов героев существует в данной игре (вам может пригодиться фукнция unique или value_counts).
4. Воспользуемся подходом "мешок слов" для кодирования информации о героях. Пусть всего в игре имеет N различных героев. Сформируем N признаков, при этом i-й будет равен нулю, если i-й герой не участвовал в матче; единице, если i-й герой играл за команду Radiant; минус единице, если i-й герой играл за команду Dire. Ниже вы можете найти код, который выполняет данной преобразование. Добавьте полученные признаки к числовым, которые вы использовали во втором пункте данного этапа.
5. Проведите кросс-валидацию для логистической регрессии на новой выборке с подбором лучшего параметра регуляризации. Какое получилось качество? Улучшилось ли оно? Чем вы можете это объяснить?
6. Постройте предсказания вероятностей победы команды Radiant для тестовой выборки с помощью лучшей из изученных моделей (лучшей с точки зрения AUC-ROC на кросс-валидации). Убедитесь, что предсказанные вероятности адекватные — находятся на отрезке [0, 1], не совпадают между собой (т.е. что модель не получилась константной).

##### Что указать в отчете
В отчете по данному этапу вы должны ответить на следующие вопросы:
1. Какое качество получилось у логистической регрессии над всеми исходными признаками? Как оно соотносится с качеством градиентного бустинга? Чем вы можете объяснить эту разницу? Быстрее ли работает логистическая регрессия по сравнению с градиентным бустингом?
2. Как влияет на качество логистической регрессии удаление категориальных признаков (укажите новое значение метрики качества)? Чем вы можете объяснить это изменение?
3. Сколько различных идентификаторов героев существует в данной игре?
4. Какое получилось качество при добавлении "мешка слов" по героям? Улучшилось ли оно по сравнению с предыдущим вариантом? Чем вы можете это объяснить?
5. Какое минимальное и максимальное значение прогноза на тестовой выборке получилось у лучшего из алгоритмов?


##### Код для формирования "мешка слов" по героям
```python
# N — количество различных героев в выборке
X_pick = np.zeros((data.shape[0], N))

for i, match_id in enumerate(data.index):
    for p in xrange(5):
        X_pick[i, data.ix[match_id, 'r%d_hero' % (p+1)]-1] = 1
        X_pick[i, data.ix[match_id, 'd%d_hero' % (p+1)]-1] = -1
```

1. Оцените качество логистической регрессии (sklearn.linear_model.LogisticRegression с L2-регуляризацией) с помощью кросс-валидации по той же схеме, которая использовалась для градиентного бустинга. Подберите при этом лучший параметр регуляризации (C). Какое наилучшее качество у вас получилось? Как оно соотносится с качеством градиентного бустинга? Чем вы можете объяснить эту разницу? Быстрее ли работает логистическая регрессия по сравнению с градиентным бустингом?

In [613]:
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import make_pipeline

In [614]:
features = pandas.read_csv('./features.csv', index_col='match_id')

X = features.iloc[:, :-6]
y = features.iloc[:, -5] # radiant_win column

X.fillna(0, inplace=True)

In [615]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

start_time = datetime.datetime.now()

cv = KFold(n_splits=5, shuffle=True)
clf = LogisticRegression(penalty='l2', C=0.01)

#grid = {'C': np.power(10.0, np.arange(-5, 6))}
#gs = GridSearchCV(clf, grid, scoring='roc_auc', cv=cv)
#gs.fit(X_scaled, y)
#gs.best_estimator_, gs.best_score_, gs.best_params_

#(LogisticRegression(C=0.01), 0.7164605705339862, {'C': 0.01})

accuracies = cross_val_score(estimator=clf, X=X_scaled, y=y, cv=cv, scoring='roc_auc')

print(f'accuracy: {np.mean(accuracies)}')
print('time:', datetime.datetime.now() - start_time)  

accuracy: 0.716406458360648
time: 0:00:02.544677


**accuracy: 0.7163744567917693 – лучше чем для бустинга со 100 деревьями <br/>
time: 0:00:02.447705 – на порядок быстрее бустинга**

**чем объяснить разницу в точности??**

In [616]:
# use pipe in order to prevent most risks of data leaking
# but there were no effect
pipe = make_pipeline(StandardScaler(), LogisticRegression(penalty='l2', C=0.1))
cv = KFold(n_splits=5, shuffle=True)
accuracies = cross_val_score(pipe, X_scaled, y, cv=cv)

print(f'accuracy: {np.mean(accuracies)}')

accuracy: 0.6549316054715624


2. Среди признаков в выборке есть категориальные, которые мы использовали как числовые, что вряд ли является хорошей идеей. Категориальных признаков в этой задаче одиннадцать: lobby_type и r1_hero, r2_hero, ..., r5_hero, d1_hero, d2_hero, ..., d5_hero. Уберите их из выборки, и проведите кросс-валидацию для логистической регрессии на новой выборке с подбором лучшего параметра регуляризации. Изменилось ли качество? Чем вы можете это объяснить?

In [508]:
categorial_columns = ['lobby_type','r1_hero','r2_hero','r3_hero','r4_hero','r5_hero','d1_hero','d2_hero','d3_hero','d4_hero','d5_hero']

categorial_features = X[categorial_columns]

X.drop(columns=categorial_columns, inplace=True)

In [306]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

start_time = datetime.datetime.now()

cv = KFold(n_splits=5, shuffle=True)
clf = LogisticRegression(penalty='l2', C=0.01)

#grid = {'C': np.power(10.0, np.arange(-5, 6))}
#gs = GridSearchCV(clf, grid, scoring='roc_auc', cv=cv)
#gs.fit(X_scaled, y)
#gs.best_estimator_, gs.best_score_, gs.best_params_

#(LogisticRegression(C=0.01), 0.7163860609812857, {'C': 0.01})

accuracies = cross_val_score(estimator=clf, X=X_scaled, y=y, cv=cv, scoring='roc_auc')

print(f'accuracy: {np.mean(accuracies)}')
print('time:', datetime.datetime.now() - start_time)  

accuracy: 0.7165667255058562
time: 0:00:02.221046


**Нет особой разницы. Может быть потому что, информация об игроках важна и ее отсутствие может сказаться на результате только негативно**

3. На предыдущем шаге мы исключили из выборки признаки rM_hero и dM_hero, которые показывают, какие именно герои играли за каждую команду. Это важные признаки — герои имеют разные характеристики, и некоторые из них выигрывают чаще, чем другие. Выясните из данных, сколько различных идентификаторов героев существует в данной игре (вам может пригодиться фукнция unique или value_counts).

In [413]:
print(len(np.intersect1d(categorial_features['r1_hero'].unique(), categorial_features['d5_hero'].unique())))
print(categorial_features['d5_hero'].max())

108
112


### 108 различных идентификаторов героев существует, но максимальное значение id=112, следоватльно нужно 112 бинарных переменных, чтобы закодировать выбор

In [514]:
heros = categorial_features.drop(columns=['lobby_type'])
heros.shape

(97230, 10)

In [407]:
X_pick = np.zeros((heros.shape[0], 112))

for i, match_id in enumerate(heros.index):
    for p in range(5):
        X_pick[i, heros.loc[match_id]['r%d_hero' % (p+1)]-1] = 1
        X_pick[i, heros.loc[match_id]['d%d_hero' % (p+1)]-1] = -1

In [516]:
X.reset_index(level=0, inplace=True)

In [511]:
X_pick.shape

(97230, 112)

In [518]:
X_full = pandas.concat([X, pandas.DataFrame(X_pick)], axis=1)
X_full

Unnamed: 0,match_id,start_time,r1_level,r1_xp,r1_gold,r1_lh,r1_kills,r1_deaths,r1_items,r2_level,...,102,103,104,105,106,107,108,109,110,111
0,0,1430198770,5,2098,1489,20,0,0,7,3,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,1,1430220345,4,1188,1033,9,0,1,12,4,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,2,1430227081,4,1319,1270,22,0,0,12,3,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,3,1430263531,4,1779,1056,14,0,0,5,2,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,4,1430282290,4,1431,1090,8,1,0,8,2,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
97225,114402,1450265551,4,1706,1198,17,0,1,8,2,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
97226,114403,1450277704,4,1793,1416,17,0,1,5,3,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
97227,114404,1450291848,4,1399,540,1,0,0,5,4,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
97228,114405,1450292986,3,1135,766,6,0,2,6,5,...,0.0,0.0,0.0,-1.0,0.0,0.0,0.0,0.0,0.0,0.0


In [519]:
X_full.set_index('match_id', inplace=True)

In [520]:
X_full.shape

(97230, 203)

In [601]:
def custom_cross_val(model, kf, X, y):
    accuracies = []
    for train_index, test_index in kf.split(X):
        X_train, X_test = X[train_index.tolist()], X[test_index.tolist()]
        y_train, y_test = y.values[train_index], y.values[test_index]

        model.fit(X_train, y_train)

        y_score = model.predict_proba(X_test)[:, 1]
        accuracies.append(roc_auc_score(y_test, y_score))
    
    return accuracies

In [627]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_full)

start_time = datetime.datetime.now()

cv = KFold(n_splits=5, shuffle=True)
clf = LogisticRegression(penalty='l2', C=0.01)

#grid = {'C': np.power(10.0, np.arange(-5, 6))}
#gs = GridSearchCV(clf, grid, scoring='roc_auc', cv=cv)
#gs.fit(X_scaled, y)
#gs.best_estimator_, gs.best_score_, gs.best_params_

accuracies = cross_val_score(estimator=clf, X=X_scaled, y=y, cv=cv, scoring='roc_auc')
#accuracies = custom_cross_val(clf, cv, X_scaled, y)

print(f'accuracy: {np.mean(accuracies)}')
print('time:', datetime.datetime.now() - start_time)  

accuracy: 0.7518193569430622
time: 0:00:05.194501


In [622]:
clf.fit(X_scaled, y)
roc_auc_score(y, clf.predict_proba(X_scaled)[:, 1])

0.7544608380985481

### Точность увеличилась с 0.716 до 0.752 – это доказывает тот факт, что информация о выбранных героях важна


## Проверка финальной модели

После того как вы провели все эксперименты и выбрали лучшую модель, можете проверить ее качество на тестовых матчах. Выборка тестовых матчей собрана в файле `matches_test.jsonlines.bz2`. В отличие от основного набора матчей, в тестовых матчах есть только та информация, которая известна на момент первых 5 игровых минут, результат матча — неизвестен. Таблица признаков для тестовых матчей — `features_test.csv`.

Для всех матчей из тестового набора предскажите вероятность победы Radiant, запишите предсказания в CSV файл с колонками `match_id` (идентификатор матча) и `radiant_win` — предсказанная вероятность. Файл с предсказаниями должен выглядеть примерно следующим образом:

```
match_id,radiant_win
1,0.51997370502
4,0.51997370502
15,0.51997370502
...
```

Отправьте решение на Kaggle в соревнование: Dota 2: Win Probability Prediction.

Ссылка на соревнование: [Dota 2: Win Probability Prediction](https://kaggle.com/join/coursera_ml_dota2_contest)

In [656]:
X_train = pandas.read_csv('./features.csv', index_col='match_id')
y_train = X_train.iloc[:, -5] # radiant_win column
X_train = X_train.iloc[:, :-6]

In [659]:
X_train_prepared = prepare_data(X_train)

In [660]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train_prepared)

clf = LogisticRegression(penalty='l2', C=0.01)
clf.fit(X_train_scaled, y_train)

y_train_score = clf.predict_proba(X_train_scaled)[:, 1]
roc_auc_score(y_train, y_train_score)

0.7544608380985481

In [668]:
from sklearn.ensemble import RandomForestClassifier
rf = RandomForestClassifier(n_estimators=100,
                           bootstrap=True, oob_score=True, n_jobs=2,
                           random_state=42)

# Defining 3-dimensional hyperparameter space as a Python dictionary
hyperparameter_space = {'max_depth':[None,4,6,8,10,12,15,20], 
                        'min_samples_leaf':[1,2,4,6,8,10,20,30],
                        'max_features':['auto','sqrt','log2']}

from sklearn.model_selection import GridSearchCV
gs = GridSearchCV(rf, param_grid=hyperparameter_space , 
                  scoring='roc_auc',
                  n_jobs=2, cv=5, return_train_score=True)

gs.fit(X_train_prepared, y_train)
print("Optimal hyperparameter combination: ", gs.best_params_)
print("ROC-AUC score of the best_estimator: ", gs.best_score_)

gs.best_estimator_.fit(X_train_prepared, y_train)
y_pred = gs.best_estimator_.predict_proba(X_test_prepared)[:,1]

#from sklearn.metrics import mean_squared_error as MSE
#rmse_test = np.sqrt(MSE(y_test, y_pred))
#print("Test score: ", np.round(rmse_test, 2))

Optimal hyperparameter combination:  {'min_samples_leaf': 2}
ROC-AUC score of the best_estimator:  0.687056385042891


In [669]:
roc_auc_score(y_train, gs.best_estimator_.predict_proba(X_train_prepared)[:,1])

0.999999975001926

In [689]:
forrest_out = gs.best_estimator_.predict_proba(X_test_prepared)[:,1]

In [690]:
answer = pandas.concat([X_test['match_id'], pandas.DataFrame(forrest_out)], axis=1)

compression_opts = dict(method='zip', archive_name='forest_out.csv')  
answer.to_csv('out.zip', index=False, compression=compression_opts)  

In [658]:
X_test = pandas.read_csv('./features_test.csv', index_col='match_id')
X_test_prepared = prepare_data(X_test)

In [661]:
X_test_scaled = scaler.transform(X_test_prepared)
y_test_score = clf.predict_proba(X_test_scaled)[:, 1]

In [662]:
y_test_score


array([0.8227909 , 0.75216683, 0.18906701, ..., 0.2379355 , 0.6283895 ,
       0.42762756])

In [677]:
len(y_test_score)

17177

In [681]:
len(X_test['match_id'])

answer = pandas.concat([X_test['match_id'], pandas.DataFrame(y_test_score)], axis=1)
answer.to_csv(index=False)

compression_opts = dict(method='zip', archive_name='out.csv')  
answer.to_csv('out.zip', index=False, compression=compression_opts)  

In [638]:
def prepare_data(X):
    # fill in NA with zeros
    X.fillna(0, inplace=True)

    # extract categorial features
    categorial_columns = ['lobby_type',
                          'r1_hero','r2_hero','r3_hero','r4_hero','r5_hero',
                          'd1_hero','d2_hero','d3_hero','d4_hero','d5_hero']
    categorial_features = X[categorial_columns]
    X.drop(columns=categorial_columns, inplace=True)

    # drop lobby type since ... I think itsn't important
    heroes = categorial_features.drop(columns=['lobby_type'])

    # 'heroes' are categorial features with 112 unique values
    # let's transfrom them into 'bag of words'
    X_pick = np.zeros((heroes.shape[0], 112))
    for i, match_id in enumerate(heroes.index):
        for p in range(5):
            X_pick[i, heroes.loc[match_id]['r%d_hero' % (p+1)]-1] = 1
            X_pick[i, heroes.loc[match_id]['d%d_hero' % (p+1)]-1] = -1

    # concat back X and 'heroes'
    X.reset_index(level=0, inplace=True)
    X_full = pandas.concat([X, pandas.DataFrame(X_pick)], axis=1)
    X_full.set_index('match_id', inplace=True)
    
    return X_full

### Что еще попробовать?

Разумеется, можно попробовать еще очень много разных идей, которые помогут вам получить еще более высокий результат на kaggle. Вот лишь несколько возможных вариантов:
1. Про каждого из игроков есть достаточно много показателей: максимальный опыт, число смертей и т.д. (см. список выше). Можно попробовать просуммировать или усредних их, получив агрегированные показатели для всей команды.
2. В сырых данных (файл matches.jsonlines.bz2) содержится очень много информации, которую мы пока не использовали. Вы можете, например, составить "мешки слов" для покупок различных предметов (то есть кодировать информацию о том, сколько раз каждая команда покупала тот или иной предмет). Обратите внимание, что при этом вы можете получить слишком большое количество признаков, для которых может иметь смысл сделать понижение размерности с помощью метода главных компонент.
3. Можно сформировать признаки про изменения способностей героев в течение матча (ability_upgrades).
4. В этом задании используются только градиентный бустинг и логистическая регрессия — но ведь мы изучали и другие модели! Можно попробовать метод k ближайших соседей, SVM, случайный лес и так далее.

## Про задачу и финальное задание

#### Почему именно такая задача?

- Публикация реальных данных из индустриальных задач — очень смелый шаг для компании. Мало кто (даже Яндекс) может на такое пойти. Гораздо проще (а порой и интереснее) воспользоваться данными из открытых источников.
- Публичные датасеты из интернета для решения реальных бизнес-задач мало пригодны, собственно поэтому они и лежат в открытом доступе.
- Мы предпочли сделать игрушечную задачу на реальных данных, вместо реальной задачи на игрушечных данных.
- Задача прогнозирования победы — игрушечная, но вот лишь небольшой перечень реальных задач, на которые она похожа:
    - предсказания вероятности покупки услуги клиентом банка
    - предсказание вероятности оттока клиента к другому поставщику услуг
    - ... (подумайте над другими примерами)

#### Задание слишком простое. Что еще можно сделать?

Ответить на вопрос: какое минимальное число минут матча необходимо знать, для того чтобы в 80% матчей верно угадывать победившую сторону? А с точностью 90%? Дайте свой ответ на этот вопрос и докажите что такой точности действительно можно достичь, построив модель и качественно провалидировав ее. Насколько матчи в игре Dota 2 предсказуемы?

Напишите об этом статью, расскажите всем, и приходите к нам на собеседование.

#### Где взяли данные?

Набор данных был сделан на основе выгрузки [YASP 3.5 Million Data Dump](http://academictorrents.com/details/5c5deeb6cfe1c944044367d2e7465fd8bd2f4acf) реплеев матчей Dota 2 с сайта [yasp.co](http://yasp.co/). За выгрузку огромное спасибо Albert Cui and Howard Chung and Nicholas Hanson-Holtry. Лицензия на выгрузку: CC BY-SA 4.0.

#### Как сформировали выборку?

Оригинальная выгрузка матчей была очищена, в предложенном наборе присутствуют матчи:
  - сыгранные с 2015-05-01 до 2015-12-17
  - длительностью не менее 15 минут
  - убраны матчи с неполной информацией (например: отсутвует информация про игроков)

Из всего датасета 15% случайных записей были выделены в тестовое множество.

Для того чтобы размотивировать участников соревнования на Kaggle занимать высокие места читерскими методами (например, скачав оригинальный набор данных и подсмотрев ответы на тестовом множестве матчей), мы произвели минимальную обфускацию данных, т.е. немного запутали датасет:
   - поменяли идентификаторы матчей
   - время начала каждого матча сдвинули на значение случайной величины, нормально распределенной со стандартным отклонением в 1 сутки