## Описание данных

Архив с данными содержит следующие файлы:

- `sample_submission.csv`: пример файла с решением
- `train_matches.jsonl`, `test_matches.jsonl`: полные описания матчей ("сырые" данные)
- `train_features.csv`, `test_features.csv`: таблицы с признаками от организаторов 
- `train_targets.csv`: таблица с исходами матчей из обучающей выборки, в частности указание победителя

## Таблицы с признаками от организаторов

Таблицы с признаками были подготовлены организаторами, в них каждый матч описывается его базовыми параметрами, для каждого игрока приведен набор статистик на момент остановки матча. О том как подготовить такую таблицу из сырых данных — смотрите далее. 

In [2]:
import pandas

df_train_features = pandas.read_csv('data_final/train_features.csv', index_col='match_id_hash')
df_train_targets = pandas.read_csv('data_final/train_targets.csv', index_col='match_id_hash')

В таблице признаков есть колонка-индекс `match_id_hash` (идентификатор матча) и 245 колонок с признаками. Всего примеров матчей в обучающей выборке — почти 40 тысяч. Самый первый признак `game_time` — время когда матч был остановлен (в секундах). 

In [3]:
# размер таблицы
df_train_features.shape

(39675, 245)

In [4]:
# посмотреть кусочек таблицы
df_train_features.head()

Unnamed: 0_level_0,game_time,game_mode,lobby_type,objectives_len,chat_len,r1_hero_id,r1_kills,r1_deaths,r1_assists,r1_denies,...,d5_stuns,d5_creeps_stacked,d5_camps_stacked,d5_rune_pickups,d5_firstblood_claimed,d5_teamfight_participation,d5_towers_killed,d5_roshans_killed,d5_obs_placed,d5_sen_placed
match_id_hash,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
a400b8f29dece5f4d266f49f1ae2e98a,155,22,7,1,11,11,0,0,0,0,...,0.0,0,0,0,0,0.0,0,0,0,0
b9c57c450ce74a2af79c9ce96fac144d,658,4,0,3,10,15,7,2,0,7,...,0.0,0,0,0,0,0.0,0,0,0,0
6db558535151ea18ca70a6892197db41,21,23,0,0,0,101,0,0,0,0,...,0.0,0,0,0,0,0.0,0,0,0,0
46a0ddce8f7ed2a8d9bd5edcbb925682,576,22,7,1,4,14,1,0,3,1,...,8.664527,3,1,3,0,0.0,0,0,2,0
b1b35ff97723d9b7ade1c9c3cf48f770,453,22,7,1,3,42,0,1,1,0,...,0.0,2,1,2,0,0.25,0,0,0,0


Таблица `train_targets.csv` содержит информацию "из будущего" — то что неизвестно на момент, когда часы показывают `game_time`. Нас будет интересовать колонка `radiant_win` — в ней записано, победит команда Radiant или нет — это целевое событие, вероятность кооторого нужно оценивать. Для тестовой выборки такой информации нет.

## Построение модели и оценка качества

#### Построим числовую матрицу объект-признак `X` и вектор ответов `y`

In [5]:
X = df_train_features.values
y = df_train_targets['radiant_win'].values


## Работа с полными описаниями матчей

Полные описания матчей ("сырые" данные) представлены в файлах `train_matches.jsonl` и `test_matches.jsonl`. Каждый файл содержит по одной строчке на матч — в строчке записан объект, закодированный в формате [JSON](https://en.wikipedia.org/wiki/JSON). Про JSON достаточно знать лишь то, что его можно лего переводить в Python-объекты (словари, спики, числа, строки и тд) при помощи функции `json.loads`.

##### Посмотрим на одну строчку из файла

In [6]:
import json

with open('data_final/train_matches.jsonl') as fin:
    # Прочитаем 18-ю строчку из файла
    for i in range(18):
        line = fin.readline()
    
    # расшифруем формат JSON в обычный Python-объект
    match = json.loads(line)

Обект `match` — это большой словарь, в полях которого есть значения и другие вложенные словари. В частности есть массив `match['players']` в котором записано описание каждого игрока.

Объект `match` — это и есть те данные, в том виде, в котором они встречаются в реальной жизни, на практике. Подробное описание полей есть в руководстве по задаче. Помните, что настоящий специалист по анализу данных может не вдаваться глубоко в предметную область (в данном контексте это означает что можно практически ничего не знать про игру Dota 2), для того чтобы найти сложную закономерность в данных; в этом искусство и сила специалистов по Data Science.

In [7]:
#match

#### Объекты с описанием игроков

In [8]:
player = match['players'][2]

KDA: число убийств, смертей и помощи союзникам

In [9]:
len(player['killed_by']), player['deaths'], player['assists']

(6, 11, 12)

Статистика по использованию умений игрока:

In [10]:
player['ability_uses']

{'kunkka_ghostship': 16,
 'kunkka_return': 1,
 'kunkka_torrent': 43,
 'kunkka_x_marks_the_spot': 8}

#### Пример: временной ряд изменения золота во всем игрокам

#### Функция для чтения файла с матчами

Далее приведена функция `read_matches(filename)`, которую можно использовать для чтения объектов из файлов с сырыми данными.

Рекомендуется установить два Python пакета: `ujson` и `tqdm`, без них чтение будет работать дольше и не будет прогресс-бара.

In [11]:
import os

try:
    import ujson as json
except ModuleNotFoundError:
    import json
    print ('Установите пакет ujson для того чтобы декодировать JSON-объекты быстрее')
    
try:
    from tqdm import tqdm_notebook
except ModuleNotFoundError:
    tqdm_notebook = lambda x: x
    print ('Установите пакет tqdm для того чтобы видеть прогресс и оценку времени завершения')

def read_matches(matches_file):
    
    # Число матчей, нужно того чтобы видеть Progress Bar и оценку времени завершения
    MATCHES_COUNT = {
        'test_matches.jsonl': 10000,
        'train_matches.jsonl': 39675,
    }
    _, filename = os.path.split(matches_file)
    total_matches = MATCHES_COUNT.get(filename)
    
    with open(matches_file) as fin:
        for line in tqdm_notebook(fin, total=total_matches):
            yield json.loads(line)

Установите пакет ujson для того чтобы декодировать JSON-объекты быстрее


#### Чтение матчей в цикле

Чтение всех матчей может занять 2-3 минуты. Поэтому очень важно во время хакатона следовать следующему алгоритму:

1. Прочитайте небольшое число матчей (10-100)
2. Напишите код, который извлекает из матча нужные признаки или считает нужную статистику
3. Убедитесь что код работает без ошибок
4. Запустите полный прогон вашего алгоритма по всем матчам
5. Сохраните результат в CSV-таблицу или при помощи `pickle`, для того чтобы его не пришлось вычислять заново

In [12]:
for match in read_matches('data_final/train_matches.jsonl'):
    match_id_hash = match['match_id_hash']
    game_time = match['game_time']
    
    # обработка матча
    
    for player in match['players']:
        pass  # обработка игрока




## Добавление новых признаков

In [None]:
import collections

PLAYER_FIELDS = [
    'hero_id',
    
    'kills',
    'deaths',
    'assists',
    'denies',
    'killed',
    'gold',
    'lh',
    'xp',
    'health',
    'max_health',
    'max_mana',
    'level',

    'x',
    'y',
    
    'stuns',
    'creeps_stacked',
    'camps_stacked',
    'rune_pickups',
    'firstblood_claimed',
    'teamfight_participation',
    'towers_killed',
    'roshans_killed',
    'obs_placed',
    'sen_placed',
]

def extract_features_csv(match):
    row = [
        ('match_id_hash', match['match_id_hash']),
    ]

    for slot, player in enumerate(match['players']):
        if slot < 5:
            player_name = 'r%d' % (slot + 1)
        else:
            player_name = 'd%d' % (slot - 4)

        for field in PLAYER_FIELDS:
            column_name = '%s_%s' % (player_name, field)
            row.append((column_name, player[field]))
            
    return collections.OrderedDict(row)

In [13]:
def add_new_features(df_features, matches_file):
    
    # Пройдем по сырым данным и добавим новые признаки в таблицу
    for match in read_matches(matches_file):
        match_id_hash = match['match_id_hash']

        # Подсчет числа разбитых Башен для обеих команд
        radiant_tower_kills = 0
        dire_tower_kills = 0
        diff_kills=0
        diff_level=0
        diff_max_health=0
        diff_damage=0
        diff_buyback_log=0
        diff_gold=0
        diff_assists =0
        diff_xp=0
        for objective in match['objectives']:
            if objective['type'] == 'CHAT_MESSAGE_TOWER_KILL':
                if objective['team'] == 2:
                    radiant_tower_kills += 1
                if objective['team'] == 3:
                    dire_tower_kills += 1
        for slot, player in enumerate(match['players']):
        if slot < 5:
            player_name = 'r%d' % (slot + 1)
        else:
            player_name = 'd%d' % (slot - 4)
       
    
        for i in range(5):
                player = match['players'][i]
                diff_kills += player['kills']
                diff_level += player['level']
                diff_max_health += player['max_health']
                diff_damage+= len(player['damage'])
                diff_buyback_log+= len(player['buyback_log'])
                diff_gold+=player['gold']
                diff_assists+=player['assists']
                diff_xp+=player['xp']
        for i in range(5,10):
                player = match['players'][i]
                diff_kills -= player['kills']
                diff_level -= player['level']
                diff_max_health -= player['max_health']
                diff_damage-= len(player['damage'])
                diff_buyback_log-= len(player['buyback_log'])
                diff_gold-=player['gold']
                diff_assists-=player['assists']
                diff_xp-=player['xp']
            
        
        
        # Записываем в таблицу значения признаков
        df_features.loc[match_id_hash, 'diff_kills'] = diff_kills
        df_features.loc[match_id_hash, 'diff_level'] = diff_level
        df_features.loc[match_id_hash, 'diff_max_health'] = diff_max_health
        df_features.loc[match_id_hash, 'diff_damage'] = diff_damage
        df_features.loc[match_id_hash, 'diff_buyback_log'] = diff_buyback_log
        df_features.loc[match_id_hash, 'diff_assists'] = diff_assists
        df_features.loc[match_id_hash, 'diff_xp'] = diff_xp
        df_features.loc[match_id_hash, 'diff_gold'] = diff_gold
        
        # ... здесь вы можете дописать свои собственные признаки ...
        

In [14]:
# Скопируем таблицу с признаками
df_train_features_extended = df_train_features.copy()

# Добавим новые признаки
add_new_features(df_train_features_extended, 'data_final/train_matches.jsonl')




В последних колонках видим новые признаки

In [None]:
df_train_features_extended.head()

Unnamed: 0_level_0,game_time,game_mode,lobby_type,objectives_len,chat_len,r1_hero_id,r1_kills,r1_deaths,r1_assists,r1_denies,...,d5_obs_placed,d5_sen_placed,diff_kills,diff_level,diff_max_health,diff_damage,diff_buyback_log,diff_assists,diff_xp,diff_gold
match_id_hash,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
a400b8f29dece5f4d266f49f1ae2e98a,155,22,7,1,11,11,0,0,0,0,...,0,0,-1.0,-4.0,0.0,2.0,0.0,-1.0,-1093.0,-1911.0
b9c57c450ce74a2af79c9ce96fac144d,658,4,0,3,10,15,7,2,0,7,...,0,0,13.0,7.0,680.0,-4.0,-1.0,11.0,4641.0,5028.0
6db558535151ea18ca70a6892197db41,21,23,0,0,0,101,0,0,0,0,...,0,0,0.0,0.0,-20.0,0.0,0.0,0.0,0.0,400.0
46a0ddce8f7ed2a8d9bd5edcbb925682,576,22,7,1,4,14,1,0,3,1,...,2,0,5.0,4.0,-80.0,-19.0,0.0,7.0,2820.0,2047.0
b1b35ff97723d9b7ade1c9c3cf48f770,453,22,7,1,3,42,0,1,1,0,...,0,0,-2.0,-1.0,760.0,-16.0,0.0,1.0,-1044.0,-1098.0


#### Оценка улучшения качества

Запустим кросс-валидацию и сравним одну и ту же модель на разных признаковых описаниях:

1. от организаторов (base)
2. с добавлением тех что мы только что построили (extended)

In [None]:
%%time
from sklearn.model_selection import cross_val_score
from sklearn.ensemble import RandomForestClassifier
import catboost as cb
from sklearn.model_selection import train_test_split
from sklearn.model_selection import ShuffleSplit, KFold

X_train, X_valid, y_train, y_valid = train_test_split(df_train_features_extended, y, test_size=0.3, random_state=42)

#clf = cb.CatBoostClassifier()#logging_level='Silent',iterations=1000, bootstrap_type='Bayesian',depth=6
#clf.fit(X_train,y_train)
#model=clf

#print((clf.predict(X_valid)>0.5==y_valid).mean())
#model=cb.CatBoostClassifier(iterations=1600, bootstrap_type='Bayesian',depth=7,logging_level='Silent')
#model = RandomForestClassifier(random_state=42)

#from sklearn.model_selection import ShuffleSplit, KFold
from sklearn.ensemble import RandomForestClassifier

model = cb.CatBoostClassifier()
model.fit(X_train, y_train)
# Создаем 5 разбиений в соотношении — обучение 70% / валидация 30%
cv = ShuffleSplit(n_splits=5, test_size=0.3, random_state=123)

cv_scores_extended = cross_val_score(model, df_train_features_extended.values, y, cv=cv, scoring='roc_auc', n_jobs=-1)

0:	learn: 0.6834829	total: 299ms	remaining: 4m 58s
1:	learn: 0.6731289	total: 550ms	remaining: 4m 34s
2:	learn: 0.6642935	total: 795ms	remaining: 4m 24s
3:	learn: 0.6555236	total: 1.05s	remaining: 4m 20s
4:	learn: 0.6474687	total: 1.32s	remaining: 4m 22s
5:	learn: 0.6396884	total: 1.57s	remaining: 4m 20s
6:	learn: 0.6328054	total: 1.83s	remaining: 4m 19s
7:	learn: 0.6260353	total: 2.04s	remaining: 4m 13s
8:	learn: 0.6200339	total: 2.29s	remaining: 4m 12s
9:	learn: 0.6140823	total: 2.54s	remaining: 4m 11s
10:	learn: 0.6089234	total: 2.8s	remaining: 4m 11s
11:	learn: 0.6049011	total: 3.06s	remaining: 4m 11s
12:	learn: 0.6003666	total: 3.34s	remaining: 4m 13s
13:	learn: 0.5962620	total: 3.6s	remaining: 4m 13s
14:	learn: 0.5924308	total: 3.88s	remaining: 4m 14s
15:	learn: 0.5885531	total: 4.21s	remaining: 4m 18s
16:	learn: 0.5854015	total: 4.52s	remaining: 4m 21s
17:	learn: 0.5816187	total: 4.79s	remaining: 4m 21s
18:	learn: 0.5782542	total: 5.09s	remaining: 4m 22s
19:	learn: 0.5755669	tot

158:	learn: 0.5038089	total: 43s	remaining: 3m 47s
159:	learn: 0.5036920	total: 43.2s	remaining: 3m 46s
160:	learn: 0.5035301	total: 43.4s	remaining: 3m 46s
161:	learn: 0.5034581	total: 43.7s	remaining: 3m 46s
162:	learn: 0.5033373	total: 44s	remaining: 3m 45s
163:	learn: 0.5032119	total: 44.2s	remaining: 3m 45s
164:	learn: 0.5031190	total: 44.5s	remaining: 3m 45s
165:	learn: 0.5030424	total: 44.8s	remaining: 3m 45s
166:	learn: 0.5029727	total: 45.1s	remaining: 3m 45s
167:	learn: 0.5028171	total: 45.4s	remaining: 3m 44s
168:	learn: 0.5027330	total: 45.7s	remaining: 3m 44s
169:	learn: 0.5026859	total: 46s	remaining: 3m 44s
170:	learn: 0.5025856	total: 46.3s	remaining: 3m 44s
171:	learn: 0.5025349	total: 46.6s	remaining: 3m 44s
172:	learn: 0.5024566	total: 46.9s	remaining: 3m 43s
173:	learn: 0.5023310	total: 47.1s	remaining: 3m 43s
174:	learn: 0.5022642	total: 47.4s	remaining: 3m 43s
175:	learn: 0.5021604	total: 47.7s	remaining: 3m 43s
176:	learn: 0.5020517	total: 48s	remaining: 3m 42s
1

313:	learn: 0.4903334	total: 1m 24s	remaining: 3m 5s
314:	learn: 0.4902185	total: 1m 25s	remaining: 3m 4s
315:	learn: 0.4901196	total: 1m 25s	remaining: 3m 4s
316:	learn: 0.4900217	total: 1m 25s	remaining: 3m 4s
317:	learn: 0.4899394	total: 1m 25s	remaining: 3m 3s
318:	learn: 0.4898907	total: 1m 25s	remaining: 3m 3s
319:	learn: 0.4898350	total: 1m 26s	remaining: 3m 3s
320:	learn: 0.4897691	total: 1m 26s	remaining: 3m 2s
321:	learn: 0.4896782	total: 1m 26s	remaining: 3m 2s
322:	learn: 0.4896375	total: 1m 26s	remaining: 3m 2s
323:	learn: 0.4895742	total: 1m 27s	remaining: 3m 2s
324:	learn: 0.4895157	total: 1m 27s	remaining: 3m 1s
325:	learn: 0.4894347	total: 1m 27s	remaining: 3m 1s
326:	learn: 0.4893763	total: 1m 28s	remaining: 3m 1s
327:	learn: 0.4892808	total: 1m 28s	remaining: 3m
328:	learn: 0.4891774	total: 1m 28s	remaining: 3m
329:	learn: 0.4891113	total: 1m 28s	remaining: 3m
330:	learn: 0.4890426	total: 1m 29s	remaining: 3m
331:	learn: 0.4889498	total: 1m 29s	remaining: 2m 59s
332:

466:	learn: 0.4767766	total: 2m 7s	remaining: 2m 25s
467:	learn: 0.4767010	total: 2m 7s	remaining: 2m 24s
468:	learn: 0.4766459	total: 2m 7s	remaining: 2m 24s
469:	learn: 0.4765380	total: 2m 8s	remaining: 2m 24s
470:	learn: 0.4764049	total: 2m 8s	remaining: 2m 24s
471:	learn: 0.4762759	total: 2m 8s	remaining: 2m 24s
472:	learn: 0.4761814	total: 2m 9s	remaining: 2m 24s
473:	learn: 0.4760830	total: 2m 9s	remaining: 2m 23s
474:	learn: 0.4760153	total: 2m 9s	remaining: 2m 23s
475:	learn: 0.4758885	total: 2m 10s	remaining: 2m 23s
476:	learn: 0.4757815	total: 2m 10s	remaining: 2m 23s
477:	learn: 0.4757182	total: 2m 10s	remaining: 2m 22s
478:	learn: 0.4756100	total: 2m 11s	remaining: 2m 22s
479:	learn: 0.4755004	total: 2m 11s	remaining: 2m 22s
480:	learn: 0.4753896	total: 2m 11s	remaining: 2m 22s
481:	learn: 0.4752706	total: 2m 12s	remaining: 2m 22s
482:	learn: 0.4751439	total: 2m 12s	remaining: 2m 21s
483:	learn: 0.4750602	total: 2m 12s	remaining: 2m 21s
484:	learn: 0.4749956	total: 2m 12s	r

619:	learn: 0.4636367	total: 2m 49s	remaining: 1m 44s
620:	learn: 0.4635552	total: 2m 49s	remaining: 1m 43s
621:	learn: 0.4634837	total: 2m 50s	remaining: 1m 43s
622:	learn: 0.4634152	total: 2m 50s	remaining: 1m 43s
623:	learn: 0.4633255	total: 2m 50s	remaining: 1m 42s
624:	learn: 0.4632448	total: 2m 51s	remaining: 1m 42s
625:	learn: 0.4631591	total: 2m 51s	remaining: 1m 42s
626:	learn: 0.4630602	total: 2m 51s	remaining: 1m 42s
627:	learn: 0.4629528	total: 2m 51s	remaining: 1m 41s
628:	learn: 0.4628585	total: 2m 52s	remaining: 1m 41s
629:	learn: 0.4627719	total: 2m 52s	remaining: 1m 41s
630:	learn: 0.4626861	total: 2m 52s	remaining: 1m 40s
631:	learn: 0.4625598	total: 2m 52s	remaining: 1m 40s
632:	learn: 0.4624606	total: 2m 53s	remaining: 1m 40s
633:	learn: 0.4624008	total: 2m 53s	remaining: 1m 40s
634:	learn: 0.4623237	total: 2m 53s	remaining: 1m 39s
635:	learn: 0.4622563	total: 2m 53s	remaining: 1m 39s
636:	learn: 0.4621617	total: 2m 53s	remaining: 1m 39s
637:	learn: 0.4621003	total:

773:	learn: 0.4516692	total: 3m 33s	remaining: 1m 2s
774:	learn: 0.4515641	total: 3m 34s	remaining: 1m 2s
775:	learn: 0.4514442	total: 3m 34s	remaining: 1m 1s
776:	learn: 0.4513834	total: 3m 34s	remaining: 1m 1s
777:	learn: 0.4513177	total: 3m 34s	remaining: 1m 1s
778:	learn: 0.4512410	total: 3m 35s	remaining: 1m 1s
779:	learn: 0.4511724	total: 3m 35s	remaining: 1m
780:	learn: 0.4511330	total: 3m 35s	remaining: 1m
781:	learn: 0.4510470	total: 3m 36s	remaining: 1m
782:	learn: 0.4509508	total: 3m 36s	remaining: 1m
783:	learn: 0.4508598	total: 3m 36s	remaining: 59.8s
784:	learn: 0.4508250	total: 3m 37s	remaining: 59.5s
785:	learn: 0.4507606	total: 3m 37s	remaining: 59.2s
786:	learn: 0.4506861	total: 3m 37s	remaining: 58.9s
787:	learn: 0.4505853	total: 3m 38s	remaining: 58.7s
788:	learn: 0.4505602	total: 3m 38s	remaining: 58.5s
789:	learn: 0.4504816	total: 3m 39s	remaining: 58.2s
790:	learn: 0.4504365	total: 3m 39s	remaining: 58s
791:	learn: 0.4503529	total: 3m 39s	remaining: 57.7s
792:	le

930:	learn: 0.4403260	total: 4m 20s	remaining: 19.3s
931:	learn: 0.4402420	total: 4m 20s	remaining: 19s
932:	learn: 0.4401741	total: 4m 20s	remaining: 18.7s
933:	learn: 0.4400941	total: 4m 20s	remaining: 18.4s
934:	learn: 0.4400045	total: 4m 21s	remaining: 18.2s
935:	learn: 0.4399109	total: 4m 21s	remaining: 17.9s
936:	learn: 0.4398188	total: 4m 21s	remaining: 17.6s
937:	learn: 0.4397154	total: 4m 21s	remaining: 17.3s
938:	learn: 0.4396066	total: 4m 22s	remaining: 17s
939:	learn: 0.4395276	total: 4m 22s	remaining: 16.7s
940:	learn: 0.4394704	total: 4m 22s	remaining: 16.5s
941:	learn: 0.4393851	total: 4m 22s	remaining: 16.2s
942:	learn: 0.4392947	total: 4m 23s	remaining: 15.9s
943:	learn: 0.4392645	total: 4m 23s	remaining: 15.6s
944:	learn: 0.4391938	total: 4m 23s	remaining: 15.3s
945:	learn: 0.4391373	total: 4m 23s	remaining: 15.1s
946:	learn: 0.4390670	total: 4m 23s	remaining: 14.8s
947:	learn: 0.4390006	total: 4m 24s	remaining: 14.5s
948:	learn: 0.4389433	total: 4m 24s	remaining: 14.

In [1]:
#print('Base features: mean={} scores={}'.format(cv_scores_base.mean(), cv_scores_base))
#print('Extended features: mean={} scores={}'.format(cv_scores_extended.mean(), cv_scores_extended))

In [2]:
#cv_scores_extended > cv_scores_base

В результате кросс-валидации выяснили: `RandomForestClassifier` на расширенном наборе признаков дает значительный прирост по качеству (в соответствии с метрикой ROC-AUC). Это логично — чем больше признаков, тем больше информации на вход получает модель, тем потенциально лучше она может предсказывать.

#### Подготовка решения

In [3]:
# Добавим те же признаки в тестовую выборку
df_test_features = pandas.read_csv('data_final/test_features.csv', index_col='match_id_hash')
df_test_features_extended = df_test_features.copy()
add_new_features(df_test_features_extended, 'data_final/test_matches.jsonl')

NameError: name 'pandas' is not defined

In [None]:
#model = RandomForestClassifier()
#model.fit(X, y)
df_submission_base = pandas.DataFrame(
    {'radiant_win_prob': model.predict_proba(df_test_features_extended.values)[:, 1]}, 
    index=df_test_features.index,
)
df_submission_base.to_csv('submission_base_rf.csv')

In [None]:
model_extended = RandomForestClassifier()
model_extended.fit(df_train_features_extended.values, y)
df_submission_extended = pandas.DataFrame(
    {'radiant_win_pred': model.predict_proba(df_test_features_extended.values)[:, 1]}, 
    index=df_test_features.index,
)


submission_path = 'submissions/сatboost2.csv'

df_submission_extended.to_csv(submission_path)

## Как построить таблицу признаков с нуля

Ниже приведен код, которым организаторы построили таблицы `train_features.csv` и `test_features.csv`. Это быстрый и эффективный способ извлечь сразу много новых признаков. Вы можете модифицировать этот код, менять и добавлять свои признаки.

Принцип работы кода следующий:

1. функция `extract_features_csv(match)` извлекает признаки из матча и записывает их в словарь
2. функция `extract_targets_csv(match, targets)` извлекает целевые переменные (в частности — `radiant_win`)
3. итерируя по файлу с матчами, собираем в список все извлеченные признаки и целевые переменные
4. при помощи `pandas.DataFrame.from_records()` создаем таблицы из построенных списокв

In [None]:
import collections

MATCH_FEATURES = [
    ('game_time', lambda m: m['game_time']),
    ('game_mode', lambda m: m['game_mode']),
    ('lobby_type', lambda m: m['lobby_type']),
    ('objectives_len', lambda m: len(m['objectives'])),
    ('chat_len', lambda m: len(m['chat'])),
]

PLAYER_FIELDS = [
    'hero_id',
    
    'kills',
    'deaths',
    'assists',
    'denies',
    
    'gold',
    'lh',
    'xp',
    'health',
    'max_health',
    'max_mana',
    'level',

    'x',
    'y',
    
    'stuns',
    'creeps_stacked',
    'camps_stacked',
    'rune_pickups',
    'firstblood_claimed',
    'teamfight_participation',
    'towers_killed',
    'roshans_killed',
    'obs_placed',
    'sen_placed',
]

def extract_features_csv(match):
    row = [
        ('match_id_hash', match['match_id_hash']),
    ]
    
    for field, f in MATCH_FEATURES:
        row.append((field, f(match)))
        
    for slot, player in enumerate(match['players']):
        if slot < 5:
            player_name = 'r%d' % (slot + 1)
        else:
            player_name = 'd%d' % (slot - 4)

        for field in PLAYER_FIELDS:
            column_name = '%s_%s' % (player_name, field)
            row.append((column_name, player[field]))
            
    return collections.OrderedDict(row)
    
def extract_targets_csv(match, targets):
    return collections.OrderedDict([('match_id_hash', match['match_id_hash'])] + [
        (field, targets[field])
        for field in ['game_time', 'radiant_win', 'duration', 'time_remaining', 'next_roshan_team']
    ])

In [None]:
%%time

df_new_features = []
df_new_targets = []

for match in read_matches('data_final/train_matches.jsonl'):
    match_id_hash = match['match_id_hash']
    features = extract_features_csv(match)
    targets = extract_targets_csv(match, match['targets'])
    
    df_new_features.append(features)
    df_new_targets.append(targets)
    

In [None]:
df_new_features = pandas.DataFrame.from_records(df_new_features).set_index('match_id_hash')
df_new_targets = pandas.DataFrame.from_records(df_new_targets).set_index('match_id_hash')

In [None]:
df_new_features.head()

## Конец

- Задавайте вопросы по задаче на форуме
- Экспериментируйте
- Выбирайте лучшую модель
- Отправляйте предсказания
- Побеждайте!