# Предсказание победителя в матче игры DOTA2 

https://www.kaggle.com/c/dota-2-prediction/data?select=train.csv

В данном ДЗ вам нужно будет предсказывать результат победителя в матче по DOTA2 при помощи информации, котороая доступна на первые 5 минут игры (в среднем игра длится 30-40 минут).

**Описание признаков: (игроки команды Radiant (свет) имеют префикс rN, команды Dire (Тьма) - dN )**:

- r1_hero : player's hero (mapping can be found in hero_names.json)

- r1_level : maximum hero level reached (by the first 5 minutes of the game)

- r1_xp : maximum experience gained

- r1_gold : amount of gold earned

- r1_lh : last hits, number of creeps killed

- r1_kills : number of players killed

- r1_deaths : the number of deaths for the hero

- r1_items : the number of items purchased

**Признаки для первой крови (кто первый убьет персонажа):**

- first_blood_time : time for the first blood

- first_blood_team : the team that committed the first blood (0 - Radiant, 1 - Dire)

- first_blood_player1 : index of player who got the kill

- first_blood_player2 : index of player who got killed

**Признаки для команд (префиксы radiant_ and dire_ ):**

- radiant_bottle_time : the time the team first purchased the item "bottle"

- radiant_courier_time : acquisition time of the "courier" item

- radiant_flying_courier_time : acquisition time of the "flying_courier" item

- radiant_tpscroll_count : the number of tpscroll items bought in the first 5 minutes

- radiant_boots_count : the number of "boots" for the team in the first 5 minutes

- radiant_ward_observer_count : the number of "ward_observer" items

- radiant_ward_sentry_count : the number of "ward_sentry" items

- radiant_first_ward_time : the time for the first placed ward for the team

Временные признаки выражены в секундах, начиная с начала игры

In [12]:
import pandas as pd
import os
import warnings 
import re # модуль для регулярных выражений
warnings.filterwarnings("ignore")
os.chdir("/Users/iakubovskii/Machine_Learning/RANEPA/Fintech_2020/Машинное обучение/Данные/ДЗ1/")
df = pd.read_csv("dota.csv.zip")

In [13]:
cols = df.columns.tolist()
print(cols)

['match_id', 'r1_hero', 'r1_level', 'r1_xp', 'r1_gold', 'r1_lh', 'r1_kills', 'r1_deaths', 'r1_items', 'r2_hero', 'r2_level', 'r2_xp', 'r2_gold', 'r2_lh', 'r2_kills', 'r2_deaths', 'r2_items', 'r3_hero', 'r3_level', 'r3_xp', 'r3_gold', 'r3_lh', 'r3_kills', 'r3_deaths', 'r3_items', 'r4_hero', 'r4_level', 'r4_xp', 'r4_gold', 'r4_lh', 'r4_kills', 'r4_deaths', 'r4_items', 'r5_hero', 'r5_level', 'r5_xp', 'r5_gold', 'r5_lh', 'r5_kills', 'r5_deaths', 'r5_items', 'd1_hero', 'd1_level', 'd1_xp', 'd1_gold', 'd1_lh', 'd1_kills', 'd1_deaths', 'd1_items', 'd2_hero', 'd2_level', 'd2_xp', 'd2_gold', 'd2_lh', 'd2_kills', 'd2_deaths', 'd2_items', 'd3_hero', 'd3_level', 'd3_xp', 'd3_gold', 'd3_lh', 'd3_kills', 'd3_deaths', 'd3_items', 'd4_hero', 'd4_level', 'd4_xp', 'd4_gold', 'd4_lh', 'd4_kills', 'd4_deaths', 'd4_items', 'd5_hero', 'd5_level', 'd5_xp', 'd5_gold', 'd5_lh', 'd5_kills', 'd5_deaths', 'd5_items', 'first_blood_time', 'first_blood_team', 'first_blood_player1', 'first_blood_player2', 'radiant_bo

# Предобработка данных

Заменим в датасете факторы, связанные с золотом, опытом и т.д. для каждого игрока на описательные статистики
для каждой команды. Например, нас будет интересовать среднее количество золота команды, медианное количество золота, стандартное отклонение. 


In [14]:
def get_new_df(df):
    '''Функция принимает на вход исходный датасет, а на выходе выдает обработанный датасет для 
    обучения модели
    '''
    # Преобразуем признаки, связанные с первым убийством так,
    # чтобы в итоге он принимал 3 значения: 
    # Noone - если не было; Radiant; Dire
    df['first_blood'] = np.where(df['first_blood_time'].isna(), 'Noone', 
                                  np.where(df['first_blood_team'] == 0, "Radiant", "Dire"))
    # Добавим столбец с первой кровью (первое убийство)
    new_df = df[['match_id', 'first_blood']].copy()
    # Добавим статистики для команд по золоту, уровню, опыту, убийствам героев и крипов, а также смертям
    for team in ['radiant', 'dire']:
        for agg_col in ['level', 'xp', 'gold', 'lh', 'kills', 'deaths']:
            if team == "radiant":
                cols = ["r" + str(i) + "_" + agg_col for i in range(1,6)]
                new_df[team + "_" + "mean" + '_' + agg_col] = df[cols].values.mean(axis=1)
                new_df[team + "_" + "std" + '_' + agg_col] = df[cols].values.std(axis=1)
                new_df[team + "_" + "median" + '_' + agg_col] = np.median(df[cols].values, axis=1)
            else:
                cols = ["d" + str(i) + "_" + agg_col for i in range(1,6)]
                new_df[team + "_" + "mean" + '_' + agg_col] = df[cols].values.mean(axis=1)
                new_df[team + "_" + "std" + '_' + agg_col] = df[cols].values.std(axis=1)
                new_df[team + "_" + "median" + '_' + agg_col] = np.median(df[cols].values, axis=1)
    radiant_cols = [col for col in df.columns if 'radiant' in col]
    dire_cols = [col for col in df.columns if 'dire' in col]
    rad_dire = list(set(radiant_cols).union(dire_cols))
    rad_dire = [col for col in rad_dire if not re.search(r"time", col)]
    new_df = pd.concat([new_df, df[rad_dire]], axis=1)
    
    # Преобразуем переменную первого убийства дамми-кодированием
    new_df = pd.concat([new_df.drop("first_blood", axis=1),
                          pd.get_dummies(new_df['first_blood'], drop_first=True)],
                         axis=1).set_index("match_id")
    
    return new_df
df = get_new_df(df)

In [21]:
# Определим целевую переменную 
X, y = df.drop("radiant_win", axis=1), df['radiant_win'].map({"True":1, "False":0})

# Разобьем на тренировочную и тестовую
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
                                                   random_state=17)

##############################################################################################################
# Задания

ВНИМАНИЕ!!!
ВЕЗДЕ, где есть параметр **random_state**, устанавливайте его равным **17**, иначе у нас могут не совпасть результаты и будет плохо.

Результаты округляем до 3 знака после запятой. Например, ROC AUC = 0.561

Задание *найти оптимальный гиперпараметр* подразумевает 5 фолдовую кросс-валидацию с random_state=17. 

По умолчанию мы используем ВСЕ ПРИЗНАКИ из датасетов.

1. При помощи метода ближайших соседей сделайте прогноз для числа соседей *со всеми объясняющими признаками*, равным 11. Чему равен `Recall` на тестовой выборке?

2. Среди следующих значений коэффициентов регуляризации выберите тот, для которого `ROC AUC` score на тестовой выборке для логистической регрессии *со всеми факторами* будет минимальным.

$$ C = [0, 0.05, 0.1, 0.3, 0.5, 0.75, 0.9, 1] $$

3. Чему равен `Precision` для дерева решений с параметрами по умолчанию (реализация sklearn, random_state=17)?

4. Удалите признаки, для которых корреляция с целевой переменной меньше 0.1 и сделайте прогноз для логистической регрессии с оптимальным гиперпараметром C = [0, 0.5, 1] (максимизируем `ROC AUC`) из тренировочной выборки для тестового набора данных. В качестве ответа укажите `ROC AUC` на тестовом датасете.

5. Повтотрите 4 пункт для случая дерева решений.

6. Обучите модель бэггинга на тренирочном наборе данных для всех признаков для количества деревьев, равного 200. Чему равна `OOB ошибка` на тренировочной выборке?

7. Обучите на тренировочном датасете модель бэггинга с числом деревьев, равным 300, и сделайте прогноз на тестовой выборке. Чему равна `F1 мера`?

8. На тренировочном датасете выберите оптимальные гиперпараметры (через `Accuracy`) для дерева решений из такого множества:

 - max_depth = [1,3,5,10]
 - max_features = [5, 15, 20]
 
Чему равен `Accuracy` на тестовом наборе данных с таким набором гиперпараметров?

9. На тренировочной выборке найдите оптимальное количество соседей (через `Accuracy`) для метода kNN и сделайте прогноз на тестовых данных. Чему равен `ROC AUC`?

10. Подберите оптимальный коэффициент регуляризации для логистической регрессии (через `Accuracy`) и сделайте прогноз на тестовом наборе данных. Чему равен `Accuracy`?

С = [0.01, 0.05, 0.1, 0.2, 0.25, 0.3, 0.5, 0.8, 0.85, 0.9, 0.99]