# Деревья решений

## Загрузка данных и первичный анализ

In [1]:
import pandas as pd
pd.set_option('display.max_columns', 100)

### Значение полей таблиц с данными

Целевая переменная:
- `skilled`: 1 — опытный игрок, 0 — новичок; эту колонку необходимо предсказывать для тестовой выборки

Информация про матч:
- `player_team`: команда, за которую играл игрок (`radiant` или `dire`)
- `winner_team`: победившая команда
- `hero_id`: идентификатор героя, за которого играл целевой игрок (расшифровку см. в таблице `heroes.csv`)
- `duration`: длительность игры в секундах
- `first_blood_time`: время события "первая кровь"
- `first_blood_claimed`: сделал ли целевой игрок "первую кровь"
- `party_players`: сколько игроков было в "пати" вместе с целевым

Показатели целевого игрока в матче:
- `kills`, `deaths`, `assists`, `denies`, `last_hits` — основные игровые показатели (число убийств вражеских героев, число смертей, и др.)
- `stuns`: нанесенные "оглушения" (в секундах)
- `level`: уровень, которого достиг герой к концу игры
- `net_worth`: общая стоимость всего инвентаря героя
- `gold`: число золота на момент игры
- `gold_spent`: сумма потраченного золота за всю игру
- `gold_per_min`: скорость зарабатывания золота
- `xp_per_min`: скорость получения опыта
- `hero_damage`: суммарный урон по вражеским героям
- `tower_damage`: сумарный урон по вражеским башням
- `hero_healing`: суммарное восстановленное здоровье союзных героев 
- `team_fight_participation`: участие в драках
- `observer_wards_placed`, `sentry_wards_placed`: количество установленных на карту "вардов" (предметы, дающие обзор)
- `rune_pickups`: количество собранных рун
- `radiant_tower_status`, `dire_tower_status`: состояние башен команд на конец игры (см. [расшифровку](https://wiki.teamfortress.com/wiki/WebAPI/GetMatchDetails#Tower_Status))
- `radiant_barracks_status`, `dire_barracks_status`: состояние бараков команд на конец игры (см. [расшифровку](https://wiki.teamfortress.com/wiki/WebAPI/GetMatchDetails#Barracks_Status))

Показатели по последним матчам игрока:
- `avg_kills_x16`, `avg_deaths_x16`, `avg_assists_x16`, `avg_gpm_x16`, `avg_xpm_x16`: средние значения показателей за последние 16 игр
- `best_kills_x16`, `best_assists_x16`, `best_gpm_x16`, `best_xpm_x16`: максимальные значения показателей за последние 16 игр
- `win_streak`, `best_win_streak`: число подряд выигранных матчей до текущего, максимальное число подряд выигранных матчей

In [2]:
df_train = pd.read_csv('dota2_skill_train.csv', index_col='id')

In [3]:
df_train.head()

Unnamed: 0_level_0,skilled,player_team,winner_team,duration,pre_game_duration,first_blood_time,first_blood_claimed,hero_id,hero_pick_order,leaver_status,party_players,kills,deaths,assists,denies,level,net_worth,gold,gold_spent,last_hits,gold_per_min,xp_per_min,hero_damage,tower_damage,hero_healing,scaled_hero_damage,scaled_tower_damage,scaled_hero_healing,stuns,team_fight_participation,observer_wards_placed,sentry_wards_placed,creeps_stacked,camps_stacked,rune_pickups,tower_kills,roshan_kills,nearby_creep_death_count,radiant_tower_status,dire_tower_status,radiant_barracks_status,dire_barracks_status,fight_score,farm_score,support_score,push_score,avg_kills_x16,avg_deaths_x16,avg_assists_x16,avg_gpm_x16,avg_xpm_x16,best_kills_x16,best_assists_x16,best_gpm_x16,best_xpm_x16,win_streak,best_win_streak
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1,Unnamed: 45_level_1,Unnamed: 46_level_1,Unnamed: 47_level_1,Unnamed: 48_level_1,Unnamed: 49_level_1,Unnamed: 50_level_1,Unnamed: 51_level_1,Unnamed: 52_level_1,Unnamed: 53_level_1,Unnamed: 54_level_1,Unnamed: 55_level_1,Unnamed: 56_level_1,Unnamed: 57_level_1
7,1,dire,dire,2140,90,129,0,90,9,0,3,3,8,22,1,18,10819,1119,11765,76,375,434,13262,873,155,8878,490,168,10.106689,0.694444,3,3,8,3,4,0,0,298,0,2046,0,0,0.888889,112.76913,1660.0,437.86905,2,8,15,352,430,10,30,551,745,2,5
8,0,radiant,radiant,2138,90,174,0,5,5,0,1,3,9,23,1,21,6719,1014,10060,26,313,554,15569,1101,400,10590,581,333,70.60803,0.45614,15,13,8,2,2,1,0,262,2047,0,63,63,0.777778,44.59457,11760.0,709.4413,4,9,19,294,425,13,37,445,717,2,12
12,0,radiant,radiant,3547,90,360,0,81,7,0,1,13,5,18,34,25,31946,3321,32420,387,582,709,56407,5526,400,24293,3092,361,48.32997,0.62,1,1,0,0,11,2,0,687,1830,0,63,63,0.769231,288.51917,500.0,1708.2843,13,7,9,493,543,23,18,691,762,3,3
13,1,dire,radiant,1878,90,28,0,74,9,0,2,1,6,7,10,16,7849,1469,7685,99,303,413,12048,516,0,6021,404,0,29.853643,0.32,3,0,15,4,2,1,0,199,1983,0,63,63,0.25,158.20499,900.0,521.8211,10,7,12,515,583,25,34,869,935,0,6
14,1,dire,radiant,2232,90,129,0,14,6,0,2,2,10,11,0,17,4105,475,5615,7,194,354,9880,0,0,7725,0,0,50.930786,0.541667,9,3,0,0,4,0,0,240,1974,0,63,63,0.888889,8.776043,3630.0,0.0,8,10,16,337,452,34,43,672,797,0,9


In [4]:
df_train.shape

(99871, 57)

In [5]:
df_train.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 99871 entries, 7 to 193409
Data columns (total 57 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   skilled                   99871 non-null  int64  
 1   player_team               99871 non-null  object 
 2   winner_team               99871 non-null  object 
 3   duration                  99871 non-null  int64  
 4   pre_game_duration         99871 non-null  int64  
 5   first_blood_time          99871 non-null  int64  
 6   first_blood_claimed       99871 non-null  int64  
 7   hero_id                   99871 non-null  int64  
 8   hero_pick_order           99871 non-null  int64  
 9   leaver_status             99871 non-null  int64  
 10  party_players             99871 non-null  int64  
 11  kills                     99871 non-null  int64  
 12  deaths                    99871 non-null  int64  
 13  assists                   99871 non-null  int64  
 14  denie

In [6]:
df_train['player_team'] = df_train['player_team'].map({'dire':0, 'radiant':1})
df_train['winner_team'] = df_train['winner_team'].map({'dire':0, 'radiant':1})

In [7]:
df_train['skilled'].value_counts()

0    60085
1    39786
Name: skilled, dtype: int64

In [8]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df_train.drop('skilled', axis=1), df_train.skilled, random_state=42)

## Дерево решений с неопределенностью Джини

In [9]:
from sklearn.tree import DecisionTreeClassifier

In [10]:
tree_gini = DecisionTreeClassifier(criterion='gini')

In [11]:
tree_gini.fit(X_train, y_train)

DecisionTreeClassifier()

In [12]:
pred = tree_gini.predict(X_test)

In [13]:
from sklearn.metrics import accuracy_score

In [14]:
accuracy_score(y_test, pred)

0.6233979493752002

## Дерево решений с энтропией

In [15]:
tree_entr = DecisionTreeClassifier(criterion='entropy')

In [16]:
tree_entr.fit(X_train, y_train)

DecisionTreeClassifier(criterion='entropy')

In [17]:
pred = tree_entr.predict(X_test)

In [18]:
accuracy_score(y_test, pred)

0.6259211791092598

## Дерево решений с максимальной глубиной 3

In [19]:
tree_3 = DecisionTreeClassifier(max_depth=3)

In [20]:
tree_3.fit(X_train, y_train)

DecisionTreeClassifier(max_depth=3)

In [21]:
pred = tree_3.predict(X_test)

In [22]:
accuracy_score(y_test, pred)

0.6482697853252163

## Дерево решений с максимальной глубиной 6

In [23]:
tree_6 = DecisionTreeClassifier(max_depth=6)

In [24]:
tree_6.fit(X_train, y_train)

DecisionTreeClassifier(max_depth=6)

In [25]:
pred = tree_6.predict(X_test)

In [26]:
accuracy_score(y_test, pred)

0.662528035885934

## Дерево решений с максимальной глубиной 9

In [27]:
tree_9 = DecisionTreeClassifier(max_depth=9)
tree_9.fit(X_train, y_train)

pred = tree_9.predict(X_test)
accuracy_score(y_test, pred)

0.6729013136815123