# Python | Урок 1: pandas & sklearn

## Загрузка необходимых библиотек

Для работы нам понадобятся две библиотеки:

- **pandas**: при помощи нее мы считаем из файла таблицу с данными  
- **sklearn**: библиотека для машинного обучения, из нее нам понадобится модуль **tree** для работы с решающими деревьями

In [2]:
# Подключаем нужные библиотеки

import pandas
from sklearn import tree

### 1. Загружаем данные при помощи библиотеки `pandas`

В файле `dota2_skill_train.csv` содержатся данные о матчах, показателях игрока и показателях за последние 16 матчей 
почти по 100,000 игроков в Dota2

In [3]:
# Для чтения данных используем метод read_csv

table = pandas.read_csv('dota2_skill_train.csv', index_col='id')

Посмотреть на первые строчки таблицы можно при помощи метода `head():`

In [4]:
# Вызываем метод head у объекта table

table.head()

Unnamed: 0_level_0,skilled,player_team,winner_team,duration,pre_game_duration,first_blood_time,first_blood_claimed,hero_id,hero_pick_order,leaver_status,...,avg_deaths_x16,avg_assists_x16,avg_gpm_x16,avg_xpm_x16,best_kills_x16,best_assists_x16,best_gpm_x16,best_xpm_x16,win_streak,best_win_streak
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
7,1,dire,dire,2140,90,129,0,90,9,0,...,8,15,352,430,10,30,551,745,2,5
8,0,radiant,radiant,2138,90,174,0,5,5,0,...,9,19,294,425,13,37,445,717,2,12
12,0,radiant,radiant,3547,90,360,0,81,7,0,...,7,9,493,543,23,18,691,762,3,3
13,1,dire,radiant,1878,90,28,0,74,9,0,...,7,12,515,583,25,34,869,935,0,6
14,1,dire,radiant,2232,90,129,0,14,6,0,...,10,16,337,452,34,43,672,797,0,9


##### В этой таблице 57 колонок:

56 признаков и целевая переменная для этой задачи
- **skilled**: 1 (опытный игрок), 0 (новичок) 

### 3. Формируем обучающую выборку

Алгоритмы машинного обучения получают на вход выборку, которая представлена:
- матрицей **`X`** (ее строчки соответствуют игрокам, столбцы — признакам) 
- вектором **`y`** из правильных ответов  


В этом примере мы будем предсказывать "опытный игрок или нет" по данным о скорости зарабатывания золота (`gold_per_min`) и общей стоимости всего инвентаря героя (`net_worth`)

In [5]:
# Берем все строки и оставляем столбцы 'net_worth' и 'gold_per_min' 
X = table.loc[:, ['net_worth', 'gold_per_min']]

# В качестве целевой переменной берем колонку skilled
y = table['skilled']

### 4. Обучаем классификатор

Для этого необходимо:  

1. Импортировать из библиотеки нужный классификатор, в нашем случае — DecisionTreeClassifier
2. Передать его в переменную (создать объект классификатора)  
3. Указать при его создании все необходимые параметры 
4. Вызвать метод `fit` (что в переводе с английского — обучить, подстроить), передав ему обучающую выборку



In [6]:
# Создаем объект классификатора classifier с глубиной дерева 2
classifier = tree.DecisionTreeClassifier(max_depth=2)

# Обучаем классификатор на подготовленной выборке
classifier.fit(X, y)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=2,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')

### 5. Построение предсказания по новым данным

После того как классификатор (`classifier`) был обучен для предсказания можно использовать его готовый метод `predict`, который принимает на вход матрицу X с новыми данными о неком игроке. 

Так как для обучения были использованы два определенных признака, новые данные должны тоже должны содержать две колонки с информацией по этим признакам: net_worth и gold_per_min 

In [7]:
# Создаем матрицу, состоящую из одной строчки и двух столбцов:
# net_worth = 4008
# gold_per_min = 120
new_data = [[4008, 120]]

# Предсказываем опытность игрока вызывая метод predict уже обученного классификатора
prediction = classifier.predict(new_data)

# Выводим результат
print("Предсказанная метка skilled: ", prediction)

Предсказанная метка skilled:  [0]


В результате получаем вектор (список) из предсказанных ответов. 

Поскольку матрица бсодержит параметры по одному игроку, то и выходной список состоит из одного элемента.

### В этом уроке мы узнали как можно использовать некоторые методы библиотек `pandas` и `sklearn`.  

Они имеют большое количество удобных методов, которые помогут вам в решении задач машинного обучения.

Подробнее о работе с библиотекой pandas можно почитать [здесь](https://habr.com/ru/company/ods/blog/322626/). В этой статье простым и понятным языком описаны основные приемы работы, которых вам будет более чем достаточно для участия в хакатоне.

А все подробности о работе с деревьями решений можно узнать [тут ](https://habr.com/en/company/ods/blog/322534/). Не пугайтесь, когда увидите математические формулы и термины, можете пока их пропустить и прочитать статью обзорно. Главное, чтобы у вас сложилось общее понимание того, как работают эти модели машинного обучения, а математику выучите после, в универе ;)
