In [1]:
import pandas as pd
import numpy as np
import math
import helper
import time
import datetime
import matplotlib.pyplot as plt

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
from sklearn.neural_network import MLPClassifier
from sklearn.tree import DecisionTreeClassifier, DecisionTreeRegressor
from sklearn.ensemble import GradientBoostingClassifier, GradientBoostingRegressor
from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
from sklearn.svm import SVC, SVR

from sklearn import metrics
from sklearn.metrics import classification_report
from sklearn.model_selection import KFold, cross_val_score, LeaveOneOut, ShuffleSplit, train_test_split, GridSearchCV 
from sklearn.feature_selection import SelectPercentile, SelectFromModel
import pickle    

# Подгрузка всех таблиц с данными по матчям

In [2]:
# дф с матчами и рейтингом каждой команды с патча 7.01 для Премиум
df_rating_teams_Premium = pd.read_csv('../tabel/table from Datdota/Rating teams/PREMIUM (with double Infamous) 7.00+ to 12.02.18.csv', index_col=0)
# удалить повторяющиеся матчи с Infamous, и сделать реиндекс 
df_rating_teams_Premium = df_rating_teams_Premium.drop(1).reset_index().drop('index', axis=1)

# ДФ с контрпиками (head-to-head) с 6,74-7,09 и до 2018.05.06
df_contrpick = pd.read_csv(('../tabel/table from Datdota/Heah-to-head Contrpicks/'+
                'data from 6.74-7.09 with last day 2018.05.06. 7.00+ to 12.02.18.csv'), index_col=0)

# # ДФ с контрпиками (head-to-head) с 6,74-7,09 и до дня матча
# df_contrpick = pd.read_csv(('../tabel/table from Datdota/Heah-to-head Contrpicks/'+
#                 'data from 6.74-7.09 before day of match. 7.00+ to 12.02.18.csv'), index_col=0)

# ДФ с метовыми героями
df_meta_heroes = pd.read_csv('../tabel/table from Datdota/AvgElo Meta and Signatures Heroes/'+
                             'Meta 7.00+ to 12.02.18.csv', index_col=0)

# ДФ с сигнатурками
df_signatures_heroes = pd.read_csv('../tabel/table from Datdota/AvgElo Meta and Signatures Heroes/'+
                                   'Sigantures 7.00+ to 12.02.18.csv', index_col=0)


# Создание основного ДФ для обучения и предсказания

In [3]:
# Соединение всех данных в один ДФ
main = pd.merge(df_rating_teams_Premium, df_contrpick, left_on='match_id', right_on='match_id',how='left')
main = pd.merge(main, df_meta_heroes, left_on='match_id', right_on='match_id',how='left')
main = pd.merge(main, df_signatures_heroes, left_on='match_id', right_on='match_id',how='left')

# # удаление не нужных колонок для обучения
main = main.drop(['match_id', 'start_time', 'radiant_team_id', 'radiant_score', 'dire_team_id',
           'dire_score', 'radiant_name', 'dire_name'], axis=1)
# Оставляю только важные фичи, убираю из рейтинга команд ело32 и ело64
main = main.drop(main.loc[:, 'radiant_current_elo32':'radiant_thirtyDayAvg_elo64'], axis=1)
main = main.drop(main.loc[:, 'dire_current_elo32':'dire_thirtyDayAvg_elo64'], axis=1)
# Заполнить пустые значения на 0
main = main.fillna(0)

In [4]:
len(main)

3729

# Создание обучающих и тестовых данных

In [5]:
# удалть имена команд и сделать обучающие данные и ответы
X = main.drop(['radiant_win'], axis=1)
y = main['radiant_win']

# СДЕЛАТЬ 1 или 0 вместо true false
y = y.astype(int)

# деление на тестовые и обучающую выборку
X_train, X_test, y_train, y_test = train_test_split(X,y, random_state=0)
X_train.columns

Index(['radiant_mu_glicko', 'radiant_rating_glicko',
       'radiant_ratingSevenDaysAgo_glicko', 'radiant_sigma_glicko',
       'radiant_mu_glicko2', 'radiant_phi_glicko2', 'radiant_rating_glicko2',
       'radiant_ratingSevenDaysAgo_glicko2', 'dire_mu_glicko',
       'dire_rating_glicko', 'dire_ratingSevenDaysAgo_glicko',
       'dire_sigma_glicko', 'dire_mu_glicko2', 'dire_phi_glicko2',
       'dire_rating_glicko2', 'dire_ratingSevenDaysAgo_glicko2',
       'radiant_H1elo_vs_enemies', 'radiant_H2elo_vs_enemies',
       'radiant_H3elo_vs_enemies', 'radiant_H4elo_vs_enemies',
       'radiant_H5elo_vs_enemies', 'dire_H1elo_vs_enemies',
       'dire_H2elo_vs_enemies', 'dire_H3elo_vs_enemies',
       'dire_H4elo_vs_enemies', 'dire_H5elo_vs_enemies', 'radiant_H1_AvgElo_x',
       'radiant_H2_AvgElo_x', 'radiant_H3_AvgElo_x', 'radiant_H4_AvgElo_x',
       'radiant_H5_AvgElo_x', 'dire_H1_AvgElo_x', 'dire_H2_AvgElo_x',
       'dire_H3_AvgElo_x', 'dire_H4_AvgElo_x', 'dire_H5_AvgElo_x',
       

# Решетчатый поиск на Gradient Bosting

In [6]:
%%time
# # Праметры GB
# param_grid = {'n_estimators': [50, 100, 150], 'max_depth': [10, 25, 50, 100],
#               'max_features': [10, 20, 40]}
param_grid = {'n_estimators': [100], 'max_depth': [10],
              'max_features': [40]}
grid_search_GB = GridSearchCV(GradientBoostingClassifier(), param_grid, cv=5, n_jobs=-1)

grid_search_GB.fit(X_train,y_train)

print("Наилучшие значения параметров: {}".format(grid_search_GB.best_params_))
print('------------------------------------------------------------------------------------------------')
print ("Модель обученная на данных контрпиков до июня 2018")
print(classification_report(y_test, grid_search_GB.predict(X_test), target_names=['dire_win', 'radiant_win']))

Наилучшие значения параметров: {'max_depth': 10, 'max_features': 40, 'n_estimators': 100}
------------------------------------------------------------------------------------------------
Модель обученная на данных контрпиков до июня 2018
             precision    recall  f1-score   support

   dire_win       0.72      0.71      0.72       452
radiant_win       0.73      0.74      0.73       481

avg / total       0.73      0.73      0.73       933

Wall time: 18.8 s


In [56]:
# save the model to disk
filename = 'grid_search_GB_model v.1.1 .sav'
pickle.dump(grid_search_GB, open(filename, 'wb'))

In [12]:
%%time
# Праметры GB
# param_grid = {'n_estimators': [25, 50, 100, 150], 'max_depth': [10, 25, 50, 100],
#               'max_features': [50, 100, 200, 300]}
param_grid = {'n_estimators': [100], 'max_depth': [10],
              'max_features': [40]}
grid_search_GB = GridSearchCV(GradientBoostingClassifier(), param_grid, cv=5, n_jobs=-1)

grid_search_GB.fit(X_train,y_train)

print("Наилучшие значения параметров: {}".format(grid_search_GB.best_params_))
print('------------------------------------------------------------------------------------------------')
print ("Модель обученная на данных контрпиков до дня матча")
print(classification_report(y_test, grid_search_GB.predict(X_test), target_names=['dire_win', 'radiant_win']))

Наилучшие значения параметров: {'max_depth': 10, 'max_features': 40, 'n_estimators': 100}
------------------------------------------------------------------------------------------------
Модель обученная на данных контрпиков до дня матча
             precision    recall  f1-score   support

   dire_win       0.65      0.65      0.65       452
radiant_win       0.67      0.67      0.67       481

avg / total       0.66      0.66      0.66       933

Wall time: 18.4 s


In [11]:
# # save the model to disk
# filename = 'grid_search_GB_model_Patch6.74+_2018.05.06.sav'
# pickle.dump(grid_search_GB, open(filename, 'wb'))

In [7]:
%%time
# ДАННЫЕ ПО HEAD-TO-HEAD ДЛЯ ВСЕХ ПАТЧЕЙ ДО ПРЕДЫДУЩЕГО ДНЯ МАТЧЯ
import xgboost as xgb
# fit model no training data
xgb_all_data = xgb.XGBClassifier()
xgb_all_data.fit(X_train, y_train)
print ("Модель обученная на данных контрпиков до июня 2018")
print(classification_report(y_test, xgb_all_data.predict(X_test), target_names=['dire_win', 'radiant_win']))



Модель обученная на данных контрпиков до июня 2018
             precision    recall  f1-score   support

   dire_win       0.73      0.73      0.73       452
radiant_win       0.75      0.74      0.75       481

avg / total       0.74      0.74      0.74       933

Wall time: 240 ms


In [50]:
# save the model to disk
filename = 'xgb_all_data v.1.1 .sav'
pickle.dump(xgb_all_data, open(filename, 'wb'))

In [13]:
%%time
# ДАННЫЕ ПО HEAD-TO-HEAD ДЛЯ ВСЕХ ПАТЧЕЙ ДО ПРЕДЫДУЩЕГО ДНЯ МАТЧЯ
import xgboost as xgb
# fit model no training data
xgb_all_data = xgb.XGBClassifier()
xgb_all_data.fit(X_train, y_train)
print ("Модель обученная на данных контрпиков до дня матча")
print(classification_report(y_test, xgb_all_data.predict(X_test), target_names=['dire_win', 'radiant_win']))

Модель обученная на данных контрпиков до дня матча
             precision    recall  f1-score   support

   dire_win       0.65      0.64      0.65       452
radiant_win       0.67      0.68      0.67       481

avg / total       0.66      0.66      0.66       933

Wall time: 215 ms


# Проверка на новых данных

In [8]:
# дф с матчами и рейтингом каждой команды с патча 7.01 для Премиум
df_rating_teams_Premium = pd.read_csv('../tabel/table from Datdota/Rating teams/'+
                                      'PREMIUM on 13.02.18 to 12.03.18.csv', index_col=0)

# ДФ с контрпиками (head-to-head) с 6,74-7,09 и до 2018.05.06
df_contrpick = pd.read_csv(('../tabel/table from Datdota/Heah-to-head Contrpicks/'+
                'data from 6.74-7.10 with last day 2018.05.06. on 13.02.18 to 12.03.18.csv'), index_col=0)

# # ДФ с контрпиками (head-to-head) с 6,74-7,09 и до дня матча
# df_contrpick = pd.read_csv(('../tabel/table from Datdota/Heah-to-head Contrpicks/'+
#                 'data from 6.74-7.10 before day of match. on 13.02.18 to 12.03.18.csv'), index_col=0)

# ДФ с метовыми героями
df_meta_heroes = pd.read_csv('../tabel/table from Datdota/AvgElo Meta and Signatures Heroes/'+
                             'Meta on 13.02.18 to 12.03.18.csv', index_col=0)

# ДФ с сигнатурками
df_signatures_heroes = pd.read_csv('../tabel/table from Datdota/AvgElo Meta and Signatures Heroes/'+
                                   'Signatures on 13.02.18 to 12.03.18.csv', index_col=0)


In [9]:
# Соединение всех данных в один ДФ
test = pd.merge(df_rating_teams_Premium, df_contrpick, left_on='match_id', right_on='match_id',how='left')
test = pd.merge(test, df_meta_heroes, left_on='match_id', right_on='match_id',how='left')
test = pd.merge(test, df_signatures_heroes, left_on='match_id', right_on='match_id',how='left')

# # удаление не нужных колонок для обучения
test = test.drop(['match_id', 'start_time', 'radiant_team_id', 'radiant_score', 'dire_team_id',
           'dire_score', 'radiant_name', 'dire_name', 'league_name'], axis=1)
test = test.drop(test.loc[:, 'radiant_H1':'dire_P5'], axis=1)
test = test.dropna()

# Оставляю только важные фичи, убираю из рейтинга команд ело32 и ело64
test = test.drop(test.loc[:, 'radiant_current_elo32':'radiant_thirtyDayAvg_elo64'], axis=1)
test = test.drop(test.loc[:, 'dire_current_elo32':'dire_thirtyDayAvg_elo64'], axis=1)

In [10]:
# Создание контрольной выборки
# удалть имена команд и сделать обучающие данные и ответы
X_contr = test.drop(['radiant_win'], axis=1)
y_contr = test['radiant_win']

# СДЕЛАТЬ 1 или 0 вместо true false
y_contr = y_contr.astype(int)


In [11]:
print ("Модель обученная на данных контрпиков до июня 2018")
print(classification_report(y_contr, grid_search_GB.predict(X_contr), target_names=['dire_win', 'radiant_win']))

Модель обученная на данных контрпиков до июня 2018
             precision    recall  f1-score   support

   dire_win       0.65      0.68      0.66       164
radiant_win       0.75      0.72      0.73       216

avg / total       0.71      0.70      0.70       380



In [12]:
print ("Модель обученная на данных контрпиков до июня 2018")
print(classification_report(y_contr, xgb_all_data.predict(X_contr), target_names=['dire_win', 'radiant_win']))

Модель обученная на данных контрпиков до июня 2018
             precision    recall  f1-score   support

   dire_win       0.65      0.69      0.67       164
radiant_win       0.75      0.72      0.74       216

avg / total       0.71      0.71      0.71       380



In [17]:
print ("Модель обученная на данных контрпиков до дня матча")
print(classification_report(y_contr, grid_search_GB.predict(X_contr), target_names=['dire_win', 'radiant_win']))

Модель обученная на данных контрпиков до дня матча
             precision    recall  f1-score   support

   dire_win       0.58      0.60      0.59       164
radiant_win       0.69      0.68      0.68       216

avg / total       0.64      0.64      0.64       380



In [18]:
print ("Модель обученная на данных контрпиков до дня матча")
print(classification_report(y_contr, xgb_all_data.predict(X_contr), target_names=['dire_win', 'radiant_win']))

Модель обученная на данных контрпиков до дня матча
             precision    recall  f1-score   support

   dire_win       0.60      0.65      0.63       164
radiant_win       0.72      0.68      0.70       216

avg / total       0.67      0.67      0.67       380

