In [133]:
import pandas as pd
import numpy as np

import time
import datetime

from sklearn.model_selection import KFold, cross_val_score
from sklearn.metrics import roc_auc_score

from  sklearn.ensemble import GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LogisticRegressionCV
from sklearn.preprocessing import StandardScaler

## Предобработка

In [218]:
#1. Получение данных
#считываем таблицу с признаками из features.csv
X_train = pd.read_csv('features.csv', index_col='match_id')
#получаем значения целевой переменной 
y_train = X_train['radiant_win']
#удаляем признаки, связанные с концом матча
X_train = X_train.loc[:, :'dire_first_ward_time']

In [246]:
#Смотрим, какие значения имеют пропуски. 
num = X_train.count()<len(X_train)
print(num[num])
#заполняем нулями вместо пропусков
X_train = X_train.fillna(0)
#проверяем, заполнились ли пропуски (на всякий случай). Всё нормально, идём дальше.
num = X_train.count()<len(X_train)
print(num[num])

Series([], dtype: bool)
Series([], dtype: bool)


## Градиентный бустинг

In [68]:
for i in [10,20,30]:
    start_time = datetime.datetime.now()
    #настраиваем классификатор
    clf = GradientBoostingClassifier(n_estimators=i, random_state=1)
    #обучаем выборку
    clf.fit(X_train,y_train)
    #генератор разбиений
    generator = KFold(n_splits=5,shuffle=True, random_state=1)
    #оцениваем качество
    quality = cross_val_score(X=X_train, y=y_train, estimator=clf, cv=generator, scoring='roc_auc')
    print('Time elapsed: ', datetime.datetime.now() - start_time)
    print('Number of trees: ',i,' Score: ',np.mean(quality))
    

Time elapsed:  0:00:44.975650
Number of trees:  10  Score:  0.66483292280491
Time elapsed:  0:01:46.937544
Number of trees:  20  Score:  0.6821140369500348
Time elapsed:  0:02:11.405638
Number of trees:  30  Score:  0.6896947542059906


### Отчёт по использованию градиентного бустинга
1. Какие признаки имеют пропуски среди своих значений? Что могут означать пропуски в этих признаках (ответьте на этот вопрос для двух любых признаков)?

Согласно выдаче ```X_train.count()<len(X_train) ``` пропуски имеют:

```first_blood_time``` ```first_blood_team``` ```first_blood_player1``` ```first_blood_player2``` ```radiant_bottle_time``` ```radiant_courier_time``` ```radiant_flying_courier_time``` ```radiant_first_ward_time```
```dire_bottle_time``` ```dire_courier_time``` ```dire_flying_courier_time``` ```dire_first_ward_time```
```first_blood_X ``` имеют пропуски, так как событие "Первая кровь"- "First blood" может наступить не во всех случаях.
```radiant_bottle_time```,  ```radiant_courier_time ```, и ```radiant_flying_courier_time``` 
2. Как называется столбец, содержащий целевую переменную?

```radiant_win```
3. Как долго проводилась кросс-валидация для градиентного бустинга с 30 деревьями?  Какое качество при этом получилось?

Time elapsed:  0:01:46.595157

Number of trees:  30  Score:  0.6892967175166005

4. Имеет ли смысл использовать больше 30 деревьев в градиентном бустинге? Что бы вы предложили делать, чтобы ускорить его обучение при увеличении количества деревьев?

Особого смысла нет, так как при большем количестве деревьев в разы увеличивается время обучения, а качество изменяется незначительно. Чтобы ускорить обучение возможно изменять глубину деревьев.

## Логистическая регрессия

In [248]:
#нормализуем признаки
scaler = StandardScaler()
X_train_scaled=scaler.fit_transform(X_train)


  return self.partial_fit(X, y)
  return self.fit(X, **fit_params).transform(X)


In [166]:
#обучаем логистическую регрессию
#генератор тот же
start_time = datetime.datetime.now()

generator = KFold(n_splits=5,shuffle=True, random_state=1)
lgr = LogisticRegressionCV(Cs=10, cv=generator, random_state=1, penalty='l2', scoring='roc_auc')
lgr.fit(X_train_scaled, y_train)
#predict = lgr.predict_proba(X_train_scaled)
print(lgr.score(X_train_scaled, y_train))

print('Time elapsed: ', datetime.datetime.now() - start_time)

0.7179727586106518
Time elapsed:  0:00:16.212449




In [250]:
#удалим категориальные признаки

X_train_cleaned = X_train.drop(labels=['lobby_type','r1_hero','r2_hero','r3_hero','r4_hero','r5_hero',
                                      'd1_hero','d2_hero','d3_hero','d4_hero','d5_hero'], axis=1)
X_train_cleaned_scaled=scaler.fit_transform(X_train_cleaned)

  return self.partial_fit(X, y)
  return self.fit(X, **fit_params).transform(X)


In [251]:
#cнова обучаем логистическую регрессию
#генератор тот же
start_time = datetime.datetime.now()

generator = KFold(n_splits=5,shuffle=True, random_state=1)
lgr2 = LogisticRegressionCV(Cs=10, cv=generator, random_state=1, penalty='l2', scoring='roc_auc')
lgr2.fit(X_train_cleaned_scaled, y_train)
#lgr2.predict_proba(X_train_cleaned_scaled)
print(lgr2.score(X_train_cleaned_scaled, y_train))
print('Time elapsed: ', datetime.datetime.now() - start_time)



0.7178321071588762
Time elapsed:  0:00:11.085675




In [252]:
#подсчитаем количество уникальных игроков в выборке
heroes = np.unique(X_train[['r1_hero','r2_hero','r3_hero','r4_hero','r5_hero',
                                      'd1_hero','d2_hero','d3_hero','d4_hero','d5_hero']].values)

print(heroes)
print(max(heroes))

[  1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17  18
  19  20  21  22  23  25  26  27  28  29  30  31  32  33  34  35  36  37
  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53  54  55
  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71  72  73
  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89  90  91
  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 109 110 112]
112


In [253]:
#формируем мешок слов по героям
# N — количество различных героев в выборке
X_pick = np.zeros((X_train.shape[0], max(heroes)))
for i, match_id in enumerate(X_train.index):
    for p in range(5):
        X_pick[i, X_train.ix[match_id, 'r%d_hero' % (p+1)]-1] = 1
        X_pick[i, X_train.ix[match_id, 'd%d_hero' % (p+1)]-1] = -1

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  import sys


In [255]:
#склеиваем с новым признаком
X_dummies = np.concatenate([X_train_cleaned_scaled, X_pick], axis=1)

In [256]:
#cнова обучаем логистическую регрессию
#генератор тот же
start_time = datetime.datetime.now()

generator = KFold(n_splits=5,shuffle=True, random_state=1)
lgr2 = LogisticRegressionCV(Cs=10, cv=generator, random_state=1, penalty='l2', scoring='roc_auc')
lgr2.fit(X_dummies, y_train)
#lgr2.predict_proba(X_dummies)
print(lgr2.score(X_dummies, y_train))
print('Time elapsed: ', datetime.datetime.now() - start_time)



0.7544331359955426
Time elapsed:  0:00:59.391888


## Тестовая выборка

In [257]:
X_test = pd.read_csv('features_test.csv', index_col='match_id')
X_test = X_test.fillna(0)

In [258]:
#подсчитаем количество уникальных игроков в выборке
test_heroes = np.unique(X_test[['r1_hero','r2_hero','r3_hero','r4_hero','r5_hero',
                                      'd1_hero','d2_hero','d3_hero','d4_hero','d5_hero']].values)
#удалим категориальные признаки

X_test_cleaned = X_test.drop(labels=['lobby_type','r1_hero','r2_hero','r3_hero','r4_hero','r5_hero',
                                      'd1_hero','d2_hero','d3_hero','d4_hero','d5_hero'], axis=1)
X_test_cleaned_scaled=scaler.transform(X_test_cleaned)

  


In [259]:
#формируем мешок слов по героям
# N — количество различных героев в выборке
X_pick_test = np.zeros((X_test.shape[0], max(test_heroes)))
for i, match_id in enumerate(X_test.index):
    for p in range(5):
        X_pick[i, X_test.ix[match_id, 'r%d_hero' % (p+1)]-1] = 1
        X_pick[i, X_test.ix[match_id, 'd%d_hero' % (p+1)]-1] = -1

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  import sys


In [277]:
#склеиваем с новым признаком
X_dummies_test = np.concatenate([X_test_cleaned_scaled, X_pick_test], axis=1)

In [261]:
#cчитаем вероятности на обученном классификаторе
pre = lgr2.predict_proba(X_dummies_test)


In [276]:
# получаем значения вероятности radiant для того чтобы получить максимальное и минимальное. костыли, да.
radiant = [0]*len(pre)
for i in range(len(pre)):
    radiant[i]=pre[i][0]
print(min(radiant))
print(max(radiant))

0.0060437516906335365
0.9943054890808856


### Отчёт по исследованию логистической регрессии
1. Какое качество получилось у логистической регрессии над всеми исходными признаками? Как оно соотносится с качеством градиентного бустинга? Чем вы можете объяснить эту разницу? Быстрее ли работает логистическая регрессия по сравнению с градиентным бустингом?

0.7179727586106518
Логистическая регрессия работает не сильно быстрее быстрее чем градиентный бустинг, хотя и является линейной функцией.

2. Как влияет на качество логистической регрессии удаление категориальных признаков (укажите новое значение метрики качества)? Чем вы можете объяснить это изменение?

0.7178321071588762
Качество значительно не изменилось, так как признаков было немного и они являлись шумом, не принося смыслового значения прогнозу.

3. Сколько различных идентификаторов героев существует в данной игре?

Всего существует 108 разных идентификаторов.
Но в коде пришлось использовать маскимальное значение идентификатора - 112 из-за особенностей реализации готовой функции.

4. Какое получилось качество при добавлении "мешка слов" по героям? Улучшилось ли оно по сравнению с предыдущим вариантом? Чем вы можете это объяснить?

Да, качество улучшилось - стало ```z0.7544331359955426```, что является сейчас максимальным. Я считаю, что причиной этого служит добавление признаков игрока, так как они влияют на игру, и теперь у нас больше полезных признаков. 

5. Какое минимальное и максимальное значение прогноза на тестовой выборке получилось у лучшего из алгоритмов?
Лучший алгоритм - логистическая регрессия с мешком слов.
Минимальное значение: ```0.0060437516906335365```
Максимальное значение: ```0.9943054890808856```

In [281]:
# kaggle_df['match_id']=X_test['match_id']
# kaggle_df['radiant_win']=df(radiant)


NameError: name 'df' is not defined