In [28]:
# features | features_test
import pandas 
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.model_selection import KFold
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score,r2_score, make_scorer
from sklearn.model_selection import cross_val_score
import datetime

# Считайте таблицу с признаками из файла features.csv с помощью кода, приведенного выше. 
features = pandas.read_csv('./data/features.csv', index_col='match_id')
features_test = pandas.read_csv('./data/features_test.csv', nrows=1, index_col='match_id')

#    Какой столбец содержит целевую переменную? Запишите его название.
Y = features['radiant_win']

# Оставляем данные из выборки test
columns = features_test.columns.tolist() 
X = features[columns]
      
#    Проверьте выборку на наличие пропусков с помощью функции count(),
#    которая для каждого столбца показывает число заполненных значений. Много ли пропусков в данных? 

total = len(X) 
values = {}
for column in columns:
    if(X[column].count() < total): 
        print column, '=> ', X[column].count()
        values[column] = X[column].mean()
        
# заменяем пропущеное значение на среднее   
# X = X.fillna(0) #
X = X.fillna(value=values)        
        
# first_blood_time =>  77677 - игровое время первой крови - первая кровь может не пролится за первые 5 мин
# first_blood_team =>  77677 - команда, совершившая первую кровь (0 — Radiant, 1 — Dire) - первая кровь может не пролится за первые 5 мин
# first_blood_player1 =>  77677 - игрок, причастный к событию  - первая кровь может не пролится за первые 5 мин
# first_blood_player2 =>  53243 - второй игрок, причастный к событию - первая кровь может не пролится за первые 5 мин, при этом вероятность еще меньше, т.к. второй игрок не всегда будет фигурировать даже в случившемся событии

# radiant_bottle_time =>  81539 - время первого приобретения командой предмета "bottle" - не во всех играх происходит это событие
# radiant_courier_time =>  96538 -  время приобретения предмета "courier"  - не во всех играх происходит это событие
# radiant_flying_courier_time =>  69751 - время приобретения предмета "flying_courier" - не во всех играх происходит это событие 
# radiant_first_ward_time =>  95394 - время установки командой первого "наблюдателя" - не во всех играх происходит это событие

# dire_bottle_time =>  81087
# dire_courier_time =>  96554
# dire_flying_courier_time =>  71132
# dire_first_ward_time =>  95404
        
#  @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
#   Забудем, что в выборке есть категориальные признаки, и попробуем обучить градиентный бустинг 
#   над деревьями на имеющейся матрице "объекты-признаки". Зафиксируйте генератор разбиений для кросс-валидации 
#   по 5 блокам (KFold), не забудьте перемешать при этом выборку (shuffle=True), поскольку данные в таблице 
#   отсортированы по времени, и без перемешивания можно столкнуться с нежелательными эффектами при оценивании качества. 
#   Оцените качество градиентного бустинга (GradientBoostingClassifier) с помощью данной кросс-валидации, 
#   попробуйте при этом разное количество деревьев (как минимум протестируйте следующие значения для количества 
#   деревьев: 10, 20, 30). Долго ли настраивались классификаторы? Достигнут ли оптимум на испытанных значениях 
#   параметра n_estimators, или же качество, скорее всего, продолжит расти при дальнейшем его увеличении?

cv = KFold(n_splits=5, shuffle=True, random_state=241)
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=241)
roc_auc_scorer = make_scorer(roc_auc_score)

print ''
print 'begin GradientBoostingClassifier ...'
for n in [10]: #[10, 20, 30, 40, 50, 100, 200]:
    start_time = datetime.datetime.now()
    clf = GradientBoostingClassifier(n_estimators=n, random_state=241)
    clf.fit(X_train, y_train)
    
    scores = cross_val_score(clf, X_test, y_test, scoring='roc_auc', cv=cv)
    print n, ' -> ', scores.mean(),  ', time elapsed:', datetime.datetime.now() - start_time

# Вывод обучения
# 10  ->  0.664742959026921 , time elapsed: 0:00:16.483141
# 20  ->  0.6827726672264218 , time elapsed: 0:00:27.931048
# 30  ->  0.6888565208395903 , time elapsed: 0:00:40.445222
# 40  ->  0.6932318263791817 , time elapsed: 0:00:54.498139
# 50  ->  0.6959346637422967 , time elapsed: 0:01:07.349483
# 100  ->  0.7046407181978287 , time elapsed: 0:02:18.671581
# 200  ->  0.7096535702483857 , time elapsed: 0:04:35.863579
# Из данных можно сделать вывод - скорость обучения (настройки классификатора) ростет линейно от кол-ва деревьев
# Оптимальное качество достигается на n_estimators = 30 ~ 0.63, далее хотя качество и продолжает рости, но происходит сильное затухание
# И качество существенно не ростет даже при картном увеличении (n_estimators=200)


# В отчете по данному этапу вы должны ответить на следующие вопросы:
# 1. Какие признаки имеют пропуски среди своих значений? 
# Что могут означать пропуски в этих признаках (ответьте на этот вопрос для двух любых признаков)?
## Не все события происходят в каждой игре (см. выше.)
# 2. Как называется столбец, содержащий целевую переменную?
## radiant_win
# 3. Как долго проводилась кросс-валидация для градиентного бустинга с 30 деревьями? Инструкцию по измерению времени можно найти ниже по тексту. Какое качество при этом получилось? Напомним, что в данном задании мы используем метрику качества AUC-ROC.
## 30  ->  0.6888565208395903 , time elapsed: 0:00:40.445222
# 4. Имеет ли смысл использовать больше 30 деревьев в градиентном бустинге? Что бы вы предложили делать, чтобы ускорить его обучение при увеличении количества деревьев?
## смысла нет, качество изменится не сильно, но время займет много

first_blood_time =>  77677
first_blood_team =>  77677
first_blood_player1 =>  77677
first_blood_player2 =>  53243
radiant_bottle_time =>  81539
radiant_courier_time =>  96538
radiant_flying_courier_time =>  69751
radiant_first_ward_time =>  95394
dire_bottle_time =>  81087
dire_courier_time =>  96554
dire_flying_courier_time =>  71132
dire_first_ward_time =>  95404

begin GradientBoostingClassifier ...
10  ->  0.664742959026921 , time elapsed: 0:00:15.541192


In [29]:
# =====================================================================================


from sklearn.linear_model import LogisticRegression 
from sklearn.preprocessing import StandardScaler

# Оцените качество логистической регрессии (sklearn.linear_model.LogisticRegression с L2-регуляризацией) 
# с помощью кросс-валидации по той же схеме, которая использовалась для градиентного бустинга. 


L2_LR = [1e-4, 1e-3, 1e-2, 1e-1, 1, 1e1, 1e2, 1e3, 1e4]

scaler = StandardScaler()
scaler.fit(X)
X_train_trans = scaler.transform(X_train)
X_test_trans = scaler.transform(X_test)

print ''
print 'begin StandardScaler LogisticRegression ..., shape: ', X_train.shape

# roc_auc_scorer 
for n in L2_LR:
    start_time = datetime.datetime.now()
    clf = LogisticRegression(penalty='l2',C=n, random_state=241)
    clf.fit(X_train_trans, y_train)
    
    scores = cross_val_score(clf, X_test_trans, y_test, scoring='roc_auc', cv=cv)
    print n, ' -> ', scores.mean(),  ', time elapsed:', datetime.datetime.now() - start_time

# Вывод    
# 0.0001  ->  0.7044488575866314 , time elapsed: 0:00:02.233493
# 0.001  ->  0.7153558580738213 , time elapsed: 0:00:03.603334
# 0.01  ->  0.716121852574402 , time elapsed: 0:00:05.956439
# 0.1  ->  0.7159255905069706 , time elapsed: 0:00:07.078326
# 1  ->  0.7158944792086537 , time elapsed: 0:00:06.951650
# 10.0  ->  0.7158899279505536 , time elapsed: 0:00:07.043253
# 100.0  ->  0.7158893832069998 , time elapsed: 0:00:06.967917
# 1000.0  ->  0.7158893637590881 , time elapsed: 0:00:07.009808
# 10000.0  ->  0.7158893248443823 , time elapsed: 0:00:06.991341
#   

# Подберите при этом лучший параметр регуляризации (C). Какое наилучшее качество у вас получилось? 
## Лучшее качество достигнуто при значении L2 = 0.01, качество 0.716121852574402
# Как оно соотносится с качеством градиентного бустинга? Чем вы можете объяснить эту разницу? 
## Логистическая регрессия показывает несколько лучшее качество (~ 5%)
# Быстрее ли работает логистическая регрессия по сравнению с градиентным бустингом?
## Логистическая регрессия работает значительно выбстрее градиентного бустинга


# =====================================================================================

# 2. Среди признаков в выборке есть категориальные, которые мы использовали как числовые,
# что вряд ли является хорошей идеей. Категориальных признаков в этой задаче одиннадцать: 
# lobby_type и r1_hero, r2_hero, ..., r5_hero, d1_hero, d2_hero, ..., d5_hero. 
# Уберите их из выборки, и проведите кросс-валидацию для логистической регрессии на новой выборке 
# с подбором лучшего параметра регуляризации. Изменилось ли качество? Чем вы можете это объяснить?

X_new = X.copy()
drop_cols = ['lobby_type', 'r1_hero', 'r2_hero', 
            'r3_hero', 'r4_hero', 'r5_hero', 'd1_hero', 
            'd2_hero', 'd3_hero', 'd4_hero', 'd5_hero']
X_new = X_new.drop(drop_cols, axis=1)

# NEW SPLIT
X_train_new, X_test_new, y_train_new, y_test_new = train_test_split(X_new, Y, test_size=0.33, random_state=241)
scaler = StandardScaler()
scaler.fit(X_new)
X_train_trans_new = scaler.transform(X_train_new)
X_test_trans_new = scaler.transform(X_test_new)

print ''
print 'begin StandardScaler LogisticRegression ..., shape: ', X_train_new.shape

for n in L2_LR:
    start_time = datetime.datetime.now()
    clf = LogisticRegression(penalty='l2',C=n, random_state=241)
    clf.fit(X_train_trans_new, y_train)
    
    scores = cross_val_score(clf, X_test_trans_new, y_test, scoring='roc_auc', cv=cv)
    print n, ' -> ', scores.mean(),  ', time elapsed:', datetime.datetime.now() - start_time

# Вывод
# 0.0001  ->  0.7046061904318877 , time elapsed: 0:00:01.987312
# 0.001  ->  0.7157336419208571 , time elapsed: 0:00:03.494213
# 0.01  ->  0.7165269494905575 , time elapsed: 0:00:05.229055
# 0.1  ->  0.7163210127466281 , time elapsed: 0:00:05.581821
# 1  ->  0.716286536215492 , time elapsed: 0:00:06.137357
# 10.0  ->  0.7162827836867512 , time elapsed: 0:00:06.219873
# 100.0  ->  0.7162823746690279 , time elapsed: 0:00:06.148362
# 1000.0  ->  0.7162824524524554 , time elapsed: 0:00:06.163399
# 10000.0  ->  0.7162824718808714 , time elapsed: 0:00:06.143865
## После применения  кол-ва параметров качество сильно не изменилось, по прежнему лучший результат 
## 0.01  ->  0.7165269494905575


begin StandardScaler LogisticRegression ..., shape:  (65144, 102)
0.0001  ->  0.7044488575866314 , time elapsed: 0:00:02.238369
0.001  ->  0.7153558580738213 , time elapsed: 0:00:03.634944
0.01  ->  0.716121852574402 , time elapsed: 0:00:05.910902
0.1  ->  0.7159255905069706 , time elapsed: 0:00:07.018061
1  ->  0.7158944792086537 , time elapsed: 0:00:07.112317
10.0  ->  0.7158899279505536 , time elapsed: 0:00:07.051983
100.0  ->  0.7158893832069998 , time elapsed: 0:00:07.206414
1000.0  ->  0.7158893637590881 , time elapsed: 0:00:07.374739
10000.0  ->  0.7158893248443823 , time elapsed: 0:00:07.121282

begin StandardScaler LogisticRegression ..., shape:  (65144, 91)
0.0001  ->  0.7046061904318877 , time elapsed: 0:00:02.015648
0.001  ->  0.7157336419208571 , time elapsed: 0:00:03.528196
0.01  ->  0.7165269494905575 , time elapsed: 0:00:05.393060
0.1  ->  0.7163210127466281 , time elapsed: 0:00:06.265724
1  ->  0.716286536215492 , time elapsed: 0:00:06.414533
10.0  ->  0.7162827836867

In [30]:
# =====================================================================================


import numpy as np

# 3. На предыдущем шаге мы исключили из выборки признаки rM_hero и dM_hero, которые показывают, 
# какие именно герои играли за каждую команду. Это важные признаки — герои имеют разные характеристики, 
# и некоторые из них выигрывают чаще, чем другие. 
# Выясните из данных, сколько различных идентификаторов героев существует в 
# данной игре (вам может пригодиться фукнция unique или value_counts).
summare = [] 
for dc in drop_cols[1:]:
    summare += list(X[dc].unique())
    
N_hero_type =      max(set(summare))  # len(set(summare) )

print ''
print 'Всего различных идентификаторов героев:: ', N_hero_type
# Всего различных идентификаторов героев::  112
 
# 4. Воспользуемся подходом "мешок слов" для кодирования информации о героях. 
# Пусть всего в игре имеет N различных героев. Сформируем N признаков, при этом i-й будет равен нулю, 
# если i-й герой не участвовал в матче; единице, если i-й герой играл за команду Radiant; 
# минус единице, если i-й герой играл за команду Dire. Ниже вы можете найти код, который выполняет данной 
# преобразование. Добавьте полученные признаки к числовым, которые вы использовали во втором пункте данного этапа.

# N — количество различных героев в выборке
X_pick = np.zeros((X.shape[0], N_hero_type)) 

for i, match_id in enumerate(X.index):
    for p in xrange(5):        
        X_pick[i, X.ix[match_id, 'r%d_hero' % (p+1)]-1] = 1
        X_pick[i, X.ix[match_id, 'd%d_hero' % (p+1)]-1] = -1


# 5. Проведите кросс-валидацию для логистической регрессии на новой выборке с подбором лучшего параметра регуляризации. 
# Какое получилось качество? Улучшилось ли оно? Чем вы можете это объяснить?

# NEW SPLIT
for n in  range(N_hero_type):
    key = 'hero_type_%d' % n 
    X[key] = pandas.Series(X_pick[:, n], index=X.index) 
        
# Удалим категориальные признаки
X = X.drop(drop_cols, axis=1)        
        
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.33, random_state=241)
scaler = StandardScaler()
scaler.fit(X)
X_train_trans = scaler.transform(X_train)
X_test_trans = scaler.transform(X_test)

bestModel = [None, -1]
print ''
print 'begin StandardScaler+X_pick LogisticRegression ..., shape: ', X_train.shape
for n in L2_LR:
    start_time = datetime.datetime.now()
    clf = LogisticRegression(C=n, random_state=241)
    clf.fit(X_train_trans, y_train)
    
    scores = cross_val_score(clf, X_test_trans, y_test, scoring='roc_auc', cv=cv)
    print n, ' -> ', scores.mean(),  ', time elapsed:', datetime.datetime.now() - start_time
    
    if(bestModel[1] == -1 or bestModel[1] < scores.mean()):
        bestModel[0] = clf
        bestModel[1] = scores.mean()
    
    
# Вывод    
# begin StandardScaler+X_pick LogisticRegression ..., shape:  (65144, 203)
# 0.0001  ->  0.7295677341810286 , time elapsed: 0:00:04.960630
# 0.001  ->  0.7483507367761324 , time elapsed: 0:00:08.500225
# 0.01  ->  0.7501496053631792 , time elapsed: 0:00:11.987407
# 0.1  ->  0.7499499183329983 , time elapsed: 0:00:13.283278
# 1  ->  0.7499034235962837 , time elapsed: 0:00:13.264894
# 10.0  ->  0.749897531535672 , time elapsed: 0:00:13.481384
# 100.0  ->  0.7498963256079507 , time elapsed: 0:00:13.736012
# 1000.0  ->  0.7498961894405547 , time elapsed: 0:00:13.610593
# 10000.0  ->  0.7498962477836765 , time elapsed: 0:00:13.672530
## Лучшее качество  0.01  ->  0.7501496053631792
## Преобразование порядковых принзаков в категориальные позволило значительно улучшить модель.


# 6. Постройте предсказания вероятностей победы команды Radiant для тестовой выборки с помощью лучшей из 
# изученных моделей (лучшей с точки зрения AUC-ROC на кросс-валидации). Убедитесь, что предсказанные 
# вероятности адекватные — находятся на отрезке [0, 1], не совпадают между собой 
# (т.е. что модель не получилась константной).   
 
print ''    
print 'Test - features_test' 

features_test = features_test.fillna(0)

X_pick = np.zeros((features_test.shape[0], N_hero_type)) 

for i, match_id in enumerate(features_test.index):
    for p in xrange(5):        
        X_pick[i, features_test.ix[match_id, 'r%d_hero' % (p+1)]-1] = 1
        X_pick[i, features_test.ix[match_id, 'd%d_hero' % (p+1)]-1] = -1
        
        
for n in  range(N_hero_type):
    key = 'hero_type_%d' % n 
    features_test[key] = pandas.Series(X_pick[:, n], index=features_test.index)   

# Удалим категориальные признаки
features_test = features_test.drop(drop_cols, axis=1)     
     
scaler = StandardScaler()
scaler.fit(features_test)         
features_test_trans = scaler.transform(features_test)  
print 'clf.predict_proba(features_test_trans): ', bestModel[0].predict_proba(features_test_trans)
 

# Распределение побед:  0.47628219 0.52371781   
 




Всего различных идентификаторов героев::  112


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated



begin StandardScaler+X_pick LogisticRegression ..., shape:  (65144, 203)
0.0001  ->  0.7295677341810286 , time elapsed: 0:00:04.125688
0.001  ->  0.7483507367761324 , time elapsed: 0:00:07.448855
0.01  ->  0.7501496053631792 , time elapsed: 0:00:11.387636
0.1  ->  0.7499499183329983 , time elapsed: 0:00:13.275921
1  ->  0.7499034235962837 , time elapsed: 0:00:13.960815
10.0  ->  0.749897531535672 , time elapsed: 0:00:13.808441
100.0  ->  0.7498963256079507 , time elapsed: 0:00:13.812769
1000.0  ->  0.7498961894405547 , time elapsed: 0:00:13.930174
10000.0  ->  0.7498962477836765 , time elapsed: 0:00:13.669345

Test - features_test
clf.predict_proba(features_test_trans):  [[0.47653616 0.52346384]]


.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
