In [1]:
import time
import datetime

import pandas
import numpy as np
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.cross_validation import KFold, cross_val_score
from sklearn.grid_search import GridSearchCV
from sklearn.preprocessing import StandardScaler
from scipy.sparse import hstack
from sklearn.linear_model import LogisticRegression


# декоратор для удобства показа времени выполнения функции
def print_exec_time(func):
    def wrapper(*args, **kwargs):
        start_time = datetime.datetime.now()
        return_value = func(*args, **kwargs)
        end_time = datetime.datetime.now()
        print(u"Execution time of {} is {} (args: {}, kwargs: {})".format(
            func.__name__, end_time - start_time, args, kwargs)
        )
        
        return return_value

    return wrapper

features = pandas.read_csv('./features.csv', index_col='match_id')
features_test = pandas.read_csv('./features_test.csv', index_col='match_id')

match_result_columns = [
    'duration',
    'radiant_win',
    'tower_status_radiant',
    'tower_status_dire',
    'barracks_status_radiant',
    'barracks_status_dire'
]

# Удалите признаки, связанные с итогами матча
match_result_data = features[match_result_columns]
y = match_result_data['radiant_win']

match_progress_data = features.drop(match_result_columns, axis=1)

In [2]:
progress_count = match_progress_data.count()

partial_columns_info = progress_count[progress_count != progress_count.max()]
print(partial_columns_info)

print(u"\nВопрос: Много ли пропусков в данных?")
print(u"Ответ: из {} признаков, частично заполнены {}".format(len(progress_count), len(partial_columns_info)))

print(u"\nВопрос: Запишите названия признаков, имеющих пропуски, и попробуйте для любых двух из них дать" 
      u"обоснование, почему их значения могут быть пропущены.")
print(u"Ответ: Список названий признаков, имеющих пропуски:")
print(", ".join([key for key in partial_columns_info.keys()]))

print(u"""
Основание пропусков для признаков:
* first_blood_time: игровое время первой крови
* first_blood_team: команда, совершившая первую кровь (0 — Radiant, 1 — Dire)
* first_blood_player1: игрок, причастный к событию
* first_blood_player2: второй игрок, причастный к событию

Понятно из описания задачи: "Если событие "первая кровь" не успело произойти за первые 5 минут, 
то признаки принимают пропущенное значение"

Признаки:
* radiant_bottle_time
* radiant_courier_time
* radiant_flying_courier_time
* radiant_first_ward_time
* dire_bottle_time
* dire_courier_time
* dire_flying_courier_time
* dire_first_ward_time

описывают время наступления некоторого необязательного события игры. Судя по всему - в некоторых матчах данное
событие не наступило в первые 5 минут матча.
""")

first_blood_time               77677
first_blood_team               77677
first_blood_player1            77677
first_blood_player2            53243
radiant_bottle_time            81539
radiant_courier_time           96538
radiant_flying_courier_time    69751
radiant_first_ward_time        95394
dire_bottle_time               81087
dire_courier_time              96554
dire_flying_courier_time       71132
dire_first_ward_time           95404
dtype: int64

Вопрос: Много ли пропусков в данных?
Ответ: из 102 признаков, частично заполнены 12

Вопрос: Запишите названия признаков, имеющих пропуски, и попробуйте для любых двух из них датьобоснование, почему их значения могут быть пропущены.
Ответ: Список названий признаков, имеющих пропуски:
first_blood_time, first_blood_team, first_blood_player1, first_blood_player2, radiant_bottle_time, radiant_courier_time, radiant_flying_courier_time, radiant_first_ward_time, dire_bottle_time, dire_courier_time, dire_flying_courier_time, dire_first_ward_tim

In [3]:
# Замените пропуски на нули с помощью функции fillna()
X = match_progress_data.fillna(0)
X_test = features_test.fillna(0)

In [4]:
print(u"Вопрос: Какой столбец содержит целевую переменную? Запишите его название.")
print(u"Ответ: radiant_win (1, если победила команда Radiant, 0 — иначе)")

Вопрос: Какой столбец содержит целевую переменную? Запишите его название.
Ответ: radiant_win (1, если победила команда Radiant, 0 — иначе)


In [7]:
@print_exec_time
def get_scores_boosting_by_n_estimators(n_estimators, learning_rate=0.1, max_depth=3, subsample=1.0):
    clf = GradientBoostingClassifier(
        n_estimators=n_estimators,
        random_state=1,
        learning_rate=learning_rate,
        max_depth=max_depth,
        subsample=subsample
    )

    k_fold = KFold(len(y), n_folds=5, random_state=1, shuffle=True)
    scores = cross_val_score(clf, X, y, cv=k_fold, scoring='roc_auc', n_jobs=-1)
    return scores.mean()

In [8]:
all_scores_boosting = list()
for n_estimators in [10, 20, 30, 100, 200]:
    all_scores_boosting.append((n_estimators, get_scores_boosting_by_n_estimators(n_estimators=n_estimators)))
print(all_scores_boosting)

Execution time of get_scores_boosting_by_n_estimators is 0:00:14.939188 (args: (), kwargs: {'n_estimators': 10})
Execution time of get_scores_boosting_by_n_estimators is 0:00:27.793230 (args: (), kwargs: {'n_estimators': 20})
Execution time of get_scores_boosting_by_n_estimators is 0:00:42.067503 (args: (), kwargs: {'n_estimators': 30})
Execution time of get_scores_boosting_by_n_estimators is 0:02:20.210992 (args: (), kwargs: {'n_estimators': 100})
Execution time of get_scores_boosting_by_n_estimators is 0:04:39.206632 (args: (), kwargs: {'n_estimators': 200})
[(10, 0.66483292280517681), (20, 0.68211403588942632), (30, 0.68969475738443753), (100, 0.7062113460528423), (200, 0.71345572174502792)]


In [19]:
get_scores_boosting_by_n_estimators(n_estimators=500)

Execution time of get_scores_boosting_by_n_estimators is 0:11:49.421015 (args: (), kwargs: {'n_estimators': 500})


0.72044154375617553

In [9]:
@print_exec_time
def get_scores_by_n_estimators_for_logit(X, C=0.1):
    clf = LogisticRegression(penalty='l2', random_state=241, C=C)

    k_fold = KFold(len(y), n_folds=5, random_state=241, shuffle=True)
    scores = cross_val_score(clf, X, y, cv=k_fold, scoring='roc_auc', n_jobs=-1)
    return scores.mean()

@print_exec_time
def get_grid_search_cv_logit(X):
    grid = {'C': np.power(10.0, np.arange(-5, 6))}
    cv = KFold(len(y), n_folds=5, shuffle=True, random_state=241)
    clf = LogisticRegression(penalty='l2', random_state=241)
    gs = GridSearchCV(clf, grid, scoring='roc_auc', cv=cv, n_jobs=-1)
    gs.fit(X, y)
    return gs

def get_bag_of_words(X, all_heroes):
    X_pick = np.zeros((X.shape[0], max(all_heroes)))

    for i, match_id in enumerate(X.index):
        for p in xrange(5):
            X_pick[i, X.ix[match_id, 'r%d_hero' % (p+1)]-1] = 1
            X_pick[i, X.ix[match_id, 'd%d_hero' % (p+1)]-1] = -1
            
    return X_pick

In [11]:
X_scalled = StandardScaler().fit_transform(X)

In [12]:
gs = get_grid_search_cv_logit(X_scalled)
print(u"Вопрос: Какое качество получилось у логистической регрессии над всеми исходными признаками?")
print(u"Ответ: {}".format(get_scores_by_n_estimators_for_logit(X=X_scalled, **gs.best_params_)))

Execution time of get_grid_search_cv_logit is 0:00:54.527142 (args: (array([[-2.54436416,  1.54068827, -1.24422828, ..., -0.55115386,
         1.84600409, -1.12149424],
       [-2.54045236, -0.92779756, -0.29225805, ...,  0.67817009,
         0.43778816,  0.04394713],
       [-2.53923104,  1.54068827, -0.5686365 , ...,  0.67817009,
         0.43778816,  0.49028637],
       ..., 
       [ 1.09874571, -0.57515673,  1.42743012, ...,  0.67817009,
         0.43778816, -0.20401912],
       [ 1.09895204, -0.57515673,  1.48884755, ...,  0.67817009,
         0.43778816, -0.87352799],
       [ 1.1026479 ,  1.54068827, -0.04658831, ..., -0.55115386,
        -0.97042777, -0.79913812]]),), kwargs: {})
Вопрос: Какое качество получилось у логистической регрессии над всеми исходными признаками?
Execution time of get_scores_by_n_estimators_for_logit is 0:00:05.923309 (args: (), kwargs: {'X': array([[-2.54436416,  1.54068827, -1.24422828, ..., -0.55115386,
         1.84600409, -1.12149424],
       [-2.5

In [13]:
hero_columns = [
    'r1_hero',
    'r2_hero',
    'r3_hero',
    'r4_hero',
    'r5_hero',
    'd1_hero',
    'd2_hero',
    'd3_hero',
    'd4_hero',
    'd5_hero',
]

category_columns = hero_columns + ['lobby_type']

X_no_caterories = X.drop(category_columns, axis=1)
X_test_no_caterories = X_test.drop(category_columns, axis=1)

X_no_caterories_scalled = StandardScaler().fit_transform(X_no_caterories)

In [15]:
gs = get_grid_search_cv_logit(X_no_caterories_scalled)
print(u"Как влияет на качество логистической регрессии удаление категориальных " 
      u"признаков (укажите новое значение метрики качества)?")
print(u"Ответ: {}".format(get_scores_by_n_estimators_for_logit(X=X_no_caterories_scalled, **gs.best_params_)))

Execution time of get_grid_search_cv_logit is 0:00:49.918047 (args: (array([[-2.54436416,  1.40080818,  1.52597175, ..., -0.55115386,
         1.84600409, -1.12149424],
       [-2.54045236,  0.50131354, -0.08013929, ...,  0.67817009,
         0.43778816,  0.04394713],
       [-2.53923104,  0.50131354,  0.1510701 , ...,  0.67817009,
         0.43778816,  0.49028637],
       ..., 
       [ 1.09874571,  0.50131354,  0.29226667, ...,  0.67817009,
         0.43778816, -0.20401912],
       [ 1.09895204, -0.39818111, -0.17368203, ...,  0.67817009,
         0.43778816, -0.87352799],
       [ 1.1026479 , -0.39818111, -0.31840851, ..., -0.55115386,
        -0.97042777, -0.79913812]]),), kwargs: {})
Как влияет на качество логистической регрессии удаление категориальныхпризнаков (укажите новое значение метрики качества)?
Execution time of get_scores_by_n_estimators_for_logit is 0:00:05.314023 (args: (), kwargs: {'X': array([[-2.54436416,  1.40080818,  1.52597175, ..., -0.55115386,
         1.84600

In [20]:
all_heroes = np.unique(X[hero_columns])

print(u"В игре учавствовало {} героев".format(len(all_heroes)))

X_pick = get_bag_of_words(X=X, all_heroes=all_heroes)
X_no_caterories_bag_words = hstack([X_no_caterories, X_pick]).toarray()
X_no_caterories_bag_words_scalled = StandardScaler().fit_transform(X_no_caterories_bag_words)

X_test_pick = get_bag_of_words(X=X_test, all_heroes=all_heroes)
X_test_no_caterories_bag_words = hstack([X_test_no_caterories, X_test_pick]).toarray()
X_test_no_caterories_bag_words_scalled = StandardScaler().fit_transform(X_test_no_caterories_bag_words)

В игре учавствовало 108 героев


In [17]:
gs = get_grid_search_cv_logit(X_no_caterories_bag_words_scalled)
print(u"Какое качество получилось у логистической регрессии с использованием 'мешка слов'")
print(u"Ответ: {}".format(get_scores_by_n_estimators_for_logit(
    X=X_no_caterories_bag_words_scalled, 
    **gs.best_params_
)))

Execution time of get_grid_search_cv_logit is 0:01:41.503237 (args: (array([[ -2.54436416e+00,   1.40080818e+00,   1.52597175e+00, ...,
         -4.83865990e-03,   0.00000000e+00,   8.46061344e-04],
       [ -2.54045236e+00,   5.01313538e-01,  -8.01392943e-02, ...,
         -4.83865990e-03,   0.00000000e+00,   8.46061344e-04],
       [ -2.53923104e+00,   5.01313538e-01,   1.51070097e-01, ...,
         -4.83865990e-03,   0.00000000e+00,   8.46061344e-04],
       ..., 
       [  1.09874571e+00,   5.01313538e-01,   2.92266672e-01, ...,
         -4.83865990e-03,   0.00000000e+00,   1.64609695e+00],
       [  1.09895204e+00,  -3.98181106e-01,  -1.73682025e-01, ...,
         -4.83865990e-03,   0.00000000e+00,   8.46061344e-04],
       [  1.10264790e+00,  -3.98181106e-01,  -3.18408515e-01, ...,
         -4.83865990e-03,   0.00000000e+00,  -1.64440483e+00]]),), kwargs: {})
Какое качество получилось у логистической регрессии с использованием 'мешка слов'
Execution time of get_scores_by_n_estima

In [18]:
clf = LogisticRegression(penalty='l2', random_state=241, n_jobs=-1, **gs.best_params_)
clf.fit(X_no_caterories_bag_words_scalled, y)

pred = clf.predict_proba(X_test_no_caterories_bag_words_scalled)[:, 1]

raw_data = {
    'match_id': X_test.index, 
    'radiant_win': pred
}

result_df = pandas.DataFrame.from_dict(raw_data)
result_df.set_index('match_id')

result_df.to_csv('result.csv', index=False, columns=['match_id', 'radiant_win'])

print(u"Минимальное значение прогноза: {}".format(min(pred)))
print(u"Максимальное значение прогноза: {}".format(max(pred)))

Минимальное значение прогноза: 0.00870590076923
Максимальное значение прогноза: 0.996328715925
