# Задача "Выход из он-лайн игры"

В этой задаче необходимо научиться предсказывать, остается ли участник в он-лайн игре или уходит из нее. Уходом считается отсутствие его в игре в течение недели.

 

Всего используется 12 признаков, вычисленных за 2 предыдущие недели:

- maxPlayerLevel - максимальный уровень игры, который прошел игрок
- numberOfAttemptedLevels - количество уровней, которые попытался пройти игрок
- attemptsOnTheHighestLevel - число попыток, сделанных на самом высоком уровне
- totalNumOfAttempts - общее число попыток
- averageNumOfTurnsPerCompletedLevel - среднее количество ходов, выполненных на успешно пройденных уровнях
- doReturnOnLowerLevels - делал ли игрок возвраты к игре на уже пройденных уровнях
- numberOfBoostersUsed - количество использованных бустеров
- fractionOfUsefullBoosters - количество бустеров, использованных во время успешных попыток (игрок прошел уровнь)
- totalScore - общее количество набранных очков
- totalBonusScore - общее количество набранных бонусных очков
- totalStarsCount - общее количество набранных звезд
- numberOfDaysActuallyPlayed - количество дней, когда пользователь играл в игру

В качестве ответа для данной задачи принимается текстовый файл, каждая строка которого соответствует строке в файле x_test.csv и содержит значение от 0 до 1 (вероятность того, что пользователь останется в игре). В качестве критерия качества решения задачи используется <b>логарифмическая функция потерь (<i>logloss</i>)</b>.

In [1]:
import pandas as pd
import numpy as np

from sklearn.preprocessing import PolynomialFeatures

from sklearn.model_selection import cross_val_score
from sklearn.metrics import log_loss
from sklearn.model_selection import train_test_split

from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier
from sklearn.neighbors import KNeighborsClassifier

from sklearn.preprocessing import StandardScaler

import datetime

import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# read dataframes
x_train = pd.read_csv('x_train.csv',sep=';')
x_test = pd.read_csv('x_test.csv',sep=';')
y_train = pd.read_csv('y_train.csv',names=['result'])

In [3]:
# added dision
for n,i in enumerate(x_train.columns[:11]):
    for j in x_train.columns[n+1:11]:
        x_train[j+'_div_'+i] = x_train[j]/(x_train[i]+0.01)
        
for n,i in enumerate(x_test.columns[:11]):
    for j in x_test.columns[n+1:11]:
        x_test[j+'_div_'+i] = x_test[j]/(x_test[i]+0.01)

In [4]:
# added log
for i in x_train.columns:
    x_train['log_'+str(i)] = np.log(x_train[i]+0.01)
    
for i in x_test.columns:
    x_test['log_'+str(i)] = np.log(x_test[i]+0.01)

In [6]:
# scaling for metric methods
sc = StandardScaler()
x_t = sc.fit_transform(x_train)
x_tst = sc.transform(x_test)

In [17]:
# try rf
for i in range(2,40,2):
    print "for depth={}".format(i)
    clf = RandomForestClassifier(n_estimators=320,max_depth=8,n_jobs=-1,min_samples_leaf=i)
    #gb = GradientBoostingClassifier(n_estimators=120,max_depth=i)
    print "rf scored {}".format(cross_val_score(clf,x_t,y_train.result,
                                             n_jobs=-1,scoring='neg_log_loss').mean())
    #print "gb scored {}".format(cross_val_score(gb,x_t,y_train.result,
    #                                         n_jobs=-1,scoring='neg_log_loss').mean())

for depth=2
rf scored -0.385322756261
for depth=4
rf scored -0.384991445317
for depth=6
rf scored -0.384884239521
for depth=8
rf scored -0.384957487902
for depth=10
rf scored -0.384715513499
for depth=12
rf scored -0.38483575851
for depth=14
rf scored -0.384675802652
for depth=16
rf scored -0.384523615865
for depth=18
rf scored -0.384561127513
for depth=20
rf scored -0.384524350505
for depth=22
rf scored -0.384667080127
for depth=24
rf scored -0.38447856747
for depth=26
rf scored -0.384489879898
for depth=28
rf scored -0.384515640067
for depth=30
rf scored -0.384480492183
for depth=32
rf scored -0.384482856626
for depth=34
rf scored -0.384376625794
for depth=36
rf scored -0.384435215951
for depth=38
rf scored -0.384576073078


In [None]:
# polynomial features pow. 2
poly = PolynomialFeatures(2)

In [None]:
import xgboost as xgb
import time

def run_xgb(train, test, target, eta=0.01, random_state=0):
    #eta = 0.1
    max_depth = 5
    subsample = 1
    colsample_bytree = 0.7
    start_time = time.time()

    print('XGBoost params. ETA: {}, MAX_DEPTH: {}, SUBSAMPLE: {}, COLSAMPLE_BY_TREE: {}'.format(eta, max_depth, subsample, colsample_bytree))
    params = {
        "objective": "multi:softprob",
        "num_class": 2,
        "booster" : "gbtree",
        "eval_metric": "mlogloss",
        "eta": eta,
        "max_depth": max_depth,
        "subsample": subsample,
        "colsample_bytree": colsample_bytree,
        "silent": 1,
        "seed": random_state,
    }
    num_boost_round = 1000
    early_stopping_rounds = 50
    test_size = 0.25

    X_train, X_valid, y_train, y_valid = train_test_split(train, target, test_size=test_size, 
                                                          random_state=random_state, stratify=target)
    # TODO change split 
    print('Length train:', X_train.shape[0])
    print('Length valid:', X_valid.shape[0])
    #y_train = X_train[target]
    #y_valid = X_valid[target]
    # TODO delete upper code
    dtrain = xgb.DMatrix(X_train, y_train)
    dvalid = xgb.DMatrix(X_valid, y_valid)
    # sparse matrix ???

    watchlist = [(dtrain, 'train'), (dvalid, 'eval')]
    gbm = xgb.train(params, dtrain, num_boost_round, evals=watchlist, early_stopping_rounds=early_stopping_rounds, verbose_eval=True)

    print("Validating...")
    check = gbm.predict(xgb.DMatrix(X_valid), ntree_limit=gbm.best_iteration)
    score = log_loss(y_valid.tolist(), check)

    print("Predict test set...")
    test_prediction = gbm.predict(xgb.DMatrix(test), ntree_limit=gbm.best_iteration)

    print('Training time: {} minutes'.format(round((time.time() - start_time)/60, 2)))
    return test_prediction.tolist(), score

In [None]:
predictions, score = run_xgb(poly.fit_transform(x_train), poly.transform(x_test), y_train.result, eta=0.01, random_state=0)

In [None]:
score

In [None]:
pd.DataFrame(predictions)[1].to_csv('result_xgboost_' + str(datetime.datetime.now()) + '.csv',index=False)