In [32]:
import pandas as pd
import numpy as np

import time
import datetime

from sklearn.model_selection import KFold
from sklearn.model_selection import GridSearchCV

from sklearn.metrics import mean_absolute_error

from sklearn.linear_model import BayesianRidge

import xgboost as xgb

Одной из самых простых метрик успешности бизнеса для владельцев кафе и ресторанов является посещаемость их заведения. Это интуитивно понятно - в целом, чем больше клиентов, тем больше прибыль. Соответственно, нужно уметь оценивать этот показатель и понимать, как на него влияют различные параметры, поэтому вам предлагается для решения задача предсказания процента заполненности кафе. В течении дня эта величина может заметно меняться, поэтому приведена информация для обеденного времени в будний день.

В данных представлены как характеристики самих заведений, так и описание окружающих их обьектов.

# Описание файлов

- train.csv - обучающая выборка
- test.csv - тестовая выборка
- answers_sample.csv - формат для посылки
- answers_train.csv - ответы для обучающей выборки

# Описание данных

- price - средний чек
3. lunch - цена ланча
4. n_seats - количество посадочных мест
5. is_net - индикатор сетевого заведения (1 - сетевое, 0 - уникальное)
6. type - тип заведения - кафе, ресторан и так далее
7. obj_rayon - район расположения
8. sumareaLive, meanareaLive - суммарная и средняя площади (в м2) по жилым обьектам в радиусе 500 метров
9. maxareaLive - площадь самого большого жилого обьекта (в м2) в радиусе 500 метров
8. sumareaComm, meanareaComm, maxareaComm - параметры для коммерческих обьектов, аналогичные жилым
10. places_near_300m - количество ресторанов в радиусе 300 метров
11. metro_near_500m - количество станций метро в радиусе 500 метров
12. dist_to_metro - расстояние до ближайшей станции метро (в метрах)
13. something_300m - количество объектов типа 'something' в радиусе 300 метров (всего 250 признаков)

In [3]:
X_train, X_test = pd.read_csv('train.csv').replace(-1, np.nan).apply(lambda row: row.fillna(np.mean(row)), axis=1), pd.read_csv('test.csv').replace(-1, np.nan).apply(lambda row: row.fillna(np.mean(row)), axis=1)
sample, Y_train = pd.read_csv('answers_sample.csv'), pd.read_csv('answers_train.csv').replace(-1, np.nan).apply(lambda row: row.fillna(np.mean(row)), axis=1)

- dist_to_metro, yes - - 4
- maxareaCom, no
- maxareaLiv, no
- meanareaComm, yes - 4
- meanareaLive, yes - 4
- sumareaCom, no
- sumareaLiv, no

In [4]:
X_test.drop('maxareaComm maxareaLive sumareaComm sumareaLive type'.split(), inplace=True, axis=1)
X_train.drop('maxareaComm maxareaLive sumareaComm sumareaLive type'.split(), inplace=True, axis=1)
for name in X_train.corr()[lambda x: np.abs(x)>0.7].count()[lambda x: x>6].index:
   X_train.drop(name, inplace=True, axis=1)
   X_test.drop(name, inplace=True, axis=1)

In [5]:
from sklearn.cluster import KMeans
clf = KMeans(n_clusters=3, random_state=1)
for name in 'dist_to_metro meanareaComm meanareaLive'.split():
    Xtr = X_train[name].as_matrix().reshape(-1, 1)
    Xt = X_test[name].as_matrix().reshape(-1, 1)
    clf.fit(Xtr)
    X_train[name] = clf.labels_
    clf.fit(Xt)
    X_test[name] = clf.labels_

In [6]:
from sklearn.linear_model import LogisticRegression

In [41]:
def Testing_grid_reg(X_train, Y_train, c=[10.0 ** i for i in range(-9, 8)]):
    cv = KFold(n_splits=3, shuffle=True, random_state=42)
    grid = {'C': c,
           'penalty' : ['l1', 'l2']}
    clf = LogisticRegression(penalty='l1')
    
    start_time = datetime.datetime.now()
    gs = GridSearchCV(clf, scoring='neg_mean_absolute_error', param_grid=grid, cv=cv, return_train_score=True)
    gs.fit(X_train,Y_train)
    print ('Time elapsed:', datetime.datetime.now() - start_time)
    
    means = gs.cv_results_['mean_test_score']
    stds = gs.cv_results_['std_test_score']
    for mean, std, params in zip(means, stds, gs.cv_results_['params']):
        print("%0.3f (+/-%0.03f) for %r"
              % (mean, std * 2, params))
    return max(means), gs.best_params_

def Testing_grid_xgb(X_train, Y_train):
    cv = KFold(n_splits=4, shuffle=True, random_state=42)
    clf = xgb.XGBRegressor()        
    parameters = {'nthread':[4], #when use hyperthread, xgboost may become slower
              'objective':['reg:linear', 'reg:gamma'],
              'learning_rate': [.01,0.05, .004, 0.002], #so called `eta` value
              'max_depth': [6, 7, 9],
              'min_child_weight': [4, 5, 7],
              'silent': [1],
              'subsample': [0.7, 0.2, 0.1, 0.05],
              'colsample_bytree': [0.7],
              'n_estimators': [150, 250, 350, 450, 500],
              'base_score' : [0.5]}
    
    start_time = datetime.datetime.now()
    gs = GridSearchCV(clf, scoring='neg_mean_absolute_error', param_grid=parameters, cv=cv,  n_jobs = 5, verbose=True)
    gs.fit(X_train,Y_train)
    print ('Time elapsed:', datetime.datetime.now() - start_time)
    
    means = gs.cv_results_['mean_test_score']
    stds = gs.cv_results_['std_test_score']
    for mean, std, params in zip(means, stds, gs.cv_results_['params']):
        print("%0.3f (+/-%0.03f) for %r"
              % (mean, std * 2, params))
    return max(means), gs.best_params_

def Testing_grid_bays(X_train, Y_train):
    cv = KFold(n_splits=4, shuffle=True, random_state=42)
    
    clf = BayesianRidge()
    grid = {'n_iter' : [500, 800, 1000],
        'tol' : [1.0 ** i for i in range(-5, -1)],
        'alpha_1' : [1.0 ** i for i in range(-4, 2)],
        'alpha_2' : [1.0 ** i for i in range(-4, 2)],
        'lambda_1' : [1.0 ** i for i in range(-4, 2)],
        'lambda_2' : [1.0 ** i for i in range(-4, 2)],
        'fit_intercept' : [True]
    }
    
    start_time = datetime.datetime.now()
    gs = GridSearchCV(clf, scoring='neg_mean_absolute_error', param_grid=grid, cv=cv, return_train_score=True, n_jobs = 5)
    gs.fit(X_train,Y_train)
    print ('Time elapsed:', datetime.datetime.now() - start_time)
    
    means = gs.cv_results_['mean_test_score']
    stds = gs.cv_results_['std_test_score']
    #for mean, std, params in zip(means, stds, gs.cv_results_['params']):
        #print("%0.3f (+/-%0.03f) for %r"
         #     % (mean, std * 2, params))
    return max(means), gs.best_params_

In [21]:
def Res_save(X_train, Y_train, X_test,clf):
    clf.fit(X_train.as_matrix(), Y_train['answer'].as_matrix())
    rez = clf.predict(X_test.as_matrix())
    Results = pd.concat([pd.DataFrame(X_test.index), pd.DataFrame(rez)], axis=1)
    Results.columns = ['id', 'answer']
    Results.to_csv('result.csv', index=False)

params = Testing_grid_xgb(X_train.as_matrix(), Y_train['answer'].as_matrix())[1]

In [28]:
for key in params:
    print (key,'=',params[key],',')

base_score = 0.5 ,
colsample_bytree = 0.7 ,
learning_rate = 0.05 ,
max_depth = 6 ,
min_child_weight = 7 ,
n_estimators = 350 ,
nthread = 4 ,
objective = reg:gamma ,
silent = 1 ,
subsample = 0.1 ,


In [26]:
clf = xgb.XGBRegressor(base_score = 0.5, 
                       colsample_bytree = 0.7 ,
                       learning_rate = 0.05 ,
                       max_depth = 6 ,
                       min_child_weight = 7 ,
                       n_estimators = 350 ,
                       nthread = 4 ,
                       objective = 'reg:gamma' ,
                       silent = 1 ,
                       subsample = 0.1)

In [31]:
Res_save(X_train, Y_train, X_test, clf=clf)

In [30]:
clf = LogisticRegression(C=0.001, penalty= 'l2')

In [None]:
Testing_grid_reg(X_train.as_matrix(), Y_train['answer'].as_matrix())

Это лучший результат.

In [None]:
Testing_grid_bays(X_train.as_matrix(), Y_train['answer'].as_matrix())

In [44]:
clf = BayesianRidge(alpha_1=1, alpha_2=1, fit_intercept=True, lambda_1 = 1, lambda_2=1, n_iter = 500, tol = 1)
Res_save(X_train, Y_train, X_test, clf=clf)