In [10]:
import pandas as pd
import numpy as np
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score

In [4]:
df = pd.read_csv('rosstat7y.csv')

In [41]:
X = df.iloc[:, 6:200]
y = df['To_Predict'][:]

In [59]:
estimator = xgb.XGBClassifier(
    objective= 'binary:logistic',
    nthread=4,
    seed=42
)

In [60]:
parameters = {
    'max_depth': range (2, 10, 5), #5 -> 1
    'n_estimators': range(60, 120, 40), #100 -> 40
    'learning_rate': [0.1, 0.01, 0.05]
}

In [61]:
grid_search = GridSearchCV(
    estimator=estimator,
    param_grid=parameters,
    n_jobs = 10,
    cv = 5,
    verbose=True
)

In [62]:
grid_search.fit(X, y)

Fitting 5 folds for each of 12 candidates, totalling 60 fits


[Parallel(n_jobs=10)]: Using backend LokyBackend with 10 concurrent workers.
[Parallel(n_jobs=10)]: Done  30 tasks      | elapsed:  6.5min
[Parallel(n_jobs=10)]: Done  60 out of  60 | elapsed: 13.9min finished


GridSearchCV(cv=5, error_score=nan,
             estimator=XGBClassifier(base_score=0.5, booster='gbtree',
                                     colsample_bylevel=1, colsample_bynode=1,
                                     colsample_bytree=1, gamma=0,
                                     learning_rate=0.1, max_delta_step=0,
                                     max_depth=3, min_child_weight=1,
                                     missing=None, n_estimators=100, n_jobs=1,
                                     nthread=4, objective='binary:logistic',
                                     random_state=0, reg_alpha=0, reg_lambda=1,
                                     scale_pos_weight=1, seed=42, silent=None,
                                     subsample=1, verbosity=1),
             iid='deprecated', n_jobs=10,
             param_grid={'learning_rate': [0.1, 0.01, 0.05],
                         'max_depth': range(2, 10, 5),
                         'n_estimators': range(60, 120, 40)},
      

In [64]:
best = grid_search.best_estimator_

In [65]:
scores = cross_val_score(best, X, y, cv=5)

In [66]:
scores

array([0.75870287, 0.77529794, 0.78266522, 0.78042615, 0.77797039])

In [67]:
b = best.get_booster().get_score(importance_type='gain')
a = {k: v for k, v in sorted(b.items(), key=lambda item: -item[1])}
print(a.keys())

dict_keys(['26', '16', '66', '36', '56', '84', '68', '52', '82', '104', '70', '114', '78', '137', '80', '40', '28', '44', '86', '102', '100', '92', '210', '64', '32', '106', '58', '122', '116', '204', '201', '54', '108', '165', '72', '22', '198', '60', '187', '237', '76', '8', '98', '18', '42', '88', '20', '238', '34', '197', '195', '30', '50', '24', '90', '38', '96', '220', '188', '162', '192', '136', '200', '229', '221', '62', '239', '110', '199', '233', '205', '230', '234', '170', '209', '208', '212', '203', '7', '163', '134', '207', '228', '213', '227', '94', '214', '240', '224', '112', '152', '222', '164', '48', '135', '211', '223', '74', '215', '144', '46', '236', '130', '216', '219', '241', '263', '10', '254', '218', '226'])


In [8]:
params = {
            'max_depth': 5,
            'n_estimators': 100,
            'learning_rate': 0.1
        }

In [9]:
xgb_model = xgb.XGBClassifier(**params)

scores = cross_val_score(xgb_model, X, y, cv=5)
print(scores)

[0.76456058 0.7767714  0.77534128]


In [10]:
xgb_model.fit(X, y)

XGBClassifier(base_score=0.5, booster='gbtree', colsample_bylevel=1,
              colsample_bynode=1, colsample_bytree=1, gamma=0,
              learning_rate=0.1, max_delta_step=0, max_depth=5,
              min_child_weight=1, missing=None, n_estimators=100, n_jobs=1,
              nthread=None, objective='binary:logistic', random_state=0,
              reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
              silent=None, subsample=1, verbosity=1)

In [11]:
b = xgb_model.get_booster().get_score(importance_type='gain')
a = {k: v for k, v in sorted(b.items(), key=lambda item: -item[1])}
print(a.keys())

dict_keys(['26', '16', '66', '36', '56', '68', '82', '84', '104', '70', '86', '28', '114', '78', '102', '52', '32', '210', '40', '58', '44', '80', '92', '106', '100', '54', '64', '22', '60', '197', '34', '108', '233', '42', '116', '195', '203', '201', '50', '96', '238', '98', '230', '239', '122', '237', '88', '135', '8', '200', '152', '38', '207', '165', '212', '76', '213', '228', '20', '208', '24', '205', '209', '134', '90', '199', '220', '30', '136', '130', '198', '234', '48', '164', '204', '241', '163', '110', '72', '224', '74', '240', '112', '211', '188', '62', '222', '18', '144', '227', '221', '162', '229', '216', '94', '214', '217', '236', '215', '46', '218', '219'])


In [123]:
b = xgb_model.get_booster().get_score(importance_type='gain')
a = {k: v for k, v in sorted(b.items(), key=lambda item: -item[1])}
print(a.keys())

dict_keys(['52', '26', '10', '205', '186', '18', '48', '60', '198', '233', '160', '142', '227', '114', '22', '50', '62', '74', '108', '66', '72', '238', '188', '163', '8', '210', '110', '219', '226', '239', '211', '229', '190', '230', '220', '24', '16', '76', '58', '64', '199', '96', '34', '80', '144', '84', '170', '203', '68', '30', '70', '38', '201', '213', '112', '217', '100', '209', '195', '44', '98', '224', '90', '56', '214', '122', '82', '36', '78', '207', '234', '104', '20', '92', '54', '137', '216', '237', '94', '222', '88', '200', '134', '86', '221', '40', '236', '215', '228', '106', '116', '212', '204', '28', '32', '102', '240', '208', '241', '218', '42', '136', '140', '162', '135', '197', '192', '187', '164', '143', '130', '152', '7', '193', '223', '165', '12', '14', '157', '156', '232', '225'])


In [12]:
d = pd.read_csv('Rosstat_Definitions.csv')

In [13]:
for k, v in a.items():
    print(k + ',', d[d['STAT_INDEX'] == int(k)]['DEFINITION'].values[0] + ',', round(v, 5))

26, 11003 Итого внеоборотных активов на конец отчетного года, 74.36279
16, 11503 Основные средства на конец отчетного года, 44.82763
66, 14003 ИТОГО долгосрочных обязательств на конец отчетного года, 28.59644
36, 12503 Денежные средства и денежные эквиваленты на конец отчетного года, 28.36463
56, 13003 ИТОГО капитал на конец отчетного года, 24.65297
68, 15103 Краткосрочные заемные обязательства на конец отчетного года, 23.22291
82, 21103 Выручка за отчетный год, 21.97654
84, 21203 Себестоимость продаж за отчетный год, 21.29056
104, 23003 Прибыль (убыток) до налогообложения за отчетный год, 21.28239
70, 15203 Краткосрочная кредиторская задолженность на конец отчетного года, 19.25012
86, 21003 Валовая прибыль (убыток) за отчетный год, 18.0357
28, 12103 Запасы на конец отчетного года, 16.40377
114, 24603 Прочее за отчетный год, 15.57128
78, 15003 ИТОГО краткосрочных обязательств на конец отчетного года, 15.50446
102, 23503 Прочие расходы за отчетный год, 15.12911
52, 13603 Резервный капит

In [132]:
for k, v in a.items():
    print(k + ',', d[d['STAT_INDEX'] == int(k)]['DEFINITION'].values[0] + ',', round(v, 5))

52, 13603 Резервный капитал на конец отчетного года, 4.07972
26, 11003 Итого внеоборотных активов на конец отчетного года, 3.95353
10, 11203 Результаты исследований и разработок на конец отчетного года, 3.22293
205, 41123 Арендных платежей, лицензионных платежей, роялти, комиссионных и иных аналогичных платежей за отчетный год, 3.17669
186, 33267 Реорганизация юридического лица (Нераспределенная прибыль (непокрытый убыток)), 2.21122
18, 11603 Доходные вложения в материальные ценности на конец отчетного года, 2.02583
48, 13403 Переоценка внеоборотных активов на конец отчетного года, 1.97249
60, 14203 Отложенные налоговые обязательства на конец отчетного года, 1.91695
198, 33006 Величина капитала на 31 декабря отчетного года (Резервный капитал), 1.87002
233, 43193 Прочие поступления за отчетный год, 1.8567
160, 33205 Уменьшение капитала - всего (Добавочный капитал), 1.85022
142, 33137 Доходы, относящиеся непосредственно на увеличение капитала (Нераспределенная прибыль (непокрытый убыток)