In [7]:
import pandas as pd
import numpy as np
import warnings

In [20]:
from src.validation import DataValidation
from src.helpers import distribution

In [5]:
warnings.filterwarnings('ignore')

In [6]:
train_df_clear = pd.read_csv('./data/df_train_preprop_clear.csv')
train_df = pd.read_csv('./data/df_train_preprop.csv')
test_df = pd.read_csv('./data/df_test_preprop.csv')

In [8]:
numerical_columns = np.load('./data/vars/all_numerical_columns.npy')

In [11]:
idx = np.argwhere(numerical_columns=='item_losses')
numerical_columns = np.delete(numerical_columns, idx)

### Clear train and test

In [15]:
params = {
    'control': train_df_clear,
    'test': test_df,
    'score_column': 'item_price',
    'num_bins': 10,
    'metric': 'PSI'
}

In [16]:
for i in numerical_columns:
    params['score_column'] = i
    check_distribution = DataValidation(**params)
    psi_result, psi_value, buckets = check_distribution.calculate_stability()
    print(f'Переменная: {i} \nРезультат проверки: {psi_result} \nЗначение PSI: {psi_value}')

Переменная: departure_country 
Результат проверки: Distribution is stable 
Значение PSI: 3.561348960673753e-06
Переменная: departure_city 
Результат проверки: Distribution is stable 
Значение PSI: 0.0011904910861705767
Переменная: departure_region 
Результат проверки: Distribution is stable 
Значение PSI: 0.003888997470647736
Переменная: arrival_country 
Результат проверки: Distribution is stable 
Значение PSI: 2.6071940919439546e-05
Переменная: arrival_city 
Результат проверки: Distribution is stable 
Значение PSI: 0.0009780680034270368
Переменная: arrival_region 
Результат проверки: Distribution is stable 
Значение PSI: 0.006066681041654985
Переменная: item_type 
Результат проверки: Distribution is stable 
Значение PSI: 0.0
Переменная: client_device_type 
Результат проверки: Distribution is stable 
Значение PSI: 0.0012178423342238368
Переменная: client_browser 
Результат проверки: Distribution is stable 
Значение PSI: 0.002942517312952483
Переменная: client_is_app 
Результат проверки

In [14]:
# Переменная type_prepayment содержит критические изменения, сравним полный тренировочный и тестовый датасеты

### Full train and test

In [17]:
params = {
    'control': train_df,
    'test': test_df,
    'score_column': 'item_price',
    'num_bins': 10,
    'metric': 'PSI'
}

In [18]:
for i in numerical_columns:
    params['score_column'] = i
    check_distribution = DataValidation(**params)
    psi_result, psi_value, buckets = check_distribution.calculate_stability()
    print(f'Переменная: {i} \nРезультат проверки: {psi_result} \nЗначение PSI: {psi_value}')

Переменная: departure_country 
Результат проверки: Distribution is stable 
Значение PSI: 0.00019171381460214159
Переменная: departure_city 
Результат проверки: Distribution is stable 
Значение PSI: 0.0022098500180672185
Переменная: departure_region 
Результат проверки: Distribution is stable 
Значение PSI: 0.008624287181294195
Переменная: arrival_country 
Результат проверки: Distribution is stable 
Значение PSI: 0.00040832436731915215
Переменная: arrival_city 
Результат проверки: Distribution is stable 
Значение PSI: 0.0012689950840358065
Переменная: arrival_region 
Результат проверки: Distribution is stable 
Значение PSI: 0.010611638091023638
Переменная: item_type 
Результат проверки: Distribution is stable 
Значение PSI: 0.0
Переменная: client_device_type 
Результат проверки: Distribution is stable 
Значение PSI: 0.001937750965000689
Переменная: client_browser 
Результат проверки: Distribution is stable 
Значение PSI: 0.002787284209414549
Переменная: client_is_app 
Результат проверки

In [26]:
# Аналогичная картина, изменения в распределении не связаны с очисткой обучающего набора данных. Но может негативно сказаться на точности предсказания на тестовой выборке.

### Check type_prepayment distribution

In [22]:
train_df = pd.read_csv('./data/df_train.csv')
test_df = pd.read_csv('./data/df_test.csv')

In [24]:
train_df['type_prepayment'].value_counts(normalize=True)

2    0.835213
1    0.090321
0    0.074380
3    0.000087
Name: type_prepayment, dtype: float64

In [25]:
test_df['type_prepayment'].value_counts(normalize=True)

1    0.602438
0    0.396277
3    0.001285
Name: type_prepayment, dtype: float64

In [27]:
# Признак не вносит существенный вклад в обобщающую способность модели, не будем использовать его для обучения.

In [28]:
# Перейдем к обучению модели Training.ipynb