In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [2]:
def detach_split_save(train_data, test_data, cols_dict, seed=42):
    y_train = train_data['binary_target']
    X_train = train_data.drop(['binary_target'], axis=1)

    X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, shuffle=True, stratify=y_train, random_state=seed)

    if len(cols_dict['num_cols']) != 0:
        X_num_train = X_train[cols_dict['num_cols']].astype(np.float32)
        X_num_val = X_val[cols_dict['num_cols']].astype(np.float32)
        X_num_test = test_data[cols_dict['num_cols']].astype(np.float32)

        np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/X_num_train.npy', X_num_train)
        np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/X_num_val.npy', X_num_val)
        np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/X_num_test.npy', X_num_test)

    if len(cols_dict['bin_cols']) != 0:
        X_bin_train = X_train[cols_dict['bin_cols']].astype(np.float32)
        X_bin_val = X_val[cols_dict['bin_cols']].astype(np.float32)
        X_bin_test = test_data[cols_dict['bin_cols']].astype(np.float32)

        np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/X_bin_train.npy', X_bin_train)
        np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/X_bin_val.npy', X_bin_val)
        np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/X_bin_test.npy', X_bin_test)

    if len(cols_dict['cat_cols']) != 0:
        X_cat_train = X_train[cols_dict['cat_cols']].astype(np.str_)
        X_cat_val = X_val[cols_dict['cat_cols']].astype(np.str_)
        X_cat_test = test_data[cols_dict['cat_cols']].astype(np.str_)

        np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/X_cat_train.npy', X_cat_train)
        np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/X_cat_val.npy', X_cat_val)
        np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/X_cat_test.npy', X_cat_test)

    y_train = y_train.astype(np.int64)
    y_val = y_val.astype(np.int64)
    y_test = np.empty(0)
    
    np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/Y_train.npy', y_train)
    np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/Y_val.npy', y_val)
    np.save('/root/storage/3030/AkhmetzyanovD/projects/mts_contest/tabular-dl-tabr/data/MTS/Y_test.npy', y_test)

In [3]:
def print_info(data):
    print(data.info())
    print(data.isna().sum(axis=0))

In [4]:
def delete_cols_dict(cols_dict, drop_cols):
    for drop_col in drop_cols:
        for cols_key, cols_list in cols_dict.items():
            new_cols_list = []
            for col in cols_list:
                    if drop_col not in col:
                        new_cols_list.append(col)
            cols_dict[cols_key] = new_cols_list

    return cols_dict

In [5]:
def iou_none(data, cols):
    for i in range(len(cols)):
        for j in range(i + 1, len(cols)):
            nan_1 = data[cols[i]].isna()
            nan_2 = data[cols[j]].isna()
            top = (nan_1 & nan_2).sum()
            bottom = (nan_1 | nan_2).sum()
            if bottom == 0:
                iou = 1
            else:
                iou = top / bottom
            print(cols[i], 'vs', cols[j], iou)



In [6]:
train_data_path = r'/root/storage/3030/AkhmetzyanovD/projects/mts_contest/data/train.csv'
test_data_path = r'/root/storage/3030/AkhmetzyanovD/projects/mts_contest/data/test.csv'

In [7]:
train_data = pd.read_csv(train_data_path, index_col='client_id')
test_data = pd.read_csv(test_data_path, index_col='client_id')

In [8]:
cols_dict = {
    'num_cols': [
        'сумма', 'частота_пополнения', 'доход', 
        'сегмент_arpu', 'частота', 'объем_данных', 
        'on_net', 'продукт_1', 'продукт_2', 'зона_1', 
        'зона_2', 'секретный_скор', 'pack_freq'
        ],
    'bin_cols': ['mrg_'],
    'cat_cols': ['регион', 'использование', 'pack']
}

In [9]:
print_info(train_data)

<class 'pandas.core.frame.DataFrame'>
Index: 1010248 entries, 0 to 1010247
Data columns (total 18 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   регион              612396 non-null   object 
 1   использование       1010248 non-null  object 
 2   сумма               655354 non-null   float64
 3   частота_пополнения  655354 non-null   float64
 4   доход               669787 non-null   float64
 5   сегмент_arpu        669787 non-null   float64
 6   частота             669787 non-null   float64
 7   объем_данных        512886 non-null   float64
 8   on_net              641315 non-null   float64
 9   продукт_1           590287 non-null   float64
 10  продукт_2           405005 non-null   float64
 11  зона_1              79807 non-null    float64
 12  зона_2              64000 non-null    float64
 13  mrg_                1010248 non-null  bool   
 14  секретный_скор      1010248 non-null  float64
 15  pack                

In [10]:
print_info(test_data)

<class 'pandas.core.frame.DataFrame'>
Index: 497586 entries, 1010248 to 1507833
Data columns (total 17 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   регион              301347 non-null  object 
 1   использование       497586 non-null  object 
 2   сумма               322966 non-null  float64
 3   частота_пополнения  322966 non-null  float64
 4   доход               329926 non-null  float64
 5   сегмент_arpu        329926 non-null  float64
 6   частота             329926 non-null  float64
 7   объем_данных        253142 non-null  float64
 8   on_net              315877 non-null  float64
 9   продукт_1           290984 non-null  float64
 10  продукт_2           199779 non-null  float64
 11  зона_1              39179 non-null   float64
 12  зона_2              31505 non-null   float64
 13  mrg_                497586 non-null  bool   
 14  секретный_скор      497586 non-null  float64
 15  pack                289038 non-n

In [11]:
drop_cols = ['регион', 'использование', 'зона_1', 'зона_2', 'mrg_', 'pack']
train_data.drop(drop_cols, axis=1, inplace=True)
test_data.drop(drop_cols, axis=1, inplace=True)
cols_dict = delete_cols_dict(cols_dict, drop_cols)

In [12]:
print_info(train_data)

<class 'pandas.core.frame.DataFrame'>
Index: 1010248 entries, 0 to 1010247
Data columns (total 12 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   сумма               655354 non-null   float64
 1   частота_пополнения  655354 non-null   float64
 2   доход               669787 non-null   float64
 3   сегмент_arpu        669787 non-null   float64
 4   частота             669787 non-null   float64
 5   объем_данных        512886 non-null   float64
 6   on_net              641315 non-null   float64
 7   продукт_1           590287 non-null   float64
 8   продукт_2           405005 non-null   float64
 9   секретный_скор      1010248 non-null  float64
 10  pack_freq           586973 non-null   float64
 11  binary_target       1010248 non-null  int64  
dtypes: float64(11), int64(1)
memory usage: 100.2 MB
None
сумма                 354894
частота_пополнения    354894
доход                 340461
сегмент_arpu          340461
част

In [13]:
print_info(test_data)

<class 'pandas.core.frame.DataFrame'>
Index: 497586 entries, 1010248 to 1507833
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   сумма               322966 non-null  float64
 1   частота_пополнения  322966 non-null  float64
 2   доход               329926 non-null  float64
 3   сегмент_arpu        329926 non-null  float64
 4   частота             329926 non-null  float64
 5   объем_данных        253142 non-null  float64
 6   on_net              315877 non-null  float64
 7   продукт_1           290984 non-null  float64
 8   продукт_2           199779 non-null  float64
 9   секретный_скор      497586 non-null  float64
 10  pack_freq           289038 non-null  float64
dtypes: float64(11)
memory usage: 45.6 MB
None
сумма                 174620
частота_пополнения    174620
доход                 167660
сегмент_arpu          167660
частота               167660
объем_данных          244444
on_net          

In [14]:
nan_cols = ['сумма', 'частота_пополнения', 'доход', 'сегмент_arpu', 'частота', 'объем_данных', 'on_net', 'продукт_1', 'продукт_2', 'pack_freq']
iou_none(train_data, nan_cols)

сумма vs частота_пополнения 1.0
сумма vs доход 0.9036218791064389
сумма vs сегмент_arpu 0.9036218791064389
сумма vs частота 0.9036218791064389
сумма vs объем_данных 0.4901430072613908
сумма vs on_net 0.683976530365352
сумма vs продукт_1 0.7796516742191609
сумма vs продукт_2 0.569564279198721
сумма vs pack_freq 0.8236312846543586
частота_пополнения vs доход 0.9036218791064389
частота_пополнения vs сегмент_arpu 0.9036218791064389
частота_пополнения vs частота 0.9036218791064389
частота_пополнения vs объем_данных 0.4901430072613908
частота_пополнения vs on_net 0.683976530365352
частота_пополнения vs продукт_1 0.7796516742191609
частота_пополнения vs продукт_2 0.569564279198721
частота_пополнения vs pack_freq 0.8236312846543586
доход vs сегмент_arpu 1.0
доход vs частота 1.0
доход vs объем_данных 0.4787712662403564
доход vs on_net 0.6807456565364595
доход vs продукт_1 0.7815153219004779
доход vs продукт_2 0.5544984433712601
доход vs pack_freq 0.8042044936441228
сегмент_arpu vs частота 1.0
с

In [15]:
iou_none(test_data, nan_cols)

сумма vs частота_пополнения 1.0
сумма vs доход 0.9034907711729147
сумма vs сегмент_arpu 0.9034907711729147
сумма vs частота 0.9034907711729147
сумма vs объем_данных 0.4914530370813269
сумма vs on_net 0.6850176621632486
сумма vs продукт_1 0.7808203820227868
сумма vs продукт_2 0.5695144882758254
сумма vs pack_freq 0.8222319449860658
частота_пополнения vs доход 0.9034907711729147
частота_пополнения vs сегмент_arpu 0.9034907711729147
частота_пополнения vs частота 0.9034907711729147
частота_пополнения vs объем_данных 0.4914530370813269
частота_пополнения vs on_net 0.6850176621632486
частота_пополнения vs продукт_1 0.7808203820227868
частота_пополнения vs продукт_2 0.5695144882758254
частота_пополнения vs pack_freq 0.8222319449860658
доход vs сегмент_arpu 1.0
доход vs частота 1.0
доход vs объем_данных 0.4808543666992468
доход vs on_net 0.6823277314970867
доход vs продукт_1 0.7830745556153732
доход vs продукт_2 0.5553673165923179
доход vs pack_freq 0.8038012312767304
сегмент_arpu vs частота 1

In [16]:
nan_sum_train_data = train_data['сумма'].isna()
nan_sum_test_data = test_data['сумма'].isna()

In [17]:
train_data.loc[nan_sum_train_data, nan_cols] = train_data.loc[nan_sum_train_data, nan_cols].fillna(0)
test_data.loc[nan_sum_test_data, nan_cols] = test_data.loc[nan_sum_test_data, nan_cols].fillna(0)

In [18]:
print_info(train_data)

<class 'pandas.core.frame.DataFrame'>
Index: 1010248 entries, 0 to 1010247
Data columns (total 12 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   сумма               1010248 non-null  float64
 1   частота_пополнения  1010248 non-null  float64
 2   доход               999862 non-null   float64
 3   сегмент_arpu        999862 non-null   float64
 4   частота             999862 non-null   float64
 5   объем_данных        793213 non-null   float64
 6   on_net              935310 non-null   float64
 7   продукт_1           929745 non-null   float64
 8   продукт_2           753420 non-null   float64
 9   секретный_скор      1010248 non-null  float64
 10  pack_freq           938428 non-null   float64
 11  binary_target       1010248 non-null  int64  
dtypes: float64(11), int64(1)
memory usage: 100.2 MB
None
сумма                      0
частота_пополнения         0
доход                  10386
сегмент_arpu           10386
част

In [19]:
iou_none(train_data, nan_cols)

сумма vs частота_пополнения 1
сумма vs доход 0.0
сумма vs сегмент_arpu 0.0
сумма vs частота 0.0
сумма vs объем_данных 0.0
сумма vs on_net 0.0
сумма vs продукт_1 0.0
сумма vs продукт_2 0.0
сумма vs pack_freq 0.0
частота_пополнения vs доход 0.0
частота_пополнения vs сегмент_arpu 0.0
частота_пополнения vs частота 0.0
частота_пополнения vs объем_данных 0.0
частота_пополнения vs on_net 0.0
частота_пополнения vs продукт_1 0.0
частота_пополнения vs продукт_2 0.0
частота_пополнения vs pack_freq 0.0
доход vs сегмент_arpu 1.0
доход vs частота 1.0
доход vs объем_данных 0.04138123672063888
доход vs on_net 0.11825533086067024
доход vs продукт_1 0.11750602468892933
доход vs продукт_2 0.03908820121168757
доход vs pack_freq 0.14457965525883434
сегмент_arpu vs частота 1.0
сегмент_arpu vs объем_данных 0.04138123672063888
сегмент_arpu vs on_net 0.11825533086067024
сегмент_arpu vs продукт_1 0.11750602468892933
сегмент_arpu vs продукт_2 0.03908820121168757
сегмент_arpu vs pack_freq 0.14457965525883434
част

In [20]:
iou_none(test_data, nan_cols)

сумма vs частота_пополнения 1
сумма vs доход 0.0
сумма vs сегмент_arpu 0.0
сумма vs частота 0.0
сумма vs объем_данных 0.0
сумма vs on_net 0.0
сумма vs продукт_1 0.0
сумма vs продукт_2 0.0
сумма vs pack_freq 0.0
частота_пополнения vs доход 0.0
частота_пополнения vs сегмент_arpu 0.0
частота_пополнения vs частота 0.0
частота_пополнения vs объем_данных 0.0
частота_пополнения vs on_net 0.0
частота_пополнения vs продукт_1 0.0
частота_пополнения vs продукт_2 0.0
частота_пополнения vs pack_freq 0.0
доход vs сегмент_arpu 1.0
доход vs частота 1.0
доход vs объем_данных 0.04275565526266592
доход vs on_net 0.12068873607335145
доход vs продукт_1 0.1205702238731051
доход vs продукт_2 0.04001043338049432
доход vs pack_freq 0.14576204633421214
сегмент_arpu vs частота 1.0
сегмент_arpu vs объем_данных 0.04275565526266592
сегмент_arpu vs on_net 0.12068873607335145
сегмент_arpu vs продукт_1 0.1205702238731051
сегмент_arpu vs продукт_2 0.04001043338049432
сегмент_arpu vs pack_freq 0.14576204633421214
частот

In [21]:
train_data['use_products'] = train_data['продукт_1'].fillna(0) + train_data['продукт_2'].fillna(0)
test_data['use_products'] = test_data['продукт_1'].fillna(0) + test_data['продукт_2'].fillna(0)
drop_cols = ['продукт_1', 'продукт_2']
train_data.drop(drop_cols, axis=1, inplace=True)
test_data.drop(drop_cols, axis=1, inplace=True)
cols_dict = delete_cols_dict(cols_dict, drop_cols)
cols_dict['num_cols'].append('use_products')

In [22]:
print_info(train_data)

<class 'pandas.core.frame.DataFrame'>
Index: 1010248 entries, 0 to 1010247
Data columns (total 11 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   сумма               1010248 non-null  float64
 1   частота_пополнения  1010248 non-null  float64
 2   доход               999862 non-null   float64
 3   сегмент_arpu        999862 non-null   float64
 4   частота             999862 non-null   float64
 5   объем_данных        793213 non-null   float64
 6   on_net              935310 non-null   float64
 7   секретный_скор      1010248 non-null  float64
 8   pack_freq           938428 non-null   float64
 9   binary_target       1010248 non-null  int64  
 10  use_products        1010248 non-null  float64
dtypes: float64(10), int64(1)
memory usage: 92.5 MB
None
сумма                      0
частота_пополнения         0
доход                  10386
сегмент_arpu           10386
частота                10386
объем_данных          21703

In [24]:
nan_cols = ['доход', 'сегмент_arpu', 'частота', 'объем_данных', 'on_net', 'pack_freq']
iou_none(train_data, nan_cols)

доход vs сегмент_arpu 1.0
доход vs частота 1.0
доход vs объем_данных 0.04138123672063888
доход vs on_net 0.11825533086067024
доход vs pack_freq 0.14457965525883434
сегмент_arpu vs частота 1.0
сегмент_arpu vs объем_данных 0.04138123672063888
сегмент_arpu vs on_net 0.11825533086067024
сегмент_arpu vs pack_freq 0.14457965525883434
частота vs объем_данных 0.04138123672063888
частота vs on_net 0.11825533086067024
частота vs pack_freq 0.14457965525883434
объем_данных vs on_net 0.1074013107989198
объем_данных vs pack_freq 0.181575351991688
on_net vs pack_freq 0.21621308051844731


In [27]:
train_data_profit_mean = train_data['доход'].mean()
test_data_profit_mean = test_data['доход'].mean()

train_data['доход'] = train_data['доход'].fillna(train_data_profit_mean)
test_data['доход'] = test_data['доход'].fillna(test_data_profit_mean)

train_data_seg_mean = train_data['сегмент_arpu'].mean()
test_data_seg_mean = test_data['сегмент_arpu'].mean()

train_data['сегмент_arpu'] = train_data['сегмент_arpu'].fillna(train_data_seg_mean)
test_data['сегмент_arpu'] = test_data['сегмент_arpu'].fillna(test_data_seg_mean)

train_data_freq_mean = train_data['частота'].mean()
test_data_freq_mean = test_data['частота'].mean()

train_data['частота'] = train_data['частота'].fillna(train_data_freq_mean)
test_data['частота'] = test_data['частота'].fillna(test_data_freq_mean)


In [32]:
print_info(train_data)

<class 'pandas.core.frame.DataFrame'>
Index: 1010248 entries, 0 to 1010247
Data columns (total 11 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   сумма               1010248 non-null  float64
 1   частота_пополнения  1010248 non-null  float64
 2   доход               1010248 non-null  float64
 3   сегмент_arpu        1010248 non-null  float64
 4   частота             1010248 non-null  float64
 5   объем_данных        1010248 non-null  float64
 6   on_net              935310 non-null   float64
 7   секретный_скор      1010248 non-null  float64
 8   pack_freq           938428 non-null   float64
 9   binary_target       1010248 non-null  int64  
 10  use_products        1010248 non-null  float64
dtypes: float64(10), int64(1)
memory usage: 92.5 MB
None
сумма                     0
частота_пополнения        0
доход                     0
сегмент_arpu              0
частота                   0
объем_данных              0
on_n

In [31]:
print_info(test_data)

<class 'pandas.core.frame.DataFrame'>
Index: 497586 entries, 1010248 to 1507833
Data columns (total 10 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   сумма               497586 non-null  float64
 1   частота_пополнения  497586 non-null  float64
 2   доход               497586 non-null  float64
 3   сегмент_arpu        497586 non-null  float64
 4   частота             497586 non-null  float64
 5   объем_данных        497586 non-null  float64
 6   on_net              460737 non-null  float64
 7   секретный_скор      497586 non-null  float64
 8   pack_freq           461932 non-null  float64
 9   use_products        497586 non-null  float64
dtypes: float64(10)
memory usage: 41.8 MB
None
сумма                     0
частота_пополнения        0
доход                     0
сегмент_arpu              0
частота                   0
объем_данных              0
on_net                36849
секретный_скор            0
pack_freq       

In [29]:
nan_cols = ['объем_данных', 'on_net', 'pack_freq']
iou_none(train_data, nan_cols)

объем_данных vs on_net 0.1074013107989198
объем_данных vs pack_freq 0.181575351991688
on_net vs pack_freq 0.21621308051844731


In [33]:
train_data['объем_данных'] = train_data['объем_данных'].fillna(0)
test_data['объем_данных'] = test_data['объем_данных'].fillna(0)

train_data['on_net'] = train_data['on_net'].fillna(0)
test_data['on_net'] = test_data['on_net'].fillna(0)

train_data['pack_freq'] = train_data['pack_freq'].fillna(0)
test_data['pack_freq'] = test_data['pack_freq'].fillna(0)

In [34]:
print_info(train_data)

<class 'pandas.core.frame.DataFrame'>
Index: 1010248 entries, 0 to 1010247
Data columns (total 11 columns):
 #   Column              Non-Null Count    Dtype  
---  ------              --------------    -----  
 0   сумма               1010248 non-null  float64
 1   частота_пополнения  1010248 non-null  float64
 2   доход               1010248 non-null  float64
 3   сегмент_arpu        1010248 non-null  float64
 4   частота             1010248 non-null  float64
 5   объем_данных        1010248 non-null  float64
 6   on_net              1010248 non-null  float64
 7   секретный_скор      1010248 non-null  float64
 8   pack_freq           1010248 non-null  float64
 9   binary_target       1010248 non-null  int64  
 10  use_products        1010248 non-null  float64
dtypes: float64(10), int64(1)
memory usage: 92.5 MB
None
сумма                 0
частота_пополнения    0
доход                 0
сегмент_arpu          0
частота               0
объем_данных          0
on_net                0
секр

In [35]:
print_info(test_data)

<class 'pandas.core.frame.DataFrame'>
Index: 497586 entries, 1010248 to 1507833
Data columns (total 10 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   сумма               497586 non-null  float64
 1   частота_пополнения  497586 non-null  float64
 2   доход               497586 non-null  float64
 3   сегмент_arpu        497586 non-null  float64
 4   частота             497586 non-null  float64
 5   объем_данных        497586 non-null  float64
 6   on_net              497586 non-null  float64
 7   секретный_скор      497586 non-null  float64
 8   pack_freq           497586 non-null  float64
 9   use_products        497586 non-null  float64
dtypes: float64(10)
memory usage: 41.8 MB
None
сумма                 0
частота_пополнения    0
доход                 0
сегмент_arpu          0
частота               0
объем_данных          0
on_net                0
секретный_скор        0
pack_freq             0
use_products          0


In [36]:
detach_split_save(train_data, test_data, cols_dict, 42)