In [1]:
import pandas as pd
import numpy as np
import gc; gc.enable()
import lightgbm as lgb
import warnings 
warnings.filterwarnings('ignore')

from GridSearcher import data_loader, model_loader, fit_params, get_oof_predictions

In [2]:
DATA_TYPE = 'sparse'
DATA_NORMALIZE = True
IS_REGRESSION = True
SEED = 519

In [3]:
dl = data_loader(data_type=DATA_TYPE, is_regression=IS_REGRESSION, is_train=True, is_pure=True)
train_X, train_y = dl.load()

Arguments: sparse True True
target loaded


In [4]:
dl_test = data_loader(data_type=DATA_TYPE, is_regression=IS_REGRESSION, is_train=False, is_pure=True)
test_X = dl_test.load()

Arguments: sparse True False
target loaded


In [5]:
train_X.shape, train_y.shape, test_X.shape

((1503424, 38406), (1503424,), (508438, 38406))

In [6]:
train_y

array([0.    , 0.    , 0.    , ..., 0.7376, 0.    , 0.7376])

In [7]:
del train_X, test_X

In [8]:
import pickle
with open('reduced_sparse_features.pickle', 'rb') as handle:
    all_features = pickle.load(handle)

In [9]:
train_X, test_X = all_features[:len(train_y), :], all_features[len(train_y):, :]

In [10]:
del all_features
train_X.shape, test_X.shape

((1503424, 300), (508438, 300))

In [11]:
gc.collect()

0

## Do k-means to create groups

In [12]:
from sklearn.cluster import MiniBatchKMeans

In [13]:
group_num = 30

In [14]:
km = MiniBatchKMeans(n_clusters=group_num, batch_size=100000, verbose=1000, random_state=877, reassignment_ratio=0.6)
train_group = km.fit_predict(train_X)

Init 1/3 with method: k-means++
Inertia for init 1/3: 1831370.205926
Init 2/3 with method: k-means++
Inertia for init 2/3: 1827829.293101
Init 3/3 with method: k-means++
Inertia for init 3/3: 1799955.195155
Minibatch iteration 1/1600: mean batch inertia: 5.997702, ewa inertia: 5.997702 
Minibatch iteration 2/1600: mean batch inertia: 5.917720, ewa inertia: 5.987062 
Minibatch iteration 3/1600: mean batch inertia: 5.869316, ewa inertia: 5.971399 
Minibatch iteration 4/1600: mean batch inertia: 5.848887, ewa inertia: 5.955101 
Minibatch iteration 5/1600: mean batch inertia: 5.827393, ewa inertia: 5.938112 
Minibatch iteration 6/1600: mean batch inertia: 5.814473, ewa inertia: 5.921664 
Minibatch iteration 7/1600: mean batch inertia: 5.795214, ewa inertia: 5.904843 
Minibatch iteration 8/1600: mean batch inertia: 5.790057, ewa inertia: 5.889573 
Minibatch iteration 9/1600: mean batch inertia: 5.788202, ewa inertia: 5.876087 
Minibatch iteration 10/1600: mean batch inertia: 5.774070, ewa i

In [15]:
test_group = km.predict(test_X)

Computing label assignment and total inertia


In [16]:
train_group.shape, test_group.shape

((1503424,), (508438,))

## Within-group KNN in TF

In [17]:
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf
from tensorflow.python.framework import ops
from tqdm import tqdm

ops.reset_default_graph()

In [18]:
sess = tf.Session(config=tf.ConfigProto(log_device_placement=True))
from tensorflow.python.client import device_lib
print(device_lib.list_local_devices())

[name: "/device:CPU:0"
device_type: "CPU"
memory_limit: 268435456
locality {
}
incarnation: 122720747942679054
, name: "/device:GPU:0"
device_type: "GPU"
memory_limit: 3174131302
locality {
  bus_id: 1
  links {
  }
}
incarnation: 1450885511418735386
physical_device_desc: "device: 0, name: GeForce GTX 1050 Ti, pci bus id: 0000:01:00.0, compute capability: 6.1"
]


In [19]:
k = 50
DEBUG = False

In [20]:
x_data_train = tf.placeholder(shape=[None, train_X.shape[1]], dtype=tf.float32)
x_data_test = tf.placeholder(shape=[None, train_X.shape[1]], dtype=tf.float32)

y_target_train = tf.placeholder(shape=[None, 1], dtype=tf.float32)
y_target_test = tf.placeholder(shape=[None, 1], dtype=tf.float32)

In [21]:
#L1 
#distance = tf.reduce_sum(tf.abs(tf.subtract(x_data_train, tf.expand_dims(x_data_test,1))), axis=2)

#L2
distance = tf.sqrt(tf.reduce_sum(tf.square(tf.subtract(x_data_train, tf.expand_dims(x_data_test,1))), axis=2))

In [22]:
top_k_xvals, top_k_indices = tf.nn.top_k(tf.negative(distance), k=k)

In [23]:
def get_predictions(tr_x, te_x, batch_size=2, is_removed_first=False):
    num_loops = int(np.ceil(te_x.shape[0]/batch_size))

    k_xvals, k_indices = [], []
    
    for i in tqdm(range(num_loops)):
        min_index = i*batch_size
        max_index = min((i+1)*batch_size, te_x.shape[0])
        x_batch = te_x[min_index:max_index, :]
    
        if DEBUG:
            print('Distances')
            print(sess.run(distance, 
                                    feed_dict={
                                        x_data_train: tr_x, x_data_test: x_batch
                                    }))
        
        
        k_xval, k_indice = sess.run([top_k_xvals, top_k_indices], 
                                    feed_dict={
                                        x_data_train: tr_x, x_data_test: x_batch
                                    })
        
        k_xval = np.array(k_xval)
        k_indice = np.array(k_indice)
        
        if is_removed_first:
            k_xvals.extend(k_xval[:,1:]*-1)
            k_indices.extend(k_indice[:,1:])
        else:
            k_xvals.extend(k_xval*-1)
            k_indices.extend(k_indice)
            
        if DEBUG:
            print(k_xval, k_indice, k_xvals, k_indices)
            
        del k_xval, k_indice; gc.collect()
        
    return k_xvals, k_indices

## By cluster

In [24]:
from sklearn.model_selection import KFold

for group in range(group_num):
    train_filter = train_group == group
    test_filter = test_group == group
    
    tr_X = train_X[train_filter,:]
    te_X = test_X[test_filter,:]
    print(tr_X.shape, te_X.shape)
    
    if tr_X.shape[0] > 80000:
        batch_size = 2
    else:
        batch_size = 32
        
    train_dist, train_ind = get_predictions(tr_X, tr_X, batch_size=batch_size, is_removed_first=True)
    test_dist, test_ind = get_predictions(tr_X, te_X, batch_size=batch_size)
    
    with open('knn_dist_and_ind_group_{}.data'.format(group), 'wb') as handle:
        pickle.dump(
            {
                'train_filter': train_filter,
                'test_filter': test_filter,
                'train_dist': train_dist, 
                'train_ind': train_ind,
                'test_dist': test_dist,
                'test_ind': test_ind
            }, handle)
      
    del train_filter, test_filter, train_dist, train_ind, test_dist, test_ind; gc.collect()

(33007, 300) (12547, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1032/1032 [02:24<00:00,  7.16it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 393/393 [00:54<00:00,  7.17it/s]


(74433, 300) (25166, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 2327/2327 [10:05<00:00,  3.85it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 787/787 [03:25<00:00,  3.83it/s]


(49632, 300) (15207, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1551/1551 [04:48<00:00,  5.38it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 476/476 [01:28<00:00,  5.36it/s]


(32292, 300) (12008, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1010/1010 [02:17<00:00,  7.34it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 376/376 [00:51<00:00,  7.30it/s]


(151452, 300) (44930, 300)


100%|██████████████████████████████████████████████████████████████████████████| 75726/75726 [4:04:10<00:00,  5.17it/s]
100%|██████████████████████████████████████████████████████████████████████████| 22465/22465 [1:13:25<00:00,  5.10it/s]


(14972, 300) (5120, 300)


100%|████████████████████████████████████████████████████████████████████████████████| 468/468 [00:39<00:00, 11.82it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 160/160 [00:13<00:00, 11.81it/s]


(30240, 300) (11867, 300)


100%|████████████████████████████████████████████████████████████████████████████████| 945/945 [02:01<00:00,  7.75it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 371/371 [00:48<00:00,  7.71it/s]


(56022, 300) (22819, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1751/1751 [05:55<00:00,  4.92it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 714/714 [02:25<00:00,  4.90it/s]


(73752, 300) (25668, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 2305/2305 [09:47<00:00,  3.92it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 803/803 [03:25<00:00,  3.91it/s]


(112835, 300) (43554, 300)


100%|██████████████████████████████████████████████████████████████████████████| 56418/56418 [2:24:33<00:00,  6.50it/s]
100%|████████████████████████████████████████████████████████████████████████████| 21777/21777 [56:51<00:00,  6.38it/s]


(28339, 300) (7343, 300)


100%|████████████████████████████████████████████████████████████████████████████████| 886/886 [01:50<00:00,  8.02it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 230/230 [00:28<00:00,  8.00it/s]


(51732, 300) (15626, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1617/1617 [05:11<00:00,  5.19it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 489/489 [01:34<00:00,  5.17it/s]


(19579, 300) (7082, 300)


100%|████████████████████████████████████████████████████████████████████████████████| 612/612 [00:59<00:00, 10.24it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 222/222 [00:21<00:00, 10.23it/s]


(42700, 300) (15199, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1335/1335 [03:41<00:00,  6.03it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 475/475 [01:19<00:00,  6.00it/s]


(22398, 300) (8237, 300)


100%|████████████████████████████████████████████████████████████████████████████████| 700/700 [01:14<00:00,  9.37it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 258/258 [00:27<00:00,  9.34it/s]


(42489, 300) (12591, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1328/1328 [03:39<00:00,  6.05it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 394/394 [01:05<00:00,  6.03it/s]


(59507, 300) (18881, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1860/1860 [06:40<00:00,  4.64it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 591/591 [02:07<00:00,  4.62it/s]


(22555, 300) (8820, 300)


100%|████████████████████████████████████████████████████████████████████████████████| 705/705 [01:15<00:00,  9.36it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 276/276 [00:29<00:00,  9.35it/s]


(78313, 300) (25617, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 2448/2448 [10:58<00:00,  3.72it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 801/801 [03:36<00:00,  3.70it/s]


(84177, 300) (24823, 300)


100%|██████████████████████████████████████████████████████████████████████████| 42089/42089 [1:28:11<00:00,  7.95it/s]
100%|████████████████████████████████████████████████████████████████████████████| 12412/12412 [26:41<00:00,  7.75it/s]


(57214, 300) (16942, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1788/1788 [06:17<00:00,  4.74it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 530/530 [01:52<00:00,  4.73it/s]


(34886, 300) (12140, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1091/1091 [02:39<00:00,  6.84it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 380/380 [00:55<00:00,  6.80it/s]


(49689, 300) (17012, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1553/1553 [04:53<00:00,  5.28it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 532/532 [01:41<00:00,  5.25it/s]


(28090, 300) (9237, 300)


100%|████████████████████████████████████████████████████████████████████████████████| 878/878 [01:48<00:00,  8.06it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 289/289 [00:35<00:00,  8.07it/s]


(37561, 300) (15531, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1174/1174 [02:57<00:00,  6.61it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 486/486 [01:13<00:00,  6.58it/s]


(31679, 300) (9117, 300)


100%|████████████████████████████████████████████████████████████████████████████████| 990/990 [02:12<00:00,  7.45it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 285/285 [00:38<00:00,  7.43it/s]


(28154, 300) (9929, 300)


100%|████████████████████████████████████████████████████████████████████████████████| 880/880 [01:48<00:00,  8.09it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 311/311 [00:38<00:00,  8.07it/s]


(86283, 300) (29728, 300)


100%|██████████████████████████████████████████████████████████████████████████| 43142/43142 [1:32:53<00:00,  7.74it/s]
100%|████████████████████████████████████████████████████████████████████████████| 14864/14864 [32:15<00:00,  7.68it/s]


(30952, 300) (12312, 300)


100%|████████████████████████████████████████████████████████████████████████████████| 968/968 [02:07<00:00,  7.60it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 385/385 [00:50<00:00,  7.55it/s]


(38490, 300) (13385, 300)


100%|██████████████████████████████████████████████████████████████████████████████| 1203/1203 [03:04<00:00,  6.51it/s]
100%|████████████████████████████████████████████████████████████████████████████████| 419/419 [01:04<00:00,  6.49it/s]


## Transform into knn features

In [1]:
import pandas as pd
import numpy as np
from tqdm import tqdm
import pickle
import gc; gc.enable()

In [2]:
train_X = pd.read_csv('train.csv', parse_dates=['activation_date']).sort_values('activation_date').reset_index(drop=True)
test_X = pd.read_csv('test.csv', parse_dates=['activation_date'])

In [3]:
class knn_feature_wrapper():
    def __init__(self):
        pass
        
    def transform(self, X, test_X, # X, test_X are dense, and X should contain all the feature_cols
                  group_num=30,
                  n_list=[5, 10, 20, 40],
                  #feature_inds=[38358, 38359],
                  feature_cols=['price', 'item_seq_number', 'deal_probability']):
        def get_model():
            return model_loader(model_type='knn').load(self.params)
        
        def get_feature_names(n):
            return ['{}_{}_closest_mean'.format(feat, n) for feat in feature_cols]
        
        train_res = pd.DataFrame()
        test_res = pd.DataFrame()
        for n in n_list:
            train_res['{}_closest_avg_dist'.format(n)] = np.zeros((X.shape[0],))
            test_res['{}_closest_avg_dist'.format(n)] = np.zeros((test_X.shape[0],))
            for feat in feature_cols:
                train_res['{}_{}_closest_mean'.format(feat, n)] = np.zeros((X.shape[0],))
                test_res['{}_{}_closest_mean'.format(feat, n)] = np.zeros((test_X.shape[0],))
        
        for group in range(group_num):
            with open('knn_dist_and_ind_group_{}.data'.format(group), 'rb') as handle:
                info = pickle.load(handle)
                '''
                    {
                        'train_filter': train_filter,
                        'test_filter': test_filter,
                        'train_dist': train_dist, 
                        'train_ind': train_ind,
                        'test_dist': test_dist,
                        'test_ind': test_ind
                    }
                '''

                tr_ix = np.arange(X.shape[0])[info['train_filter']]
                te_ix = np.arange(test_X.shape[0])[info['test_filter']]
                tr_X = X.loc[tr_ix, :].reset_index(drop=True)
                
                for n in n_list:
                    print('Processing n=', n)
                    
                    train_dist, train_ind = np.array(info['train_dist'])[:, :n], np.array(info['train_ind'])[:, :n]
                    test_dist, test_ind = np.array(info['test_dist'])[:, :n], np.array(info['test_ind'])[:, :n]
                
                    train_res.loc[tr_ix, '{}_closest_avg_dist'.format(n)] = train_dist.mean(axis=1)
                    train_res.loc[tr_ix, get_feature_names(n)] = \
                        np.array([tr_X.loc[ind, feature_cols].mean(axis=0) for ind in tqdm(train_ind)])
                    
                    test_res.loc[te_ix, '{}_closest_avg_dist'.format(n)] = test_dist.mean(axis=1)
                    test_res.loc[te_ix, get_feature_names(n)] = \
                        np.array([tr_X.loc[ind, feature_cols].mean(axis=0) for ind in tqdm(test_ind)])
                    
                del tr_ix, te_ix, tr_X, info; gc.collect()
        
        return train_res, test_res

In [4]:
kfw = knn_feature_wrapper()
train_res, test_res = kfw.transform(train_X, test_X)

Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 33007/33007 [00:48<00:00, 684.98it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12547/12547 [00:17<00:00, 722.06it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 33007/33007 [00:47<00:00, 689.99it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12547/12547 [00:17<00:00, 714.64it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 33007/33007 [00:46<00:00, 715.93it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12547/12547 [00:17<00:00, 716.24it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 33007/33007 [00:46<00:00, 713.49it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12547/12547 [00:17<00:00, 710.65it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 74433/74433 [02:30<00:00, 494.23it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25166/25166 [00:51<00:00, 492.99it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 74433/74433 [02:30<00:00, 495.53it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25166/25166 [00:50<00:00, 498.96it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 74433/74433 [02:31<00:00, 492.50it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25166/25166 [00:51<00:00, 491.06it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 74433/74433 [02:29<00:00, 496.63it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25166/25166 [00:50<00:00, 495.42it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 49632/49632 [01:12<00:00, 681.76it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15207/15207 [00:22<00:00, 682.02it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 49632/49632 [01:12<00:00, 680.93it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15207/15207 [00:22<00:00, 679.93it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 49632/49632 [01:13<00:00, 677.66it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15207/15207 [00:22<00:00, 678.48it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 49632/49632 [01:13<00:00, 676.17it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15207/15207 [00:22<00:00, 673.57it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 32292/32292 [00:45<00:00, 716.47it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12008/12008 [00:16<00:00, 716.66it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 32292/32292 [00:45<00:00, 716.04it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12008/12008 [00:16<00:00, 716.84it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 32292/32292 [00:45<00:00, 713.24it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12008/12008 [00:16<00:00, 714.33it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 32292/32292 [00:45<00:00, 711.67it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12008/12008 [00:16<00:00, 714.78it/s]


Processing n= 5


100%|█████████████████████████████████████████████████████████████████████████| 151452/151452 [07:45<00:00, 325.30it/s]
100%|███████████████████████████████████████████████████████████████████████████| 44930/44930 [02:17<00:00, 326.02it/s]


Processing n= 10


100%|█████████████████████████████████████████████████████████████████████████| 151452/151452 [07:46<00:00, 324.99it/s]
100%|███████████████████████████████████████████████████████████████████████████| 44930/44930 [02:18<00:00, 325.46it/s]


Processing n= 20


100%|█████████████████████████████████████████████████████████████████████████| 151452/151452 [07:46<00:00, 324.59it/s]
100%|███████████████████████████████████████████████████████████████████████████| 44930/44930 [02:18<00:00, 325.20it/s]


Processing n= 40


100%|█████████████████████████████████████████████████████████████████████████| 151452/151452 [07:44<00:00, 325.87it/s]
100%|███████████████████████████████████████████████████████████████████████████| 44930/44930 [02:19<00:00, 321.50it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 14972/14972 [00:19<00:00, 757.72it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 5120/5120 [00:06<00:00, 757.13it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 14972/14972 [00:19<00:00, 755.37it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 5120/5120 [00:06<00:00, 759.70it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 14972/14972 [00:19<00:00, 756.24it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 5120/5120 [00:06<00:00, 760.93it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 14972/14972 [00:19<00:00, 756.35it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 5120/5120 [00:06<00:00, 754.88it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 30240/30240 [00:42<00:00, 718.89it/s]
100%|███████████████████████████████████████████████████████████████████████████| 11867/11867 [00:16<00:00, 716.57it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 30240/30240 [00:42<00:00, 718.57it/s]
100%|███████████████████████████████████████████████████████████████████████████| 11867/11867 [00:16<00:00, 719.98it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 30240/30240 [00:42<00:00, 717.32it/s]
100%|███████████████████████████████████████████████████████████████████████████| 11867/11867 [00:16<00:00, 715.89it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 30240/30240 [00:42<00:00, 715.88it/s]
100%|███████████████████████████████████████████████████████████████████████████| 11867/11867 [00:16<00:00, 717.55it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 56022/56022 [01:24<00:00, 660.37it/s]
100%|███████████████████████████████████████████████████████████████████████████| 22819/22819 [00:34<00:00, 660.88it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 56022/56022 [01:24<00:00, 659.72it/s]
100%|███████████████████████████████████████████████████████████████████████████| 22819/22819 [00:34<00:00, 662.31it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 56022/56022 [01:24<00:00, 659.56it/s]
100%|███████████████████████████████████████████████████████████████████████████| 22819/22819 [00:34<00:00, 660.36it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 56022/56022 [01:25<00:00, 657.14it/s]
100%|███████████████████████████████████████████████████████████████████████████| 22819/22819 [00:34<00:00, 657.86it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 73752/73752 [02:26<00:00, 501.72it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25668/25668 [00:51<00:00, 501.80it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 73752/73752 [02:26<00:00, 501.72it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25668/25668 [00:51<00:00, 503.00it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 73752/73752 [02:27<00:00, 499.71it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25668/25668 [00:51<00:00, 500.05it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 73752/73752 [02:27<00:00, 499.86it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25668/25668 [00:51<00:00, 495.59it/s]


Processing n= 5


100%|█████████████████████████████████████████████████████████████████████████| 112835/112835 [04:26<00:00, 423.66it/s]
100%|███████████████████████████████████████████████████████████████████████████| 43554/43554 [01:43<00:00, 422.21it/s]


Processing n= 10


100%|█████████████████████████████████████████████████████████████████████████| 112835/112835 [04:27<00:00, 422.60it/s]
100%|███████████████████████████████████████████████████████████████████████████| 43554/43554 [01:43<00:00, 420.78it/s]


Processing n= 20


100%|█████████████████████████████████████████████████████████████████████████| 112835/112835 [04:29<00:00, 419.10it/s]
100%|███████████████████████████████████████████████████████████████████████████| 43554/43554 [01:44<00:00, 416.25it/s]


Processing n= 40


100%|█████████████████████████████████████████████████████████████████████████| 112835/112835 [04:29<00:00, 418.74it/s]
100%|███████████████████████████████████████████████████████████████████████████| 43554/43554 [01:44<00:00, 417.41it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 28339/28339 [00:39<00:00, 717.70it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 7343/7343 [00:10<00:00, 718.69it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 28339/28339 [00:39<00:00, 718.56it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 7343/7343 [00:10<00:00, 719.73it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 28339/28339 [00:39<00:00, 716.02it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 7343/7343 [00:10<00:00, 715.86it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 28339/28339 [00:39<00:00, 714.70it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 7343/7343 [00:10<00:00, 714.78it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 51732/51732 [01:17<00:00, 663.49it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15626/15626 [00:23<00:00, 663.06it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 51732/51732 [01:18<00:00, 661.88it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15626/15626 [00:23<00:00, 653.78it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 51732/51732 [01:18<00:00, 661.22it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15626/15626 [00:23<00:00, 660.27it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 51732/51732 [01:19<00:00, 652.46it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15626/15626 [00:23<00:00, 652.57it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 19579/19579 [00:26<00:00, 737.56it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 7082/7082 [00:09<00:00, 738.97it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 19579/19579 [00:26<00:00, 736.65it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 7082/7082 [00:09<00:00, 741.06it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 19579/19579 [00:26<00:00, 737.24it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 7082/7082 [00:09<00:00, 739.66it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 19579/19579 [00:26<00:00, 734.59it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 7082/7082 [00:09<00:00, 735.77it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 42700/42700 [01:02<00:00, 680.16it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15199/15199 [00:22<00:00, 679.47it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 42700/42700 [01:02<00:00, 679.13it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15199/15199 [00:22<00:00, 681.54it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 42700/42700 [01:02<00:00, 678.42it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15199/15199 [00:22<00:00, 667.92it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 42700/42700 [01:03<00:00, 677.66it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15199/15199 [00:22<00:00, 676.82it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 22398/22398 [00:30<00:00, 733.31it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 8237/8237 [00:11<00:00, 730.86it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 22398/22398 [00:30<00:00, 729.58it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 8237/8237 [00:11<00:00, 730.67it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 22398/22398 [00:30<00:00, 729.52it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 8237/8237 [00:11<00:00, 729.49it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 22398/22398 [00:30<00:00, 726.51it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 8237/8237 [00:11<00:00, 730.91it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 42489/42489 [01:02<00:00, 681.94it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12591/12591 [00:18<00:00, 683.10it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 42489/42489 [01:02<00:00, 683.76it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12591/12591 [00:18<00:00, 684.23it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 42489/42489 [01:02<00:00, 681.76it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12591/12591 [00:18<00:00, 682.41it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 42489/42489 [01:02<00:00, 680.13it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12591/12591 [00:18<00:00, 674.85it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 59507/59507 [01:32<00:00, 646.04it/s]
100%|███████████████████████████████████████████████████████████████████████████| 18881/18881 [00:29<00:00, 647.48it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 59507/59507 [01:32<00:00, 646.52it/s]
100%|███████████████████████████████████████████████████████████████████████████| 18881/18881 [00:29<00:00, 640.10it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 59507/59507 [01:32<00:00, 644.99it/s]
100%|███████████████████████████████████████████████████████████████████████████| 18881/18881 [00:29<00:00, 643.09it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 59507/59507 [01:32<00:00, 643.85it/s]
100%|███████████████████████████████████████████████████████████████████████████| 18881/18881 [00:29<00:00, 642.82it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 22555/22555 [00:30<00:00, 731.99it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 8820/8820 [00:12<00:00, 732.28it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 22555/22555 [00:30<00:00, 731.45it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 8820/8820 [00:12<00:00, 734.39it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 22555/22555 [00:30<00:00, 732.98it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 8820/8820 [00:12<00:00, 733.08it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 22555/22555 [00:30<00:00, 730.02it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 8820/8820 [00:12<00:00, 731.76it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 78313/78313 [02:40<00:00, 487.70it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25617/25617 [00:52<00:00, 488.30it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 78313/78313 [02:40<00:00, 487.58it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25617/25617 [00:52<00:00, 487.80it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 78313/78313 [02:40<00:00, 488.04it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25617/25617 [00:52<00:00, 486.96it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 78313/78313 [02:40<00:00, 487.21it/s]
100%|███████████████████████████████████████████████████████████████████████████| 25617/25617 [00:52<00:00, 486.49it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 84177/84177 [02:58<00:00, 471.89it/s]
100%|███████████████████████████████████████████████████████████████████████████| 24823/24823 [00:53<00:00, 467.53it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 84177/84177 [03:00<00:00, 465.28it/s]
100%|███████████████████████████████████████████████████████████████████████████| 24823/24823 [00:52<00:00, 468.99it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 84177/84177 [02:58<00:00, 472.59it/s]
100%|███████████████████████████████████████████████████████████████████████████| 24823/24823 [00:52<00:00, 469.86it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 84177/84177 [03:01<00:00, 463.69it/s]
100%|███████████████████████████████████████████████████████████████████████████| 24823/24823 [00:53<00:00, 465.65it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 57214/57214 [01:28<00:00, 643.61it/s]
100%|███████████████████████████████████████████████████████████████████████████| 16942/16942 [00:27<00:00, 626.82it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 57214/57214 [01:27<00:00, 650.29it/s]
100%|███████████████████████████████████████████████████████████████████████████| 16942/16942 [00:26<00:00, 646.91it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 57214/57214 [01:28<00:00, 649.02it/s]
100%|███████████████████████████████████████████████████████████████████████████| 16942/16942 [00:26<00:00, 647.23it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 57214/57214 [01:28<00:00, 649.09it/s]
100%|███████████████████████████████████████████████████████████████████████████| 16942/16942 [00:26<00:00, 648.50it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 34886/34886 [00:49<00:00, 700.44it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12140/12140 [00:17<00:00, 703.88it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 34886/34886 [00:49<00:00, 698.20it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12140/12140 [00:17<00:00, 701.18it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 34886/34886 [00:49<00:00, 698.43it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12140/12140 [00:17<00:00, 700.99it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 34886/34886 [00:49<00:00, 698.06it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12140/12140 [00:17<00:00, 698.72it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 49689/49689 [01:14<00:00, 669.01it/s]
100%|███████████████████████████████████████████████████████████████████████████| 17012/17012 [00:25<00:00, 668.80it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 49689/49689 [01:14<00:00, 669.07it/s]
100%|███████████████████████████████████████████████████████████████████████████| 17012/17012 [00:25<00:00, 668.83it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 49689/49689 [01:14<00:00, 666.81it/s]
100%|███████████████████████████████████████████████████████████████████████████| 17012/17012 [00:25<00:00, 668.78it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 49689/49689 [01:14<00:00, 665.19it/s]
100%|███████████████████████████████████████████████████████████████████████████| 17012/17012 [00:25<00:00, 666.43it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 28090/28090 [00:39<00:00, 718.88it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9237/9237 [00:12<00:00, 717.33it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 28090/28090 [00:39<00:00, 718.75it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9237/9237 [00:12<00:00, 713.02it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 28090/28090 [00:39<00:00, 716.98it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9237/9237 [00:12<00:00, 717.99it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 28090/28090 [00:40<00:00, 700.38it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9237/9237 [00:12<00:00, 713.24it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 37561/37561 [00:54<00:00, 695.35it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15531/15531 [00:22<00:00, 695.68it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 37561/37561 [00:53<00:00, 696.43it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15531/15531 [00:22<00:00, 698.44it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 37561/37561 [00:54<00:00, 695.02it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15531/15531 [00:22<00:00, 695.08it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 37561/37561 [00:54<00:00, 692.85it/s]
100%|███████████████████████████████████████████████████████████████████████████| 15531/15531 [00:22<00:00, 691.66it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 31679/31679 [00:44<00:00, 708.72it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9117/9117 [00:12<00:00, 708.72it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 31679/31679 [00:44<00:00, 708.36it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9117/9117 [00:12<00:00, 707.49it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 31679/31679 [00:44<00:00, 707.28it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9117/9117 [00:12<00:00, 708.39it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 31679/31679 [00:44<00:00, 704.74it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9117/9117 [00:12<00:00, 708.51it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 28154/28154 [00:39<00:00, 717.99it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9929/9929 [00:13<00:00, 721.17it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 28154/28154 [00:39<00:00, 718.56it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9929/9929 [00:13<00:00, 721.21it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 28154/28154 [00:39<00:00, 716.52it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9929/9929 [00:13<00:00, 720.09it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 28154/28154 [00:39<00:00, 716.02it/s]
100%|█████████████████████████████████████████████████████████████████████████████| 9929/9929 [00:13<00:00, 717.57it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 86283/86283 [03:04<00:00, 466.50it/s]
100%|███████████████████████████████████████████████████████████████████████████| 29728/29728 [01:03<00:00, 466.01it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 86283/86283 [03:05<00:00, 465.29it/s]
100%|███████████████████████████████████████████████████████████████████████████| 29728/29728 [01:03<00:00, 467.15it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 86283/86283 [03:05<00:00, 466.13it/s]
100%|███████████████████████████████████████████████████████████████████████████| 29728/29728 [01:03<00:00, 465.42it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 86283/86283 [03:05<00:00, 464.10it/s]
100%|███████████████████████████████████████████████████████████████████████████| 29728/29728 [01:04<00:00, 462.74it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 30952/30952 [00:43<00:00, 705.93it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12312/12312 [00:17<00:00, 707.41it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 30952/30952 [00:43<00:00, 705.61it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12312/12312 [00:17<00:00, 705.36it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 30952/30952 [00:43<00:00, 704.24it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12312/12312 [00:17<00:00, 706.28it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 30952/30952 [00:44<00:00, 701.33it/s]
100%|███████████████████████████████████████████████████████████████████████████| 12312/12312 [00:17<00:00, 703.36it/s]


Processing n= 5


100%|███████████████████████████████████████████████████████████████████████████| 38490/38490 [00:56<00:00, 685.51it/s]
100%|███████████████████████████████████████████████████████████████████████████| 13385/13385 [00:19<00:00, 688.81it/s]


Processing n= 10


100%|███████████████████████████████████████████████████████████████████████████| 38490/38490 [00:56<00:00, 681.71it/s]
100%|███████████████████████████████████████████████████████████████████████████| 13385/13385 [00:19<00:00, 680.97it/s]


Processing n= 20


100%|███████████████████████████████████████████████████████████████████████████| 38490/38490 [00:56<00:00, 683.73it/s]
100%|███████████████████████████████████████████████████████████████████████████| 13385/13385 [00:19<00:00, 682.18it/s]


Processing n= 40


100%|███████████████████████████████████████████████████████████████████████████| 38490/38490 [00:56<00:00, 683.92it/s]
100%|███████████████████████████████████████████████████████████████████████████| 13385/13385 [00:19<00:00, 685.56it/s]


In [5]:
train_res.head(3)

Unnamed: 0,5_closest_avg_dist,price_5_closest_mean,item_seq_number_5_closest_mean,deal_probability_5_closest_mean,10_closest_avg_dist,price_10_closest_mean,item_seq_number_10_closest_mean,deal_probability_10_closest_mean,20_closest_avg_dist,price_20_closest_mean,item_seq_number_20_closest_mean,deal_probability_20_closest_mean,40_closest_avg_dist,price_40_closest_mean,item_seq_number_40_closest_mean,deal_probability_40_closest_mean
0,0.996793,1320.0,32.8,0.0,1.064976,1000.0,42.4,0.0,1.146944,975.0,59.75,0.0,1.272664,1014.0,49.625,0.0432
1,0.854518,230.0,50.2,0.153572,1.051065,280.0,61.4,0.076786,1.243759,250.0,48.55,0.046991,1.429779,285.5,39.525,0.044163
2,1.122214,7840.0,8.2,0.0,1.247133,4500.0,9.8,0.031626,1.376999,4125.0,7.2,0.031626,1.571354,4687.5,7.675,0.029212


In [6]:
with open('knn_train_features.pickle', 'wb') as handle:
    pickle.dump(train_res, handle)
    
with open('knn_test_features.pickle', 'wb') as handle:
    pickle.dump(test_res, handle)

In [7]:
y = pd.read_csv('regression_target.csv')['deal_probability'].values

In [9]:
train_res.loc[:, 'target'] = y

In [10]:
train_res.corr()

Unnamed: 0,5_closest_avg_dist,price_5_closest_mean,item_seq_number_5_closest_mean,deal_probability_5_closest_mean,10_closest_avg_dist,price_10_closest_mean,item_seq_number_10_closest_mean,deal_probability_10_closest_mean,20_closest_avg_dist,price_20_closest_mean,item_seq_number_20_closest_mean,deal_probability_20_closest_mean,40_closest_avg_dist,price_40_closest_mean,item_seq_number_40_closest_mean,deal_probability_40_closest_mean,target
5_closest_avg_dist,1.0,-0.014205,-0.091738,-0.093835,0.984972,-0.003515,-0.093842,-0.109662,0.951325,-0.004601,-0.095569,-0.122972,0.909109,-0.004771,-0.09747,-0.133854,-0.060841
price_5_closest_mean,-0.014205,1.0,0.160624,-0.028159,-0.012218,0.08291,0.165432,-0.030406,-0.00866,0.087181,0.167944,-0.03153,-0.005,0.092743,0.16984,-0.031789,-0.016269
item_seq_number_5_closest_mean,-0.091738,0.160624,1.0,-0.06407,-0.094051,0.01864,0.979368,-0.073117,-0.094503,0.026802,0.958159,-0.080375,-0.092301,0.035174,0.936886,-0.085959,-0.039176
deal_probability_5_closest_mean,-0.093835,-0.028159,-0.06407,1.0,-0.097554,-0.003458,-0.066003,0.8867,-0.099862,-0.004727,-0.068139,0.818125,-0.100409,-0.0064,-0.0707,0.776596,0.377628
10_closest_avg_dist,0.984972,-0.012218,-0.094051,-0.097554,1.0,-0.002598,-0.0963,-0.11335,0.986737,-0.003454,-0.097947,-0.126942,0.9554,-0.003838,-0.099742,-0.138147,-0.063865
price_10_closest_mean,-0.003515,0.08291,0.01864,-0.003458,-0.002598,1.0,0.019258,-0.003292,-0.001868,0.709073,0.019564,-0.003589,-0.001346,0.475245,0.01981,-0.003667,-0.002088
item_seq_number_10_closest_mean,-0.093842,0.165432,0.979368,-0.066003,-0.0963,0.019258,1.0,-0.075383,-0.096998,0.027741,0.983081,-0.082947,-0.094846,0.036402,0.961447,-0.088673,-0.04034
deal_probability_10_closest_mean,-0.109662,-0.030406,-0.073117,0.8867,-0.11335,-0.003292,-0.075383,1.0,-0.11518,-0.004587,-0.07777,0.925186,-0.115424,-0.006457,-0.080726,0.878968,0.411679
20_closest_avg_dist,0.951325,-0.00866,-0.094503,-0.099862,0.986737,-0.001868,-0.096998,-0.11518,1.0,-0.00257,-0.098805,-0.128414,0.987456,-0.002957,-0.100496,-0.139762,-0.065458
price_20_closest_mean,-0.004601,0.087181,0.026802,-0.004727,-0.003454,0.709073,0.027741,-0.004587,-0.00257,1.0,0.028398,-0.005258,-0.001909,0.670382,0.028801,-0.005464,-0.002996


## By fold: (Warining: Will runs really long)

In [28]:
from sklearn.model_selection import KFold
kf = KFold(5, shuffle=True, random_state=SEED)

fold=1
for train_ix, val_ix in kf.split(train_X):
    print('Processing fold # =', fold)
    
    train_ix = np.random.choice(train_ix, len(val_ix), replace=False)
    tr_X, tr_y = train_X[train_ix,:], train_y[train_ix]
    val_X = train_X[val_ix,:]
        
    val_dist, val_ind = get_predictions(tr_X, val_X)
    test_dist, test_ind = get_predictions(tr_X, test_X)
    
    with open('knn_dist_and_ind_fold_{}.data'.format(fold), 'wb') as handle:
        pickle.dump(
            {
                'train_ix': train_ix,
                'val_dist': val_dist, 
                'val_ind': val_ind,
                'test_dist': test_dist,
                'test_ind': test_ind
            }, handle)
    
    del val_dist, val_ind, test_dist, test_ind; gc.collect()
    fold += 1

Processing fold # = 1


  0%|                                                                           | 79/300685 [00:25<26:58:56,  3.09it/s]

KeyboardInterrupt: 