# ABOUT
- This notebook converts columns to an edgelist
- background:
    - id columns, especially the high cardinality ones may not be good as input to models. 
        - if id columns are one hot encoded, they become othorgonal
        - there is also the curse of dimentionality
    - instead, we want to see if we can introduce some kind of embedding for each id
        - for instance node2vec can generate embeddings that retain topological infomation which may be useful for the model
- therefore, for each (card_id, idX_column) pair we generate an edgelist file which will be used to train node2vec embeddings
    - where idX_column is a column in ['city_id', 'merchant_category_id', 'merchant_id', 'state_id', 'subsector_id', 'merchant_group_id']

In [1]:
import pandas as pd
import gc
import numpy as np
from tqdm import tqdm

In [2]:

train_path = r"C:\Users\tanch\Documents\NTU\NTU Year 4\Semester 1\CZ4041 - Machine Learning\Team Project\data\train.csv"
test_path = r"C:\Users\tanch\Documents\NTU\NTU Year 4\Semester 1\CZ4041 - Machine Learning\Team Project\data\test.csv"
merchants_path = r"C:\Users\tanch\Documents\NTU\NTU Year 4\Semester 1\CZ4041 - Machine Learning\Team Project\data\merchants.csv"
historical_transactions_path = r"C:\Users\tanch\Documents\NTU\NTU Year 4\Semester 1\CZ4041 - Machine Learning\Team Project\data\historical_transactions.csv"
new_transactions_path = r"C:\Users\tanch\Documents\NTU\NTU Year 4\Semester 1\CZ4041 - Machine Learning\Team Project\data\new_merchant_transactions.csv"

# dictionary categorizing all coolumns available 
feature_names = {
    "train_test":{
        "id":["card_id"],
        "categoric":['feature_1', 'feature_2', 'feature_3'],
        "datetime":["first_active_month"]
    },
    "merchants":{
        "id": ['merchant_id', 'merchant_group_id', 'merchant_category_id','subsector_id', 'city_id', 'state_id'],
        "categoric": ['category_1','most_recent_sales_range', 'most_recent_purchases_range','category_4', 'category_2'],
        "numeric": ['numerical_1', 'numerical_2','avg_sales_lag3', 'avg_purchases_lag3','avg_sales_lag6', 'avg_purchases_lag6','avg_sales_lag12', 'avg_purchases_lag12', 'active_months_lag3','active_months_lag6','active_months_lag12']
    },
    "transactions":{
        "id": ['card_id', 'city_id','merchant_category_id', 'merchant_id','state_id','subsector_id'],
        "categoric": ['authorized_flag','category_1',"category_3", "category_2"],
        "numeric": ['purchase_amount', 'month_lag',"installments"],
        "datetime": ['purchase_date']
    },
}

In [3]:
# read
merchants = pd.read_csv(merchants_path, usecols = feature_names['merchants']['id'])#, nrows = 100000) 
new_transactions = pd.read_csv(new_transactions_path, usecols = feature_names['transactions']['id'])#, nrows = 100000)
hist_transactions = pd.read_csv(historical_transactions_path, usecols = feature_names['transactions']['id'])#, nrows = 100000)
# process
# remove duplicate merchant_id - which there are
merchants = merchants[~merchants.merchant_id.duplicated()]  
# concat historical and new transactions - they have the same columns
id_columns = pd.concat([hist_transactions, new_transactions], axis = 0)
# fill missing merchant_id with the most frequent one 
id_columns['merchant_id'] = id_columns['merchant_id'].fillna('M_ID_00a6ca8a8a')
# merge transactions data with merchant information - merchant information has an additional "merchant_group_id" column
id_columns = id_columns.merge(merchants[["merchant_id","merchant_group_id"]], how = "left", on = "merchant_id")
del new_transactions, hist_transactions, merchants
# convert these columns to edge list 
to_process_cols = ['city_id', 'merchant_category_id', 'state_id','subsector_id', 'merchant_group_id']
for c in to_process_cols:
    id_columns[c] = f"{c}_" + id_columns[c].astype(str)

In [13]:
# merchant_id and merchant_group_id have very high cardinality
id_columns.nunique()

card_id                 325540
city_id                    308
merchant_category_id       331
merchant_id             334633
state_id                    25
subsector_id                41
merchant_group_id       109389
dtype: int64

In [14]:
id_columns.columns

Index(['card_id', 'city_id', 'merchant_category_id', 'merchant_id', 'state_id',
       'subsector_id', 'merchant_group_id'],
      dtype='object')

### processed data 
- each id of each column should be unique

In [4]:
id_columns

Unnamed: 0,card_id,city_id,merchant_category_id,merchant_id,state_id,subsector_id,merchant_group_id
0,C_ID_4e6213e9bc,city_id_88,merchant_category_id_80,M_ID_e020e9b302,state_id_16,subsector_id_37,merchant_group_id_35
1,C_ID_4e6213e9bc,city_id_88,merchant_category_id_367,M_ID_86ec983688,state_id_16,subsector_id_16,merchant_group_id_2084
2,C_ID_4e6213e9bc,city_id_88,merchant_category_id_80,M_ID_979ed661fc,state_id_16,subsector_id_37,merchant_group_id_27369
3,C_ID_4e6213e9bc,city_id_88,merchant_category_id_560,M_ID_e6d5ae8ea6,state_id_16,subsector_id_34,merchant_group_id_24104
4,C_ID_4e6213e9bc,city_id_88,merchant_category_id_80,M_ID_e020e9b302,state_id_16,subsector_id_37,merchant_group_id_35
...,...,...,...,...,...,...,...
31075387,C_ID_1320dee851,city_id_142,merchant_category_id_309,M_ID_7754b67f3b,state_id_19,subsector_id_21,merchant_group_id_35
31075388,C_ID_f112aa3381,city_id_158,merchant_category_id_560,M_ID_da063195b7,state_id_15,subsector_id_34,merchant_group_id_13452
31075389,C_ID_bd97b86450,city_id_69,merchant_category_id_278,M_ID_9a9ccb6544,state_id_9,subsector_id_37,merchant_group_id_27710
31075390,C_ID_c0513fd84f,city_id_130,merchant_category_id_367,M_ID_40c28d596f,state_id_7,subsector_id_16,merchant_group_id_35


### convert to edgelist
- each column above is paired with "card_id" and converted into an edgelist

In [5]:
# each of these pairs are converted into edge list
col_pairs = [["card_id", col] for col in ['city_id', 'merchant_category_id', 'merchant_id', 'state_id', 'subsector_id', 'merchant_group_id']]
print(col_pairs)

[['card_id', 'city_id'], ['card_id', 'merchant_category_id'], ['card_id', 'merchant_id'], ['card_id', 'state_id'], ['card_id', 'subsector_id'], ['card_id', 'merchant_group_id']]


In [6]:
# paths to each edge list file
import os
edgelist_directory = r"C:\Users\tanch\Documents\NTU\NTU Year 4\Semester 1\CZ4041 - Machine Learning\Team Project\data\edgelist for node2vec"
edge_list_paths = []
for cp in col_pairs:
    edge_list_paths.append(os.path.join(edgelist_directory,"_".join(cp))+".csv")
edge_list_paths

['C:\\Users\\tanch\\Documents\\NTU\\NTU Year 4\\Semester 1\\CZ4041 - Machine Learning\\Team Project\\data\\edgelist for node2vec\\card_id_city_id.csv',
 'C:\\Users\\tanch\\Documents\\NTU\\NTU Year 4\\Semester 1\\CZ4041 - Machine Learning\\Team Project\\data\\edgelist for node2vec\\card_id_merchant_category_id.csv',
 'C:\\Users\\tanch\\Documents\\NTU\\NTU Year 4\\Semester 1\\CZ4041 - Machine Learning\\Team Project\\data\\edgelist for node2vec\\card_id_merchant_id.csv',
 'C:\\Users\\tanch\\Documents\\NTU\\NTU Year 4\\Semester 1\\CZ4041 - Machine Learning\\Team Project\\data\\edgelist for node2vec\\card_id_state_id.csv',
 'C:\\Users\\tanch\\Documents\\NTU\\NTU Year 4\\Semester 1\\CZ4041 - Machine Learning\\Team Project\\data\\edgelist for node2vec\\card_id_subsector_id.csv',
 'C:\\Users\\tanch\\Documents\\NTU\\NTU Year 4\\Semester 1\\CZ4041 - Machine Learning\\Team Project\\data\\edgelist for node2vec\\card_id_merchant_group_id.csv']

In [7]:
# save each edge list file to csv
from csv import writer
def add_to_csv(path, sequence):
    with open(path, 'a', newline = "") as f_object:
        writer_object = writer(f_object)
        writer_object.writerows(sequence)

num_edges = []
for path, cp in tqdm(zip(edge_list_paths,col_pairs)):
    edge_set = set()
    for A,B in tqdm(id_columns[cp].values):
        edge_set.add((A,B))
    add_to_csv(path, edge_set)
    num_edges.append(len(edge_set))

0it [00:00, ?it/s]
  0%|                                                                                     | 0/31075392 [00:00<?, ?it/s][A
  0%|                                                                     | 37202/31075392 [00:00<01:25, 362246.28it/s][A
  0%|▏                                                                    | 99796/31075392 [00:00<01:00, 512678.04it/s][A
  1%|▎                                                                   | 161151/31075392 [00:00<00:55, 557686.91it/s][A
  1%|▌                                                                   | 228942/31075392 [00:00<00:52, 582294.86it/s][A
  1%|▋                                                                   | 305011/31075392 [00:00<00:49, 624296.38it/s][A
  1%|▊                                                                   | 378376/31075392 [00:00<00:47, 640405.80it/s][A
  1%|▉                                                                   | 455438/31075392 [00:00<00:46, 661645.81it/s]

 15%|██████████▏                                                        | 4696947/31075392 [00:07<00:40, 652634.83it/s][A
 15%|██████████▎                                                        | 4787312/31075392 [00:07<00:37, 698426.43it/s][A
 16%|██████████▌                                                        | 4877919/31075392 [00:07<00:35, 737190.49it/s][A
 16%|██████████▋                                                        | 4951879/31075392 [00:07<00:37, 701055.01it/s][A
 16%|██████████▊                                                        | 5034566/31075392 [00:07<00:36, 711186.63it/s][A
 16%|███████████                                                        | 5105934/31075392 [00:07<00:36, 710594.46it/s][A
 17%|███████████▏                                                       | 5177163/31075392 [00:07<00:37, 699235.48it/s][A
 17%|███████████▎                                                       | 5247183/31075392 [00:08<00:39, 649620.48it/s][A
 17%|███████████

 31%|████████████████████▋                                              | 9574796/31075392 [00:14<00:30, 706879.44it/s][A
 31%|████████████████████▊                                              | 9659663/31075392 [00:14<00:29, 727507.37it/s][A
 31%|████████████████████▉                                              | 9732644/31075392 [00:14<00:30, 700011.66it/s][A
 32%|█████████████████████▏                                             | 9802886/31075392 [00:14<00:30, 696798.68it/s][A
 32%|█████████████████████▎                                             | 9880816/31075392 [00:15<00:29, 709626.77it/s][A
 32%|█████████████████████▍                                             | 9961578/31075392 [00:15<00:29, 718441.02it/s][A
 32%|█████████████████████▎                                            | 10045111/31075392 [00:15<00:28, 732145.62it/s][A
 33%|█████████████████████▌                                            | 10134792/31075392 [00:15<00:27, 755936.34it/s][A
 33%|███████████

 47%|███████████████████████████████▎                                  | 14743179/31075392 [00:21<00:21, 762008.98it/s][A
 48%|███████████████████████████████▍                                  | 14819451/31075392 [00:21<00:21, 757722.08it/s][A
 48%|███████████████████████████████▋                                  | 14898139/31075392 [00:21<00:21, 766359.57it/s][A
 48%|███████████████████████████████▊                                  | 14975245/31075392 [00:21<00:20, 766922.92it/s][A
 48%|███████████████████████████████▉                                  | 15051970/31075392 [00:21<00:20, 763726.60it/s][A
 49%|████████████████████████████████▏                                 | 15132029/31075392 [00:22<00:20, 774698.53it/s][A
 49%|████████████████████████████████▎                                 | 15209525/31075392 [00:22<00:20, 762891.44it/s][A
 49%|████████████████████████████████▍                                 | 15285867/31075392 [00:22<00:21, 732820.87it/s][A
 49%|███████████

 61%|████████████████████████████████████████▍                         | 19019921/31075392 [00:29<00:22, 533206.23it/s][A
 61%|████████████████████████████████████████▌                         | 19075223/31075392 [00:29<00:22, 537479.30it/s][A
 62%|████████████████████████████████████████▋                         | 19129517/31075392 [00:29<00:23, 509067.79it/s][A
 62%|████████████████████████████████████████▊                         | 19192281/31075392 [00:29<00:21, 542742.01it/s][A
 62%|████████████████████████████████████████▉                         | 19252134/31075392 [00:29<00:21, 558013.42it/s][A
 62%|█████████████████████████████████████████                         | 19314207/31075392 [00:29<00:20, 575444.22it/s][A
 62%|█████████████████████████████████████████▏                        | 19374340/31075392 [00:29<00:20, 582136.34it/s][A
 63%|█████████████████████████████████████████▎                        | 19432847/31075392 [00:29<00:20, 573672.56it/s][A
 63%|███████████

 75%|█████████████████████████████████████████████████▍                | 23293741/31075392 [00:35<00:11, 681370.50it/s][A
 75%|█████████████████████████████████████████████████▌                | 23362182/31075392 [00:36<00:12, 628267.07it/s][A
 75%|█████████████████████████████████████████████████▊                | 23425885/31075392 [00:36<00:12, 622154.32it/s][A
 76%|█████████████████████████████████████████████████▉                | 23491487/31075392 [00:36<00:12, 629824.73it/s][A
 76%|██████████████████████████████████████████████████                | 23555061/31075392 [00:36<00:11, 631477.88it/s][A
 76%|██████████████████████████████████████████████████▏               | 23618539/31075392 [00:36<00:12, 614716.30it/s][A
 76%|██████████████████████████████████████████████████▎               | 23685223/31075392 [00:36<00:11, 629577.04it/s][A
 76%|██████████████████████████████████████████████████▍               | 23752350/31075392 [00:36<00:11, 639871.48it/s][A
 77%|███████████

 90%|███████████████████████████████████████████████████████████▋      | 28119713/31075392 [00:42<00:04, 730448.36it/s][A
 91%|███████████████████████████████████████████████████████████▉      | 28192784/31075392 [00:42<00:04, 711479.31it/s][A
 91%|████████████████████████████████████████████████████████████      | 28267000/31075392 [00:43<00:03, 718340.87it/s][A
 91%|████████████████████████████████████████████████████████████▏     | 28341821/31075392 [00:43<00:03, 725059.02it/s][A
 91%|████████████████████████████████████████████████████████████▎     | 28415085/31075392 [00:43<00:03, 727220.82it/s][A
 92%|████████████████████████████████████████████████████████████▌     | 28488485/31075392 [00:43<00:03, 729192.76it/s][A
 92%|████████████████████████████████████████████████████████████▋     | 28562697/31075392 [00:43<00:03, 730980.21it/s][A
 92%|████████████████████████████████████████████████████████████▊     | 28637470/31075392 [00:43<00:03, 733785.50it/s][A
 92%|███████████

  4%|██▉                                                                | 1347024/31075392 [00:02<00:40, 728368.30it/s][A
  5%|███                                                                | 1422354/31075392 [00:02<00:40, 735795.09it/s][A
  5%|███▏                                                               | 1495950/31075392 [00:02<00:40, 727259.57it/s][A
  5%|███▍                                                               | 1570332/31075392 [00:02<00:40, 730012.99it/s][A
  5%|███▌                                                               | 1643357/31075392 [00:02<00:41, 711060.98it/s][A
  6%|███▋                                                               | 1718105/31075392 [00:02<00:40, 719612.71it/s][A
  6%|███▊                                                               | 1790342/31075392 [00:02<00:40, 720421.46it/s][A
  6%|████                                                               | 1862823/31075392 [00:02<00:40, 721658.57it/s][A
  6%|████▏      

 20%|█████████████▎                                                     | 6189539/31075392 [00:09<00:32, 764167.22it/s][A
 20%|█████████████▌                                                     | 6267112/31075392 [00:09<00:32, 765313.94it/s][A
 20%|█████████████▋                                                     | 6343649/31075392 [00:09<00:32, 760800.12it/s][A
 21%|█████████████▊                                                     | 6419736/31075392 [00:09<00:33, 741005.28it/s][A
 21%|██████████████                                                     | 6493940/31075392 [00:09<00:33, 736989.33it/s][A
 21%|██████████████▏                                                    | 6568030/31075392 [00:09<00:33, 735984.81it/s][A
 21%|██████████████▎                                                    | 6641700/31075392 [00:09<00:33, 736110.00it/s][A
 22%|██████████████▍                                                    | 6718960/31075392 [00:09<00:32, 744804.75it/s][A
 22%|███████████

 36%|███████████████████████▍                                          | 11042231/31075392 [00:15<00:30, 649413.98it/s][A
 36%|███████████████████████▌                                          | 11107538/31075392 [00:15<00:32, 618221.23it/s][A
 36%|███████████████████████▋                                          | 11175969/31075392 [00:16<00:31, 636884.47it/s][A
 36%|███████████████████████▉                                          | 11244554/31075392 [00:16<00:30, 649030.86it/s][A
 36%|████████████████████████                                          | 11314065/31075392 [00:16<00:29, 660617.88it/s][A
 37%|████████████████████████▏                                         | 11380413/31075392 [00:16<00:29, 659525.78it/s][A
 37%|████████████████████████▎                                         | 11446564/31075392 [00:16<00:30, 635777.06it/s][A
 37%|████████████████████████▍                                         | 11510432/31075392 [00:16<00:31, 624025.03it/s][A
 37%|███████████

 50%|████████████████████████████████▉                                 | 15482436/31075392 [00:22<00:21, 719252.32it/s][A
 50%|█████████████████████████████████                                 | 15557520/31075392 [00:22<00:21, 726577.74it/s][A
 50%|█████████████████████████████████▏                                | 15630227/31075392 [00:22<00:22, 693694.87it/s][A
 51%|█████████████████████████████████▎                                | 15699926/31075392 [00:23<00:23, 665814.72it/s][A
 51%|█████████████████████████████████▍                                | 15766897/31075392 [00:23<00:27, 547490.48it/s][A
 51%|█████████████████████████████████▋                                | 15834858/31075392 [00:23<00:26, 580361.87it/s][A
 51%|█████████████████████████████████▊                                | 15901202/31075392 [00:23<00:25, 600667.06it/s][A
 51%|█████████████████████████████████▉                                | 15971346/31075392 [00:23<00:24, 628062.93it/s][A
 52%|███████████

 65%|██████████████████████████████████████████▊                       | 20136258/31075392 [00:29<00:16, 679217.46it/s][A
 65%|██████████████████████████████████████████▉                       | 20204205/31075392 [00:29<00:16, 677300.98it/s][A
 65%|███████████████████████████████████████████                       | 20271950/31075392 [00:29<00:16, 663632.64it/s][A
 65%|███████████████████████████████████████████▏                      | 20338366/31075392 [00:29<00:16, 634172.92it/s][A
 66%|███████████████████████████████████████████▎                      | 20402038/31075392 [00:30<00:18, 571339.89it/s][A
 66%|███████████████████████████████████████████▍                      | 20467455/31075392 [00:30<00:17, 593509.30it/s][A
 66%|███████████████████████████████████████████▌                      | 20536097/31075392 [00:30<00:17, 617607.99it/s][A
 66%|███████████████████████████████████████████▊                      | 20601673/31075392 [00:30<00:16, 628405.26it/s][A
 67%|███████████

 79%|████████████████████████████████████████████████████▏             | 24551892/31075392 [00:36<00:09, 673617.70it/s][A
 79%|████████████████████████████████████████████████████▎             | 24623037/31075392 [00:36<00:09, 684623.63it/s][A
 79%|████████████████████████████████████████████████████▍             | 24696785/31075392 [00:36<00:09, 698366.12it/s][A
 80%|████████████████████████████████████████████████████▌             | 24767735/31075392 [00:36<00:08, 701454.56it/s][A
 80%|████████████████████████████████████████████████████▊             | 24840370/31075392 [00:36<00:08, 706762.40it/s][A
 80%|████████████████████████████████████████████████████▉             | 24912640/31075392 [00:36<00:08, 711494.16it/s][A
 80%|█████████████████████████████████████████████████████             | 24983801/31075392 [00:37<00:08, 696848.04it/s][A
 81%|█████████████████████████████████████████████████████▏            | 25058008/31075392 [00:37<00:08, 709272.24it/s][A
 81%|███████████

 93%|█████████████████████████████████████████████████████████████▍    | 28900117/31075392 [00:44<00:03, 578936.41it/s][A
 93%|█████████████████████████████████████████████████████████████▌    | 28967632/31075392 [00:44<00:03, 605137.54it/s][A
 93%|█████████████████████████████████████████████████████████████▋    | 29035464/31075392 [00:44<00:03, 626473.90it/s][A
 94%|█████████████████████████████████████████████████████████████▊    | 29101857/31075392 [00:44<00:03, 635721.72it/s][A
 94%|█████████████████████████████████████████████████████████████▉    | 29165626/31075392 [00:45<00:03, 554289.03it/s][A
 94%|██████████████████████████████████████████████████████████████    | 29223016/31075392 [00:45<00:03, 540697.07it/s][A
 94%|██████████████████████████████████████████████████████████████▏   | 29279258/31075392 [00:45<00:03, 546577.94it/s][A
 94%|██████████████████████████████████████████████████████████████▎   | 29334920/31075392 [00:45<00:03, 503016.12it/s][A
 95%|███████████

  5%|███▌                                                               | 1649322/31075392 [00:02<00:48, 607634.36it/s][A
  6%|███▋                                                               | 1710927/31075392 [00:02<00:48, 610088.06it/s][A
  6%|███▊                                                               | 1772074/31075392 [00:03<00:52, 562514.62it/s][A
  6%|███▉                                                               | 1835601/31075392 [00:03<00:50, 582820.67it/s][A
  6%|████                                                               | 1894575/31075392 [00:03<00:51, 571753.76it/s][A
  6%|████▏                                                              | 1952967/31075392 [00:03<00:50, 575216.56it/s][A
  6%|████▎                                                              | 2010849/31075392 [00:03<00:54, 537399.87it/s][A
  7%|████▍                                                              | 2065258/31075392 [00:03<00:54, 528974.70it/s][A
  7%|████▌      

 19%|████████████▉                                                      | 6010772/31075392 [00:09<00:35, 706540.03it/s][A
 20%|█████████████                                                      | 6081437/31075392 [00:09<00:36, 692212.28it/s][A
 20%|█████████████▎                                                     | 6151731/31075392 [00:09<00:35, 693337.13it/s][A
 20%|█████████████▍                                                     | 6223467/31075392 [00:10<00:35, 700360.87it/s][A
 20%|█████████████▌                                                     | 6298788/31075392 [00:10<00:34, 715996.12it/s][A
 21%|█████████████▋                                                     | 6373295/31075392 [00:10<00:34, 722615.79it/s][A
 21%|█████████████▉                                                     | 6445591/31075392 [00:10<00:34, 712112.63it/s][A
 21%|██████████████                                                     | 6516854/31075392 [00:10<00:35, 697770.59it/s][A
 21%|███████████

 35%|██████████████████████▊                                           | 10737107/31075392 [00:16<00:37, 537698.27it/s][A
 35%|██████████████████████▉                                           | 10793572/31075392 [00:16<00:37, 543453.18it/s][A
 35%|███████████████████████                                           | 10857786/31075392 [00:16<00:35, 570653.57it/s][A
 35%|███████████████████████▏                                          | 10926738/31075392 [00:16<00:33, 602553.93it/s][A
 35%|███████████████████████▎                                          | 10990910/31075392 [00:16<00:32, 612040.75it/s][A
 36%|███████████████████████▍                                          | 11054717/31075392 [00:17<00:32, 619588.11it/s][A
 36%|███████████████████████▌                                          | 11121054/31075392 [00:17<00:31, 630502.09it/s][A
 36%|███████████████████████▊                                          | 11188459/31075392 [00:17<00:31, 641444.33it/s][A
 36%|███████████

 48%|███████████████████████████████▋                                  | 14924636/31075392 [00:23<00:25, 625785.53it/s][A
 48%|███████████████████████████████▊                                  | 14987293/31075392 [00:23<00:26, 618670.04it/s][A
 48%|███████████████████████████████▉                                  | 15054159/31075392 [00:23<00:25, 633336.39it/s][A
 49%|████████████████████████████████                                  | 15123273/31075392 [00:23<00:24, 648495.41it/s][A
 49%|████████████████████████████████▎                                 | 15188187/31075392 [00:24<00:33, 472381.40it/s][A
 49%|████████████████████████████████▍                                 | 15255395/31075392 [00:24<00:30, 519422.01it/s][A
 49%|████████████████████████████████▌                                 | 15313397/31075392 [00:24<00:29, 532003.28it/s][A
 49%|████████████████████████████████▋                                 | 15376766/31075392 [00:24<00:28, 558801.38it/s][A
 50%|███████████

 62%|█████████████████████████████████████████▏                        | 19379942/31075392 [00:30<00:17, 667609.06it/s][A
 63%|█████████████████████████████████████████▎                        | 19449191/31075392 [00:30<00:17, 674866.96it/s][A
 63%|█████████████████████████████████████████▍                        | 19517986/31075392 [00:31<00:17, 678712.28it/s][A
 63%|█████████████████████████████████████████▌                        | 19586831/31075392 [00:31<00:16, 681507.04it/s][A
 63%|█████████████████████████████████████████▋                        | 19655016/31075392 [00:31<00:17, 667676.33it/s][A
 63%|█████████████████████████████████████████▉                        | 19723890/31075392 [00:31<00:16, 673760.23it/s][A
 64%|██████████████████████████████████████████                        | 19794932/31075392 [00:31<00:16, 682625.51it/s][A
 64%|██████████████████████████████████████████▏                       | 19863247/31075392 [00:31<00:16, 670838.91it/s][A
 64%|███████████

 76%|██████████████████████████████████████████████████▍               | 23772462/31075392 [00:37<00:10, 668362.01it/s][A
 77%|██████████████████████████████████████████████████▋               | 23840912/31075392 [00:37<00:10, 671260.43it/s][A
 77%|██████████████████████████████████████████████████▊               | 23910660/31075392 [00:37<00:10, 679079.26it/s][A
 77%|██████████████████████████████████████████████████▉               | 23978579/31075392 [00:37<00:10, 675078.28it/s][A
 77%|███████████████████████████████████████████████████               | 24046098/31075392 [00:38<00:10, 669071.87it/s][A
 78%|███████████████████████████████████████████████████▏              | 24113022/31075392 [00:38<00:10, 665235.84it/s][A
 78%|███████████████████████████████████████████████████▎              | 24179558/31075392 [00:38<00:10, 663251.20it/s][A
 78%|███████████████████████████████████████████████████▍              | 24247089/31075392 [00:38<00:10, 664875.37it/s][A
 78%|███████████

 91%|███████████████████████████████████████████████████████████▉      | 28194443/31075392 [00:44<00:04, 582210.33it/s][A
 91%|████████████████████████████████████████████████████████████      | 28256370/31075392 [00:44<00:04, 591184.66it/s][A
 91%|████████████████████████████████████████████████████████████▏     | 28316050/31075392 [00:44<00:04, 591096.06it/s][A
 91%|████████████████████████████████████████████████████████████▎     | 28375552/31075392 [00:44<00:05, 527319.10it/s][A
 92%|████████████████████████████████████████████████████████████▍     | 28433999/31075392 [00:45<00:04, 541394.50it/s][A
 92%|████████████████████████████████████████████████████████████▌     | 28489318/31075392 [00:45<00:04, 535716.57it/s][A
 92%|████████████████████████████████████████████████████████████▋     | 28549807/31075392 [00:45<00:04, 553635.47it/s][A
 92%|████████████████████████████████████████████████████████████▊     | 28614320/31075392 [00:45<00:04, 579828.43it/s][A
 92%|███████████

  3%|██▏                                                                 | 976955/31075392 [00:01<00:44, 680961.89it/s][A
  3%|██▎                                                                | 1045112/31075392 [00:01<00:44, 679031.69it/s][A
  4%|██▍                                                                | 1115536/31075392 [00:01<00:43, 684508.47it/s][A
  4%|██▌                                                                | 1184017/31075392 [00:01<00:45, 660949.61it/s][A
  4%|██▋                                                                | 1250294/31075392 [00:01<00:45, 657636.82it/s][A
  4%|██▊                                                                | 1319568/31075392 [00:02<00:44, 665963.09it/s][A
  4%|██▉                                                                | 1389658/31075392 [00:02<00:44, 674266.61it/s][A
  5%|███▏                                                               | 1459815/31075392 [00:02<00:43, 680403.16it/s][A
  5%|███▎       

 18%|████████████▎                                                      | 5706920/31075392 [00:08<00:37, 685543.81it/s][A
 19%|████████████▍                                                      | 5775511/31075392 [00:08<00:36, 685646.23it/s][A
 19%|████████████▌                                                      | 5844101/31075392 [00:08<00:37, 665858.55it/s][A
 19%|████████████▋                                                      | 5910821/31075392 [00:08<00:38, 658540.43it/s][A
 19%|████████████▉                                                      | 5976772/31075392 [00:08<00:38, 656902.98it/s][A
 19%|█████████████                                                      | 6045781/31075392 [00:08<00:37, 666662.84it/s][A
 20%|█████████████▏                                                     | 6112512/31075392 [00:08<00:37, 664889.95it/s][A
 20%|█████████████▎                                                     | 6179045/31075392 [00:08<00:37, 664936.94it/s][A
 20%|███████████

 33%|█████████████████████▊                                            | 10298839/31075392 [00:15<00:31, 668849.24it/s][A
 33%|██████████████████████                                            | 10369500/31075392 [00:15<00:30, 677914.35it/s][A
 34%|██████████████████████▏                                           | 10438328/31075392 [00:15<00:30, 678966.61it/s][A
 34%|██████████████████████▎                                           | 10507761/31075392 [00:15<00:30, 683421.99it/s][A
 34%|██████████████████████▍                                           | 10580419/31075392 [00:15<00:29, 694173.94it/s][A
 34%|██████████████████████▋                                           | 10652931/31075392 [00:15<00:29, 701355.08it/s][A
 35%|██████████████████████▊                                           | 10723094/31075392 [00:15<00:30, 675336.60it/s][A
 35%|██████████████████████▉                                           | 10790836/31075392 [00:15<00:30, 668179.06it/s][A
 35%|███████████

 48%|███████████████████████████████▋                                  | 14900162/31075392 [00:21<00:23, 696660.31it/s][A
 48%|███████████████████████████████▊                                  | 14969853/31075392 [00:21<00:23, 676537.57it/s][A
 48%|███████████████████████████████▉                                  | 15040187/31075392 [00:21<00:23, 682375.86it/s][A
 49%|████████████████████████████████                                  | 15110897/31075392 [00:22<00:23, 689635.74it/s][A
 49%|████████████████████████████████▏                                 | 15181645/31075392 [00:22<00:22, 694903.47it/s][A
 49%|████████████████████████████████▍                                 | 15253047/31075392 [00:22<00:22, 698507.73it/s][A
 49%|████████████████████████████████▌                                 | 15322948/31075392 [00:22<00:22, 696672.18it/s][A
 50%|████████████████████████████████▋                                 | 15392650/31075392 [00:22<00:22, 686562.85it/s][A
 50%|███████████

 63%|█████████████████████████████████████████▋                        | 19610866/31075392 [00:28<00:16, 703339.29it/s][A
 63%|█████████████████████████████████████████▊                        | 19681209/31075392 [00:28<00:16, 703363.45it/s][A
 64%|█████████████████████████████████████████▉                        | 19752407/31075392 [00:28<00:16, 703928.69it/s][A
 64%|██████████████████████████████████████████                        | 19822804/31075392 [00:28<00:16, 693605.26it/s][A
 64%|██████████████████████████████████████████▏                       | 19892195/31075392 [00:28<00:16, 691570.91it/s][A
 64%|██████████████████████████████████████████▍                       | 19963737/31075392 [00:28<00:15, 698631.13it/s][A
 64%|██████████████████████████████████████████▌                       | 20037146/31075392 [00:29<00:15, 707160.54it/s][A
 65%|██████████████████████████████████████████▋                       | 20107881/31075392 [00:29<00:15, 698895.40it/s][A
 65%|███████████

 78%|███████████████████████████████████████████████████▌              | 24302270/31075392 [00:35<00:09, 686196.02it/s][A
 78%|███████████████████████████████████████████████████▊              | 24373976/31075392 [00:35<00:09, 693353.04it/s][A
 79%|███████████████████████████████████████████████████▉              | 24445515/31075392 [00:35<00:09, 699812.54it/s][A
 79%|████████████████████████████████████████████████████              | 24515519/31075392 [00:35<00:09, 699856.56it/s][A
 79%|████████████████████████████████████████████████████▏             | 24585919/31075392 [00:35<00:09, 701091.05it/s][A
 79%|████████████████████████████████████████████████████▎             | 24658062/31075392 [00:35<00:09, 705065.98it/s][A
 80%|████████████████████████████████████████████████████▌             | 24732097/31075392 [00:35<00:08, 715592.90it/s][A
 80%|████████████████████████████████████████████████████▋             | 24804506/31075392 [00:35<00:08, 715992.45it/s][A
 80%|███████████

 93%|█████████████████████████████████████████████████████████████▌    | 28975815/31075392 [00:41<00:02, 734258.68it/s][A
 93%|█████████████████████████████████████████████████████████████▋    | 29051727/31075392 [00:41<00:02, 739469.17it/s][A
 94%|█████████████████████████████████████████████████████████████▊    | 29125683/31075392 [00:42<00:02, 728564.49it/s][A
 94%|██████████████████████████████████████████████████████████████    | 29198576/31075392 [00:42<00:02, 718125.00it/s][A
 94%|██████████████████████████████████████████████████████████████▏   | 29270434/31075392 [00:42<00:02, 716064.82it/s][A
 94%|██████████████████████████████████████████████████████████████▎   | 29342070/31075392 [00:42<00:02, 712039.20it/s][A
 95%|██████████████████████████████████████████████████████████████▍   | 29413293/31075392 [00:42<00:02, 695573.21it/s][A
 95%|██████████████████████████████████████████████████████████████▌   | 29482926/31075392 [00:42<00:02, 687771.91it/s][A
 95%|███████████

  7%|████▉                                                              | 2269841/31075392 [00:03<00:44, 651753.53it/s][A
  8%|█████                                                              | 2335981/31075392 [00:03<00:44, 652784.40it/s][A
  8%|█████▏                                                             | 2401313/31075392 [00:03<00:45, 632297.72it/s][A
  8%|█████▎                                                             | 2464703/31075392 [00:03<00:46, 611405.44it/s][A
  8%|█████▍                                                             | 2533803/31075392 [00:03<00:45, 634155.53it/s][A
  8%|█████▌                                                             | 2597472/31075392 [00:04<00:45, 627665.38it/s][A
  9%|█████▋                                                             | 2664583/31075392 [00:04<00:44, 638441.27it/s][A
  9%|█████▉                                                             | 2733653/31075392 [00:04<00:43, 651777.40it/s][A
  9%|██████     

 21%|██████████████▏                                                    | 6605167/31075392 [00:10<00:42, 575552.96it/s][A
 21%|██████████████▎                                                    | 6662818/31075392 [00:10<00:43, 564382.55it/s][A
 22%|██████████████▌                                                    | 6732986/31075392 [00:10<00:40, 603948.41it/s][A
 22%|██████████████▋                                                    | 6797852/31075392 [00:10<00:39, 616999.95it/s][A
 22%|██████████████▊                                                    | 6868179/31075392 [00:10<00:37, 640499.17it/s][A
 22%|██████████████▉                                                    | 6936360/31075392 [00:10<00:37, 650789.71it/s][A
 23%|███████████████                                                    | 7001559/31075392 [00:10<00:37, 649221.51it/s][A
 23%|███████████████▏                                                   | 7066564/31075392 [00:11<00:37, 645693.69it/s][A
 23%|███████████

 36%|███████████████████████▌                                          | 11075084/31075392 [00:17<00:30, 658473.99it/s][A
 36%|███████████████████████▋                                          | 11144193/31075392 [00:17<00:29, 668095.21it/s][A
 36%|███████████████████████▊                                          | 11211390/31075392 [00:17<00:29, 669193.68it/s][A
 36%|███████████████████████▉                                          | 11278358/31075392 [00:17<00:29, 667342.96it/s][A
 37%|████████████████████████                                          | 11346506/31075392 [00:17<00:29, 669563.86it/s][A
 37%|████████████████████████▏                                         | 11414555/31075392 [00:17<00:29, 670902.25it/s][A
 37%|████████████████████████▍                                         | 11481662/31075392 [00:17<00:30, 649661.46it/s][A
 37%|████████████████████████▌                                         | 11548929/31075392 [00:17<00:29, 656371.40it/s][A
 37%|███████████

 50%|████████████████████████████████▉                                 | 15521757/31075392 [00:23<00:23, 656273.98it/s][A
 50%|█████████████████████████████████                                 | 15591412/31075392 [00:23<00:23, 666191.84it/s][A
 50%|█████████████████████████████████▎                                | 15658902/31075392 [00:24<00:23, 666874.49it/s][A
 51%|█████████████████████████████████▍                                | 15725641/31075392 [00:24<00:23, 644121.41it/s][A
 51%|█████████████████████████████████▌                                | 15790235/31075392 [00:24<00:23, 637238.97it/s][A
 51%|█████████████████████████████████▋                                | 15856708/31075392 [00:24<00:23, 643353.64it/s][A
 51%|█████████████████████████████████▊                                | 15921145/31075392 [00:24<00:24, 606318.05it/s][A
 51%|█████████████████████████████████▉                                | 15982223/31075392 [00:24<00:24, 605878.83it/s][A
 52%|███████████

 64%|██████████████████████████████████████████▍                       | 19957088/31075392 [00:30<00:16, 684084.38it/s][A
 64%|██████████████████████████████████████████▌                       | 20026905/31075392 [00:30<00:16, 686319.99it/s][A
 65%|██████████████████████████████████████████▋                       | 20095548/31075392 [00:30<00:16, 676195.48it/s][A
 65%|██████████████████████████████████████████▊                       | 20166960/31075392 [00:30<00:15, 685373.53it/s][A
 65%|██████████████████████████████████████████▉                       | 20236901/31075392 [00:30<00:15, 687501.49it/s][A
 65%|███████████████████████████████████████████▏                      | 20307094/31075392 [00:31<00:15, 689758.88it/s][A
 66%|███████████████████████████████████████████▎                      | 20376815/31075392 [00:31<00:15, 691950.64it/s][A
 66%|███████████████████████████████████████████▍                      | 20447907/31075392 [00:31<00:15, 695612.83it/s][A
 66%|███████████

 79%|████████████████████████████████████████████████████▎             | 24604567/31075392 [00:37<00:10, 640546.14it/s][A
 79%|████████████████████████████████████████████████████▍             | 24668933/31075392 [00:37<00:10, 639605.84it/s][A
 80%|████████████████████████████████████████████████████▌             | 24733106/31075392 [00:37<00:10, 633024.17it/s][A
 80%|████████████████████████████████████████████████████▋             | 24796547/31075392 [00:37<00:09, 629796.34it/s][A
 80%|████████████████████████████████████████████████████▊             | 24859615/31075392 [00:37<00:09, 630050.35it/s][A
 80%|████████████████████████████████████████████████████▉             | 24924685/31075392 [00:37<00:09, 634251.56it/s][A
 80%|█████████████████████████████████████████████████████             | 24988161/31075392 [00:38<00:10, 585974.33it/s][A
 81%|█████████████████████████████████████████████████████▏            | 25047467/31075392 [00:38<00:10, 581446.22it/s][A
 81%|███████████

 94%|█████████████████████████████████████████████████████████████▋    | 29055791/31075392 [00:44<00:03, 659221.33it/s][A
 94%|█████████████████████████████████████████████████████████████▊    | 29121727/31075392 [00:44<00:02, 655376.79it/s][A
 94%|█████████████████████████████████████████████████████████████▉    | 29187277/31075392 [00:44<00:02, 643843.12it/s][A
 94%|██████████████████████████████████████████████████████████████▏   | 29251706/31075392 [00:44<00:02, 636563.80it/s][A
 94%|██████████████████████████████████████████████████████████████▎   | 29315399/31075392 [00:44<00:02, 621987.90it/s][A
 95%|██████████████████████████████████████████████████████████████▍   | 29377773/31075392 [00:44<00:02, 620765.91it/s][A
 95%|██████████████████████████████████████████████████████████████▌   | 29439897/31075392 [00:44<00:02, 617295.29it/s][A
 95%|██████████████████████████████████████████████████████████████▋   | 29503110/31075392 [00:45<00:02, 619831.43it/s][A
 95%|███████████

  7%|████▊                                                              | 2205032/31075392 [00:03<00:43, 659675.27it/s][A
  7%|████▉                                                              | 2273784/31075392 [00:03<00:43, 667820.36it/s][A
  8%|█████                                                              | 2340881/31075392 [00:03<00:43, 666832.17it/s][A
  8%|█████▏                                                             | 2407635/31075392 [00:03<00:42, 667027.29it/s][A
  8%|█████▎                                                             | 2474452/31075392 [00:03<00:42, 665403.93it/s][A
  8%|█████▍                                                             | 2541481/31075392 [00:03<00:42, 666857.13it/s][A
  8%|█████▌                                                             | 2608192/31075392 [00:03<00:43, 651381.06it/s][A
  9%|█████▊                                                             | 2674282/31075392 [00:04<00:43, 652264.52it/s][A
  9%|█████▉     

 21%|██████████████▎                                                    | 6610094/31075392 [00:10<00:36, 677018.70it/s][A
 21%|██████████████▍                                                    | 6677839/31075392 [00:10<00:36, 667238.64it/s][A
 22%|██████████████▌                                                    | 6744617/31075392 [00:10<00:37, 648271.75it/s][A
 22%|██████████████▋                                                    | 6809574/31075392 [00:10<00:37, 644899.54it/s][A
 22%|██████████████▊                                                    | 6876947/31075392 [00:10<00:37, 653242.58it/s][A
 22%|██████████████▉                                                    | 6944392/31075392 [00:10<00:36, 657557.66it/s][A
 23%|███████████████                                                    | 7010210/31075392 [00:10<00:37, 650126.28it/s][A
 23%|███████████████▎                                                   | 7075275/31075392 [00:10<00:37, 638993.77it/s][A
 23%|███████████

 36%|███████████████████████▍                                          | 11055558/31075392 [00:16<00:27, 733183.72it/s][A
 36%|███████████████████████▋                                          | 11128889/31075392 [00:16<00:27, 724576.42it/s][A
 36%|███████████████████████▊                                          | 11202494/31075392 [00:17<00:27, 725910.17it/s][A
 36%|███████████████████████▉                                          | 11275105/31075392 [00:17<00:27, 715270.07it/s][A
 37%|████████████████████████                                          | 11346671/31075392 [00:17<00:29, 679416.47it/s][A
 37%|████████████████████████▏                                         | 11414968/31075392 [00:17<00:29, 670675.09it/s][A
 37%|████████████████████████▍                                         | 11482272/31075392 [00:17<00:34, 568650.22it/s][A
 37%|████████████████████████▌                                         | 11550602/31075392 [00:17<00:32, 598126.73it/s][A
 37%|███████████

 51%|█████████████████████████████████▍                                | 15718982/31075392 [00:23<00:21, 698060.43it/s][A
 51%|█████████████████████████████████▌                                | 15792359/31075392 [00:23<00:21, 708584.74it/s][A
 51%|█████████████████████████████████▋                                | 15863394/31075392 [00:23<00:21, 707007.04it/s][A
 51%|█████████████████████████████████▊                                | 15936161/31075392 [00:23<00:21, 706857.47it/s][A
 52%|█████████████████████████████████▉                                | 16007333/31075392 [00:24<00:21, 706221.47it/s][A
 52%|██████████████████████████████████▏                               | 16078747/31075392 [00:24<00:21, 706524.91it/s][A
 52%|██████████████████████████████████▎                               | 16149896/31075392 [00:24<00:21, 705914.54it/s][A
 52%|██████████████████████████████████▍                               | 16220492/31075392 [00:24<00:21, 703738.13it/s][A
 52%|███████████

 66%|███████████████████████████████████████████▍                      | 20463507/31075392 [00:30<00:15, 706065.83it/s][A
 66%|███████████████████████████████████████████▌                      | 20534453/31075392 [00:30<00:14, 704983.42it/s][A
 66%|███████████████████████████████████████████▊                      | 20606662/31075392 [00:30<00:14, 710071.35it/s][A
 67%|███████████████████████████████████████████▉                      | 20681256/31075392 [00:30<00:14, 720705.99it/s][A
 67%|████████████████████████████████████████████                      | 20753344/31075392 [00:30<00:14, 708127.96it/s][A
 67%|████████████████████████████████████████████▏                     | 20824214/31075392 [00:30<00:14, 706119.75it/s][A
 67%|████████████████████████████████████████████▍                     | 20896444/31075392 [00:30<00:14, 708902.96it/s][A
 67%|████████████████████████████████████████████▌                     | 20969241/31075392 [00:31<00:14, 712444.62it/s][A
 68%|███████████

 81%|█████████████████████████████████████████████████████▏            | 25061917/31075392 [00:37<00:08, 689871.28it/s][A
 81%|█████████████████████████████████████████████████████▎            | 25130934/31075392 [00:37<00:08, 660817.30it/s][A
 81%|█████████████████████████████████████████████████████▌            | 25197257/31075392 [00:37<00:09, 652044.15it/s][A
 81%|█████████████████████████████████████████████████████▋            | 25263146/31075392 [00:37<00:08, 652210.31it/s][A
 82%|█████████████████████████████████████████████████████▊            | 25329450/31075392 [00:37<00:08, 653413.47it/s][A
 82%|█████████████████████████████████████████████████████▉            | 25398002/31075392 [00:37<00:08, 660963.91it/s][A
 82%|██████████████████████████████████████████████████████            | 25464169/31075392 [00:37<00:08, 657300.85it/s][A
 82%|██████████████████████████████████████████████████████▏           | 25531014/31075392 [00:37<00:08, 660510.48it/s][A
 82%|███████████

 95%|██████████████████████████████████████████████████████████████▋   | 29518311/31075392 [00:44<00:02, 590633.69it/s][A
 95%|██████████████████████████████████████████████████████████████▊   | 29579341/31075392 [00:44<00:02, 594610.53it/s][A
 95%|██████████████████████████████████████████████████████████████▉   | 29640056/31075392 [00:44<00:02, 596554.67it/s][A
 96%|███████████████████████████████████████████████████████████████   | 29700143/31075392 [00:44<00:02, 596062.65it/s][A
 96%|███████████████████████████████████████████████████████████████▏  | 29761960/31075392 [00:44<00:02, 600832.13it/s][A
 96%|███████████████████████████████████████████████████████████████▎  | 29822178/31075392 [00:44<00:02, 599517.89it/s][A
 96%|███████████████████████████████████████████████████████████████▍  | 29882147/31075392 [00:44<00:02, 575557.22it/s][A
 96%|███████████████████████████████████████████████████████████████▌  | 29942644/31075392 [00:44<00:01, 582393.71it/s][A
 97%|███████████

In [42]:
dict(zip(map(str,col_pairs),num_edges))

{"['card_id', 'city_id']": 1768742,
 "['card_id', 'merchant_category_id']": 6727934,
 "['card_id', 'merchant_id']": 12928941,
 "['card_id', 'state_id']": 954180,
 "['card_id', 'subsector_id']": 4099217,
 "['card_id', 'merchant_group_id']": 8795163}