In [1]:
# Fourth meeting on sherlock
# Notebook to assist reannnotating the sherlock benchmark dataset with some additional notes about the dataset

In [1]:
from datetime import datetime
from os.path import join
from os import listdir
from os import makedirs
import re #for camel case conversion
from collections import Counter

import numpy as np
import pandas as pd
from pyarrow.parquet import ParquetFile

from sherlock import helpers

from sherlock import helpers
from sherlock.deploy.model import SherlockModel
from sherlock.functional import extract_features_to_csv
# from sherlock.functional import extract_features_to_csv
from sherlock.features.paragraph_vectors import initialise_pretrained_model, initialise_nltk
from sherlock.features.preprocessing import (
    extract_features,
#     convert_string_lists_to_lists,
    prepare_feature_extraction,
#     load_parquet_values,
)
from sherlock.features.word_embeddings import initialise_word_embeddings

import altair as alt
alt.renderers.enable('default')

RendererRegistry.enable('default')

### Utils

In [2]:
def camel_case(s):
    s = re.sub(r"(_|-)+", " ", s).title().replace(" ", "")
    s = ''.join([s[0].lower(), s[1:]])
    return s

In [3]:
def sherlock_case(s):
    s = re.sub(r"(_|-)+", " ", s).title().replace(" ", "")
    s = ''.join([s[0].lower(), s[1:]])
    s = ''.join(map(lambda x: x if x.islower() else " "+x, s))
    return s

## Loading the annotation data
##### Make sure to unzip tables.zip in the /data/data/gittables_benchmark directory before proceeding

In [4]:
prepare_feature_extraction()
initialise_word_embeddings()
initialise_pretrained_model(400)
initialise_nltk()

Preparing feature extraction by downloading 4 files:
        
 ../sherlock/features/glove.6B.50d.txt, 
 ../sherlock/features/par_vec_trained_400.pkl.docvecs.vectors_docs.npy,
        
 ../sherlock/features/par_vec_trained_400.pkl.trainables.syn1neg.npy, and 
 ../sherlock/features/par_vec_trained_400.pkl.wv.vectors.npy.
        
All files for extracting word and paragraph embeddings are present.
Initialising word embeddings
Initialise Word Embeddings process took 0:00:04.060688 seconds.
Initialise Doc2Vec Model, 400 dim, process took 0:00:02.442340 seconds. (filename = ../sherlock/features/par_vec_trained_400.pkl)
Initialised NLTK, process took 0:00:00.139904 seconds.


[nltk_data] Downloading package punkt to /home/senn/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/senn/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [5]:
model = SherlockModel();
model.initialize_model_from_json(with_weights=True, model_id="sherlock");

W0523 10:44:11.208704 140592511874880 deprecation.py:506] From /home/senn/virtualenvs/sherlock/lib/python3.7/site-packages/tensorflow_core/python/ops/init_ops.py:97: calling Zeros.__init__ (from tensorflow.python.ops.init_ops) with dtype is deprecated and will be removed in a future version.
Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
W0523 10:44:11.209521 140592511874880 deprecation.py:506] From /home/senn/virtualenvs/sherlock/lib/python3.7/site-packages/tensorflow_core/python/ops/init_ops.py:97: calling Ones.__init__ (from tensorflow.python.ops.init_ops) with dtype is deprecated and will be removed in a future version.
Instructions for updating:
Call initializer instance with the dtype argument instead of passing it to the constructor
W0523 10:44:11.211674 140592511874880 deprecation.py:506] From /home/senn/virtualenvs/sherlock/lib/python3.7/site-packages/tensorflow_core/python/ops/init_ops.py:97: calling Varia

### Load Gittables

In [6]:
path = '../data/data/gittables_benchmark'
path_removed = '../data/data/gittables_benchmark/non_reannotated/removed/'
types = np.load(f"../model_files/classes_sherlock.npy", allow_pickle=True)
# print(types)
# with open(join(path, '../../types.json'), 'r') as f:  
#         types = json.load(f)['type78']

dbpedia_gt = pd.read_csv(join(path, 'dbpedia_gt.csv'))
schema_gt = pd.read_csv(join(path, 'schema_gt.csv'))
dbpedia_labels = pd.read_csv(join(path, 'dbpedia_labels.csv'))
dbpedia_targets = pd.read_csv(join(path, 'dbpedia_targets.csv'))
# test_table = pd.read_csv(join(path, 'tables/GitTables_1501.csv'), dtype='object')

In [7]:
path_out = '../data/data/gittables_benchmark/reannotated_temp'
makedirs(path_out, exist_ok=True)
columns = []
col_true_types = []
table_review_needed = {}
table_predicted_types = {}
table_true_types = {}
table_ids = []
col_ids = []
table_col_amounts = []
filepaths = sorted([join(path, 'tables/', f) for f in listdir(join(path, 'tables/')) if f.endswith('.csv')])

#Go over the tables in the dataset
for fp in filepaths:
    table_id = fp[fp.rfind('/')+1:-4][:14]
    table_df = pd.read_csv(fp)
#     table_df_no_na = pd.read_csv(fp, dtype=str, na_filter=False)
#     table_df_no_na.convert_dtypes()
#     table_df.convert_dtypes()
    dbpedia_table_gts = dbpedia_gt[dbpedia_gt['table_id'].str.contains(table_id)]
    dbpedia_table_gts = dbpedia_table_gts[['table_id', 'target_column', 'annotation_label']]
    dbpedia_table_gts['table_id'] = dbpedia_table_gts['table_id'].apply(lambda x: table_id)
    schema_table_gts = schema_gt[schema_gt['table_id'].str.contains(table_id)]
    schema_table_gts = schema_table_gts[['table_id', 'target_column', 'annotation_label']]
    schema_table_gts['table_id'] = schema_table_gts['table_id'].apply(lambda x: table_id)
    table_gts = pd.merge(dbpedia_table_gts, schema_table_gts, how='outer')
#     print(table_gts)

    columns = []
    col_true_types = []
    
    for index, gt_row in table_gts.iterrows():
        col_type = sherlock_case(gt_row['annotation_label'])
        # We only want types that are used in sherlock
        if col_type not in types:
            continue
        col_name = 'col'+ str(gt_row['target_column'])
        col_id = table_id[table_id.rfind('_')+1:] + str(gt_row['target_column'])
        col = table_df[col_name].convert_dtypes()
#         col_no_na = table_df_no_na[col_name]
        
        if pd.isnull(col).sum() > 0: #Base f1 = 0.31245450119322055
            #count returns the amount of valid values in the column, if column does
            #not contain any valid values, there is no point in trying to predict/use the column
            if col.count() == 0: # 0.35952832125142853
                continue
#             if col_type in ('year'):
#                 print(f'col of type {col_type} contains invalid values, file name: {fp}, col: {col_name}')
#                 print(col.astype(object).fillna(''))
                
        columns.append(list(map(str, col.astype(object).fillna('').to_list()))) #columns need to be converted to list of strings for preprocessing later on
        col_true_types.append(col_type)
        col_ids.append(col_id)
    if(len(columns)==0):
        continue
    df = pd.DataFrame(zip(*columns), columns=col_true_types)
    table_col_amounts.append(len(df.columns))
    data = pd.Series(
    [
        *columns #expand/unpack the list
    ],
    name="values"
    )
    extract_features(
    join(path_out, "temporary.csv"),
    data
    )
    feature_vectors = pd.read_csv(join(path_out, "temporary.csv"), dtype=np.float32)
    p_types = model.predict(feature_vectors, "sherlock").tolist()
    table_predicted_types[table_id] = p_types
    table_true_types[table_id] = col_true_types
    table_review_needed[table_id] = not(p_types == col_true_types)
#     df.to_csv(path_out+'/'+table_id+'.csv') #DO NOT UNCOMMENT, unless you want to recreate non-reannotated dataset
    table_ids.append(table_id)
col_amount_freq = Counter(table_col_amounts)
col_amount_freq

Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 101.16it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 148.54it/s]


Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 249.74it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 125.42it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 112.10it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 295.36it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 37.26it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 43.12it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 179.30it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 158.21it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 67.95it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 56.03it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 85.01it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 54.23it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 222.89it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 289.92it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 61.64it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 41.99it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 119.97it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 321.95it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 313.85it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 27.87it/s]


Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 139.35it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 313.18it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 56.02it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 41.99it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 108.01it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 133.64it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 51.64it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 100.59it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 34.39it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 292.34it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 143.04it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 42.89it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 141.62it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 210.68it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 100.46it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 81.53it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 64.13it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 313.08it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 100.09it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 154.44it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 159.94it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 285.94it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 295.73it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 233.41it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 125.38it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 57.74it/s]


Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 69.82it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 143.72it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 292.22it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 224.55it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 247.70it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 158.38it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 81.02it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 153.58it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 84.55it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 126.16it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 163.78it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 67.43it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 189.65it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 124.23it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 126.81it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.62it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 129.23it/s]
Extracting Features:   0%|                                                                        | 0/1 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 44.40it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 149.07it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 247.39it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 163.26it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features



Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 66.13it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 121.62it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 162.71it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 114.59it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 59.61it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 102.90it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 309.38it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 140.46it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 125.62it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 198.08it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 127.20it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 113.34it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 108.06it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 130.32it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 71.22it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.90it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 152.64it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 62.44it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 120.32it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 132.34it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 75.53it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 193.71it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 148.43it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 48.12it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 207.30it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 331.03it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 99.10it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 334.86it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 282.88it/s]
Extracting Features:   0%|                                                                        | 0/4 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 58.63it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 172.17it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 225.65it/s]
Extracting Features:   0%|                                                                        | 0/4 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 73.54it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 213.42it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 100.39it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 77.42it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 103.97it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 212.05it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 118.53it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 58.23it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 103.31it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 144.60it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 64.47it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 282.12it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 39.19it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 99.79it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 74.97it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 65.18it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features



Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 191.33it/s]
Extracting Features:   0%|                                                                        | 0/2 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 12.95it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 301.36it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 104.78it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 122.88it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 160.19it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 60.36it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 255.52it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 146.91it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 148.00it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 131.63it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 261.03it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 112.86it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 249.78it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 169.12it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 56.93it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 62.81it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 321.14it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 302.41it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 249.70it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 151.54it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 135.44it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 96.43it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 112.95it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 161.82it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 118.21it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 158.78it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 57.02it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 127.35it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features



Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 102.40it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 304.40it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 95.31it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 46.12it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 175.32it/s]


Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 45.67it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 107.63it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 76.86it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 153.28it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 151.98it/s]
Extracting Features:   0%|                                                                        | 0/4 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 59.50it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 54.73it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 187.17it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 115.80it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 141.88it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 17.81it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 77.65it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features



Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 88.79it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 330.86it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 94.79it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 186.53it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 274.52it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 142.23it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 242.04it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 108.78it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 61.16it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 143.61it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 268.62it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 307.73it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 98.49it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 127.30it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 111.56it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 133.08it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 134.69it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 121.38it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 281.69it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 91.20it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 133.39it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 95.16it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 47.22it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 156.49it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 51.46it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 100.13it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 125.86it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 160.89it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 142.78it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.24it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 41.73it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 120.12it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 153.13it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 123.04it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 187.98it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 68.97it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 80.51it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 140.51it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 187.95it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features



Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 141.99it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 197.65it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 42.77it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 138.99it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 257.60it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 170.63it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 251.38it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 95.67it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 161.75it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 342.18it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 237.61it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 393.44it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 294.23it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 379.88it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 398.47it/s]
Extracting Features:   0%|                                                                        | 0/3 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 356.14it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 260.39it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 181.48it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 257.24it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 322.57it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 168.26it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 500.11it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 232.65it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 287.87it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 477.52it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 168.07it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 97.93it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 457.51it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 273.45it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 296.17it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 284.38it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 138.95it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 146.54it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 244.21it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 368.42it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 359.01it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 224.98it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 310.07it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 243.76it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 216.47it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 202.18it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 215.59it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 243.30it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features



Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 250.77it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 234.91it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 413.90it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.37it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 390.93it/s]


Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 149.31it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 273.64it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 354.36it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 191.10it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 118.63it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.22it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 118.07it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 187.14it/s]
Extracting Features:   0%|                                                                        | 0/3 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 371.47it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 292.83it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 376.12it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 279.90it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 248.26it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 230.38it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 333.69it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 233.65it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 195.99it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 281.12it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 229.56it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 166.01it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 279.34it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 154.03it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 311.01it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 173.56it/s]
Extracting Features:   0%|                                                                        | 0/1 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 373.96it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 306.77it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 38.60it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 233.26it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 280.76it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 222.60it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 221.97it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 132.31it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 272.35it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 329.31it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 152.40it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 370.42it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 461.97it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 280.24it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 241.75it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 303.58it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 163.75it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 397.51it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 202.30it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 61.92it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 168.97it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 405.47it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 162.61it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 381.57it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 375.86it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 325.82it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 141.94it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 239.02it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 213.55it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 221.37it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 352.63it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 112.05it/s]
Extracting Features:   0%|                                                                        | 0/1 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 199.08it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 409.88it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 411.80it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 434.72it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 375.90it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 139.86it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 141.41it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 395.15it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 222.71it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 334.06it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 304.90it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 154.49it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 264.94it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 121.47it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 101.57it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 251.85it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 5/5 [00:00<00:00, 424.78it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 310.99it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 67.06it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 292.96it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 425.26it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features



Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 363.27it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 167.54it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 266.68it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 154.04it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 343.12it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 404.37it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features



Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 333.76it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 201.41it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 206.68it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 169.78it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 343.58it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 127.73it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 108.87it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 442.70it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 205.01it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 195.92it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 261.14it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 338.67it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 223.13it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 338.17it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 229.34it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 537.13it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 146.97it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 199.06it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 212.07it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 268.99it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 274.21it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 260.21it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 218.34it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 429.54it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 292.39it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 481.70it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 179.11it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 394.31it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 455.80it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 293.22it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 182.58it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 209.86it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 157.88it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 179.27it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 166.53it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 390.97it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 271.63it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 429.39it/s]
Extracting Features:   0%|                                                                        | 0/2 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 92.21it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 342.65it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 228.87it/s]
Extracting Features:   0%|                                                                        | 0/2 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 65.67it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 442.75it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 405.03it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 212.11it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features



Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 385.65it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 290.42it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 408.59it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 326.74it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 146.92it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 322.35it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 291.30it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 301.71it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 341.13it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 123.99it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 165.60it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 380.54it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 203.56it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 77.62it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 267.73it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 329.38it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 146.26it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 315.53it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 262.39it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 306.69it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 403.26it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 359.77it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 358.82it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 428.46it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 228.52it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 430.04it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 425.07it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 259.39it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 231.24it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 166.49it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 60.80it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 242.33it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 108.18it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features



Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 200.50it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 420.78it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 223.36it/s]
Extracting Features:   0%|                                                                        | 0/1 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 221.79it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 244.87it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 224.92it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 401.64it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 259.64it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 239.66it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 336.76it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 229.90it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 125.31it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 347.47it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 293.02it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 419.81it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 312.67it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 408.24it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 436.54it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 414.94it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 209.56it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 294.22it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 378.51it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 302.17it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 303.36it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 279.42it/s]
Extracting Features:   0%|                                                                        | 0/1 [00:00<?, ?it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 74.51it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 233.24it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 228.17it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 423.63it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 237.92it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 243.64it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 226.95it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 394.84it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 351.70it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 465.80it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 195.71it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 364.72it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 258.96it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 334.61it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 237.75it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 251.07it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 483.85it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 433.93it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 249.17it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 304.89it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 200.97it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 277.35it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 341.69it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 93.44it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 276.18it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 400.12it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 249.05it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 509.85it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 288.19it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 138.80it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 287.12it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 257.15it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 336.21it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 496.41it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 2/2 [00:00<00:00, 137.53it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 224.23it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 203.24it/s]

Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features



Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 285.19it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 162.61it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 3/3 [00:00<00:00, 265.77it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 4/4 [00:00<00:00, 394.86it/s]
Extracting Features: 100%|████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 72.19it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 202.51it/s]


Exporting 1588 column features
Exporting 1588 column features
Exporting 1588 column features


Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 255.47it/s]
Extracting Features: 100%|███████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 241.52it/s]


Exporting 1588 column features
Exporting 1588 column features


Counter({1: 299, 2: 68, 4: 32, 3: 80, 5: 2})

In [8]:
# columns per table distribution
col_amount_freq_dict = dict(col_amount_freq)
df_dict = {'col_amount': list(col_amount_freq_dict.keys()), 'freq': list(col_amount_freq_dict.values())}
print(df_dict)
col_amount_freq_df = pd.DataFrame(df_dict)
alt.Chart(col_amount_freq_df.reset_index()).mark_bar(size=40).encode(
    x = alt.X('col_amount',
              type='ordinal',
              title = 'Amount of Columns',
#               sort=alt.EncodingSortField(
#                 field="values",  
#                 order="descending"),
              ),
    y = alt.Y('freq', title='Number of Tables'),
).configure_axis(
    labelFontSize=18,
    titleFontSize=18
).configure_axisX(
    labelAngle=0
).properties(width=500,height=200)

{'col_amount': [1, 2, 4, 3, 5], 'freq': [299, 68, 32, 80, 2]}


In [10]:
# Take a closer look at true type distribution
true_types = [_type for typelist in table_true_types.values() for _type in typelist]
print(len(true_types)) #amount of columns in benchmark
type_frequency_dict = dict(Counter(true_types))
print(type_frequency_dict)

df_dict = {'type': list(type_frequency_dict.keys()), 'freq': list(type_frequency_dict.values())}
print(df_dict)
type_frequency_df = pd.DataFrame(df_dict)
alt.Chart(type_frequency_df.reset_index()).mark_bar(size=20).encode(
    x = alt.X('type',
              type='ordinal',
              title = 'Type',
              sort=alt.EncodingSortField(
                field="freq",  
                order="descending"),
              ),
    y = alt.Y('freq', title='Frequency'),
).configure_axis(
    labelFontSize=18,
    titleFontSize=18
).properties(width=800,height=200)
# temp_df = pd.DataFrame(true_types, columns=['type'])
# # type_occurrence_df = type_occurrence_df.groupby('type').count()
# type_occurrence_df = pd.DataFrame(set(true_types), columns=['type'])
# type_occurrence_df['freq_count'] = temp_df.groupby('type')['type'].transform('count')
# # print(type_occurrence_df)
# alt.Chart(type_occurrence_df).mark_bar(size=20).encode(
#     x = alt.X('type:O',
#               title = 'Semantic Types',
#               sort=alt.EncodingSortField(
#                 field="freq_count",  
#                 order="descending"),
#              ),
#     y = alt.Y('freq_count', title='Number of Samples'),
# #     color=alt.condition(
# #         alt.Predicate(alt.FieldOneOfPredicate(field='type', oneOf=shown_types)),
# #         alt.value('orange'),
# #         alt.value('steelblue')
# #     ),
# ).configure_axis(
#     labelFontSize=18,
#     titleFontSize=18
# ).properties(width=800,height=200)

813
{'type': 144, 'state': 20, 'description': 35, 'year': 102, 'class': 64, 'status': 15, 'depth': 13, 'notes': 6, 'code': 17, 'classification': 1, 'location': 2, 'range': 1, 'gender': 1, 'component': 3, 'product': 3, 'category': 5, 'company': 2, 'manufacturer': 2, 'city': 5, 'country': 4, 'name': 210, 'duration': 11, 'language': 4, 'rank': 100, 'species': 27, 'address': 1, 'county': 1, 'team': 2, 'family': 2, 'weight': 3, 'capacity': 1, 'region': 1, 'operator': 1, 'origin': 1, 'collection': 1, 'order': 1, 'age': 1}
{'type': ['type', 'state', 'description', 'year', 'class', 'status', 'depth', 'notes', 'code', 'classification', 'location', 'range', 'gender', 'component', 'product', 'category', 'company', 'manufacturer', 'city', 'country', 'name', 'duration', 'language', 'rank', 'species', 'address', 'county', 'team', 'family', 'weight', 'capacity', 'region', 'operator', 'origin', 'collection', 'order', 'age'], 'freq': [144, 20, 35, 102, 64, 15, 13, 6, 17, 1, 2, 1, 1, 3, 3, 5, 2, 2, 5, 4

In [90]:
# frequency of equally type tables
frequently_occurring_types_1 = ['state', 'type']
frequently_occurring_types_2 = ['name', 'rank', 'year']
occurrence_count = 0
for table_tt in table_true_types.values():
    if set(frequently_occurring_types_2).issubset(table_tt):
        occurrence_count += 1
print(occurrence_count)       

96


In [9]:
table_id = 'GitTables_1733'
print(table_review_needed[table_id])
print(table_predicted_types[table_id])

True
['sex']


In [10]:
# manually comparing true types to predicted types
for table_id in table_ids:
    if table_review_needed[table_id]:
        print(table_id)
        print(table_true_types[table_id])
        print(table_predicted_types[table_id])

GitTables_1503
['state', 'type']
['type', 'location']
GitTables_1504
['description']
['notes']
GitTables_1511
['state', 'type']
['category', 'type']
GitTables_1512
['type']
['origin']
GitTables_1516
['class']
['address']
GitTables_1524
['type']
['symbol']
GitTables_1525
['class']
['order']
GitTables_1527
['status']
['artist']
GitTables_1529
['class']
['address']
GitTables_1531
['type']
['address']
GitTables_1533
['depth']
['address']
GitTables_1536
['notes']
['description']
GitTables_1537
['class']
['address']
GitTables_1538
['class', 'code']
['sex', 'rank']
GitTables_1539
['depth']
['address']
GitTables_1542
['type']
['address']
GitTables_1544
['class', 'description']
['address', 'command']
GitTables_1545
['type']
['address']
GitTables_1546
['state', 'type']
['category', 'type']
GitTables_1547
['class']
['address']
GitTables_1548
['type']
['format']
GitTables_1553
['class']
['address']
GitTables_1558
['type']
['code']
GitTables_1560
['state', 'type']
['category', 'location']
GitTables

['code', 'name']
['command', 'component']
GitTables_2496
['name', 'rank', 'species', 'year']
['species', 'species', 'species', 'birth Date']
GitTables_2497
['class']
['product']
GitTables_2503
['name', 'rank', 'year']
['species', 'species', 'year']
GitTables_2508
['origin', 'type']
['address', 'type']
GitTables_2511
['name', 'rank', 'species', 'year']
['species', 'species', 'species', 'year']
GitTables_2513
['notes']
['description']
GitTables_2516
['name']
['position']
GitTables_2518
['name']
['notes']
GitTables_2521
['category', 'name']
['category', 'description']
GitTables_2525
['name']
['address']
GitTables_2528
['name']
['address']
GitTables_2533
['collection', 'status', 'type']
['state', 'rank', 'rank']
GitTables_2539
['name', 'rank', 'year']
['species', 'species', 'year']
GitTables_2542
['name', 'rank', 'year']
['species', 'species', 'year']
GitTables_2543
['name', 'rank', 'year']
['species', 'species', 'birth Date']
GitTables_2550
['name']
['component']
GitTables_2551
['name', '

In [65]:
# take a closer look at the types present in the benchmark
included_types = list(set(types) & set(true_types))
print(len(included_types))

37


In [12]:
print(len(table_col_amounts))

481


In [13]:
# GitTables_2027, GitTables_2065, GitTables_2212(removed), GitTables_2213 (reannot.),
# Gittables_1755 -> removed last 2 cols
# GitTables_2230, GITTables_2231(removed), GitTables_2425, GITTables_2533(removed), 
# GitTables_2575(reannot.), GitTables_2945, GitTables_2668
# GitTables_2002 (removed)
# GitTables_2158, GitTables_2396, multiple ground thruths: ['code', 'name'] -> ['code', 'state'] or ['state', 'state'], depending on table context or column context
# GitTables_2232: same as prev ['code', 'name'] -> ?
# table with ['state', 'type'], is in the dataset many times, 
# same for 1/2 column tables with a class or type from a programming language, make up around 70% of the dataset
# same for 1 col tables with random numeric values like depth or duration (GitTables_2022, GitTables_1937)
# Surprisingly well: GitTables_1918

In [14]:
# GitTables_2004, GitTables_2029 (weird address prediction)
# these are tables with more than 3 cols which also appear freq in dataset, 
# we also saw this last week so I decided to do some research.
# https://en.wikipedia.org/wiki/Taxonomic_rank#:~:text=There%20are%20seven%20main%20taxonomic,a%20synonym%20for%20dominion%20(lat., https://www.irmng.org/aphia.php?p=taxdetails&id=1041282, https://www.irmng.org/aphia.php?p=taxdetails&id=10255148
# This table appears in the dataset a lot of times, give or take the same, sometimes the species or status column is left out
# this gives us a distorted picture of the prediction results -> name is predicted falsly a lot because of reannotation to species
# and year is predicted correctly many times because it appears frequently, maybe merge into 1 table, but then previous results would be 
# 'useless', and we would have a lot less test data.

In [15]:
# GitTables_2059, one of the interesting tables with 5 cols, county vs. city (= provincie vs. stad)

In [16]:
# GitTables_2302,GitTables_2251, GitTables_2634, GitTables_2430, GitTables_2745: non-english col values

In [17]:
# description/class/type/name/address/notes (punctuation confusing sherlock)
# while reannotating hard to pick between class/type/classification/category or team/team name (but, not frequently in this dataset)

In [95]:
# looking at removed tables
filepaths = listdir(path_removed)
for fp in filepaths:
    df = pd.read_csv(join(path_removed, fp))
    print(df)

    Unnamed: 0 language       type
0            0        *        NaN
1            1        *  component
2            2        *  component
3            3        *  component
4            4        *  component
5            5        *  component
6            6        *  component
7            7        *  component
8            8        *  component
9            9        *  component
10          10        *  component
11          11        *  component
12          12        *  component
13          13        *  component
14          14        *  component
15          15        *  component
16          16        *  component
17          17        *  component
18          18        *  component
19          19        *  component
20          20        *  component
    Unnamed: 0  collection  status  type
0            0         0.0     0.0   0.0
1            1         0.0     0.0   0.0
2            2         0.0     0.0   0.0
3            3         0.0     0.0   0.0
4            4         0.