In [1]:
#| default_exp config

In [2]:
#| hide
%load_ext autoreload
%autoreload 2

In [10]:
#| hide
from nbdev.showdoc import *
import nbdev; nbdev.nbdev_export()

## `PARAMETERS`

In [8]:
#| export
PARAM = {
    
    # Collator
    #-------------------------
    'transform_type': 'xc', 
    'smp_features': [('lbl2data',1,2), ('hlk2data',1,1), ('hlk2lbl2data',2,1)],

    # XCSamplerFeatTfm
    #-------------------------
    'pad_token': 0,
    'oversample': False,
    'sampling_features': [('lbl2data',2), ('hlk2data',1), ('hlk2lbl2data',1)],

    # OAKSamplerFeatTfm
    #-------------------------
    'num_labels': 1,
    'num_metadata': 1,
    'metadata_name': None,
    
    # Info Tokenization
    #-------------------------
    'info_column_names': ['identifier', 'input_text'], 
    'use_tokenizer': True, 
    'tokenizer': 'bert-base-cased',
    'tokenization_column': 'input_text',
    'max_sequence_length': 32,
    'padding': False,
    'return_tensors': None,
    'sep': '->',
    'prompt_func': None,
    
    # PadFeatTfm
    #-------------------------
    'pad_side': 'right', 'drop': True, 'ret_t': True, 'in_place': True, 'collapse': True, 'device': 'cpu',
    
    # AlignInputIdsTfm
    #-------------------------
    'inp': 'data', 'targ': 'lbl2data', 'ptr': 'lbl2data_data2ptr',
    
    # Dataset
    #-------------------------
    'n_lbl_samples': None,
    'data_info_keys': None,
    'lbl_info_keys': None,
    'n_slbl_samples': 1,
    'main_oversample': False,
    
    'n_data_meta_samples': None,
    'n_lbl_meta_samples': None,
    'meta_info_keys': None,
    'n_data_meta_samples': 1,
    'n_lbl_meta_samples': 1,
    'meta_oversample': False,
}

## `CONFIGURATION FILE`

In [5]:
#| export
DATASETS = {
    'wikiseealsotitles': '(mapped)LF-WikiSeeAlsoTitles-320K',
    'wikiseealso': 'LF-WikiSeeAlso-320K',
    'wikititles': '(mapped)LF-WikiTitles-500K',
    'wikipedia': 'LF-Wikipedia-500K',
    'orcas': 'G-LF-ORCAS-800K',
    'amazontitles131': 'LF-AmazonTitles-131K',
    'amazon131': 'LF-Amazon-131K',
    'amazontitles': 'LF-AmazonTitles-1.3M',
}

### `WIKISEEALSOTITLES`

In [None]:
#| export
def WIKISEEALSOTITLES(data_dir):
    return {
        'data' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/filter_labels_train.txt',
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/filter_labels_test.txt',
                },
            },
            'parameters': PARAM,
        },
        'train_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/filter_labels_train.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/category.raw.txt'
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/category.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/filter_labels_test.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/category.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        }, 
        'data_metas' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/filter_labels_train.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/hyper_link_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/hyper_link.raw.txt'
                    },
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/category.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/filter_labels_test.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/hyper_link_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/hyper_link.raw.txt',
                    },
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/category.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        }, 
        'data_cat_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/category.raw.txt'
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_renee_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/category.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/filter_labels_test.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/category.raw.txt',
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_renee_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/category.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/filter_labels_train.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_renee_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/category.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/filter_labels_test.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_renee_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/category_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealsotitles"]}/raw_data/category.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        }, 
    }

### `WIKITITLES`

In [None]:
#| export
def WIKITITLES(data_dir):
    return {
        'train' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                },
            },
            'parameters': PARAM,
        },
        'data' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                },
            },
            'parameters': PARAM,
        },
        'train_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/{DATASETS["wikititles"]}_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/hyper_link.raw.txt'
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/hyper_link.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/hyper_link.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_metas' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/hyper_link.raw.txt'
                    },
                    'sal_meta': {
                        'prefix': 'sal',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/see_also_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/see_also_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/see_also.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/hyper_link.raw.txt',
                    },
                    'sal_meta': {
                        'prefix': 'sal',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/see_also_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/see_also_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/see_also.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_hlk_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/hyper_link.raw.txt'
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_renee_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/hyper_link.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/hyper_link.raw.txt',
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_renee_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/hyper_link.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_renee_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/hyper_link.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikititles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/label.raw.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_renee_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikititles"]}/hyper_link_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikititles"]}/raw_data/hyper_link.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
    }

### `WIKISEEALSO`

In [None]:
#| export
def WIKISEEALSO(data_dir):
    return {
        'data' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealso"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealso"]}/filter_labels_train.txt',
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealso"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealso"]}/filter_labels_test.txt',
                },
            },
            'parameters': PARAM,
        },
        'train_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealso"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealso"]}/filter_labels_train.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/category.raw.txt'
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealso"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealso"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/category.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealso"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealso"]}/filter_labels_test.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/category.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_metas' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealso"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealso"]}/filter_labels_train.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/hyper_link_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/hyper_link.raw.txt'
                    },
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/category.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealso"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealso"]}/filter_labels_test.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/hyper_link_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/hyper_link.raw.txt',
                    },
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/category.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_cat_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealso"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealso"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/category.raw.txt'
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_renee_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/category.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealso"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealso"]}/filter_labels_test.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/category.raw.txt',
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_renee_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/category.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealso"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealso"]}/filter_labels_train.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_renee_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/category.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikiseealso"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["wikiseealso"]}/filter_labels_test.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_renee_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikiseealso"]}/category_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikiseealso"]}/raw_data/category.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
    }


### `WIKIPEDIA`

In [None]:
#| export
def WIKIPEDIA(data_dir):
    return {
        'train' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                },
            },
            'parameters': PARAM,
        },
        'data' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                },
            },
            'parameters': PARAM,
        },
        'train_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/hyper_link.raw.txt'
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/hyper_link.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/hyper_link.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_metas' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/hyper_link.raw.txt'
                    },
                    'sal_meta': {
                        'prefix': 'sal',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/see_also_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/see_also_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/see_also.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/hyper_link.raw.txt',
                    },
                    'sal_meta': {
                        'prefix': 'sal',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/see_also_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/see_also_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/see_also.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_hlk_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/hyper_link.raw.txt'
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_renee_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/hyper_link.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                    'hlk_meta': {
                        'prefix': 'hlk',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/hyper_link.raw.txt',
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_renee_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/hyper_link.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_renee_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/hyper_link.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["wikipedia"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/label.raw.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_renee_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["wikipedia"]}/hyper_link_renee_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["wikipedia"]}/raw_data/hyper_link.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
    }

### `ORCAS`

In [None]:
#| export
def ORCAS(data_dir):
    return {
        'train' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["orcas"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/label.raw.txt',
                },
            },
            'parameters': PARAM,
        },
        'data' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["orcas"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/label.raw.txt',
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["orcas"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/label.raw.txt',
                },
            },
            'parameters': PARAM,
        },
        'train_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["orcas"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/label.raw.txt',
                    'gpt_meta': {
                        'prefix': 'gpt',
                        'data_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_trn_X_Y.npz',
                        'lbl_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_lbl_X_Y.npz',
                        'meta_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/gptquery.raw.txt'
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["orcas"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/label.raw.txt',
                    'gpt_meta': {
                        'prefix': 'gpt',
                        'data_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_trn_X_Y.npz',
                        'lbl_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_lbl_X_Y.npz',
                        'meta_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/gptquery.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["orcas"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/label.raw.txt',
                    'gpt_meta': {
                        'prefix': 'gpt',
                        'data_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_tst_X_Y.npz',
                        'lbl_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_lbl_X_Y.npz',
                        'meta_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/gptquery.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_gpt_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["orcas"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/label.raw.txt',
                    'gpt_meta': {
                        'prefix': 'gpt',
                        'data_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_trn_X_Y.npz',
                        'lbl_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_lbl_X_Y.npz',
                        'meta_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/gptquery.raw.txt'
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_ngame_trn_X_Y.npz',
                        'lbl_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_ngame_lbl_X_Y.npz',
                        'meta_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/gptquery.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["orcas"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/label.raw.txt',
                    'gpt_meta': {
                        'prefix': 'gpt',
                        'data_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_tst_X_Y.npz',
                        'lbl_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_lbl_X_Y.npz',
                        'meta_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/gptquery.raw.txt',
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_ngame_tst_X_Y.npz',
                        'lbl_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_ngame_lbl_X_Y.npz',
                        'meta_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/gptquery.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["orcas"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/label.raw.txt',
                    'gpt_meta': {
                        'prefix': 'gpt',
                        'data_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_ngame_trn_X_Y.npz',
                        'lbl_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_ngame_lbl_X_Y.npz',
                        'meta_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/gptquery.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["orcas"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/label.raw.txt',
                    'gpt_meta': {
                        'prefix': 'gpt',
                        'data_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_ngame_tst_X_Y.npz',
                        'lbl_meta': f'{data_dir}/{DATASETS["orcas"]}/gptquery_ngame_lbl_X_Y.npz',
                        'meta_info': f'{data_dir}/{DATASETS["orcas"]}/raw_data/gptquery.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
    }

### `AMAZONTITLES131`

In [14]:
#| export
def AMAZONTITLES131(data_dir):
    return {
        'data' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles131"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles131"]}/filter_labels_train.txt',
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles131"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles131"]}/filter_labels_test.txt',
                },
            },
            'parameters': PARAM,
        },
        'train_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles131"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles131"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/categories.raw.txt'
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles131"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles131"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/categories.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles131"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles131"]}/filter_labels_test.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/categories.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        }, 
        'data_cat_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles131"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles131"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/categories.raw.txt'
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_ngame_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/categories.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles131"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles131"]}/filter_labels_test.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/categories.raw.txt',
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_ngame_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/categories.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles131"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles131"]}/filter_labels_train.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_ngame_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/categories.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles131"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles131"]}/filter_labels_test.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_ngame_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles131"]}/categories_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles131"]}/raw_data/categories.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_img' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazon131"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazon131"]}/filter_labels_train.txt',
                    'img_meta': {
                        'prefix': 'img',
                        'data_meta': f'{data_dir}/{DATASETS["amazon131"]}/images_trn_X_Y.npz',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazon131"]}/images_lbl_X_Y.npz',
                        'meta_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/images.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazon131"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazon131"]}/filter_labels_test.txt',
                    'img_meta': {
                        'prefix': 'img',
                        'data_meta': f'{data_dir}/{DATASETS["amazon131"]}/images_tst_X_Y.npz',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazon131"]}/images_lbl_X_Y.npz',
                        'meta_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/images.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
    }

### `AMAZON131`

In [12]:
#| export
def AMAZON131(data_dir):
    return {
        'data' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazon131"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazon131"]}/filter_labels_train.txt',
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazon131"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazon131"]}/filter_labels_test.txt',
                },
            },
            'parameters': PARAM,
        },
        'train_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazon131"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazon131"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/categories.raw.txt'
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazon131"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazon131"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/categories.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazon131"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazon131"]}/filter_labels_test.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/categories.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        }, 
        'data_cat_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazon131"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazon131"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/categories.raw.txt'
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_ngame_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/categories.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazon131"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazon131"]}/filter_labels_test.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/categories.raw.txt',
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_ngame_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/categories.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazon131"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazon131"]}/filter_labels_train.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_ngame_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/categories.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazon131"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazon131"]}/filter_labels_test.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_ngame_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazon131"]}/categories_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazon131"]}/raw_data/categories.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
    }

### `AMAZONTITLES`

In [16]:
#| export
def AMAZONTITLES(data_dir):
    return {
        'data' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles"]}/filter_labels_train.txt',
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles"]}/filter_labels_test.txt',
                },
            },
            'parameters': PARAM,
        },
        'train_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/category.raw.txt'
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_meta' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/category.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles"]}/filter_labels_test.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/category.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        }, 
        'data_cat_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles"]}/filter_labels_train.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/category.raw.txt'
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_ngame_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/category.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles"]}/filter_labels_test.txt',
                    'cat_meta': {
                        'prefix': 'cat',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/category.raw.txt',
                    },
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_ngame_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/category.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        },
        'data_lnk' : {
            'path': {
                'train': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles"]}/trn_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/train.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles"]}/filter_labels_train.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_ngame_trn_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/category.raw.txt'
                    },
                },
                'test': {
                    'data_lbl': f'{data_dir}/{DATASETS["amazontitles"]}/tst_X_Y.txt',
                    'data_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/test.raw.txt',
                    'lbl_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/label.raw.txt',
                    'data_lbl_filterer': f'{data_dir}/{DATASETS["amazontitles"]}/filter_labels_test.txt',
                    'lnk_meta': {
                        'prefix': 'lnk',
                        'data_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_ngame_tst_X_Y.txt',
                        'lbl_meta': f'{data_dir}/{DATASETS["amazontitles"]}/category_ngame_lbl_X_Y.txt',
                        'meta_info': f'{data_dir}/{DATASETS["amazontitles"]}/raw_data/category.raw.txt',
                    },
                },
            },
            'parameters': PARAM,
        }, 
    }