In [1]:
import numpy as np 
import pickle 
from tqdm import tqdm 
import os
from scipy import sparse 
import gc
from scipy.sparse import vstack

In [2]:
path_in = '/data/datn/final_data/holdout_SOLA-TPS-idrop-nograd-nobonus/SOLA-TPS-idrop-nograd-nobonus/dataset/6-statictarget-datasets/'
path_out = '/data/datn/final_data/holdout_data/'

In [3]:
lst_dataset = os.listdir(path_in)
lst_dataset

['Yahoo',
 'TMN',
 'TMNtitle',
 'Grolier',
 'Agnews-title',
 'NYtimes',
 'Agnews',
 'Twitter',
 '20newgroups']

In [4]:
def convert_to_bow(path_bow, vocab_len):
    with open(path_bow, 'r') as f:
        data = f.read().splitlines()
    sparse_vector = []
    for i in tqdm(range(len(data))):
        dense_vector = np.zeros(vocab_len, dtype = np.int32)
        terms = data[i].split()[1:]
        for j in range(len(terms)):
            idx, cnt = terms[j].split(':')
            dense_vector[int(idx)] = int(cnt)
        sparse_vector.append(sparse.csr_matrix(dense_vector))
    return vstack(sparse_vector)

In [5]:
def convert_prior_vector(prior):
    prior_vector = []
    for i in tqdm(range(len(prior))):
        prior_vector.append(prior[i].split())
    prior_vector = np.array(prior_vector, dtype = np.float64)
    return prior_vector

In [6]:
def write_file(data, path, is_pickle = True):
    if is_pickle: 
        with open(path,'wb') as f:
            pickle.dump(data, f, protocol = pickle.HIGHEST_PROTOCOL)
    else:
        with open(path,'w') as f:
            f.write('\n'.join(data))
def read_file(path):
    with open(path,'r') as f:
        data = f.read().splitlines()
    return data

In [7]:
def process_data(path_in, path_out, dataset):
    lst_file = os.listdir(path_in + dataset)
    # create path dataset out 
    if not os.path.exists(path_out + dataset):
        os.mkdir(path_out + dataset)
    vocab = read_file(path_in + dataset + '/vocab.txt')
    setting = read_file(path_in + dataset + '/setting.txt')
    write_file(data = vocab,
              path = path_out + dataset + '/vocab.txt',
              is_pickle = False)
    write_file(data = setting,
              path = path_out + dataset + '/setting.txt',
              is_pickle = False)
    
    for f in lst_file: 
        if 'train' in f or 'test' in f: 
            sparse_vector = convert_to_bow(path_bow = path_in + dataset + '/' + f,
                                          vocab_len = len(vocab))
            write_file(data = sparse_vector, 
                      path = path_out + dataset + '/' + f.split('.')[0] + '.pkl',
                      is_pickle = True)
            del sparse_vector
            _ = gc.collect()
        elif 'prior' in f:
            prior = read_file(path_in + dataset + '/' + f)
            prior = convert_prior_vector(prior)
            write_file(data = prior,
                      path = path_out + dataset + '/' + f.split('.')[0] + '.pkl',
                      is_pickle = True)
            del prior
        # elif 'test' in f:
        #     test = read_file(path_in + dataset + '/' + f)
        #     write_file(data = test,
        #               path = path_out + dataset + '/' + f.split('.')[0] + '.txt',
        #               is_pickle = False)
        #     _ = gc.collect()

In [8]:
lst_dataset_use = ['Agnews', 'Agnews-title','TMN','TMNtitle',\
                      'Yahoo', 'Grolier']
# lst_dataset_use = ['20newgroups']
# lst_dataset_use = ['Agnews', 'TMN','20newgroups']
for dataset in lst_dataset:
    if dataset in lst_dataset_use:
        print('Process dataset: ', dataset)
        process_data(path_in, path_out, dataset)

Process dataset:  Yahoo


100%|███████████████████████████████████| 10000/10000 [00:02<00:00, 4475.32it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 4455.58it/s]
100%|██████████████████████████████████| 21439/21439 [00:00<00:00, 62775.58it/s]
100%|█████████████████████████████████| 517770/517770 [01:49<00:00, 4724.40it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5089.38it/s]


Process dataset:  TMN


100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 6165.74it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5593.58it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5816.76it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5555.68it/s]
100%|██████████████████████████████████| 11599/11599 [00:00<00:00, 76575.52it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5998.36it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 6012.80it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5957.58it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5794.11it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 6267.63it/s]
100%|███████████████████████████████████| 31604/31604 [00:05<00:00, 5678.70it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5939.93it/s]
100%|███████████████████████

Process dataset:  TMNtitle


100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7754.95it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7460.82it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7574.27it/s]
100%|███████████████████████████████████| 2823/2823 [00:00<00:00, 101929.34it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7804.84it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7816.39it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7180.32it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7663.39it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7215.13it/s]
100%|███████████████████████████████████| 26251/26251 [00:03<00:00, 7320.93it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7028.47it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7719.40it/s]


Process dataset:  Grolier


100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 4852.73it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5448.22it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5028.59it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5558.21it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5101.90it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5148.17it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5317.62it/s]
100%|██████████████████████████████████| 15269/15269 [00:00<00:00, 77264.20it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 4836.95it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5574.54it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 4966.90it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5215.77it/s]
100%|███████████████████████

Process dataset:  Agnews-title


100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 5568.88it/s]
100%|██████████████████████████████████| 15936/15936 [00:00<00:00, 76603.55it/s]
100%|█████████████████████████████████| 108401/108401 [00:19<00:00, 5537.22it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 5712.00it/s]


Process dataset:  Agnews


100%|███████████████████████████████████| 10000/10000 [00:02<00:00, 4276.72it/s]
100%|██████████████████████████████████| 32483/32483 [00:00<00:00, 75470.50it/s]
100%|█████████████████████████████████| 110000/110000 [00:26<00:00, 4152.98it/s]
100%|███████████████████████████████████| 10000/10000 [00:02<00:00, 4268.19it/s]


# get docs embedding

In [9]:
import pickle 
import numpy as np 
import os 
from tqdm import tqdm 
import gc
from scipy import sparse 

In [10]:
path_folder = '/data/datn/final_data/holdout_data/'
lst_data = ['Agnews', 'Agnews-title','TMN','TMNtitle',\
                      'Yahoo', 'Grolier']
# lst_data = ['20newgroups']
lst_path = [path_folder + f for f in lst_data]

In [11]:
def read_data(path):
    with open(path, 'rb') as f:
        data = pickle.load(f)
    return data
def get_docs_vector(prior, bows):
    docs_vector = []
    for i in tqdm(range(bows.shape[0])):
        bow = bows[i].toarray().squeeze()
        idx = bow.nonzero()[0]
        cnt = bow[idx]
        word_idx_appear = []
        for j in range(len(idx)):
            word_idx_appear += [idx[j]]* cnt[j]
        if len(word_idx_appear) == 0:
            vector = np.zeros(200)
        else:
            vector = prior[word_idx_appear]
            vector = np.mean(vector, axis = 0)
        docs_vector.append(vector)
    docs_vector = np.array(docs_vector)
    return docs_vector

def write_data(path, data):
    with open(path, 'wb') as f:
        pickle.dump(data, f, protocol = pickle.HIGHEST_PROTOCOL)
        
def process_docs_vector(path):
    prior = read_data(path + '/prior.pkl')
    
    lst_file = os.listdir(path)
    for f in lst_file:
        if 'train' in f or 'part_1' in f:
            bows = read_data(path + '/' + f)
            docs_vector = get_docs_vector(prior, bows)
            write_data(path + '/'+  f.split('.')[0] + '_vector.pkl', docs_vector)
    del prior, bows, docs_vector
    _ = gc.collect()

In [12]:
for path_data in lst_path:
    print('process data:', path_data)
    process_docs_vector(path_data)

process data: /data/datn/final_data/holdout_data/Agnews


100%|█████████████████████████████████| 110000/110000 [00:17<00:00, 6345.69it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 6417.53it/s]


process data: /data/datn/final_data/holdout_data/Agnews-title


100%|█████████████████████████████████| 108401/108401 [00:12<00:00, 8699.59it/s]
100%|███████████████████████████████████| 10000/10000 [00:01<00:00, 8911.38it/s]


process data: /data/datn/final_data/holdout_data/TMN


100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 8351.46it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7767.78it/s]
100%|███████████████████████████████████| 31604/31604 [00:04<00:00, 7423.72it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 8171.62it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 8239.89it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7491.90it/s]


process data: /data/datn/final_data/holdout_data/TMNtitle


100%|████████████████████████████████████| 1000/1000 [00:00<00:00, 11484.64it/s]
100%|████████████████████████████████████| 1000/1000 [00:00<00:00, 10467.78it/s]
100%|██████████████████████████████████| 26251/26251 [00:02<00:00, 11040.08it/s]
100%|████████████████████████████████████| 1000/1000 [00:00<00:00, 10516.73it/s]
100%|████████████████████████████████████| 1000/1000 [00:00<00:00, 11180.64it/s]
100%|████████████████████████████████████| 1000/1000 [00:00<00:00, 11309.67it/s]


process data: /data/datn/final_data/holdout_data/Yahoo


100%|█████████████████████████████████| 517770/517770 [01:06<00:00, 7841.54it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 7999.92it/s]


process data: /data/datn/final_data/holdout_data/Grolier


100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 5638.59it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 6115.63it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 6321.20it/s]
100%|███████████████████████████████████| 23044/23044 [00:03<00:00, 5911.71it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 6440.54it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 6502.74it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 6393.55it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 6309.13it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 6232.79it/s]
100%|█████████████████████████████████████| 1000/1000 [00:00<00:00, 6373.69it/s]


In [13]:
import pickle 
import numpy as np 

In [17]:
with open('/data/datn/final_data/holdout_data/TMNtitle/data_test_1_part_1.pkl','rb') as f:
    data = pickle.load(f)

In [21]:
idx = data[0].toarray()[0].nonzero()[0]

In [22]:
data[0].toarray()[0][idx]

array([1, 1, 1, 1, 1], dtype=int32)