In [43]:
TRAIN_PATH = 'data/process_data/train.json'
DEV_PATH = 'data/process_data/dev.json'
TEST_PATH = 'data/process_data/test.json'
AUTH_TOKEN = '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'

In [56]:
import pandas as pd
import numpy as np

train_df = pd.read_json(TRAIN_PATH)
dev_df = pd.read_json(DEV_PATH)
test_df = pd.read_json(TEST_PATH)

# Text process

In [57]:
# load the tokenizer for the model BiLSTM
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('nguyenvulebinh/vi-mrc-large', use_auth_token=AUTH_TOKEN)

# Tokenize all of the sentences and map the tokens to thier word IDs.
def tokenize_sentences(sentences, tokenizer, max_length=384):
    input_ids = []
    attention_masks = []

    # For every sentence...
    for sent in sentences:
        encoded_dict = tokenizer.encode_plus(
                            sent,                      # Sentence to encode.
                            add_special_tokens = True, # Add '[CLS]' and '[SEP]'
                            max_length = max_length,           # Pad & truncate all sentences.
                            pad_to_max_length = True,
                            return_attention_mask = True,   # Construct attn. masks.
                            return_tensors = 'pt',
                            truncation=True
                       )
        
        # Add the encoded sentence to the list.    
        input_ids.append(encoded_dict['input_ids'])
        
        # And its attention mask (simply differentiates padding from non-padding).
        attention_masks.append(encoded_dict['attention_mask'])
    
    return input_ids, attention_masks

train_sentences = train_df['text'].values
dev_sentences = dev_df['text'].values
test_sentences = test_df['text'].values



In [58]:
# Tokenize all of the sentences and map the tokens to thier word IDs.
train_input_ids, train_attention_masks = tokenize_sentences(train_sentences, tokenizer)
dev_input_ids, dev_attention_masks = tokenize_sentences(dev_sentences, tokenizer)
test_input_ids, test_attention_masks = tokenize_sentences(test_sentences, tokenizer)



In [59]:
# save the data
import torch

torch.save(train_input_ids, 'data/tokenizer_data/train_input_ids.pt')
torch.save(train_attention_masks, 'data/tokenizer_data/train_attention_masks.pt')
torch.save(dev_input_ids, 'data/tokenizer_data/dev_input_ids.pt')

In [72]:
# create vocab from train data, dev data and test data
vocab = set()
for sent in train_sentences:
    vocab.update(sent.split())
for sent in dev_sentences:
    vocab.update(sent.split())
for sent in test_sentences:
    vocab.update(sent.split())
vocab = list(vocab)
vocab.sort()

import json
# Save vocab as a JSONL file
with open('data/vocab.jsonl', 'w', encoding='utf-8') as f:
    for word in vocab:
        f.write(json.dumps(word, ensure_ascii=False) + '\n')

pin sài_tầm 50 h cho pin 100 / 100 . camera_ổn ... tất_cả đều ok ... nhân_viên thế_giới di_động trần_văn_thời cà_mau nhiệt_tình và vui_vẻ ... chúc các ae sức khỏe tốt và phục_ok hoài_nha ....
lag và hao_pin là cái tóm_tắt về máy . sam làm tệ quá , không bằng mấy con tàu cùng phân_khúc
tất_cả đều ổn ngoại_trừ lúc máy nóng lên thì pin tụt nhanh hơn tụt quần_haizz . cam_chụp cũng gọi_là tầm_trung . nếu dùng lướt_web bình_thường thì có_thể dùng được cả ngày
ok mua máy ở tgdd chính_sách đổi trả rất tốt , rất yên_tâm khi mua ở tgdd , quản_lý ở 15a đường bà hôm phường 13 quận 6 nhẹ_nhàng và vui_tính , nhiên_viên ai cũng nhiệt_tình , hài_lòng về cách chăm_sóc khách_hàng của các bạn ! .
kiểu_dáng thì đẹp , cầm chắc tay , nhưng loa nhỏ quá , nhân_viên phục_vụ rất nhiệt_tình
máy loa to , bin trâu game_lp tuy chỉ bựt đc_fqf30 nhưng chơi game như bựt 60 fqs ko bị mỏi mắt ngon hơn joy 3 chơi nhìn như kiểu bị lắc ko_mượt như c3i . gét mỗi ko đc tự mở hộp mà máy bị bóc rồi mua máy mới mà như kiểu mua 

# Labels process

In [46]:
train_labels = train_df['labels'].values
train_dev_labels = dev_df['labels'].values

In [53]:
# create tag_to_id
tag_to_id = {}
for label in train_labels:

    for span in label:
        aspect = span[-1].split('#')[0]

        if aspect not in tag_to_id:
            tag_to_id[aspect] = len(tag_to_id)

In [55]:
# save tag_to_id
import json

with open('data/tag_to_id.json', 'w') as f:
    json.dump(tag_to_id, f)

# End