In [3]:
from pyvi import ViTokenizer, ViPosTagger
import string
import os
import pickle
import keras

In [9]:
from transformers import AutoTokenizer
import numpy as np

In [10]:
tokenizer_bert = AutoTokenizer.from_pretrained('vinai/phobert-base')

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [1]:
def clean_document(doc):
    doc = ViTokenizer.tokenize(doc) 
    doc = doc.lower()
    tokens = doc.split()
    table = str.maketrans('', '', string.punctuation.replace("_", ""))
    tokens = [w.translate(table) for w in tokens]
    tokens = [word for word in tokens if word]
    return tokens

In [4]:
text = "Năm 2024 nghỉ Tết âm lịch 7 ngày, dịp lễ Quốc khánh nghỉ 4 ngày."
tokens = clean_document(text)
print(text)
print(tokens)

Năm 2024 nghỉ Tết âm lịch 7 ngày, dịp lễ Quốc khánh nghỉ 4 ngày.
['năm', '2024', 'nghỉ', 'tết', 'âm_lịch', '7', 'ngày', 'dịp', 'lễ', 'quốc_khánh', 'nghỉ', '4', 'ngày']


In [8]:
tokenizer = keras.preprocessing.text.Tokenizer(filters='!"#$%&()*+,-./:;<=>?@[\]^`{|}~ ')
tokenizer.fit_on_texts([text])
print(tokenizer.word_index)
sequences_digit = tokenizer.texts_to_sequences([text])
print(sequences_digit)

{'nghỉ': 1, 'ngày': 2, 'năm': 3, '2024': 4, 'tết': 5, 'âm': 6, 'lịch': 7, '7': 8, 'dịp': 9, 'lễ': 10, 'quốc': 11, 'khánh': 12, '4': 13}
[[3, 4, 1, 5, 6, 7, 8, 2, 9, 10, 11, 12, 1, 13, 2]]


In [16]:
def encode_and_pad(token_list, max_len):
    token_ids = tokenizer_bert.convert_tokens_to_ids(token_list)
    padding_length = max_len - len(token_ids)
    if padding_length > 0:  # Padding
        token_ids = token_ids + [tokenizer_bert.pad_token_id] * padding_length
    elif padding_length < 0:  # Truncating
        token_ids = token_ids[:max_len]
    return token_ids

print(text)
encoded_texts = encode_and_pad([text], 20)
print(encoded_texts)

Năm 2024 nghỉ Tết âm lịch 7 ngày, dịp lễ Quốc khánh nghỉ 4 ngày.
[3, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
