In [2]:
from transformers import AutoModel, AutoTokenizer
from vncorenlp import VnCoreNLP

In [3]:
model = AutoModel.from_pretrained("vinai/phobert-base")

In [4]:
rdrsegmenter = VnCoreNLP("tachtu/VnCoreNLP-1.1.1.jar", annotators="wseg", max_heap_size='-Xmx500m')

In [5]:
text = 'Tin nhanh Việt Nam là một trang báo điện tử tại Việt Nam được thành lập bởi tập đoàn FPT'

In [6]:
sents = rdrsegmenter.tokenize(text)
sents

[['Tin',
  'nhanh',
  'Việt_Nam',
  'là',
  'một',
  'trang',
  'báo_điện_tử',
  'tại',
  'Việt_Nam',
  'được',
  'thành_lập',
  'bởi',
  'tập_đoàn',
  'FPT']]

In [7]:
text_token = ' '.join([' '.join(sent) for sent in sents])
text_token

'Tin nhanh Việt_Nam là một trang báo_điện_tử tại Việt_Nam được thành_lập bởi tập_đoàn FPT'

In [8]:
tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base")

Special tokens have been added in the vocabulary, make sure the associated word embedding are fine-tuned or trained.


In [65]:
test_ids = [650, 650, 973, 52, 486, 322, 15, 585, 3159, 2, 1, 1, 1, 1, 1]


In [66]:
tokens = tokenizer.convert_ids_to_tokens(test_ids)
tokens

['nhân_viên',
 'nhân_viên',
 'y_tế',
 'đang',
 'tiến_hành',
 'làm_việc',
 'với',
 'mẫu',
 'xét_nghiệm',
 '</s>',
 '<pad>',
 '<pad>',
 '<pad>',
 '<pad>',
 '<pad>']

In [12]:
import torch
input_ids = torch.tensor([tokenizer.encode('nhân viên y tế đang cầm tăm')])
input_ids

tensor([[    0,  1362,  1430,  1231,  7564,    52,  1287, 12425,     2]])

In [13]:
with torch.no_grad():
    features = model(input_ids)
features['last_hidden_state'].size()

torch.Size([1, 9, 768])

In [14]:
samples = ('Các nhân viên y tế đang cầm tăm bông xét nghiệm.', 'Các y tá đang đẩy xe lăn cho một phụ nữ lớn tuổi ở hành lang bệnh viện.', 'Bốn người đi bộ băng qua đường.', 'Các viên thuốc trong lòng bàn tay một người.')

In [15]:
import string
table = str.maketrans(dict.fromkeys(string.punctuation))
max_length = 30
for sample in samples:
    input_ids = [1] * max_length
    sample = sample.lower()
    sample = sample.translate(table)
    sents = rdrsegmenter.tokenize(sample)
    text_token = ' '.join([' '.join(sent) for sent in sents])
    ids = tokenizer.encode(text_token)
    input_ids[:len(ids)] = ids
    print(input_ids)

[0, 9, 650, 973, 52, 1287, 12425, 2597, 3159, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[0, 9, 8905, 52, 1172, 11940, 13, 16, 419, 5541, 25, 3967, 757, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[0, 1586, 18, 57, 215, 1731, 89, 109, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
[0, 9, 1430, 529, 12, 605, 3178, 16, 18, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]


In [16]:
tokenizer

PreTrainedTokenizer(name_or_path='vinai/phobert-base', vocab_size=64000, model_max_len=256, is_fast=False, padding_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'sep_token': '</s>', 'pad_token': '<pad>', 'cls_token': '<s>', 'mask_token': '<mask>'})

In [17]:
print(tokenizer.encode(tokenizer.eos_token))
print(tokenizer.encode(tokenizer.bos_token))
print(tokenizer.encode(tokenizer.unk_token))
print(tokenizer.encode(tokenizer.pad_token))

[0, 2, 2]
[0, 0, 2]
[0, 3, 2]
[0, 1, 2]


In [71]:
import torch.nn as nn
u = nn.Embedding(10, 768)
out = u(zz)
out

tensor([[ 1.4050,  0.0952,  0.6486,  ...,  0.9016,  0.4926,  0.8443],
        [-0.2853, -2.4276,  0.2896,  ..., -0.4787,  1.1296,  0.8064],
        [ 0.0398, -0.8494,  0.9300,  ..., -0.9980,  1.1040, -0.5601],
        [-0.8764, -0.2059,  1.0152,  ..., -0.3907, -0.5555,  1.8224],
        [ 0.1565,  1.0361, -0.7197,  ..., -1.6926, -0.6694, -0.2688]],
       grad_fn=<EmbeddingBackward>)

In [70]:
zz = [1, 4, 6, 7, 9]
zz = torch.LongTensor(zz)
zz.size()

torch.Size([5])

In [19]:
tokenizer.decode([0, 146, 1362, 1430, 1231, 7564, 52, 1287, 12425, 2597, 1522, 37257, 21573, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

'<s> Các nhân viên y tế đang cầm tăm bông xét nghiệm. </s> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad> <pad>'

In [None]:
[-1.1100, -1.1531, -1.3806,  ...,  1.0475, -1.4357, -0.0573],
        [-1.5643,  1.7656,  0.1941,  ...,  0.1666, -0.8521,  1.8053],
        [-0.6592, -1.3805,  1.7218,  ...,  1.3835,  0.5102,  0.3721],
        [ 0.3386, -0.1872, -0.0580,  ...,  0.2153, -0.5882,  0.3987],
        [ 0.3179,  0.4561,  0.9766,  ..., -1.5936,  1.3590, -0.6045]],