Đây là một đoạn code Python sử dụng thư viện nltk để tách câu thành các token riêng lẻ:

In [None]:
import nltk
from nltk.tokenize import word_tokenize

sentence = "Chúng ta đang học về Xử lý Ngôn ngữ Tự nhiên!"
tokens = word_tokenize(sentence)

print(tokens)

['Chúng', 'ta', 'đang', 'học', 'về', 'Xử', 'lý', 'Ngôn', 'ngữ', 'Tự', 'nhiên', '!']
['Chúng', 'ta', 'đang', 'học', 'về', 'Xử', 'lý', 'Ngôn', 'ngữ', 'Tự', 'nhiên']


Nếu muốn giữ lại cụm từ "Xử lý Ngôn ngữ Tự nhiên" như là một token duy nhất, ta có thể sử dụng các ký tự đặc biệt như "_" để giữ lại cụm từ này khi Tokenization:

In [None]:
import re

sentence = "Chúng ta đang học về Xử lý Ngôn ngữ Tự nhiên!"
tokens = sentence.split()
new_tokens = []

for token in tokens:
    if len(re.findall('[a-zA-Z]+', token)) > 0:
        new_token = re.sub('\W+', '_', token)
        new_tokens.append(new_token)

new_sentence = ' '.join(new_tokens)
result = new_sentence.split()
print(result)

['Chúng', 'ta', 'đang', 'học', 'về', 'Xử', 'lý', 'Ngôn', 'ngữ', 'Tự', 'nhiên_']


Để minh họa cho việc tạo Word Embedding bằng mã nguồn, ta sử dụng thư viện Gensim trong Python. Đoạn code sau đây mô tả cách sử dụng Gensim để tạo Word Embedding từ một văn bản:

In [None]:
from gensim.models import Word2Vec
import nltk

# Tải văn bản
nltk.download('punkt')
text = "Tôi rất thích ăn kem vào mùa hè"

# Chia câu và từ
sentences = nltk.sent_tokenize(text)
words = [nltk.word_tokenize(sentence) for sentence in sentences]

# Tạo Word2Vec model
model = Word2Vec(words, min_count=1)

# Truy cập vector của từ 'kem'
vector = model.wv['kem']

print(vector)

[-8.2426779e-03  9.2993546e-03 -1.9766092e-04 -1.9672764e-03
  4.6036304e-03 -4.0953159e-03  2.7431143e-03  6.9399667e-03
  6.0654259e-03 -7.5107943e-03  9.3823504e-03  4.6718083e-03
  3.9661205e-03 -6.2435055e-03  8.4599797e-03 -2.1501649e-03
  8.8251876e-03 -5.3620026e-03 -8.1294188e-03  6.8245591e-03
  1.6711927e-03 -2.1985089e-03  9.5136007e-03  9.4938548e-03
 -9.7740470e-03  2.5052286e-03  6.1566923e-03  3.8724565e-03
  2.0227872e-03  4.3050171e-04  6.7363144e-04 -3.8206363e-03
 -7.1402504e-03 -2.0888723e-03  3.9238976e-03  8.8186832e-03
  9.2591504e-03 -5.9759365e-03 -9.4026709e-03  9.7643770e-03
  3.4297847e-03  5.1661171e-03  6.2823449e-03 -2.8042626e-03
  7.3227035e-03  2.8302716e-03  2.8710044e-03 -2.3803699e-03
 -3.1282497e-03 -2.3701417e-03  4.2764368e-03  7.6057913e-05
 -9.5842788e-03 -9.6655441e-03 -6.1481940e-03 -1.2856961e-04
  1.9974159e-03  9.4319675e-03  5.5843508e-03 -4.2906962e-03
  2.7831673e-04  4.9643586e-03  7.6983096e-03 -1.1442233e-03
  4.3234206e-03 -5.81437

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


Đây là đoạn code minh họa về việc sử dụng phương pháp mã hóa one-hot cho các từ trong văn bản tiếng Việt, trong đó từ "sorbet" được thay thế bằng từ "kem trái cây":

In [None]:
import numpy as np

# Tập từ điển của văn bản
vocab = ["kem", "trái cây", "thật", "ngon"]

# Văn bản cần biểu diễn
text = "kem trái cây thật ngon"

# Khởi tạo ma trận biểu diễn theo one-hot encoding
one_hot_matrix = np.zeros((len(text.split()), len(vocab)))

# Biểu diễn các từ trong văn bản thành vector one-hot tương ứng
for i, word in enumerate(text.split()):
    if word in vocab:
        one_hot_matrix[i][vocab.index(word)] = 1

# In ra ma trận biểu diễn theo one-hot encoding
print(one_hot_matrix)

[[1. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
