 **1. BPE - Byte Pair Encoding**
- là thuật toán tách từ theo ý tưởng:
+ Tách các từ thành kí tự riêng lẻ và cặp từ
+ Đếm kí tự xuất hiện nhiều nhất, gộp lại và cập nhật lại thư viện tách từ
+ Lặp lại cho đến khi thu được thư viện tách từ mong muốn


In [7]:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

# Khởi tạo tokenizer với mô hình BPE
tokenizer = Tokenizer(BPE())
tokenizer.pre_tokenizer = Whitespace()

trainer = BpeTrainer(special_tokens=["<unk>", "<s>", "</s>"])

# Huấn luyện tokenizer từ các câu đơn giản
tokenizer.train_from_iterator(["học máy là lĩnh vực thú vị", "trí tuệ nhân tạo"], trainer)

# Kiểm tra kết quả
encoded = tokenizer.encode("học máy (dl) là lĩnh vực thú vị")
print(encoded.tokens)


['học', 'máy', 'l', 'là', 'lĩnh', 'vực', 'thú', 'vị']


**2. WordPiece**
- Là thuật toán tách từ thường sử dụng trong BERT theo ý tưởng tương tự với BPE. Tuy nhiên sẽ gộp theo xác suất P = (Tần suất 2 token đứng cạnh nhau / tần suất 2 token đứng riêng lẻ) và dùng ## để chỉ các subword ghép vào sau.


In [8]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

tokens = tokenizer.tokenize("unaffordable playing lower")
print(tokens)
# ['un', '##afford', '##able', 'playing', 'low', '##er']


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

['una', '##ff', '##ord', '##able', 'playing', 'lower']


**3. Thư Viện Spacy**

In [9]:
pip install spacy




In [11]:
import spacy

nlp = spacy.load("en_core_web_sm")
doc = nlp("Apple is looking at buying U.K. startup for $1 billion.")
# phân tách từ
print("Tokens:")
for token in doc:
    print(token.text) # nội dung văn bản
    print(token.lemma_) #dạng từ gốc
    print(token.pos_) # nhãn từ loại
    print(token.dep_) # mối quan hệ phụ thuộc cú pháp


print("\nNamed Entities:") #tên các thực thể
for ent in doc.ents:
    print(ent.text, ent.label_)


Tokens:
Apple
Apple
PROPN
nsubj
is
be
AUX
aux
looking
look
VERB
ROOT
at
at
ADP
prep
buying
buy
VERB
pcomp
U.K.
U.K.
PROPN
dobj
startup
startup
NOUN
dep
for
for
ADP
prep
$
$
SYM
quantmod
1
1
NUM
compound
billion
billion
NUM
pobj
.
.
PUNCT
punct

Named Entities:
Apple ORG
U.K. GPE
$1 billion MONEY


In [12]:
pip install spacy-vi


[31mERROR: Could not find a version that satisfies the requirement spacy-vi (from versions: none)[0m[31m
[0m[31mERROR: No matching distribution found for spacy-vi[0m[31m
[0m

In [14]:
import spacy

nlp = spacy.load("vi_core_news_sm")  # Tải mô hình tiếng Việt
doc = nlp("Công ty VinFast đã ra mắt mẫu xe điện mới tại Hà Nội với giá 500 triệu đồng.")

# Phân tích token
print("Tokens:")
for token in doc:
    print(f"{token.text} - Lemma: {token.lemma_} - POS: {token.pos_} - Dep: {token.dep_}")

# Nhận diện thực thể có tên (NER)
print("\nThực thể có tên (NER):")
for ent in doc.ents:
    print(f"{ent.text} - Loại: {ent.label_}")


OSError: [E050] Can't find model 'vi_core_news_sm'. It doesn't seem to be a Python package or a valid path to a data directory.

**4. Thư viện Sentencepiece**
- là thư viện để tokenize theo hướng unsupervised


In [15]:
import sentencepiece as spm

# Tạo file tạm chứa dữ liệu huấn luyện
with open("data.txt", "w", encoding="utf-8") as f:
    f.write("học máy là lĩnh vực thú vị\ntrí tuệ nhân tạo\n")

# Huấn luyện SentencePiece với mô hình BPE
spm.SentencePieceTrainer.Train(input='data.txt', model_prefix='bpe', vocab_size=30, model_type='bpe')

# Load model đã huấn luyện
sp = spm.SentencePieceProcessor(model_file='bpe.model')

# Kiểm tra kết quả
print(sp.encode("học máy là lĩnh vực thú vị", out_type=str))


['▁', 'h', 'ọ', 'c', '▁', 'm', 'á', 'y', '▁l', 'à', '▁l', 'ĩ', 'nh', '▁v', 'ự', 'c', '▁t', 'h', 'ú', '▁v', 'ị']
