In [2]:
import sentencepiece as spm

spm.SentencePieceTrainer.Train(
    input="text.txt",
    model_prefix="spm_tokenizer",
    vocab_size=64,
    model_type="bpe")

In [4]:
spm_tokenizer = spm.SentencePieceProcessor(model_file="spm_tokenizer.model")

text1 = "the capital of france is paris"
spm_ids = spm_tokenizer.Encode(text1)
spm_tokens = spm_tokenizer.Decode(spm_ids)
spm_ids, spm_tokens

([9, 16, 18, 39, 55, 47, 41, 44, 49, 43, 10, 32, 41, 47, 26],
 'the capital of france is paris')

In [5]:
pip install tokenizers

Defaulting to user installation because normal site-packages is not writeable
Note: you may need to restart the kernel to use updated packages.


In [6]:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

In [None]:
# Hugging Face Tokenizer nesnesi oluşturuluyor. BPE (Byte-Pair Encoding) algoritması kullanılacak.
hf_tokenizer = Tokenizer(BPE())


0

In [17]:

hf_tokenizer.get_vocab_size()  # Başlangıçta kelime dağarcığı boş, bu yüzden 0 döner.

64

In [15]:
# Tokenizer'ın kelimeleri ayırmak için Whitespace (boşluk) tabanlı ön-tokenizer kullanmasını sağlar.
hf_tokenizer.pre_tokenizer = Whitespace()

In [16]:
# BpeTrainer ile tokenizer'ın kelime dağarcığını (vocab) oluşturması sağlanır.
# vocab_size=64 ile toplam 64 adet token oluşturulacak.
# special_tokens ile özel tokenlar (örneğin bilinmeyen kelimeler için <unk>) eklenir.
trainer = BpeTrainer(vocab_size=64, special_tokens=["<unk>"])

# hf_tokenizer.train ile "text.txt" dosyasındaki veriler kullanılarak tokenizer eğitilir.
hf_tokenizer.train(["text.txt"], trainer)

In [18]:
hf_tokenizer.get_vocab_size(), hf_tokenizer.encode("Hello, my dog is cute").ids  # Eğitildikten sonra

(64, [7, 13, 13, 16, 1, 14, 24, 6, 16, 9, 26, 5, 22, 21, 7])

In [19]:
hf_tokenizer.save("hf_tokenizer.json")  # Tokenizer'ı JSON formatında kaydeder.

In [20]:
from transformers import PreTrainedTokenizerFast

fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="hf_tokenizer.json")

fast_tokenizer.encode("Hello, my dog is cute")

  from .autonotebook import tqdm as notebook_tqdm


[7, 13, 13, 16, 1, 14, 24, 6, 16, 9, 26, 5, 22, 21, 7]