In [1]:
import os

import sentencepiece as spm

from utils.clean import get_azerbaijani_dataset
from utils.config import ROOT_DIR

  from .autonotebook import tqdm as notebook_tqdm
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\hikme\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [2]:
TOKENIZER_PATH = f"{ROOT_DIR}/tokenizer"

os.makedirs(TOKENIZER_PATH, exist_ok=True)

In [13]:
DATASET_NAMES = ("LocalDoc/AzTC", "allmalab/DOLLMA")

get_azerbaijani_dataset(DATASET_NAMES)

In [None]:
options = dict(
  # Input spec
  input=f"{ROOT_DIR}/data/azerbaijani_data.txt",
  input_format="text",
  # Output spec
  model_prefix=f"{TOKENIZER_PATH}/azerbaijani_unigram",
  # Algorithm spec
  model_type="unigram",
  vocab_size=40_000,
  # Normalization
  normalization_rule_name="identity", # No normalization applied
  remove_extra_whitespaces=False,
  input_sentence_size=10_000_000, # Set to 0 zero to train on the whole dataset
  max_sentence_length=4192, # Max number of bytes per sentence
  seed_sentencepiece_size=1_000_000,
  shuffle_input_sentence=True,
  # Rare word handling
  character_coverage=0.9995,
  byte_fallback=True,
  # Merge rules
  split_digits=True,
  split_by_unicode_script=True,
  split_by_whitespace=True,
  split_by_number=True,
  max_sentencepiece_length=16,
  add_dummy_prefix=True,
  allow_whitespace_only_pieces=True,
  train_extremely_large_corpus=True,
  # Special tokens
  unk_id=0, # the UNK token must exist
  bos_id=1, # The others are optional, set to -1 to turn off
  eos_id=2,
  pad_id=-1,
  # Systems
  num_threads=os.cpu_count()
)

spm.SentencePieceTrainer.train(**options)

In [6]:
sp = spm.SentencePieceProcessor()
sp.load(f"{TOKENIZER_PATH}/azerbaijani_unigram.model")
vocab = [[sp.id_to_piece(idx), idx] for idx in range(sp.get_piece_size())]

In [9]:
azerbaijani_samples = [
        "Kitab deyəndə burda mədəniyyət, incəsənət nümunələri nəzərdə tuturam.",
        "Uzun müddətdir ki, cəbhədə rəsmi olaraq atəşkəs hökm sürür.",
        "Biz Bütöv Azərbaycançıyıq, bunu öz əməllərimizdə göstərmişik."
]

In [12]:
for sentence in azerbaijani_samples:
    ids = sp.encode(sentence)
    print([sp.id_to_piece(idx) for idx in ids])

['▁Kitab', '▁deyəndə', '▁burda', '▁mədəniyyət', ',', '▁incəsənət', '▁nümunələri', '▁nəzərdə', '▁tuturam', '.']
['▁Uzun', '▁müddətdir', '▁ki', ',', '▁cəbhədə', '▁rəsmi', '▁olaraq', '▁atəşkəs', '▁hökm', '▁sürür', '.']
['▁Biz', '▁Bütöv', '▁Azərbaycan', 'çı', 'yıq', ',', '▁bunu', '▁öz', '▁əməl', 'lərimizdə', '▁göstər', 'mişik', '.']
