In [1]:
input_file="D:/Workspace/PYTHON/NLP/Project2/Data/sentences_cleaned.txt"

In [2]:
import sentencepiece as spm

In [3]:


params = (
    f'--input={input_file} '
    '--model_prefix=bpe_tokenizer '
    '--vocab_size=512 '
    '--model_type=bpe '
    '--character_coverage=1.0 '
    '--max_sentence_length=100 '
    '--pad_id=0 '
    '--unk_id=1 '
    '--bos_id=2 '
    '--eos_id=3'
)

print("\nStarting BPE tokenizer training...")
spm.SentencePieceTrainer.train(params)
print("Training complete!")
print("Generated files: bpe_tokenizer.model and bpe_tokenizer.vocab")


# Using Trained Tokenizer ---
print("\n--- Testing the new tokenizer ---")

# Load the trained model
sp = spm.SentencePieceProcessor()
sp.load('bpe_tokenizer.model')

# Example sentences to test
test_sentences = [
    "طالب علموں کا قیام و طعام اور تحقیق کا خرچ حکومت اٹھاتی ہے",
    "وہ غائب تھی",
    "جب دل چاھے گانا",
   "جسمانی طور پر بھی متاثر ہوئیں اور"
    "کیا اپ کے علاقے میں ضروریات زندگی کی اشیاء بااسانی میسر ہیں؟",
    "کورونا ویکسین کے باوجود عالمی وبا کے معاشی نقصانات جلد ختم نہیں ہوں گے",#not in data
    "وزیراعظم کی ورلڈ اکنامک فورم کے پروگرام میں کاروباری شخصیات سے ملاقاتیں شیڈول",#not in data

]

for sentence in test_sentences:
    # Encode: from text to a list of subword pieces
    pieces = sp.encode_as_pieces(sentence)
    print(f"\nOriginal: {sentence}")
    print(f"Encoded (pieces): {pieces}")

    # Encode: from text to a list of integer IDs
    ids = sp.encode_as_ids(sentence)
    print(f"Encoded (IDs)(len: {len(ids)}): {ids}")

    # Decode: from a list of IDs back to text
    decoded_text = sp.decode_ids(ids)
    print(f"Decoded: {decoded_text}")




Starting BPE tokenizer training...
Training complete!
Generated files: bpe_tokenizer.model and bpe_tokenizer.vocab

--- Testing the new tokenizer ---

Original: طالب علموں کا قیام و طعام اور تحقیق کا خرچ حکومت اٹھاتی ہے
Encoded (pieces): ['▁ط', 'ال', 'ب', '▁ع', 'لم', 'وں', '▁کا', '▁ق', 'یا', 'م', '▁و', '▁ط', 'ع', 'ام', '▁اور', '▁تح', 'قی', 'ق', '▁کا', '▁خ', 'ر', 'چ', '▁حکومت', '▁اٹھ', 'ات', 'ی', '▁ہے']
Encoded (IDs)(len: 27): [92, 41, 481, 55, 116, 37, 27, 68, 24, 476, 26, 92, 488, 46, 50, 345, 216, 490, 27, 48, 472, 492, 336, 379, 33, 469, 13]
Decoded: طالب علموں کا قیام و طعام اور تحقیق کا خرچ حکومت اٹھاتی ہے

Original: وہ غائب تھی
Encoded (pieces): ['▁وہ', '▁غ', 'ائ', 'ب', '▁تھی']
Encoded (IDs)(len: 5): [64, 161, 43, 481, 155]
Decoded: وہ غائب تھی

Original: جب دل چاھے گانا
Encoded (pieces): ['▁جب', '▁دل', '▁چ', 'ا', 'ھ', 'ے', '▁گ', 'انا']
Encoded (IDs)(len: 8): [182, 229, 45, 468, 483, 474, 28, 282]
Decoded: جب دل چاھے گانا

Original: جسمانی طور پر بھی متاثر ہوئیں اورکیا اپ کے علا