In [13]:
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


In [14]:
!ls -l /content/drive/MyDrive/Bengali_Tokenization/

total 7311
-rw------- 1 root root 7478807 Nov 10 07:44 article.txt
-rw------- 1 root root    6426 Nov 10 07:56 bengali_bpe_tokenizer.py


In [16]:
import os
import sys

def check_file_stats(filename="/content/article.txt"):
    """Print statistics about the text file."""

    if not os.path.exists(filename):
        print(f"Error: File '{filename}' not found!")
        print(f"Current directory: {os.getcwd()}")
        return

    print("=" * 60)
    print(f"File Statistics: {filename}")
    print("=" * 60)

    # Read the file
    try:
        with open(filename, "r", encoding="utf-8") as f:
            text = f.read()
    except Exception as e:
        print(f"Error reading file: {e}")
        return

    # Calculate statistics
    total_chars = len(text)
    total_lines = text.count('\n') + (1 if text else 0)
    total_words = len(text.split())
    bengali_chars = sum(1 for c in text if '\u0980' <= c <= '\u09FF')
    whitespace_chars = sum(1 for c in text if c.isspace())
    punctuation_chars = sum(1 for c in text if not c.isalnum() and not c.isspace() and not ('\u0980' <= c <= '\u09FF'))

    # File size in bytes
    file_size_bytes = os.path.getsize(filename)

    print(f"File path: {os.path.abspath(filename)}")
    print(f"File size (bytes): {file_size_bytes:,}")
    print()
    print("Text Statistics:")
    print(f"  Total characters: {total_chars:,}")
    print(f"  Total lines: {total_lines:,}")
    print(f"  Total words (whitespace-separated): {total_words:,}")
    print()
    print("Character Breakdown:")
    print(f"  Bengali characters: {bengali_chars:,} ({bengali_chars/total_chars*100:.2f}%)")
    print(f"  Whitespace characters: {whitespace_chars:,} ({whitespace_chars/total_chars*100:.2f}%)")
    print(f"  Other characters: {total_chars - bengali_chars - whitespace_chars:,} ({(total_chars - bengali_chars - whitespace_chars)/total_chars*100:.2f}%)")
    print()
    print("=" * 60)

    # Show first 200 characters as preview
    print("\nFirst 200 characters preview:")
    print("-" * 60)
    preview = text[:200].replace('\n', '\\n')
    print(preview)
    if len(text) > 200:
        print("...")
    print()

if __name__ == "__main__":
    # Only accept .txt file arguments
    if len(sys.argv) > 1 and sys.argv[1].endswith('.txt'):
        filename = sys.argv[1]
    else:
        filename = "/content/article.txt"

    check_file_stats(filename)


File Statistics: /content/article.txt
File path: /content/article.txt
File size (bytes): 7,478,807

Text Statistics:
  Total characters: 2,764,226
  Total lines: 19,582
  Total words (whitespace-separated): 401,281

Character Breakdown:
  Bengali characters: 2,328,877 (84.25%)
  Whitespace characters: 401,566 (14.53%)
  Other characters: 33,783 (1.22%)


First 200 characters preview:
------------------------------------------------------------
স্ট্যান্ডার্ড চার্টার্ড ব্যাংকের নতুন প্রধান নির্বাহী কর্মকর্তা হিসেবে দায়িত্ব পেয়েছেন আবরার এ আনোয়ার।\nরাজধানী থেকে চামড়া শিল্পগুলো সাভারে স্থানান্তরে সিইটিপি ছাড়া সরকার সব কাজ শেষ করেছে বলে জানিয়েছেন
...



In [22]:
import sys
sys.path.append('/content/drive/MyDrive/Bengali_Tokenization')  # your folder


In [23]:
!ls /content/drive/MyDrive/Bengali_Tokenization



article.txt  bengali_bpe_tokenizer.py


In [28]:
from bengali_bpe_tokenizer import BengaliBPETokenizer
import time

def load_bengali_texts(file_paths):
    texts = []
    for path in file_paths:
        with open(path, 'r', encoding='utf-8') as f:
            texts.append(f.read())
    return texts

# Training
data_files = [
    "article.txt",
]

# Create and train tokenizer
tokenizer = BengaliBPETokenizer(vocab_size=6000)
texts = load_bengali_texts(data_files)



start_time = time.time()
tokenizer.train(texts, min_freq=2)
end_time = time.time()
print(f"Time taken to train: {end_time - start_time} seconds")

# Save the tokenizer
tokenizer.save("bengali_bpe_tokenizer.json")

Maximum num_merges :  5865
 Number of merges: 0 
 Number of merges: 100 
 Number of merges: 200 
 Number of merges: 300 
 Number of merges: 400 
 Number of merges: 500 
 Number of merges: 600 
 Number of merges: 700 
 Number of merges: 800 
 Number of merges: 900 
 Number of merges: 1000 
 Number of merges: 1100 
 Number of merges: 1200 
 Number of merges: 1300 
 Number of merges: 1400 
 Number of merges: 1500 
 Number of merges: 1600 
 Number of merges: 1700 
 Number of merges: 1800 
 Number of merges: 1900 
 Number of merges: 2000 
 Number of merges: 2100 
 Number of merges: 2200 
 Number of merges: 2300 
 Number of merges: 2400 
 Number of merges: 2500 
 Number of merges: 2600 
 Number of merges: 2700 
 Number of merges: 2800 
 Number of merges: 2900 
 Number of merges: 3000 
 Number of merges: 3100 
 Number of merges: 3200 
 Number of merges: 3300 
 Number of merges: 3400 
 Number of merges: 3500 
 Number of merges: 3600 
 Number of merges: 3700 
 Number of merges: 3800 
 Number of

In [29]:
print(f"\nVocabulary size: {len(tokenizer.vocab)}")
print(f"Number of merges: {len(tokenizer.merges)}")


Vocabulary size: 6000
Number of merges: 5865


In [45]:
#test_text = "বাংলার ব্যবহার নিশ্চিত করতে সে যা যা করেছিল সেবার এটাই প্রথম ঘটনা।যুদ্ধের কারণে যোগাযোগ ব্যবস্থা নষ্ট হয়ে যাওয়ার বেশ কিছু কারণ থাকতে পারে "
test_text = "সপ্তাহের শেষ যুদ্ধের কারণে যোগাযোগ ব্যবস্থা নষ্ট হয়ে যাওয়ার বেশ কিছু কারণ থাকতে পারে বাংলাদেশের মানুষ ও ইতিহাসকে ভালোবেসে এ দেশের জনজীবনের সার্থক রূপকার হতে পেরেছেন যে কজন মুষ্ঠিমেয় চলচ্চিত্র পরিচালক তাদের অন্যতম নজরুল ইসলাম।"
encoded = tokenizer.encode(test_text)
decoded = tokenizer.decode(encoded)

# Calculate compression ratio
compression_ratio = tokenizer.calculate_compression_ratio(test_text)

print(f"Original text: {test_text}")
print(f"Encoded: {encoded}")
print(f"Decoded: {decoded}")
print(f"Compression ratio: {compression_ratio:.2f}")

Original text: সপ্তাহের শেষ যুদ্ধের কারণে যোগাযোগ ব্যবস্থা নষ্ট হয়ে যাওয়ার বেশ কিছু কারণ থাকতে পারে বাংলাদেশের মানুষ ও ইতিহাসকে ভালোবেসে এ দেশের জনজীবনের সার্থক রূপকার হতে পেরেছেন যে কজন মুষ্ঠিমেয় চলচ্চিত্র পরিচালক তাদের অন্যতম নজরুল ইসলাম।
Encoded: [5006, 3267, 3011, 5714, 810, 3025, 2636, 1778, 3678, 4806, 5681, 2972, 3935, 4806, 5292, 2594, 840, 809, 1568, 2045, 2399, 2813, 643, 428, 3996, 2698, 4694, 5047, 559, 1714, 1259, 4215, 4477, 3292, 5312, 3107, 3973, 3697, 2112, 5693, 3019, 678, 4192, 2876, 4992, 5487, 5681, 5943, 1116, 1959, 1512, 75, 1764, 4866, 460, 1]
Decoded: সপ্তাহের শেষ যুদ্ধের কারণে যোগাযোগ ব্যবস্থা নষ্ট হয়ে যাওয়ার বেশ কিছু কারণ থাকতে পারে বাংলাদেশের মানুষ ও ইতিহাসকে ভালোবেসে এ দেশের জনজীবনের সার্থক রূপকার হতে পেরেছেন যে কজন মুষ্ঠিমেয় চলচ্চিত্র পরিচালক তাদের অন্যতম নজরুল ইসলাম<UNK>
Compression ratio: 4.05


In [36]:
! cp bengali_bpe_tokenizer.json '/content/drive/MyDrive/Bengali_Tokenization'