In [None]:
import sys
import os
import numpy as np

In [7]:
import re

def tinh_kich_thuoc_tu_vung_co_ban(ten_tep):
    """
    Tính kích thước từ vựng duy nhất bằng Python cơ bản.
    Bước 1: Chuyển về chữ thường.
    Bước 2: Loại bỏ dấu câu/ký tự đặc biệt.
    Bước 3: Tách từ.
    Bước 4: Đếm các từ duy nhất.

    Args:
        ten_tep (str): Tên (hoặc đường dẫn) của file text.

    Returns:
        int: Kích thước từ vựng duy nhất.
    """
    try:
        with open(ten_tep, 'r', encoding='utf-8') as file:
            noi_dung = file.read()

        # 1. Chuẩn hóa: Chuyển toàn bộ nội dung về chữ thường
        noi_dung = noi_dung.lower()

        # 2. Xử lý dấu câu/ký tự đặc biệt (chỉ giữ lại chữ cái và khoảng trắng)
        # Sử dụng regex để thay thế bất cứ thứ gì KHÔNG phải là chữ cái (a-z, A-Z) và khoảng trắng bằng khoảng trắng.
        # Lưu ý: Đối với Tiếng Việt, regex này có thể cần điều chỉnh để giữ các ký tự có dấu.
        # Cách đơn giản hơn: Thay thế các ký tự không phải chữ và số bằng khoảng trắng.
        noi_dung_sach = re.sub(r'[^a-z0-9\s]', ' ', noi_dung)
        
        # 3. Tách từ bằng split()
        danh_sach_tu = noi_dung_sach.split()
        
        # 4. Tính toán từ vựng duy nhất bằng cách chuyển danh sách thành set
        tu_vung_duy_nhat = set(danh_sach_tu)
        
        return len(tu_vung_duy_nhat)

    except FileNotFoundError:
        print(f"Lỗi: Không tìm thấy file có tên '{ten_tep}'.")
        return 0
    except Exception as e:
        print(f"Đã xảy ra lỗi: {e}")
        return 0

# --- CÁCH SỬ DỤNG ---
ten_file_text = 'D:\\Data\\AI\\DeepLearning\\nlp_final_project_2025\\task1_transformer\\data\\raw\\train.vi.txt'
vocab_size = tinh_kich_thuoc_tu_vung_co_ban(ten_file_text)

if vocab_size > 0:
    print(f"\nKích thước Từ vựng Duy nhất (Phương pháp Cơ bản): {vocab_size}")


Kích thước Từ vựng Duy nhất (Phương pháp Cơ bản): 14390
