In [13]:
import json
from pyvi import ViTokenizer
import string
from collections import Counter

# Danh sách các từ dừng tiếng Việt
stop_words = set(["và", "là", "của", "có", "với", "cho", "để", "đến", "từ", "trong", "bởi", "một", "những", "các", "thì", "là"])

# Loại bỏ các từ dừng và dấu câu
def remove_stopwords_and_punctuation(tokens):
    cleaned_tokens = [word.lower() for word in tokens.split() if word.lower() not in stop_words and word not in string.punctuation]
    return cleaned_tokens

# Xử lý từng đối tượng JSON
def process_json_object(data):
    word_freq = Counter()
    try:
        # Đảm bảo 'data' là đối tượng dict
        if isinstance(data, dict):
            print(f"Processing object: {data}")  # Debug print
            ocr_data = data.get("OCR_data", {})
            documents = ocr_data.get("document", [])
            
            for doc in documents:
                # Kiểm tra điều kiện parentIndex
                if doc.get("parentIndex") != "0.0.0.0.0.0.0.0.0.0.0":
                    text_value = doc.get("textValue", "")
                    if text_value:
                        tokenized_document = ViTokenizer.tokenize(text_value)
                        cleaned_tokens = remove_stopwords_and_punctuation(tokenized_document)
                        word_freq.update(cleaned_tokens)
        else:
            print(f"Unexpected data type: {type(data)}")  # Debug print
    except Exception as e:
        print(f"Error processing JSON object: {e}")
    return word_freq

# Đọc tệp JSON theo từng khối
def process_json_file(file_path):
    word_freq = Counter()
    buffer_size = 1024 * 1024  # 1MB buffer size
    with open(file_path, 'r', encoding='utf-8') as file:
        buffer = ''
        while True:
            chunk = file.read(buffer_size)
            if not chunk:
                break
            buffer += chunk
            while True:
                try:
                    data, idx = json.JSONDecoder().raw_decode(buffer)
                    if isinstance(data, dict):  # Kiểm tra nếu 'data' là dict
                        word_freq.update(process_json_object(data))
                    buffer = buffer[idx:].lstrip()
                except ValueError:
                    break
    return word_freq

# Xây dựng từ điển
def build_dictionary(word_frequencies):
    # Tính số lượng từ cần loại bỏ
    num_words_to_remove = int(len(word_frequencies) * 0.2)
    
    # Sắp xếp từ theo tần suất xuất hiện tăng dần và loại bỏ 20% các từ xuất hiện ít nhất
    sorted_words = sorted(word_frequencies.items(), key=lambda item: item[1])
    filtered_words = sorted_words[num_words_to_remove:]
    
    # Xây dựng từ điển kết quả
    dictionary = {word: freq for word, freq in filtered_words}
    return dictionary

# Đường dẫn đến tệp JSON chứa dữ liệu văn bản
file_path = r'C:\Users\Admin\Downloads\data.json'

# Thực hiện xử lý
word_frequencies = process_json_file(file_path)
print(f"Word frequencies: {word_frequencies}")  # In tần suất từ để kiểm tra
dictionary = build_dictionary(word_frequencies)

# In từ điển kết quả
print(dictionary)









Processing object: {'ID': 129460, 'OCR_data': {'document': [{'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Ký bởi: Cổng Thông tin điện tử Chính phủ'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Email: thongtinchinhphu@chinhphu.vn'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'media/image1.jpg'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Cơ quan: Văn phòng Chính phủ'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'CÔNG THÔNG TIN ĐIỆN TỰ CHÍNH PHỦ Thời gian ký: 21.03.2018 14:40:50 +07:00'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



Processing object: {'ID': 119219, 'OCR_data': {'document': [{'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Ký bởi: Cổng Thông tin điện tử Chính phủ'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Email: thongtinchinhphu@chinhphu.vn'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'media/image1.jpg'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Cơ quan: Văn phòng Chính phủ Thời gian ký: 20.02.2017 10:40:21 +07:00'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': '48 CÔNG BÁO/Số 133 + 134/Ngày 11-02-2017'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



Processing object: {'ID': 46356, 'OCR_data': {'document': [{'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Ký bởi: Cổng Thông tin điện tử Chính phủ Email: thongtinchinhphu@chinhphu.vn Cơ quan: Văn phòng Chính phủ Thời gian ký: 21.07.2014 14:02:34 +07:00'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': '18; CÔNG BÁO/Số 675 + 676/Ngày 15-7-2014'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'BỘ TÀI CHÍNH'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'BỘ TÀI CHÍNH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Độc lập - Tự do - Hạnh phúc'}, {'fileId'

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



Processing object: {'ID': 98556, 'OCR_data': {'document': [{'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Ký bởi: Bộ Giao'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'thông Vận tải'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Cmail.'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Cpmot@mt.gov.vn Cơ quan: Bổ Giao'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'thông Vận tải'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': None, 'parentIndex': '0.0.0.0.0.0.0.0.0.0', 'paraLevel': None, 'textValue': 'Thời gian ký:'}, {'fileId': 1, 'fileName': 'file.pdf', 'paraIndex': '0.0.0

IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



KeyboardInterrupt: 