In [60]:
import os
import json
import re

def clean_text(text):
    """Xóa dấu phẩy, dấu gạch dưới, dấu gạch ngang và khoảng trắng thừa"""
    text = re.sub(r',', '', text)  # ✅ Xóa dấu phẩy
    text = text.replace("-", "")
    text = text.replace('_', '')   # ✅ Xóa dấu gạch dưới
    text = re.sub(r'-+', '', text)  # ✅ Xóa dấu gạch ngang (cả ---- hoặc ---)
    text = re.sub(r'\s+', ' ', text).strip()  # ✅ Xóa khoảng trắng thừa (chỉ giữ 1 khoảng trắng giữa các từ)
    return text

def process_json_file(file_path):
    """Xử lý một file JSON: Làm sạch dữ liệu"""
    try:
        with open(file_path, "r", encoding="utf-8") as f:
            data = json.load(f)  # Load dữ liệu JSON
        
        # Kiểm tra nếu dữ liệu không phải danh sách thì bỏ qua
        if not isinstance(data, list):
            print(f"⚠ Bỏ qua file (không phải danh sách JSON): {file_path}")
            return

        # ✅ Làm sạch từng phần tử trong danh sách
        cleaned_data = [clean_text(text) for text in data]

        # ✅ Ghi đè lại file JSON sau khi làm sạch
        with open(file_path, "w", encoding="utf-8") as f:
            json.dump(cleaned_data, f, ensure_ascii=False, indent=4)

        print(f"✅ Đã xử lý xong file: {file_path}")
    except Exception as e:
        print(f"❌ Lỗi khi xử lý file {file_path}: {e}")

def process_json_folder(folder_path):
    """Xử lý toàn bộ file JSON trong thư mục"""
    if not os.path.exists(folder_path):
        print(f"❌ Thư mục không tồn tại: {folder_path}")
        return

    json_files = [f for f in os.listdir(folder_path) if f.endswith(".json")]
    
    if not json_files:
        print("⚠ Không tìm thấy file JSON nào trong thư mục!")
        return

    for filename in json_files:
        file_path = os.path.join(folder_path, filename)
        process_json_file(file_path)

# ✅ Thay đổi đường dẫn thư mục chứa file JSON
FOLDER_PATH = "/Users/tavantai/Developer/dataluat/luat"
process_json_folder(FOLDER_PATH)

print("🚀 Đã làm sạch toàn bộ file JSON trong thư mục!")


✅ Đã xử lý xong file: /Users/tavantai/Developer/dataluat/luat/luatdat.json
🚀 Đã làm sạch toàn bộ file JSON trong thư mục!
