In [20]:
import json
import os
import glob
from sklearn.model_selection import train_test_split

def merge_json_files(input_dir, output_file):
    """
    Ghép tất cả các file JSON trong thư mục input_dir thành một file JSON duy nhất.
    
    Args:
        input_dir (str): Đường dẫn đến thư mục chứa các file JSON
        output_file (str): Đường dẫn đến file JSON đầu ra
    """
    merged_data = []
    
    # Tìm tất cả các file JSON trong thư mục
    json_files = glob.glob(os.path.join(input_dir, "*.json"))
    
    if not json_files:
        print("Không tìm thấy file JSON nào trong thư mục:", input_dir)
        return merged_data  # Trả về danh sách rỗng thay vì None
    
    # Đọc và ghép từng file JSON
    for json_file in json_files:
        if os.path.basename(json_file) in ["meta.json", "train.json", "test.json", "validation.json"]:
            continue
        try:
            with open(json_file, 'r', encoding='utf-8') as f:
                data = json.load(f)
                print(f"File {json_file} có kiểu dữ liệu: {type(data)}")
                # Chuẩn hóa dữ liệu: nếu không phải list, biến thành list
                if not isinstance(data, list):
                    data = [data]
                merged_data.extend(data)
        except json.JSONDecodeError as e:
            print(f"Lỗi khi đọc file {json_file}: {e}")
        except Exception as e:
            print(f"Lỗi không xác định khi xử lý file {json_file}: {e}")
    
    # Lưu dữ liệu ghép vào file đầu ra
    try:
        with open(output_file, 'w', encoding='utf-8') as f:
            json.dump(merged_data, f, indent=4, ensure_ascii=False)
        print(f"Đã ghép thành công {len(json_files)} file JSON vào {output_file}")
    except Exception as e:
        print(f"Lỗi khi ghi file đầu ra {output_file}: {e}")
    
    return merged_data

def split_dataset(data, input_dir, train_ratio=0.7, test_ratio=0.15):
    """
    Chia dữ liệu thành 3 tập: train, test, và validation.
    
    Args:
        data (list): Dữ liệu cần chia
        input_dir (str): Thư mục để lưu các file train.json, test.json, validation.json
        train_ratio (float): Tỷ lệ tập train
        test_ratio (float): Tỷ lệ tập test (validation_ratio sẽ là 1 - train_ratio - test_ratio)
    """
    if not isinstance(data, list):
        print("Dữ liệu đầu vào phải là một danh sách!")
        return
    
    if len(data) == 0:
        print("Dữ liệu đầu vào rỗng, không thể chia tập!")
        return
    
    train_data, temp_data = train_test_split(data, train_size=train_ratio, random_state=42)
    validation_ratio = (1 - train_ratio - test_ratio) / (1 - train_ratio)
    test_data, validation_data = train_test_split(temp_data, train_size=(test_ratio / (test_ratio + (1 - train_ratio - test_ratio))), random_state=42)
    
    for dataset, filename in [(train_data, "train.json"), (test_data, "test.json"), (validation_data, "validation.json")]:
        output_path = os.path.join(input_dir, filename)
        try:
            with open(output_path, 'w', encoding='utf-8') as f:
                json.dump(dataset, f, indent=4, ensure_ascii=False)
            print(f"Đã lưu {filename} với {len(dataset)} mẫu")
        except Exception as e:
            print(f"Lỗi khi ghi file {filename}: {e}")

if __name__ == "__main__":
    input_directory = "./json"
    output_dir = "./dataset/"
    output_file = os.path.join(output_dir, "meta.json")
    
    merged_data = merge_json_files(input_directory, output_file)
    print(f"Kiểu dữ liệu của merged_data: {type(merged_data)}")
    
    if merged_data is not None:
        split_dataset(merged_data, output_dir, train_ratio=0.7, test_ratio=0.15)
    else:
        print("Không thể ghép dữ liệu, merged_data là None!")                   

File ./json\MB.json có kiểu dữ liệu: <class 'list'>
File ./json\MSBbank.json có kiểu dữ liệu: <class 'list'>
File ./json\SaigonCommercialBank.json có kiểu dữ liệu: <class 'list'>
File ./json\TechComBank.json có kiểu dữ liệu: <class 'list'>
File ./json\Vietcombank.json có kiểu dữ liệu: <class 'list'>
Đã ghép thành công 5 file JSON vào ./dataset/meta.json
Kiểu dữ liệu của merged_data: <class 'list'>
Đã lưu train.json với 93 mẫu
Đã lưu test.json với 19 mẫu
Đã lưu validation.json với 21 mẫu


In [22]:
import json
import os
import glob
from sklearn.model_selection import train_test_split

def merge_json_files(input_dir, output_file):
    """
    Ghép tất cả các file JSON trong thư mục input_dir thành một file JSON duy nhất.
    
    Args:
        input_dir (str): Đường dẫn đến thư mục chứa các file JSON
        output_file (str): Đường dẫn đến file JSON đầu ra
    """
    merged_data = []
    
    # Tìm tất cả các file JSON trong thư mục
    json_files = glob.glob(os.path.join(input_dir, "*.json"))
    
    if not json_files:
        print("Không tìm thấy file JSON nào trong thư mục:", input_dir)
        return merged_data
    
    # Đọc và ghép từng file JSON
    for json_file in json_files:
        if os.path.basename(json_file) in ["meta.json", "train.json", "test.json", "validation.json"]:
            continue
        try:
            with open(json_file, 'r', encoding='utf-8') as f:
                data = json.load(f)
                print(f"File {json_file} có kiểu dữ liệu: {type(data)}")
                if not isinstance(data, list):
                    data = [data]
                merged_data.extend(data)
        except json.JSONDecodeError as e:
            print(f"Lỗi khi đọc file {json_file}: {e}")
        except Exception as e:
            print(f"Lỗi không xác định khi xử lý file {json_file}: {e}")
    
    # Lưu dữ liệu ghép vào file đầu ra
    try:
        with open(output_file, 'w', encoding='utf-8') as f:
            json.dump(merged_data, f, indent=4, ensure_ascii=False)
        print(f"Đã ghép thành công {len(json_files)} file JSON vào {output_file}")
    except Exception as e:
        print(f"Lỗi khi ghi file đầu ra {output_file}: {e}")
    
    return merged_data

def update_image_paths(meta_file, base_dir):
    """
    Cập nhật đường dẫn tuyệt đối trong trường 'image' của meta.json thành đường dẫn tương đối.
    
    Args:
        meta_file (str): Đường dẫn đến file meta.json
        base_dir (str): Thư mục hiện tại để tính đường dẫn tương đối
    Returns:
        list: Dữ liệu đã cập nhật
    """
    try:
        # Đọc file meta.json
        with open(meta_file, 'r', encoding='utf-8') as f:
            data = json.load(f)
        
        # Duyệt qua từng mục và cập nhật trường 'image'
        for item in data:
            if "image" in item:
                abs_path = item["image"]
                rel_path = os.path.relpath(abs_path, base_dir)
                item["image"] = rel_path.replace("\\", "/")
            
        # Lưu lại file meta.json
        with open(meta_file, 'w', encoding='utf-8') as f:
            json.dump(data, f, indent=4, ensure_ascii=False)
        print(f"Đã cập nhật đường dẫn trong {meta_file}")
        return data
    except Exception as e:
        print(f"Lỗi khi cập nhật đường dẫn trong {meta_file}: {e}")
        return []

def split_dataset(data, input_dir, train_ratio=0.7, test_ratio=0.15):
    """
    Chia dữ liệu thành 3 tập: train, test, và validation.
    
    Args:
        data (list): Dữ liệu cần chia
        input_dir (str): Thư mục để lưu các file train.json, test.json, validation.json
        train_ratio (float): Tỷ lệ tập train
        test_ratio (float): Tỷ lệ tập test
    """
    if not isinstance(data, list):
        print("Dữ liệu đầu vào phải là một danh sách!")
        return
    
    if len(data) == 0:
        print("Dữ liệu đầu vào rỗng, không thể chia tập!")
        return
    
    train_data, temp_data = train_test_split(data, train_size=train_ratio, random_state=42)
    validation_ratio = (1 - train_ratio - test_ratio) / (1 - train_ratio)
    test_data, validation_data = train_test_split(temp_data, train_size=(test_ratio / (test_ratio + (1 - train_ratio - test_ratio))), random_state=42)
    
    for dataset, filename in [(train_data, "train.json"), (test_data, "test.json"), (validation_data, "validation.json")]:
        output_path = os.path.join(input_dir, filename)
        try:
            with open(output_path, 'w', encoding='utf-8') as f:
                json.dump(dataset, f, indent=4, ensure_ascii=False)
            print(f"Đã lưu {filename} với {len(dataset)} mẫu")
        except Exception as e:
            print(f"Lỗi khi ghi file {filename}: {e}")

if __name__ == "__main__":
    input_directory = "./json"
    output_dir = "./dataset/"
    output_file = os.path.join(output_dir, "meta.json")
    
    # Ghép các file JSON
    merged_data = merge_json_files(input_directory, output_file)
    print(f"Kiểu dữ liệu của merged_data: {type(merged_data)}")
    
    if merged_data:
        # Cập nhật đường dẫn và lấy dữ liệu đã sửa
        updated_data = update_image_paths(output_file, output_dir)
        if updated_data:
            # Chia tập dữ liệu với dữ liệu đã cập nhật
            split_dataset(updated_data, output_dir, train_ratio=0.7, test_ratio=0.15)
        else:
            print("Không thể lấy dữ liệu đã cập nhật, bỏ qua bước chia tập!")
    else:
        print("Không thể ghép dữ liệu, merged_data rỗng!")

File ./json\MB.json có kiểu dữ liệu: <class 'list'>
File ./json\MSBbank.json có kiểu dữ liệu: <class 'list'>
File ./json\SaigonCommercialBank.json có kiểu dữ liệu: <class 'list'>
File ./json\TechComBank.json có kiểu dữ liệu: <class 'list'>
File ./json\Vietcombank.json có kiểu dữ liệu: <class 'list'>
Đã ghép thành công 5 file JSON vào ./dataset/meta.json
Kiểu dữ liệu của merged_data: <class 'list'>
Đã cập nhật đường dẫn trong ./dataset/meta.json
Đã lưu train.json với 93 mẫu
Đã lưu test.json với 19 mẫu
Đã lưu validation.json với 21 mẫu
