## new_json 폴더별 json 파일 --> 하나의 json 으로 병합하기

### 예시 : batch_01~nn.json --> combined.json

### [train 먼저 병합 테스트]

In [5]:
import os
import json

# JSON 파일이 있는 폴더 경로
#folder_path = 'C:/Users/jenia/Python/new_json'
folder_path = r'C:\dataset\new_json'

# 중복을 피할 "info", "licenses", "categories" 데이터
info_data = None
licenses_data = None
categories_data = None

# 모든 JSON 파일을 병합할 리스트
combined_data = {
    "info": info_data,
    "licenses": licenses_data,
    "categories": categories_data,
    "images": [],
    "annotations": []
}

# 'batch_01.json'부터 'batch_34.json'까지의 파일을 읽어서 데이터를 추가합니다.
for i in range(1, 35):
    filename = f'batch_{i:02d}.json'
    file_path = os.path.join(folder_path, filename)

    if os.path.isfile(file_path):
        with open(file_path, 'r') as file:
            data = json.load(file)

            # "info", "licenses", "categories" 데이터를 최초 1회만 저장
            if not info_data:
                info_data = data.get("info")
                licenses_data = data.get("licenses")
                categories_data = data.get("categories")
                combined_data["info"] = info_data
                combined_data["licenses"] = licenses_data
                combined_data["categories"] = categories_data

            # images 및 annotations 데이터 병합
            combined_data["images"].extend(data.get("images"))
            combined_data["annotations"].extend(data.get("annotations"))

# 병합된 데이터를 JSON 파일에 저장하거나 원하는 형식으로 출력합니다.
output_file_path = os.path.join(folder_path, 'train.json')
with open(output_file_path, 'w') as output_file:
    json.dump(combined_data, output_file, indent=4)  # indent 매개변수를 설정하여 들여쓰기와 줄바꿈을 추가


### [train, valid, test 나눠서 병합하기]
#### train (80%)  : batch_01_0000 ~ batch_34_0499 / "image_id" :        0 ~ 16999
#### valid (10%) : batch_35_0000 ~ batch_40_0499 / "image_id" : 17000 ~ 19999
#### test (10%) : batch_41_0000 ~ batch_44_0317 / "image_id" : 20000 ~ 21817

In [3]:
import os
import json

def combine_json_files(folder_path, output_filename, start_batch, end_batch):
    combined_data = {
        "info": None,
        "licenses": None,
        "categories": None,
        "images": [],
        "annotations": []
    }

    for i in range(start_batch, end_batch + 1):
        filename = f'batch_{i:02d}.json'
        file_path = os.path.join(folder_path, filename)

        if os.path.isfile(file_path):
            with open(file_path, 'r') as file:
                data = json.load(file)

                if not combined_data["info"]:
                    combined_data["info"] = data.get("info")
                    combined_data["licenses"] = data.get("licenses")
                    combined_data["categories"] = data.get("categories")

                combined_data["images"].extend(data.get("images"))
                combined_data["annotations"].extend(data.get("annotations"))

    output_path = os.path.join(folder_path, output_filename)
    with open(output_path, 'w') as output_file:
        json.dump(combined_data, output_file, indent=4)

#folder_path = 'C:/Users/jenia/Python/new_json'
folder_path = r'C:\dataset\new_json'

# 범위를 수정하여 파일을 "train," "valid," "test"로 나눔
combine_json_files(folder_path, '2combined_train.json', 1, 34)
combine_json_files(folder_path, '2combined_valid.json', 35, 40)
combine_json_files(folder_path, '2combined_test.json', 41, 44)
