In [14]:
import os
import json

# JSON 파일이 있는 디렉토리 경로
json_directory = '/data/ephemeral/home/newdataset/CORD/train/json'

# 변환된 데이터를 저장할 디렉토리
output_directory = '/data/ephemeral/home/newdataset/CORD/newtrainjson'
os.makedirs(output_directory, exist_ok=True)  # 출력 디렉토리 생성

# 모든 JSON 파일 처리
for filename in os.listdir(json_directory):
    if filename.endswith('.json'):
        input_file_path = os.path.join(json_directory, filename)
        
        # 입력 JSON 데이터 읽기
        with open(input_file_path, 'r', encoding='utf-8') as f:
            input_data = json.load(f)

        # 변환할 데이터 구조 초기화
        output_data = {
            "images": {
                f"{filename[:-5]}.png": {
                    "paragraphs": {},
                    "words": {}  # words를 딕셔너리로 초기화
                }
            }
        }

        # valid_line 데이터 변환
        for entry in input_data["valid_line"]:
            group_id = entry["group_id"]
            
            # words 안의 각 단어 처리
            for word in entry["words"]:
                quad = word["quad"]
                
                # 변환된 데이터 추가
                key = f"{group_id:04d}"  # group_id를 키로 사용
                if key not in output_data["images"][f"{filename[:-5]}.png"]["words"]:
                    output_data["images"][f"{filename[:-5]}.png"]["words"][key] = {
                        "transcription": word["text"],  # 각 단어의 텍스트를 transcription으로 사용
                        "points": [
                            [quad["x1"], quad["y1"]],
                            [quad["x2"], quad["y2"]],
                            [quad["x3"], quad["y3"]],
                            [quad["x4"], quad["y4"]]
                        ]
                    }
                else:
                    # 키가 이미 존재하는 경우 기존 텍스트와 조합 (예: 여러 단어의 경우)
                    output_data["images"][f"{filename[:-5]}.png"]["words"][key]["transcription"] += " " + word["text"]

        # 변환된 데이터를 출력 파일로 저장
        output_file_path = os.path.join(output_directory, filename)
        with open(output_file_path, 'w', encoding='utf-8') as f:
            json.dump(output_data, f, ensure_ascii=False, indent=4)

print("모든 JSON 파일을 성공적으로 변환했습니다.")


모든 JSON 파일을 성공적으로 변환했습니다.


In [15]:
import os
import json

# JSON 파일이 있는 디렉토리 경로
json_directory = '/data/ephemeral/home/newdataset/CORD/newtrainjson'

# 결합된 데이터를 저장할 파일 경로
combined_json_path = '/data/ephemeral/home/newdataset/CORD/newtrainjson/combined.json'

# 결합된 데이터 초기화
combined_data = {
    "images": {}
}

# 모든 JSON 파일 처리
for filename in os.listdir(json_directory):
    if filename.endswith('.json'):
        input_file_path = os.path.join(json_directory, filename)
        
        # 입력 JSON 데이터 읽기
        with open(input_file_path, 'r', encoding='utf-8') as f:
            input_data = json.load(f)

        # 각 이미지 데이터 결합
        for image_name, image_data in input_data["images"].items():
            combined_data["images"][image_name] = image_data

# 결합된 데이터를 JSON 파일로 저장
with open(combined_json_path, 'w', encoding='utf-8') as f:
    json.dump(combined_data, f, ensure_ascii=False, indent=4)

print("모든 JSON 파일을 성공적으로 결합했습니다.")


모든 JSON 파일을 성공적으로 결합했습니다.
