지정된 폴더 내의 모든 JSON 파일을 찾습니다.  
각 JSON 파일에 대한 이미지 파일 이름과 텍스트 레이블을 추출합니다.  
추출된 정보를 gt.txt 파일에 쓰기합니다.  
이 스크립트를 사용하려면, your_dataset_folder를 실제 데이터셋이 위치한 폴더 경로로 변경해야 합니다.  
이 스크립트는 지정된 폴더 내의 모든 JSON 파일을 처리하고, 각 파일에 대응하는 이미지 파일 이름과 텍스트 레이블을 gt.txt 파일에 기록합니다.

# Training 필기체 글자

In [1]:
# 필요한 라이브러리 임포트
import json  # JSON 파일을 읽고 쓰기 위한 모듈
import os  # 파일 및 디렉토리 작업을 위한 모듈
from concurrent.futures import ThreadPoolExecutor  # 병렬 처리를 위한 모듈

# 데이터셋 폴더의 루트 경로 정의 (001, 002 등의 하위 폴더가 포함됨)
root_dataset_folder = "C:/workspace_project/korean_characters/Training/[라벨]Training_필기체/1.글자"

# 각 JSON 파일을 처리하는 함수 정의
def process_json_file(json_path):
    # JSON 파일을 열고 내용을 로드
    with open(json_path, "r", encoding="utf-8") as json_file:
        json_data = json.load(json_file)
    
    # JSON 파일의 상대 경로를 루트 폴더 기준으로 계산
    relative_path = os.path.relpath(os.path.dirname(json_path), root_dataset_folder)

    # 이미지 파일 이름을 추출 (예외 처리 포함)
    try:
        image_file_name = json_data["image"]["file_name"]
    except KeyError:
        print(f"'{json_path}'에서 'file_name' 키를 찾을 수 없습니다.")
        return None

    # 전체 이미지 경로 생성
    full_image_path = os.path.join(relative_path, image_file_name)
    
    # 텍스트 레이블을 추출 (구조가 예상과 다를 경우 예외 처리)
    try:
        text_letter = json_data["text"]["letter"]
        text_label = text_letter["value"]
    except KeyError as e:
        print(f"KeyError: {e} - '{json_path}'에서 키를 찾을 수 없습니다.")
        return None

    # 탭으로 구분된 형식으로 문자열 반환
    return f"{full_image_path}\t{text_label}\n"

# 모든 JSON 파일 경로를 저장할 리스트 생성
json_files = []
# 루트 데이터셋 폴더에서 디렉토리 트리를 탐색
for subdir, dirs, files in os.walk(root_dataset_folder):
    for file in files:
        # 파일이 JSON 형식인지 확인
        if file.endswith(".json"):
            # 전체 파일 경로를 생성하여 리스트에 추가
            json_files.append(os.path.join(subdir, file))

# gt.txt 파일에 결과를 기록 준비
# 파일을 루프 외부에서 열어 반복적인 열기/닫기를 방지
gt_file_path = os.path.join(root_dataset_folder, "gt.txt")
with open(gt_file_path, "w", encoding="utf-8") as gt_file:
    with ThreadPoolExecutor() as executor:  # 병렬 처리를 위한 ThreadPoolExecutor 사용
        for result in executor.map(process_json_file, json_files):
            if result:  # 결과가 None이 아닌 경우에만 기록
                gt_file.write(result)


FileNotFoundError: [Errno 2] No such file or directory: 'C:/workspace_project/korean_characters/Training/[라벨]Training_필기체/1.글자\\gt.txt'

# Validation 필기체 글자

In [None]:
# 필요한 라이브러리 임포트
import json  # JSON 파일을 읽고 쓰기 위한 모듈
import os  # 파일 및 디렉토리 작업을 위한 모듈
from concurrent.futures import ThreadPoolExecutor  # 병렬 처리를 위한 모듈

# 데이터셋 폴더의 루트 경로 정의 (Validation용)
root_dataset_folder = "C:/workspace_project/korean_characters/validation/[라벨]validation_필기체/1.글자"

# 각 JSON 파일을 처리하는 함수 정의
def process_json_file(json_path):
    # JSON 파일을 열고 내용을 로드
    with open(json_path, "r", encoding="utf-8") as json_file:
        json_data = json.load(json_file)
    
    # JSON 파일의 상대 경로를 루트 폴더 기준으로 계산
    relative_path = os.path.relpath(os.path.dirname(json_path), root_dataset_folder)

    # 이미지 파일 이름을 추출 (예외 처리 포함)
    try:
        image_file_name = json_data["image"]["file_name"]
    except KeyError:
        print(f"'{json_path}'에서 'file_name' 키를 찾을 수 없습니다.")
        return None

    # 전체 이미지 경로 생성
    full_image_path = os.path.join(relative_path, image_file_name)
    
    # 텍스트 레이블을 추출 (구조가 예상과 다를 경우 예외 처리)
    try:
        text_letter = json_data["text"]["letter"]
        text_label = text_letter["value"]
    except KeyError as e:
        print(f"KeyError: {e} - '{json_path}'에서 키를 찾을 수 없습니다.")
        return None
    
    # 탭으로 구분된 형식으로 문자열 반환
    return f"{full_image_path}\t{text_label}\n"

# 모든 JSON 파일 경로를 저장할 리스트 생성
json_files = []
# 루트 데이터셋 폴더에서 디렉토리 트리를 탐색
for subdir, dirs, files in os.walk(root_dataset_folder):
    for file in files:
        # 파일이 JSON 형식인지 확인
        if file.endswith(".json"):
            # 전체 파일 경로를 생성하여 리스트에 추가
            json_files.append(os.path.join(subdir, file))

# gt.txt 파일에 결과를 기록 준비
# 파일을 루프 외부에서 열어 반복적인 열기/닫기를 방지
gt_file_path = os.path.join(root_dataset_folder, "gt.txt")
with open(gt_file_path, "w", encoding="utf-8") as gt_file:
    with ThreadPoolExecutor() as executor:  # 병렬 처리를 위한 ThreadPoolExecutor 사용
        for result in executor.map(process_json_file, json_files):
            if result:  # 결과가 None이 아닌 경우에만 기록
                gt_file.write(result)


# Test 필기체 글자

In [None]:
# 필요한 라이브러리 임포트
import json  # JSON 파일을 읽고 쓰기 위한 모듈
import os  # 파일 및 디렉토리 작업을 위한 모듈
from concurrent.futures import ThreadPoolExecutor  # 병렬 처리를 위한 모듈

# 데이터셋 폴더의 루트 경로 정의 (Test용)
root_dataset_folder = "C:/workspace_project/korean_characters/test/[라벨]test_필기체/1.글자"

# 각 JSON 파일을 처리하는 함수 정의
def process_json_file(json_path):
    # JSON 파일을 열고 내용을 로드
    with open(json_path, "r", encoding="utf-8") as json_file:
        json_data = json.load(json_file)
    
    # JSON 파일의 상대 경로를 루트 폴더 기준으로 계산
    relative_path = os.path.relpath(os.path.dirname(json_path), root_dataset_folder)

    # 이미지 파일 이름을 추출 (예외 처리 포함)
    try:
        image_file_name = json_data["image"]["file_name"]
    except KeyError:
        print(f"'{json_path}'에서 'file_name' 키를 찾을 수 없습니다.")
        return None

    # 전체 이미지 경로 생성
    full_image_path = os.path.join(relative_path, image_file_name)
    
    # 텍스트 레이블을 추출 (구조가 예상과 다를 경우 예외 처리)
    try:
        text_letter = json_data["text"]["letter"]
        text_label = text_letter["value"]
    except KeyError as e:
        print(f"KeyError: {e} - '{json_path}'에서 키를 찾을 수 없습니다.")
        return None
    
    # 탭으로 구분된 형식으로 문자열 반환
    return f"{full_image_path}\t{text_label}\n"

# 모든 JSON 파일 경로를 저장할 리스트 생성
json_files = []
# 루트 데이터셋 폴더에서 디렉토리 트리를 탐색
for subdir, dirs, files in os.walk(root_dataset_folder):
    for file in files:
        # 파일이 JSON 형식인지 확인
        if file.endswith(".json"):
            # 전체 파일 경로를 생성하여 리스트에 추가
            json_files.append(os.path.join(subdir, file))

# gt.txt 파일에 결과를 기록 준비
# 파일을 루프 외부에서 열어 반복적인 열기/닫기를 방지
gt_file_path = os.path.join(root_dataset_folder, "gt.txt")
with open(gt_file_path, "w", encoding="utf-8") as gt_file:
    with ThreadPoolExecutor() as executor:  # 병렬 처리를 위한 ThreadPoolExecutor 사용
        for result in executor.map(process_json_file, json_files):
            if result:  # 결과가 None이 아닌 경우에만 기록
                gt_file.write(result)


In [None]:
# 필요한 라이브러리 임포트
import json  # JSON 파일을 읽고 쓰기 위한 모듈
import os  # 파일 및 디렉토리 작업을 위한 모듈
from concurrent.futures import ThreadPoolExecutor  # 병렬 처리를 위한 모듈

# 데이터셋 폴더의 루트 경로 정의 (Training용, 단어 처리)
root_dataset_folder = "C:/workspace_project/korean_characters/Training/[라벨]Training_필기체/1.글자"

# 각 JSON 파일을 처리하는 함수 정의
def process_json_file(json_path):
    # JSON 파일을 열고 내용을 로드
    with open(json_path, "r", encoding="utf-8") as json_file:
        json_data = json.load(json_file)
    
    # JSON 파일의 상대 경로를 루트 폴더 기준으로 계산
    relative_path = os.path.relpath(os.path.dirname(json_path), root_dataset_folder)

    # 이미지 파일 이름을 추출 (예외 처리 포함)
    try:
        image_file_name = json_data["image"]["file_name"]
    except KeyError:
        print(f"'{json_path}'에서 'file_name' 키를 찾을 수 없습니다.")
        return None

    # 전체 이미지 경로 생성
    full_image_path = os.path.join(relative_path, image_file_name)
    
    # 텍스트 레이블을 단어 단위로 추출 (여러 글자를 결합)
    try:
        text_words = json_data["text"]["word"]
        text_label = ''.join(word["value"] for word in text_words)
    except KeyError as e:
        print(f"KeyError: {e} - '{json_path}'에서 키를 찾을 수 없습니다.")
        return None
    
    # 탭으로 구분된 형식으로 문자열 반환
    return f"{full_image_path}\t{text_label}\n"

# 모든 JSON 파일 경로를 저장할 리스트 생성
json_files = []
# 루트 데이터셋 폴더에서 디렉토리 트리를 탐색
for subdir, dirs, files in os.walk(root_dataset_folder):
    for file in files:
        # 파일이 JSON 형식인지 확인
        if file.endswith(".json"):
            # 전체 파일 경로를 생성하여 리스트에 추가
            json_files.append(os.path.join(subdir, file))

# gt.txt 파일에 결과를 기록 준비
# 파일을 루프 외부에서 열어 반복적인 열기/닫기를 방지
gt_file_path = os.path.join(root_dataset_folder, "gt.txt")
with open(gt_file_path, "w", encoding="utf-8") as gt_file:
    with ThreadPoolExecutor() as executor:  # 병렬 처리를 위한 ThreadPoolExecutor 사용
        for result in executor.map(process_json_file, json_files):
            if result:  # 결과가 None이 아닌 경우에만 기록
                gt_file.write(result)


In [None]:
# 필요한 라이브러리 임포트
import json  # JSON 파일을 읽고 쓰기 위한 모듈
import os  # 파일 및 디렉토리 작업을 위한 모듈
from concurrent.futures import ThreadPoolExecutor  # 병렬 처리를 위한 모듈

# 데이터셋 폴더의 루트 경로 정의 (Validation용, 단어 처리)
root_dataset_folder = "C:/workspace_project/korean_characters/validation/[라벨]validation_필기체/1.글자"

# 각 JSON 파일을 처리하는 함수 정의
def process_json_file(json_path):
    # JSON 파일을 열고 내용을 로드
    with open(json_path, "r", encoding="utf-8") as json_file:
        json_data = json.load(json_file)
    
    # JSON 파일의 상대 경로를 루트 폴더 기준으로 계산
    relative_path = os.path.relpath(os.path.dirname(json_path), root_dataset_folder)

    # 이미지 파일 이름을 추출 (예외 처리 포함)
    try:
        image_file_name = json_data["image"]["file_name"]
    except KeyError:
        print(f"'{json_path}'에서 'file_name' 키를 찾을 수 없습니다.")
        return None

    # 전체 이미지 경로 생성
    full_image_path = os.path.join(relative_path, image_file_name)
    
    # 텍스트 레이블을 단어 단위로 추출 (여러 글자를 결합)
    try:
        text_words = json_data["text"]["word"]
        text_label = ''.join(word["value"] for word in text_words)
    except KeyError as e:
        print(f"KeyError: {e} - '{json_path}'에서 키를 찾을 수 없습니다.")
        return None
    
    # 탭으로 구분된 형식으로 문자열 반환
    return f"{full_image_path}\t{text_label}\n"

# 모든 JSON 파일 경로를 저장할 리스트 생성
json_files = []
# 루트 데이터셋 폴더에서 디렉토리 트리를 탐색
for subdir, dirs, files in os.walk(root_dataset_folder):
    for file in files:
        # 파일이 JSON 형식인지 확인
        if file.endswith(".json"):
            # 전체 파일 경로를 생성하여 리스트에 추가
            json_files.append(os.path.join(subdir, file))

# gt.txt 파일에 결과를 기록 준비
# 파일을 루프 외부에서 열어 반복적인 열기/닫기를 방지
gt_file_path = os.path.join(root_dataset_folder, "gt.txt")
with open(gt_file_path, "w", encoding="utf-8") as gt_file:
    with ThreadPoolExecutor() as executor:  # 병렬 처리를 위한 ThreadPoolExecutor 사용
        for result in executor.map(process_json_file, json_files):
            if result:  # 결과가 None이 아닌 경우에만 기록
                gt_file.write(result)


In [None]:
# 필요한 라이브러리 임포트
import json  # JSON 파일을 읽고 쓰기 위한 모듈
import os  # 파일 및 디렉토리 작업을 위한 모듈
from concurrent.futures import ThreadPoolExecutor  # 병렬 처리를 위한 모듈

# 데이터셋 폴더의 루트 경로 정의 (Test용, 단어 처리)
root_dataset_folder = "C:/workspace_project/korean_characters/test/[라벨]test_필기체/1.글자"

# 각 JSON 파일을 처리하는 함수 정의
def process_json_file(json_path):
    # JSON 파일을 열고 내용을 로드
    with open(json_path, "r", encoding="utf-8") as json_file:
        json_data = json.load(json_file)
    
    # JSON 파일의 상대 경로를 루트 폴더 기준으로 계산
    relative_path = os.path.relpath(os.path.dirname(json_path), root_dataset_folder)

    # 이미지 파일 이름을 추출 (예외 처리 포함)
    try:
        image_file_name = json_data["image"]["file_name"]
    except KeyError:
        print(f"'{json_path}'에서 'file_name' 키를 찾을 수 없습니다.")
        return None

    # 전체 이미지 경로 생성
    full_image_path = os.path.join(relative_path, image_file_name)
    
    # 텍스트 레이블을 단어 단위로 추출 (여러 글자를 결합)
    try:
        text_words = json_data["text"]["word"]
        text_label = ''.join(word["value"] for word in text_words)
    except KeyError as e:
        print(f"KeyError: {e} - '{json_path}'에서 키를 찾을 수 없습니다.")
        return None
    
    # 탭으로 구분된 형식으로 문자열 반환
    return f"{full_image_path}\t{text_label}\n"

# 모든 JSON 파일 경로를 저장할 리스트 생성
json_files = []
# 루트 데이터셋 폴더에서 디렉토리 트리를 탐색
for subdir, dirs, files in os.walk(root_dataset_folder):
    for file in files:
        # 파일이 JSON 형식인지 확인
        if file.endswith(".json"):
            # 전체 파일 경로를 생성하여 리스트에 추가
            json_files.append(os.path.join(subdir, file))

# gt.txt 파일에 결과를 기록 준비
# 파일을 루프 외부에서 열어 반복적인 열기/닫기를 방지
gt_file_path = os.path.join(root_dataset_folder, "gt.txt")
with open(gt_file_path, "w", encoding="utf-8") as gt_file:
    with ThreadPoolExecutor() as executor:  # 병렬 처리를 위한 ThreadPoolExecutor 사용
        for result in executor.map(process_json_file, json_files):
            if result:  # 결과가 None이 아닌 경우에만 기록
                gt_file.write(result)
