### 중국어 mislabel 수정 (좌표 순서 -- 좌상단 우상단 우하단 좌하단)

In [None]:
import json
import numpy as np

# JSON 파일 경로
json_path = '/data/ephemeral/code/data/chinese_receipt/ufo/train.json'

# JSON 파일 읽기
with open(json_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

def correct_points(points):
    # points를 NumPy 배열로 변환
    points = np.array(points)

    left_points = points[np.argsort(points[:, 0])][:2]
    right_points = points[np.argsort(points[:, 0])][-2:]

    # 좌측 점들 중 y 값이 작은 점이 좌상단, 큰 점이 좌하단
    top_left = left_points[np.argmin(left_points[:, 1])]
    bottom_left = left_points[np.argmax(left_points[:, 1])]

    # 우측 점들 중 y 값이 작은 점이 우상단, 큰 점이 우하단
    top_right = right_points[np.argmin(right_points[:, 1])]
    bottom_right = right_points[np.argmax(right_points[:, 1])]

    # 올바른 순서로 재배치
    corrected_points = [top_left.tolist(), top_right.tolist(), bottom_right.tolist(), bottom_left.tolist()]
    
    return corrected_points

# 레이블 순서 확인 및 수정
for image_id, image_info in data.get('images', {}).items():
    for word_id, word_info in image_info.get('words', {}).items():
        original_points = word_info['points']
        corrected_points = correct_points(original_points)
        
        # 원래 점과 수정된 점을 비교하여 변경사항이 있는지 확인
        if not np.array_equal(np.array(original_points), np.array(corrected_points)):
            print(f"Correcting points for image: {image_id}, word: {word_id}")
            word_info['points'] = corrected_points

# 수정된 JSON 파일 저장
corrected_json_path = '/data/ephemeral/code/data/chinese_receipt/ufo/train_corrected.json'
with open(corrected_json_path, 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

print(f"Corrected JSON saved to: {corrected_json_path}")


### 일본어

In [None]:
import json
import numpy as np

# JSON 파일 경로
json_path = '/data/ephemeral/code/data/japanese_receipt/ufo/train.json'

# JSON 파일 읽기
with open(json_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

def correct_points(points):
    # points를 NumPy 배열로 변환
    points = np.array(points)

    left_points = points[np.argsort(points[:, 0])][:2]
    right_points = points[np.argsort(points[:, 0])][-2:]

    # 좌측 점들 중 y 값이 작은 점이 좌상단, 큰 점이 좌하단
    top_left = left_points[np.argmin(left_points[:, 1])]
    bottom_left = left_points[np.argmax(left_points[:, 1])]

    # 우측 점들 중 y 값이 작은 점이 우상단, 큰 점이 우하단
    top_right = right_points[np.argmin(right_points[:, 1])]
    bottom_right = right_points[np.argmax(right_points[:, 1])]

    # 올바른 순서로 재배치
    corrected_points = [top_left.tolist(), top_right.tolist(), bottom_right.tolist(), bottom_left.tolist()]
    
    return corrected_points

# 레이블 순서 확인 및 수정
for image_id, image_info in data.get('images', {}).items():
    for word_id, word_info in image_info.get('words', {}).items():
        original_points = word_info['points']
        corrected_points = correct_points(original_points)
        
        # 원래 점과 수정된 점을 비교하여 변경사항이 있는지 확인
        if not np.array_equal(np.array(original_points), np.array(corrected_points)):
            print(f"Correcting points for image: {image_id}, word: {word_id}")
            word_info['points'] = corrected_points

# 수정된 JSON 파일 저장
corrected_json_path = '/data/ephemeral/code/data/japanese_receipt/ufo/train_corrected.json'
with open(corrected_json_path, 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

print(f"Corrected JSON saved to: {corrected_json_path}")


### 태국어

In [None]:
import json
import numpy as np

# JSON 파일 경로
json_path = '/data/ephemeral/code/data/thai_receipt/ufo/train.json'

# JSON 파일 읽기
with open(json_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

def correct_points(points):
    # points를 NumPy 배열로 변환
    points = np.array(points)

    left_points = points[np.argsort(points[:, 0])][:2]
    right_points = points[np.argsort(points[:, 0])][-2:]

    # 좌측 점들 중 y 값이 작은 점이 좌상단, 큰 점이 좌하단
    top_left = left_points[np.argmin(left_points[:, 1])]
    bottom_left = left_points[np.argmax(left_points[:, 1])]

    # 우측 점들 중 y 값이 작은 점이 우상단, 큰 점이 우하단
    top_right = right_points[np.argmin(right_points[:, 1])]
    bottom_right = right_points[np.argmax(right_points[:, 1])]

    # 올바른 순서로 재배치
    corrected_points = [top_left.tolist(), top_right.tolist(), bottom_right.tolist(), bottom_left.tolist()]
    
    return corrected_points

# 레이블 순서 확인 및 수정
for image_id, image_info in data.get('images', {}).items():
    for word_id, word_info in image_info.get('words', {}).items():
        original_points = word_info['points']
        corrected_points = correct_points(original_points)
        
        # 원래 점과 수정된 점을 비교하여 변경사항이 있는지 확인
        if not np.array_equal(np.array(original_points), np.array(corrected_points)):
            print(f"Correcting points for image: {image_id}, word: {word_id}")
            word_info['points'] = corrected_points

# 수정된 JSON 파일 저장
corrected_json_path = '/data/ephemeral/code/data/thai_receipt/ufo/train_corrected.json'
with open(corrected_json_path, 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

print(f"Corrected JSON saved to: {corrected_json_path}")


### 베트남어

In [None]:
import json
import numpy as np

# JSON 파일 경로
json_path = '/data/ephemeral/code/data/vietnamese_receipt/ufo/train.json'

# JSON 파일 읽기
with open(json_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

def correct_points(points):
    # points를 NumPy 배열로 변환
    points = np.array(points)

    left_points = points[np.argsort(points[:, 0])][:2]
    right_points = points[np.argsort(points[:, 0])][-2:]

    # 좌측 점들 중 y 값이 작은 점이 좌상단, 큰 점이 좌하단
    top_left = left_points[np.argmin(left_points[:, 1])]
    bottom_left = left_points[np.argmax(left_points[:, 1])]

    # 우측 점들 중 y 값이 작은 점이 우상단, 큰 점이 우하단
    top_right = right_points[np.argmin(right_points[:, 1])]
    bottom_right = right_points[np.argmax(right_points[:, 1])]

    # 올바른 순서로 재배치
    corrected_points = [top_left.tolist(), top_right.tolist(), bottom_right.tolist(), bottom_left.tolist()]
    
    return corrected_points

# 레이블 순서 확인 및 수정
for image_id, image_info in data.get('images', {}).items():
    for word_id, word_info in image_info.get('words', {}).items():
        original_points = word_info['points']
        corrected_points = correct_points(original_points)
        
        # 원래 점과 수정된 점을 비교하여 변경사항이 있는지 확인
        if not np.array_equal(np.array(original_points), np.array(corrected_points)):
            print(f"Correcting points for image: {image_id}, word: {word_id}")
            word_info['points'] = corrected_points

# 수정된 JSON 파일 저장
corrected_json_path = '/data/ephemeral/code/data/vietnamese_receipt/ufo/train_corrected.json'
with open(corrected_json_path, 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

print(f"Corrected JSON saved to: {corrected_json_path}")


### lines label 없애기.

In [None]:
import json

# JSON 파일 경로 설정
input_json_path = '/data/ephemeral/code/data/japanese_receipt/ufo/train_corrected.json'  # 원본 JSON 파일 경로
output_json_path = '/data/ephemeral/code/data/japanese_receipt/ufo/train_corrected_v2.json'  # 수정된 JSON 파일 경로

# JSON 파일 읽기
with open(input_json_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

# transcription이 빈 문자열인 words 삭제
for image_key, image_value in data['images'].items():
    if 'words' in image_value:
        words_to_delete = [word_key for word_key, word_info in image_value['words'].items() 
                           if 'transcription' in word_info and word_info['transcription'] == "" or word_info['transcription'] == "----------"]
        
        # 찾은 키들을 삭제
        for word_key in words_to_delete:
            del image_value['words'][word_key]

# 수정된 JSON 파일 저장
with open(output_json_path, 'w', encoding='utf-8') as f:
    json.dump(data, f, ensure_ascii=False, indent=4)

print(f"transcription이 빈 문자열인 words가 삭제된 JSON 파일이 {output_json_path}에 저장되었습니다.")
