In [1]:
# JSON 내 “06_transcription” 키 값 목록 확인 코드

import os
import json
from collections import defaultdict

# JSON 데이터 경로
data_dirs = [
    "/data/seungmin/training/labels/eng/arch/",
    "/data/seungmin/training/labels/eng/comp/",
    "/data/seungmin/training/labels/eng/elec/"
    "/data/seungmin/validation/labels/eng/arch/"
    "/data/seungmin/validation/labels/eng/comp/"
    "/data/seungmin/validation/labels/eng/elec/"
]

# "06_transcription" 내부 키 목록 저장
transcription_keys = defaultdict(int)

# JSON 파일 목록 가져오기
json_files = []
for data_dir in data_dirs:
    for root, _, files in os.walk(data_dir):
        for file in files:
            if file.endswith(".json") and not file.startswith("._"):
                json_files.append(os.path.join(root, file))

# JSON 파일 검사
for json_file in json_files:
    try:
        with open(json_file, "r", encoding="utf-8") as f:
            data = json.load(f)

        # "06_transcription" 키 값 확인
        if "06_transcription" in data:
            for key in data["06_transcription"].keys():
                transcription_keys[key] += 1

    except Exception as e:
        print(f"@@@@@@ 오류 발생: {json_file} (오류: {e})")

# 결과 출력
print("'06_transcription' 내부 키 개수:")
for key, count in transcription_keys.items():
    print(f"- {key}: {count}개 파일에 존재")

🔍 '06_transcription' 내부 키 개수:
- 1_text: 182304개 파일에 존재
- 2_entity: 10936개 파일에 존재


In [None]:
# “2_entity” 예시 데이터 확인 코드

import os
import json

# JSON 데이터 경로
data_dirs = [
    "/data/seungmin/training/labels/eng/arch/",
    "/data/seungmin/training/labels/eng/comp/",
    "/data/seungmin/training/labels/eng/elec/"
    "/data/seungmin/validation/labels/eng/arch/"
    "/data/seungmin/validation/labels/eng/comp/"
    "/data/seungmin/validation/labels/eng/elec/"
]

# "2_entity" 포함된 샘플 확인
entity_samples = []

# JSON 파일 검사
for data_dir in data_dirs:
    for root, _, files in os.walk(data_dir):
        for file in files:
            if file.endswith(".json") and not file.startswith("._"):
                json_path = os.path.join(root, file)
                
                try:
                    with open(json_path, "r", encoding="utf-8") as f:
                        data = json.load(f)

                    # "06_transcription" 안에 "2_entity"가 포함된 경우 확인
                    if "06_transcription" in data and "2_entity" in data["06_transcription"]:
                        entity_samples.append(data["06_transcription"]["2_entity"])

                        # 5개만 확인하면 충분하므로 break
                        if len(entity_samples) >= 5:
                            break

                except Exception as e:
                    print(f"@@@@@@@2 오류 발생: {json_path} (오류: {e})")

# 결과 출력
print(" '2_entity' 샘플 데이터:")
for i, sample in enumerate(entity_samples, 1):
    print(f"[샘플 {i}] {sample}")
    

🔍 '2_entity' 샘플 데이터:
[샘플 1] [{'1_word': 'Thomas', '2_desc': '독일의 표현주의 작가인 &lt;FL&gt;요스트&lt;/FL&gt;(Johst, H.)의 희곡. 영국 식민지의 자유 해방을 외치는 고수(鼓手)의 생애를 극적으로 묘사한 작품이다. ⇒규범 표기는 미확정이다.'}]
[샘플 2] [{'1_word': '정압', '2_desc': '유체의 흐름과 평행인 면에 수직으로 작용하는 압력.'}]
[샘플 3] [{'1_word': '양력', '2_desc': '유체 속을 운동하는 물체에 운동 방향과 수직 방향으로 작용하는 힘. 비행기는 날개에서 생기는 이 힘에 의하여 공중을 날 수 있다.'}]
[샘플 4] [{'1_word': '정압', '2_desc': '유체의 흐름과 평행인 면에 수직으로 작용하는 압력.'}, {'1_word': '동압', '2_desc': '흐르고 있는 물체가 나타내는 총압 가운데 흐름의 속도에 관계되는 부분의 압력. 흐르는 유체의 밀도를 p, 속도를 v로 할 때, 그 크기는 1/2pv<sup>2</sup>이다.'}]
[샘플 5] [{'1_word': '동압', '2_desc': '흐르고 있는 물체가 나타내는 총압 가운데 흐름의 속도에 관계되는 부분의 압력. 흐르는 유체의 밀도를 p, 속도를 v로 할 때, 그 크기는 1/2pv<sup>2</sup>이다.'}, {'1_word': '정압', '2_desc': '유체의 흐름과 평행인 면에 수직으로 작용하는 압력.'}]
[샘플 6] [{'1_word': '포괄 수가제', '2_desc': '같은 종류의 질병에 대해서, 환자에게 제공되는 서비스의 양이나 질에 관계없이 똑같은 치료비를 부과하도록 하는 제도.'}]
[샘플 7] [{'1_word': '미분', '2_desc': '어떤 함수의 미분 계수를 구하는 일.'}]
[샘플 8] [{'1_word': '습도', '2_desc': '공기 가운데 수증기가 들어 있는 정도. 공기가 포함할 수 있는 최대 수증기의 

In [3]:
# "06_transcription"의 "1_text"에서 "2_entity" 데이터를 찾아 (어금부호)로 감싸기 - 이 코드를 실행하면 "06_transcription"의 "1_text"에서 "2_entity"의 "1_word"에 해당하는 단어를 자동으로 (어금부호)로 감싸는 전처리가 진행됨
'''
왜 하느냐?
- 주요 개체들은 전문 용어(수학, 과학, 공학, 프로그래밍 등) 및 일반적인 개념어로 구성됨
- “06_transcription”의 전사 데이터에서 해당 용어가 등장할 가능성이 높음
'''
import os
import json
import re

# JSON 데이터 경로 (기존 디렉토리 유지)
data_dirs = [
    "/data/seungmin/training/labels/eng/arch/",
    "/data/seungmin/training/labels/eng/comp/",
    "/data/seungmin/training/labels/eng/elec/",
    "/data/seungmin/validation/labels/eng/arch/",
    "/data/seungmin/validation/labels/eng/comp/",
    "/data/seungmin/validation/labels/eng/elec/"
]

def apply_entity_tagging(text, entities):
    """
    주어진 텍스트에서 "2_entity" 정보에 해당하는 단어를 `(어금부호)`로 감싸 태깅.
    이미 태깅된 단어가 있는 경우 중복 태깅 방지.
    
    :param text: 원본 텍스트
    :param entities: "2_entity" 리스트 (각 개체의 '1_word' 포함)
    :return: 태깅된 텍스트
    """
    if not entities:
        return text  # entity가 없는 경우 원본 유지

    for entity in entities:
        word = entity["1_word"]
        
        # 이미 `(어금부호)`가 있는 경우 건너뛰기
        if re.search(rf"`{re.escape(word)}`", text):  
            continue
        
        # 태깅 적용
        text = text.replace(word, f"`{word}`")  

    return text

# JSON 파일 처리 (기존 위치에서 업데이트)
for data_dir in data_dirs:
    for root, _, files in os.walk(data_dir):
        for file in files:
            if file.endswith(".json") and not file.startswith("._"):
                json_path = os.path.join(root, file)
                
                try:
                    with open(json_path, "r", encoding="utf-8") as f:
                        data = json.load(f)

                    # "06_transcription" 안에 "1_text"와 "2_entity"가 존재하면 태깅 적용
                    if "06_transcription" in data and "1_text" in data["06_transcription"]:
                        text = data["06_transcription"]["1_text"]
                        entities = data["06_transcription"].get("2_entity", [])

                        # 개체명 태깅 적용
                        processed_text = apply_entity_tagging(text, entities)

                        # 변환된 텍스트 적용
                        data["06_transcription"]["1_text"] = processed_text

                        # 기존 경로에 덮어쓰기 (업데이트)
                        with open(json_path, "w", encoding="utf-8") as f:
                            json.dump(data, f, ensure_ascii=False, indent=4)

                except Exception as e:
                    print(f"@@ 오류 발생: {json_path} (오류: {e})")

print(" @@@기존 JSON 파일 업데이트 완료! (중복 태깅 방지 적용)")

 @@@기존 JSON 파일 업데이트 완료! (중복 태깅 방지 적용)


In [4]:
# 샘플 확인

import random


# 샘플 확인할 JSON 파일 목록 가져오기
sample_files = []
for data_dir in data_dirs:
    for root, _, files in os.walk(data_dir):
        json_files = [os.path.join(root, f) for f in files if f.endswith(".json") and not f.startswith("._")]
        sample_files.extend(json_files)

# 5개 랜덤 선택
sample_files = random.sample(sample_files, 5)

# 업데이트된 JSON 내용 확인
for file_path in sample_files:
    with open(file_path, "r", encoding="utf-8") as f:
        data = json.load(f)

    print(f"파일: {file_path}")
    print(f"개체명 태깅 적용 후: {data['06_transcription']['1_text']}")
    print("-" * 50)

파일: /data/seungmin/training/labels/eng/elec/C04036/U00231.json
개체명 태깅 적용 후: 이러한 기여분에 의한 `방사선` 축적 효과를 반영하기 위하여 인자를 축적 인자 빌드 업 팩터라고 하는데 이 인자는 차폐체의 두께 선 감수개수에 의해 결정되는 보정 인자로 실제 `방사선` 세기의 i는 빌드 업 팩터를 고려해 준 이와 같은 이와 같이 놓고 계산해 줘야 됩니다.
--------------------------------------------------
파일: /data/seungmin/training/labels/eng/elec/C02447/U00272.json
개체명 태깅 적용 후: 그래서 이러한 그 (self bag drop)/(셀프 백 드랍) 시스템이 에 굉장히 처리를 하는 그 용량을 확대해줬다라고 할 수가 있는 거죠.
--------------------------------------------------
파일: /data/seungmin/validation/labels/eng/arch/C02861/U00013.json
개체명 태깅 적용 후: 자 오늘은 이제 9주차 강의를 말씀을 드릴 텐데요.
--------------------------------------------------
파일: /data/seungmin/training/labels/eng/comp/C13052/U00081.json
개체명 태깅 적용 후: 쓰셔도 되는데 그래도 뭐 시기별로 어떤 게 더 필요 어떤 게 더 혁신적인지는 뭐 주관적인 판단이니까 그래도 제가 강의 때 설명드렸던 예제의 중심으로는 알고 계시는 게 좋을 것 같애요.
--------------------------------------------------
파일: /data/seungmin/training/labels/eng/elec/C02879/U00026.json
개체명 태깅 적용 후: 근데 과제 너무 부담 갖지 말고 그렇게 어려운 거 아니고 수업하는 거 그 날 수업했던 거

In [None]:
#  “06_transcription” 내에서 "1_text"와 "2_desc"가 함께 존재하는 JSON 파일 찾기
import os
import json
import random

# JSON 데이터 경로
data_dirs = [
    "/data/seungmin/training/labels/eng/arch/",
    "/data/seungmin/training/labels/eng/comp/",
    "/data/seungmin/training/labels/eng/elec/",
    "/data/seungmin/validation/labels/eng/arch/",
    "/data/seungmin/validation/labels/eng/comp/",
    "/data/seungmin/validation/labels/eng/elec/"
]

# "06_transcription"에서 "1_text"와 "2_2_entitydesc"가 같이 있는 파일 찾기
matching_files = []

for data_dir in data_dirs:
    for root, _, files in os.walk(data_dir):
        for file in files:
            if file.endswith(".json") and not file.startswith("._"):
                json_path = os.path.join(root, file)
                
                try:
                    with open(json_path, "r", encoding="utf-8") as f:
                        data = json.load(f)

                    # "06_transcription" 내 "1_text"와 "2_entity"가 있는 경우 찾기
                    if "06_transcription" in data and "1_text" in data["06_transcription"] and "2_entity" in data["06_transcription"]:
                        matching_files.append(json_path)

                        # 5개만 찾으면 중단
                        if len(matching_files) >= 5:
                            break

                except Exception as e:
                    print(f"@@ 오류 발생: {json_path} (오류: {e})")

# 샘플 출력
print(" '1_text'와 '2_entity'가 함께 있는 JSON 파일 샘플:")
for file_path in matching_files:
    with open(file_path, "r", encoding="utf-8") as f:
        data = json.load(f)

    print(f"\n파일: {file_path}")
    print(f"1_text: {data['06_transcription']['1_text']}")
    print(f"2_entity: {data['06_transcription']['2_entity']}")
    print("-" * 50)


🔍 '1_text'와 '2_desc'가 함께 있는 JSON 파일 샘플:
