## 2. JSON 데이터 라벨 누락 검사

In [1]:
import os
import json

data_dir = "/home/ubuntu/data"
missing_labels = []
valid_json_count = 0  # 라벨이 누락되지 않은 JSON 파일 개수를 세기 위한 변수

def check_nested_keys(data, required_keys, parent_key=''):
    missing_keys = []
    for key, sub_keys in required_keys.items():
        if isinstance(sub_keys, dict):  # Nested dictionary
            if key in data and isinstance(data[key], dict):
                missing_keys.extend(check_nested_keys(data[key], sub_keys, f"{parent_key}{key}."))
            else:
                missing_keys.append(f"{parent_key}{key}")
        else:
            if key not in data or not data[key]:
                missing_keys.append(f"{parent_key}{key}")
    return missing_keys

# JSON 파일 검사
for root, _, files in os.walk(data_dir):
    for file in files:
        if file.endswith(".json"):
            file_path = os.path.join(root, file)

            try:
                with open(file_path, "r", encoding="utf-8") as f:
                    data = json.load(f)

                    # 필요한 최하위 키들을 정의
                    required_keys = {
                        "info": {
                            "description": None,
                            "uri": None,
                            "version": None,
                            "year": None,
                            "contributor": None,
                            "dateCreated": None
                        },
                        "license": {
                            "url": None,
                            "name": None
                        },
                        "audio": {
                            "fileName": None,
                            "fileSize": None,
                            "duration": None,
                            "fileFormat": None,
                            "sampleRate": None,
                            "bitRate": None,
                            "recodingType": None
                        },
                        "environment": {
                            "recordingTime": None,
                            "dayNight": None,
                            "urban": None,
                            "district": None,
                            "place": None,
                            "areaUse": None,
                            "weather": None,
                            "direction": None,
                            "distance": None,
                            "obstacle": None,
                            "acqMethod": None,
                            "acqType": None,
                            "acqDevice": None,
                            "micClass": None,
                            "gps": {
                                "latitude": None,
                                "longitude": None
                            }
                        },
                        "annotations": [{
                            "labelName": None,
                            "categories": {
                                "category_01": None,
                                "category_02": None,
                                "category_03": None
                            },
                            "subCategory": None,
                            "soundQuality": None,
                            "decibel": None
                        }]
                    }

                    missing_keys = check_nested_keys(data, required_keys)
                    
                    if missing_keys:
                        missing_labels.append(f"{file_path} - 누락된 키: {', '.join(missing_keys)}")
                    else:
                        valid_json_count += 1  # 유효한 JSON 파일 개수 증가

            except Exception as e:
                print(f"❌ {file_path} 파일을 읽을 수 없음: {e}")

# 결과 출력
print(f"⚠️ 라벨이 누락된 JSON 파일 개수: {len(missing_labels)}")
print(f"✅ 라벨이 누락되지 않은 JSON 파일 개수: {valid_json_count}")
if missing_labels:
    print("\n📂 라벨이 누락된 파일 목록 (일부):")
    for file in missing_labels[:10]:  # 최대 10개만 출력
        print(file)
else:
    print("✅ 모든 JSON 파일에 라벨이 정상적으로 있음!")

⚠️ 라벨이 누락된 JSON 파일 개수: 0
✅ 라벨이 누락되지 않은 JSON 파일 개수: 18048
✅ 모든 JSON 파일에 라벨이 정상적으로 있음!
