# handwrite csv 파일이 필요한 경우 json에서 따로 추출

In [1]:
import json
import pandas as pd

# JSON 파일 경로
json_file_path = "audio_features.json"  # 실제 JSON 파일 경로로 변경
output_csv_path = "audio_features_notes.csv"  # 출력 CSV 파일 경로

# JSON 파일 읽기
with open(json_file_path, 'r', encoding='utf-8') as f:
    data = json.load(f)

# JSON 데이터에서 file_path와 note 필드만 추출
audio_features = data.get("audio_features", [])
df = pd.DataFrame(audio_features)[["file_path", "note"]]

# CSV 파일로 저장
df.to_csv(output_csv_path, index=False)

print(f"CSV 파일이 생성되었습니다: {output_csv_path}")


CSV 파일이 생성되었습니다: audio_features_notes.csv


# pair data

In [25]:
import os
import json
import pandas as pd

# JSON 및 CSV 파일 경로 설정
json_file_path = "audio_features.json"
output_csv_path = "audio_pair_notes.csv"

def find_matching_normal_file(anomaly_path, normal_paths):
    """
    이상 파일에 대해 매칭되는 정상 파일을 찾는 함수.

    Args:
        anomaly_path (str): 이상 파일 경로.
        normal_paths (list): 정상 파일 경로 목록.

    Returns:
        str: 매칭된 정상 파일 경로 (없으면 None).
    """
    # 이상 파일 정보 추출
    anomaly_dir = os.path.dirname(anomaly_path)
    anomaly_filename = os.path.basename(anomaly_path)
    anomaly_number = anomaly_filename.split("_")[5]  # 파일 번호 추출
    anomaly_source_target = "source" if "source" in anomaly_filename else "target"  # source/target 확인

    # 같은 디렉토리 내에서 정상 파일 매칭
    for normal_path in normal_paths:
        normal_dir = os.path.dirname(normal_path)
        normal_filename = os.path.basename(normal_path)
        normal_number = normal_filename.split("_")[5]  # 파일 번호 추출
        normal_source_target = "source" if "source" in normal_filename else "target"  # source/target 확인

        # 같은 디렉토리, 같은 파일 번호, 같은 source/target 조건
        if (anomaly_dir == normal_dir and
            anomaly_number == normal_number and
            anomaly_source_target == normal_source_target):
            return normal_path

    print(f"No matching normal file found for: {anomaly_path}")
    return None

def create_audio_pair_csv(json_file_path, output_csv_path):
    """
    JSON 데이터를 읽어 이상/정상 페어를 CSV로 저장.

    Args:
        json_file_path (str): JSON 파일 경로.
        output_csv_path (str): 저장할 CSV 파일 경로.
    """
    # JSON 데이터 로드
    with open(json_file_path, 'r', encoding='utf-8') as f:
        audio_features_data = json.load(f)

    # normal, anomaly 파일 분류
    normal_files = []
    anomaly_files = []
    notes = {}

    for feature in audio_features_data["audio_features"]:
        file_path = feature["file_path"]
        note = feature["note"]
        notes[file_path] = note

        # 경로에 따라 anomaly/normal 분류
        if "anomaly" in os.path.basename(file_path).lower():
            anomaly_files.append(file_path)
        else:
            normal_files.append(file_path)

    # 페어 찾기
    pair_data = []
    for anomaly_file in anomaly_files:
        matching_normal_file = find_matching_normal_file(anomaly_file, normal_files)
        if matching_normal_file:
            pair_data.append({
                "normal_file_path": matching_normal_file,
                "anomaly_file_path": anomaly_file,
                "normal_note": notes.get(matching_normal_file, ""),
                "anomaly_note": notes.get(anomaly_file, "")
            })

    # 데이터프레임 생성 및 정렬
    pair_df = pd.DataFrame(pair_data)
    pair_df["machine_type"] = pair_df["normal_file_path"].apply(lambda x: x.split("/")[3])  # machine_type 추출
    pair_df["file_number"] = pair_df["normal_file_path"].apply(lambda x: os.path.basename(x).split("_")[5])  # 번호 추출
    pair_df.sort_values(by=["machine_type", "file_number"], inplace=True)
    pair_df.drop(columns=["machine_type", "file_number"], inplace=True)

    # CSV 저장
    pair_df.to_csv(output_csv_path, index=False, encoding="utf-8")
    print(f"페어 데이터가 CSV로 저장되었습니다: {output_csv_path}")

# 실행
if __name__ == "__main__":
    create_audio_pair_csv(json_file_path, output_csv_path)


페어 데이터가 CSV로 저장되었습니다: audio_pair_notes.csv
