## 1개의 파일만 Test

In [1]:
import json
import pandas as pd

# JSON 파일 읽기
with open('ckmk_d_ard_f_e_14751.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# 필요한 데이터 추출
info = data['dataSet']['info']
question = data['dataSet']['question']['raw']
answer = data['dataSet']['answer']['raw']
question_emotion = data['dataSet']['question']['emotion']
question_intent = data['dataSet']['question']['intent']
answer_emotion = data['dataSet']['answer']['emotion']
answer_intent = data['dataSet']['answer']['intent']

# 추출한 데이터를 데이터프레임으로 변환
df = pd.DataFrame({
    'occupation': [info['occupation']],
    'gender': [info['gender']],
    'ageRange': [info['ageRange']],
    'experience': [info['experience']],
    'question_text': [question['text']],
    'question_wordCount': [question['wordCount']],
    'question_emotion': [question_emotion],
    'question_intent': [question_intent],
    'answer_text': [answer['text']],
    'answer_wordCount': [answer['wordCount']],
    'answer_emotion': [answer_emotion],
    'answer_intent': [answer_intent]
})

# CSV 파일로 저장
df.to_csv('./extracted_data.csv', index=False, encoding='utf-8-sig')

print("CSV 파일 저장 완료!")


CSV 파일 저장 완료!


## DF->CSV 1차 도전

In [11]:
import os
import json
import pandas as pd

# JSON 파일들이 있는 경로
json_dir = './Validation/02.라벨링데이터/'

# 감정 및 의도 데이터가 리스트일 경우 문자열로 변환
def convert_list_to_str(data_list):
    return ', '.join([str(item) for item in data_list])

# JSON 파일에서 데이터 추출하는 함수
def extract_data_from_json(json_file, wav_path):
    with open(json_file, 'r', encoding='utf-8') as f:
        data = json.load(f)

    # 필요한 데이터 추출
    info = data['dataSet']['info']
    question_raw = data['dataSet']['question']['raw']
    question_emotion = data['dataSet']['question']['emotion']
    question_intent = data['dataSet']['question']['intent']
    answer_raw = data['dataSet']['answer']['raw']
    answer_emotion = data['dataSet']['answer']['emotion']
    answer_intent = data['dataSet']['answer']['intent']
    answer_summary = data['dataSet']['answer']['summary']
    

    # 데이터프레임에 넣을 하나의 데이터셋 반환
    return {
        'date': info.get('date', ''),
        'occupation': info.get('occupation', ''),
        'channel': info.get('channel', ''),
        'place': info.get('place', ''),
        'gender': info.get('gender', ''),
        'ageRange': info.get('ageRange', ''),
        'experience': info.get('experience', ''),
        'question_text': question_raw.get('text', ''),
        'question_wordCount': question_raw.get('wordCount', 0),
        'question_emotion': convert_list_to_str(question_emotion),
        'question_intent': convert_list_to_str(question_intent),
        'answer_text': answer_raw.get('text', ''),
        'answer_wordCount': answer_raw.get('wordCount', 0),
        'answer_emotion': convert_list_to_str(answer_emotion),
        'answer_intent': convert_list_to_str(answer_intent),
        'answer_summary_text': answer_summary.get('text', ''),
        'answer_summary_wordCount': answer_summary.get('wordCount', 0),
        'wav_path' : wav_path+'.wav'
    }

# 모든 JSON 파일 처리 후 하나의 데이터프레임으로 결합
all_data = []

# 해당 경로 내 모든 JSON 파일에 대해 처리
for root, dirs, files in os.walk(json_dir):
    for file in files:
        if file.endswith('.json'):
            json_path = os.path.join(root, file)
            print(json_path)
            wav_path = json_path.split('/')[-1].split('.')[0]
            print(wav_path)
            data = extract_data_from_json(json_path,wav_path)
            all_data.append(data)

# 추출한 모든 데이터를 데이터프레임으로 변환
df = pd.DataFrame(all_data)

# CSV 파일로 저장
df.to_csv('merged_interview_data.csv', index=False, encoding='utf-8-sig')

print("모든 JSON 파일에서 데이터를 추출해 하나의 CSV로 저장 완료!")


./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14751.json
ckmk_d_ard_f_e_14751
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14752.json
ckmk_d_ard_f_e_14752
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14753.json
ckmk_d_ard_f_e_14753
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14754.json
ckmk_d_ard_f_e_14754
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14755.json
ckmk_d_ard_f_e_14755
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14756.json
ckmk_d_ard_f_e_14756
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14757.json
ckmk_d_ard_f_e_14757
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14777.json
ckmk_d_ard_f_e_14777
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14778.json
ckmk_d_ard_f_e_14778
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14779.json
ckmk_d_ard_f_e_14779
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14780.json
ckmk_d_ard_f_e_14780
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14781.json
ckmk_d_ard_f_e_14781
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14785.json
ckmk_d_ard_f_e_14785
./Validation/02.라벨링데이터/ckmk_d_ard_f_e_14786.json
ckmk_d_ard_f_e_14786
./Validation/02.라벨링데

JSONDecodeError: Invalid control character at: line 34 column 165 (char 1573)

## 제어문자 제거 VER - 최종

In [13]:
#제어문자 제거 ver
import os
import json
import pandas as pd
import re

# JSON 파일들이 있는 경로
json_dir = './Training/02.라벨링데이터/'

# 감정 및 의도 데이터가 리스트일 경우 문자열로 변환
def convert_list_to_str(data_list):
    return ', '.join([str(item) for item in data_list])

# JSON 파일에서 데이터 추출하는 함수
def extract_data_from_json(json_file, wav_path):
    with open(json_file, 'r', encoding='utf-8') as f:
        # 파일 내용에서 제어 문자 제거
        file_content = f.read()
        # 제어 문자를 제거하거나 정규화
        file_content = re.sub(r'[\x00-\x1f\x7f]', '', file_content)
        
        try:
            data = json.loads(file_content)  # 제어 문자 제거 후 JSON 파싱
        except json.JSONDecodeError as e:
            print(f"JSONDecodeError in {json_file}: {e}")
            return None

    # 필요한 데이터 추출
    info = data['dataSet']['info']
    question_raw = data['dataSet']['question']['raw']
    question_emotion = data['dataSet']['question']['emotion']
    question_intent = data['dataSet']['question']['intent']
    answer_raw = data['dataSet']['answer']['raw']
    answer_emotion = data['dataSet']['answer']['emotion']
    answer_intent = data['dataSet']['answer']['intent']
    answer_summary = data['dataSet']['answer']['summary']
    # 데이터프레임에 넣을 하나의 데이터셋 반환
    return {
        'date': info.get('date', ''),
        'occupation': info.get('occupation', ''),
        'channel': info.get('channel', ''),
        'place': info.get('place', ''),
        'gender': info.get('gender', ''),
        'ageRange': info.get('ageRange', ''),
        'experience': info.get('experience', ''),
        'question_text': question_raw.get('text', ''),
        'question_wordCount': question_raw.get('wordCount', 0),
        'question_emotion': convert_list_to_str(question_emotion),
        'question_intent': convert_list_to_str(question_intent),
        'answer_text': answer_raw.get('text', ''),
        'answer_wordCount': answer_raw.get('wordCount', 0),
        'answer_emotion': convert_list_to_str(answer_emotion),
        'answer_intent': convert_list_to_str(answer_intent),
        'answer_summary_text': answer_summary.get('text', ''),
        'answer_summary_wordCount': answer_summary.get('wordCount', 0),
        'wav_path' : wav_path+'.wav'
    }

# 모든 JSON 파일 처리 후 하나의 데이터프레임으로 결합
all_data = []

# 해당 경로 내 모든 JSON 파일에 대해 처리
for root, dirs, files in os.walk(json_dir):
    for file in files:
        if file.endswith('.json'):
            json_path = os.path.join(root, file)
            wav_path = json_path.split('/')[-1].split('.')[0]
            print(f"Processing: {json_path}")
            data = extract_data_from_json(json_path, wav_path)
            if data:
                all_data.append(data)

# 추출한 모든 데이터를 데이터프레임으로 변환
df = pd.DataFrame(all_data)

# CSV 파일로 저장
df.to_csv('Training_interview_text_data.csv', index=False, encoding='utf-8-sig')

print("모든 JSON 파일에서 데이터를 추출해 하나의 CSV로 저장 완료!")


Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_101874.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_101875.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_101877.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_101878.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_101879.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_101881.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_101882.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_102313.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_102314.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_102316.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_102318.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_102319.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_102320.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_102321.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_102322.json
Processing: ./Training/02.라벨링데이터/ckmk_d_ard_f_e_108133.json
Processing: ./Training/02.라벨링데이터/ckmk_d_