In [1]:
import os
import json
from datasets import Dataset, DatasetDict
import glob

### Load dataset

In [3]:
top_folder_path = './data/ko-coulpe-chat'
subfolders = [f.path for f in os.scandir(top_folder_path) if f.is_dir()]

### Preprocess
- Extract utterances only
- Convert to DatasetDict

In [4]:
json_path_list = []

train_data = {
    'id': [],
    'conversations': []
}

for subfolder in subfolders:    
    json_files = glob.glob(os.path.join(subfolder, '*.json'))
    json_path_list.extend(json_files)

for json_path in json_path_list:
    with open(json_path, 'r') as file:
        data = json.load(file)

        id = data['info']['id']
        utterances = data['utterances']
        utterances_filtered = [{'role': utter['role'], 'text': utter['text']} for utter in utterances]
        data = {'id': id, 'conversations': utterances_filtered}

        train_data['id'].append(data['id'])
        train_data['conversations'].append(data['conversations'])
        
train_dataset = Dataset.from_dict(train_data)
dataset = DatasetDict({
    'train': train_dataset
})

In [5]:
dataset

DatasetDict({
    train: Dataset({
        features: ['id', 'conversations'],
        num_rows: 4100
    })
})

### Sample

In [11]:
dataset['train']['conversations'][0]

[{'role': 'speaker',
  'text': '자기야, 자기가 예쁘다고 한 헤어스타일 말이야. 역시나 가족들은 내 머리 스타일이 바뀐 걸 모르네.'},
 {'role': 'listener', 'text': '뭐라고? 긴 생머리를 단발로 자르고 파마까지 했는데 어떻게 모른다는 거야?'},
 {'role': 'speaker',
  'text': '내가 말했잖아. 우리 가족은 나한테 관심이 없다고. 그래도 내 말이 맞는 거에 이렇게 상처받을 줄이야.'},
 {'role': 'listener', 'text': '자기야, 듣는 내 마음이 너무 아프다. 얼마나 상처가 클지 상상도 못 하겠어.'},
 {'role': 'speaker',
  'text': '내 쌍둥이 언니한테만 모든 관심이 기울어져 있어. 내가 집에 들어왔는지 나갔는지도 모를 거야.'},
 {'role': 'listener',
  'text': '그렇게까지 생각하지 마. 자기가 너무 상처받은 건 알겠는데 그렇게 깊게 생각하면 자기 마음이 더 아플 거야.'},
 {'role': 'speaker', 'text': '하지만 사실인걸. 이렇게 머리 스타일이 극적으로 바뀌어도 모르는 것 봐.'},
 {'role': 'listener',
  'text': '자기야, 그냥 이렇게 있을 게 아니라 머리 스타일을 바꿨다고 말해보는 게 어떨까? 가족들이 알 때까지 기다리는 게 아니라 먼저 말해보는 거야.'},
 {'role': 'speaker',
  'text': '그렇게 엎드려 절 받는 것처럼 알리라는 말이야? 그렇게까지 해야 하는 게 더 상처 같은데?'},
 {'role': 'listener',
  'text': '사람이 익숙해진 태도를 바꾸는 게 어려울 수가 있어. 이대로 투명인간 취급을 당하기보다는 적극적으로 자기의 존재를 어필하는 게 좋을 거라 생각해. 상처를 받았다는 것도 알리고 말이야.'},
 {'role': 'speaker', 'text': '그러면 뭔가 달라질까?'},
 {'role': 'liste

### Save as .json

In [None]:
with open(train_data, 'w', encoding='utf-8') as train_dict:
    json.dump('ko-couple-chat.json', train_dict, ensure_ascii=False, indent=4)