In [2]:
import json
import pandas as pd

dataset = pd.read_json('./dataset.json') ## pd.read_json 이용
print(dataset[:10])

                                             profile  \
0  {'persona-id': 'Pro_05349', 'persona': {'perso...   
1  {'persona-id': 'Pro_05349', 'persona': {'perso...   
2  {'persona-id': 'Pro_05349', 'persona': {'perso...   
3  {'persona-id': 'Pro_05349', 'persona': {'perso...   
4  {'persona-id': 'Pro_05349', 'persona': {'perso...   
5  {'persona-id': 'Pro_05349', 'persona': {'perso...   
6  {'persona-id': 'Pro_05349', 'persona': {'perso...   
7  {'persona-id': 'Pro_05397', 'persona': {'perso...   
8  {'persona-id': 'Pro_05368', 'persona': {'perso...   
9  {'persona-id': 'Pro_05397', 'persona': {'perso...   

                                                talk  
0  {'id': {'profile-id': 'Pro_05349', 'talk-id': ...  
1  {'id': {'profile-id': 'Pro_05349', 'talk-id': ...  
2  {'id': {'profile-id': 'Pro_05349', 'talk-id': ...  
3  {'id': {'profile-id': 'Pro_05349', 'talk-id': ...  
4  {'id': {'profile-id': 'Pro_05349', 'talk-id': ...  
5  {'id': {'profile-id': 'Pro_05349', 'talk-id': ... 

In [3]:
# 코드 -> 텍스트 매핑 생성
map_age_band = {'A01': '청소년', 'A02': '청년', 'A03': '중년', 'A04': '노년'}
map_gender = {'G01': '남성', 'G02': '여성'}

# 상황 매핑
map_situation = {
    "S01": "가족관계",
    "S02": "학업 및 진로",
    "S03": "학교폭력/따돌림",
    "S04": "대인관계",
    "S05": "연애,결혼,출산",
    "S06": "진로,취업,직장",
    "S07": "대인관계(부부, 자녀)",
    "S08": "재정,은퇴,노후준비",
    "S09": "건강",
    "S10": "직장, 업무 스트레스",
    "S11": "건강,죽음",
    "S12": "대인관계(노년)",
    "S13": "재정"
}

# 질병 매핑
map_disease = {
    "D01": "만성질환 유",
    "D02": "만성질환 무"
}

# 감정 매핑
map_emotion = {
    "E10": "분노",
    "E11": "툴툴대는",
    "E12": "좌절한",
    "E13": "짜증내는",
    "E14": "방어적인",
    "E15": "악의적인",
    "E16": "안달하는",
    "E17": "구역질 나는",
    "E18": "노여워하는",
    "E19": "성가신",
    "E20": "슬픔",
    "E21": "실망한",
    "E22": "비통한",
    "E23": "후회되는",
    "E24": "우울한",
    "E25": "마비된",
    "E26": "염세적인",
    "E27": "눈물이 나는",
    "E28": "낙담한",
    "E29": "환멸을 느끼는",
    "E30": "불안",
    "E31": "두려운",
    "E32": "스트레스 받는",
    "E33": "취약한",
    "E34": "혼란스러운",
    "E35": "당혹스러운",
    "E36": "회의적인",
    "E37": "걱정스러운",
    "E38": "조심스러운",
    "E39": "초조한",
    "E40": "상처",
    "E41": "질투하는",
    "E42": "배신당한",
    "E43": "고립된",
    "E44": "충격 받은",
    "E45": "가난한, 불우한",
    "E46": "희생된",
    "E47": "억울한",
    "E48": "괴로워하는",
    "E49": "버려진",
    "E50": "당황",
    "E51": "고립된(당황한)",
    "E52": "남의 시선을 의식하는",
    "E53": "외로운",
    "E54": "열등감",
    "E55": "죄책감의",
    "E56": "부끄러운",
    "E57": "혐오스러운",
    "E58": "한심한",
    "E59": "혼란스러운(당황한)",
    "E60": "기쁨",
    "E61": "감사하는",
    "E62": "신뢰하는",
    "E63": "편안한",
    "E64": "만족스러운",
    "E65": "흥분",
    "E66": "느긋",
    "E67": "안도",
    "E68": "신이 난",
    "E69": "자신하는"
}

map_code = {
    'age_band': map_age_band,
    'gender': map_gender,
    'situation': map_situation,
    'disease': map_disease,
    'emotion': map_emotion
}

def decode(code_type, code):
     return map_code[code_type][code]

In [4]:
# 연령(profile.persona.human[0]) - [A01: 청소년, A02: 청년, A03: 중년, A04: 노년] 
# 성별(profile.persona.human[1]) - [G01: 남성, G02: 여성]

# 'human' 리스트에 'A01'이 포함된 레코드 필터링
filtered_dataset = dataset[dataset['profile'].apply(lambda x: 'A01' in x['persona']['human'])]

# 청소년 데이터 셋 크기
print(len(filtered_dataset))

10581


In [5]:
# Data Flatten
flattened_profile = pd.json_normalize(filtered_dataset['profile'])
flattened_talk = pd.json_normalize(filtered_dataset['talk'])

combine = flattened_profile.join(flattened_talk)
print(combine)

      persona-id persona.persona-id persona.human persona.computer  \
0      Pro_00183        A01_G01_C01    [A01, G01]            [C01]   
1      Pro_00183        A01_G01_C01    [A01, G01]            [C01]   
2      Pro_00183        A01_G01_C01    [A01, G01]            [C01]   
3      Pro_01869        A01_G02_C01    [A01, G02]            [C01]   
4      Pro_01869        A01_G02_C01    [A01, G02]            [C01]   
...          ...                ...           ...              ...   
10576  Pro_01665        A01_G02_C01    [A01, G02]            [C01]   
10577  Pro_00182        A01_G01_C01    [A01, G01]            [C01]   
10578  Pro_01648        A01_G02_C01    [A01, G02]            [C01]   
10579  Pro_01665        A01_G02_C01    [A01, G02]            [C01]   
10580  Pro_01650        A01_G02_C01    [A01, G02]            [C01]   

      emotion.emotion-id emotion.type emotion.situation id.profile-id  \
0            S02_D02_E12          E12        [S02, D02]     Pro_00183   
1            

In [6]:
# 데이터 분석
df = pd.DataFrame(combine)
print('남성', len(df[df['persona.human'].apply(lambda x: x[1] == 'G01')]))
print('여성', len(df[df['persona.human'].apply(lambda x: x[1] == 'G02')]))

남성 4460
여성 6121


In [7]:
# 데이터 확인
print(f"({df['emotion.type'][0]}, {decode('emotion', df['emotion.type'][0])})", df['content.HS01'][0])

df.info()

(E12, 좌절한) 음악 실기 완전 망쳤어. 나는 왜 잘하는 게 하나도 없는지 모르겠다.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10581 entries, 0 to 10580
Data columns (total 15 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   persona-id          10581 non-null  object
 1   persona.persona-id  10581 non-null  object
 2   persona.human       10581 non-null  object
 3   persona.computer    10581 non-null  object
 4   emotion.emotion-id  10581 non-null  object
 5   emotion.type        10581 non-null  object
 6   emotion.situation   10581 non-null  object
 7   id.profile-id       10581 non-null  object
 8   id.talk-id          10581 non-null  object
 9   content.HS01        10581 non-null  object
 10  content.SS01        10581 non-null  object
 11  content.HS02        10581 non-null  object
 12  content.SS02        10581 non-null  object
 13  content.HS03        10581 non-null  object
 14  content.SS03        10581 non-null  object
dtypes: object(15)
memory

In [8]:
# 감정 레이블 정수화
df['emotion_label'] = df['emotion.type'].astype('category').cat.codes
df.info()
df.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10581 entries, 0 to 10580
Data columns (total 16 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   persona-id          10581 non-null  object
 1   persona.persona-id  10581 non-null  object
 2   persona.human       10581 non-null  object
 3   persona.computer    10581 non-null  object
 4   emotion.emotion-id  10581 non-null  object
 5   emotion.type        10581 non-null  object
 6   emotion.situation   10581 non-null  object
 7   id.profile-id       10581 non-null  object
 8   id.talk-id          10581 non-null  object
 9   content.HS01        10581 non-null  object
 10  content.SS01        10581 non-null  object
 11  content.HS02        10581 non-null  object
 12  content.SS02        10581 non-null  object
 13  content.HS03        10581 non-null  object
 14  content.SS03        10581 non-null  object
 15  emotion_label       10581 non-null  int8  
dtypes: int8(1), object(15)

Unnamed: 0,persona-id,persona.persona-id,persona.human,persona.computer,emotion.emotion-id,emotion.type,emotion.situation,id.profile-id,id.talk-id,content.HS01,content.SS01,content.HS02,content.SS02,content.HS03,content.SS03,emotion_label
0,Pro_00183,A01_G01_C01,"[A01, G01]",[C01],S02_D02_E12,E12,"[S02, D02]",Pro_00183,Pro_00183_00016,음악 실기 완전 망쳤어. 나는 왜 잘하는 게 하나도 없는지 모르겠다.,음악 실기 시험을 망쳐서 기분이 안 좋으시겠어요.,보통 공부를 못하면 노래라도 잘 부르는데 나는 노래도 못 불러.,공부도 못하고 노래도 못 부르시는군요. 앞으로 음악 실기를 망치지 않으려면 어떻게 ...,노래를 연습하면 실기 성적이 좋아질까?,노래를 연습해 보려고 하시는군요.,2
1,Pro_00183,A01_G01_C01,"[A01, G01]",[C01],S02_D02_E12,E12,"[S02, D02]",Pro_00183,Pro_00183_00019,축제 때 전시할 그림을 나는 한 달 내내 준비했는데 친구는 겨우 이틀 만에 끝냈다네.,친구가 전시 그림을 이틀 만에 끝냈군요. 어떤 기분이 드셨나요?,난 왜 이렇게 느린지 좌절스러워.,느려서 좌절을 느끼셨군요. 이 기분을 어떻게 낫게 할 수 있을까요?,나는 작업을 꼼꼼하게 한다고 생각할래.,꼼꼼하게 작업하는 거라고 생각하려 하시는군요.,2
2,Pro_00183,A01_G01_C01,"[A01, G01]",[C01],S02_D02_E12,E12,"[S02, D02]",Pro_00183,Pro_00183_00010,내가 어제 종일 피아노 쳤는데도 아무리 연습해도 실력이 늘지 않아.,피아노를 아무리 연습해도 실력이 늘지 않으시는군요. 마음이 어떠신가요?,속상하고 좌절스러워. 난 아무래도 피아노에 재능이 없나 봐.,피아노에 재능이 없는 것 같아 속상하시군요. 도움을 줄 수 있는 사람이 없을까요?,피아노 선생님한테 도움을 청해 보고 싶어.,피아노 선생님께 도움을 청하려 하시는군요.,2
3,Pro_01869,A01_G02_C01,"[A01, G02]",[C01],S03_D02_E18,E18,"[S03, D02]",Pro_01869,Pro_01869_00022,반 애들이 나만 따돌려서 너무 화가 나.,친구들이 따돌려서 화가 나시는군요.,도대체 나한테 왜 이러는 걸까?,나에게 이러는 이유를 알고 싶으시군요. 이유를 알 수 있는 방법이 있을까요?,글쎄. 처음부터 날 따돌린 건 아니었는데 무슨 오해를 하고 있나?,친구들과 오해가 빨리 풀렸으면 좋겠어요.,8
4,Pro_01869,A01_G02_C01,"[A01, G02]",[C01],S03_D02_E18,E18,"[S03, D02]",Pro_01869,Pro_01869_00038,친구들이 내 말을 무시하는 게 화가 나.,친구들이 말을 무시해서 정말 화가 나겠어요.,왜 내 말을 무시한 거지?,친구들이 말을 무시하는 이유를 알고 싶으시군요. 이유를 알아낼 방법이 있을까요?,또 그러면 다음에는 직접 물어봐야겠어.,다음에는 이유를 직접 물어보려 하시는군요.,8


In [9]:
### !pip install torch
!which python

'which'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는
배치 파일이 아닙니다.


In [10]:
import torch
from torch.utils.data import Dataset

class EmotionDataset(Dataset):
    def __init__(self, data, tokenizer, max_len):
        self.data = data
        self.tokenizer = tokenizer
        self.max_len = max_len

    def __len__(self):
        return len(self.data)

    def __getitem__(self, index):
        row = self.data.iloc[index]
        text = f"""{row['content.HS01']}
{row['content.HS02']}
{row['content.HS03']}"""
        label = row['emotion_label']

        encoding = self.tokenizer(
            text,
            add_special_tokens=True,
            max_length=self.max_len,
            padding='max_length',
            truncation=True,
            return_tensors="pt"
        )

        return {
            'input_ids': encoding['input_ids'].squeeze(0),
            'attention_mask': encoding['attention_mask'].squeeze(0),
            'label': torch.tensor(label, dtype=torch.long)
        }

In [14]:
# 학습 준비
import torch
from torch.utils.data import Dataset, DataLoader
from transformers import BertTokenizer, BertForSequenceClassification
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# 데이터 분할
data_train, data_val = train_test_split(data, test_size=0.2, random_state=42)

# 2. KoBERT 모델 및 토크나이저 로드
MODEL_NAME = "skt/kobert-base-v1"
tokenizer = BertTokenizer.from_pretrained(MODEL_NAME)

MAX_LEN = 128
train_dataset = EmotionDataset(data_train, tokenizer, MAX_LEN)
val_dataset = EmotionDataset(data_val, tokenizer, MAX_LEN)

train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=16)

# 3. 모델 초기화
model = BertForSequenceClassification.from_pretrained(MODEL_NAME, num_labels=data['emotion_label'].nunique())
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# 4. 손실 함수 및 옵티마이저 설정
optimizer = torch.optim.AdamW(model.parameters(), lr=2e-5)
criterion = torch.nn.CrossEntropyLoss()

NameError: name 'data' is not defined

In [27]:

filtered = df[df['profile.persona.human'] == 'A01']

KeyError: 'persona'

Unnamed: 0,profile,talk
0,"{'persona-id': 'Pro_05349', 'persona': {'perso...","{'id': {'profile-id': 'Pro_05349', 'talk-id': ..."
1,"{'persona-id': 'Pro_05349', 'persona': {'perso...","{'id': {'profile-id': 'Pro_05349', 'talk-id': ..."
2,"{'persona-id': 'Pro_05349', 'persona': {'perso...","{'id': {'profile-id': 'Pro_05349', 'talk-id': ..."
3,"{'persona-id': 'Pro_05349', 'persona': {'perso...","{'id': {'profile-id': 'Pro_05349', 'talk-id': ..."
4,"{'persona-id': 'Pro_05349', 'persona': {'perso...","{'id': {'profile-id': 'Pro_05349', 'talk-id': ..."
...,...,...
51623,"{'persona-id': 'Pro_10870', 'persona': {'perso...","{'id': {'profile-id': 'Pro_10870', 'talk-id': ..."
51624,"{'persona-id': 'Pro_12450', 'persona': {'perso...","{'id': {'profile-id': 'Pro_12450', 'talk-id': ..."
51625,"{'persona-id': 'Pro_12457', 'persona': {'perso...","{'id': {'profile-id': 'Pro_12457', 'talk-id': ..."
51626,"{'persona-id': 'Pro_11368', 'persona': {'perso...","{'id': {'profile-id': 'Pro_11368', 'talk-id': ..."
