In [2]:
'''
04_HS01~03 합치기, 중요 키워드 줄이기 
'''

'\n04_HS01~03 합치기, 중요 키워드 줄이기 \n'

In [4]:
import numpy as np
import pandas as pd

## **1. 학습 데이터 데이터프레임으로 변경**

In [142]:
file_path = 'data/감성대화말뭉치(최종데이터)_Training.json'

# JSON 파일 로드
with open(file_path, "r", encoding="utf-8") as file:
    data = json.load(file)

# DataFrame 변환
df = pd.DataFrame(data)

# 상담 텍스트(HS01, HS02, HS03만 합침) 추출
df["text"] = df["talk"].apply(lambda x: " ".join([x["content"].get(k, "") for k in ["HS01", "HS02", "HS03"]]).strip())

# 감정(E10~E69), 상황(S01~S13), 질병(D01~D02) 레이블 추출
df["emotion"] = df["profile"].apply(lambda x: x["emotion"]["type"])  # 감정 ID (E10~E69)
df["situation"] = df["profile"].apply(lambda x: ",".join(x["emotion"]["situation"]))  # 상황 ID (S01~S13)
df["disease"] = df["profile"].apply(lambda x: x["emotion"]["situation"][1] if len(x["emotion"]["situation"]) > 1 else "D02")  # 질병 ID (D01 or D02)

# 필요 없는 컬럼 제거
df = df[["text", "emotion", "situation", "disease"]]

# CSV 저장
df.to_csv("data/dataset.csv", index=False, encoding="utf-8")


## **2. 데이터프레임 샘플 출력**

In [178]:
df.sample(50)

Unnamed: 0,text,emotion,situation,disease
46720,난 나이가 들었는데 노후 준비를 해놓은 게 거의 없어. 내가 왜 이렇게 되었는지 모...,E37,"S13,D02",D02
44513,축제 때 무대에 나가 춤을 추고 싶었어. 근데 다리를 다치게 돼서 나갈 수 없게 되...,E50,"S04,D02",D02
409,그동안의 힘든 날들에도 언제나 집안일과 가정의 경제를 책임져 준 아내에게 고마워. ...,E62,"S13,D02",D02
9025,요즘 부모님과 많이 부딪혀. 난 하고 싶은 일이 있는데 부모님은 안정적인 일만 하라...,E11,"S06,D02",D02
22490,아기가 태어난 걸 축하해주신 모든 분께 감사 인사를 드리고 싶어. 잊지 않고 축하인...,E61,"S05,D02",D02
38052,하고 싶은 일이 있는데 몸과 마음이 예전 같지 않아 괴로워. 주변에서도 나에게 기대...,E39,"S13,D01",D01
4894,불경기가 계속되니까 버티기가 너무 힘들어. 급여 삭감을 해야 하는데 마음이 너무 안...,E55,"S10,D02",D02
1535,가난한 집에서 태어난 게 죄는 아닌데 주변에서 무시를 당해서 속상해. 가난해서 학원...,E45,"S02,D02",D02
21975,친한 친구가 원하는 대학에 합격했어! 재수 중이라 걱정했는데 정말 잘됐어! 맞아. ...,E65,"S04,D02",D02
17890,나는 절약하기 위해 술 담배도 안 하시는 아빠를 보면 마음이 아파. 나는 아빠가 우...,E46,"S01,D02",D02


## **3. 데이터 전처리**

In [128]:
import re

# 데이터 로드
df = pd.read_csv("data/dataset.csv")

# 🔹 (1) 텍스트 정제: 특수문자 제거 및 공백 정리
def clean_text(text):
    text = re.sub(r"[^가-힣a-zA-Z0-9\s]", "", text)  # 한글, 영문, 숫자, 공백 제외 삭제
    text = re.sub(r"\s+", " ", text).strip()  # 연속된 공백 제거
    return text

df["text"] = df["text"].apply(clean_text)

# 🔹 (2) 중복된 질병 정보 정리
df["situation"] = df["situation"].apply(lambda x: ",".join(sorted(set(x.split(",")))))  # 중복 제거
df["disease"] = df["disease"].apply(lambda x: x.split(",")[0])  # 첫 번째 값만 유지

# 🔹 (3) 감정, 상황, 질병 ID를 숫자로 변환 (모델 입력을 위해)
emotion_mapping = {e: idx for idx, e in enumerate(sorted(df["emotion"].unique()))}
situation_mapping = {s: idx for idx, s in enumerate(sorted(set(",".join(df["situation"]).split(","))))}
disease_mapping = {"D01": 0, "D02": 1}  # 질병 여부를 0/1로 변환

df["emotion"] = df["emotion"].map(emotion_mapping)
df["situation"] = df["situation"].apply(lambda x: [situation_mapping[s] for s in x.split(",")])
df["disease"] = df["disease"].map(disease_mapping)

# 정리된 데이터 확인
print(df.head())

# CSV 저장
df.to_csv("data/processed_emotion_situation_disease.csv", index=False, encoding="utf-8-sig")
print("✅ 데이터 전처리 완료: processed_emotion_situation_disease.csv")


                                                text  emotion situation  \
0  일은 왜 해도 해도 끝이 없을까 화가 난다 그냥 내가 해결하는 게 나아 남들한테 부...        8    [1, 7]   
1  이번 달에 또 급여가 깎였어 물가는 오르는데 월급만 자꾸 깎이니까 너무 화가 나 최...        8    [1, 7]   
2  회사에 신입이 들어왔는데 말투가 거슬려 그런 애를 매일 봐야 한다고 생각하니까 스트...        8    [1, 7]   
3  직장에서 막내라는 이유로 나에게만 온갖 심부름을 시켜 일도 많은 데 정말 분하고 섭...        8    [1, 7]   
4  얼마 전 입사한 신입사원이 나를 무시하는 것 같아서 너무 화가 나 상사인 나에게 먼...        8    [1, 7]   

   disease  
0        1  
1        1  
2        1  
3        1  
4        1  
✅ 데이터 전처리 완료: processed_emotion_situation_disease.csv


##  **0. KoBERT 토큰화**

In [None]:
#!pip install torch torchvision torchaudio
#!pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu117


In [166]:
!pip install torch torchvision torchaudio



In [167]:
!pip install transformers sentencepiece



In [168]:
!pip install git+https://github.com/SKTBrain/KoBERT.git@master

Collecting git+https://github.com/SKTBrain/KoBERT.git@master
  Cloning https://github.com/SKTBrain/KoBERT.git (to revision master) to c:\users\kj\appdata\local\temp\pip-req-build-0oyxamwk
  Resolved https://github.com/SKTBrain/KoBERT.git to commit 5c46b1c68e4755b54879431bd302db621f4d2f47
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting boto3<=1.15.18 (from kobert==0.2.3)
  Using cached boto3-1.15.18-py2.py3-none-any.whl.metadata (5.3 kB)
Collecting gluonnlp<=0.10.0,>=0.6.0 (from kobert==0.2.3)
  Using cached gluonnlp-0.10.0.tar.gz (344 kB)
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting mxnet<=1.7.0.post2,>=1.4.0 (from kobert==0.2.3)
  Using cached mxnet-1.7.0.post2-py2.py3-none-win_amd64.whl.metadata (402 bytes)
INFO: pip is looking at multiple versions of kobert to determine which version is compatible with other requirements. This could take a while.


  Running command git clone --filter=blob:none --quiet https://github.com/SKTBrain/KoBERT.git 'C:\Users\kj\AppData\Local\Temp\pip-req-build-0oyxamwk'
ERROR: Could not find a version that satisfies the requirement onnxruntime<=1.8.0,==1.8.0 (from kobert) (from versions: 1.17.0, 1.17.1, 1.17.3, 1.18.0, 1.18.1, 1.19.0, 1.19.2, 1.20.0, 1.20.1)
ERROR: No matching distribution found for onnxruntime<=1.8.0,==1.8.0


In [176]:
from kobert import get_pytorch_kobert_model
print("✅ KoBERT 설치 확인 완료!")


ModuleNotFoundError: No module named 'kobert'

In [172]:
import pandas as pd
import torch
from kobert import get_pytorch_kobert_model
from transformers import BertTokenizer
from torch.utils.data import Dataset, DataLoader

# 데이터 로드
df = pd.read_csv("data/processed_emotion_situation_disease.csv")

# KoBERT 모델 & 토크나이저 불러오기
kobert_model, vocab = get_pytorch_kobert_model()
tokenizer = BertTokenizer.from_pretrained('skt/kobert-base-v1')

# 🔹 (1) 토큰화 함수 정의
def tokenize_text(text):
    encoded = tokenizer.encode_plus(
        text,
        max_length=64,  # 최대 64토큰까지 사용
        padding="max_length",
        truncation=True,
        return_tensors="pt"  # PyTorch Tensor 형식으로 반환
    )
    return encoded["input_ids"].squeeze(), encoded["attention_mask"].squeeze()

# 🔹 (2) 데이터셋 클래스 정의
class EmotionDataset(Dataset):
    def __init__(self, dataframe):
        self.texts = dataframe["text"].tolist()
        self.emotions = dataframe["emotion"].tolist()
        self.situations = dataframe["situation"].apply(eval).tolist()  # 리스트 변환
        self.diseases = dataframe["disease"].tolist()

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        input_ids, attention_mask = tokenize_text(self.texts[idx])
        emotion_label = torch.tensor(self.emotions[idx], dtype=torch.long)
        situation_label = torch.tensor(self.situations[idx], dtype=torch.long)
        disease_label = torch.tensor(self.diseases[idx], dtype=torch.long)
        return input_ids, attention_mask, emotion_label, situation_label, disease_label

# 데이터셋 및 데이터로더 생성
train_dataset = EmotionDataset(df)
train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True)

print("✅ KoBERT 토큰화 및 데이터 준비 완료")


ModuleNotFoundError: No module named 'kobert'

In [None]:
import torch.nn as nn
from transformers import AdamW

class MultiLabelKoBERT(nn.Module):
    def __init__(self, bert, num_emotions=60, num_situations=13, num_diseases=2):
        super(MultiLabelKoBERT, self).__init__()
        self.bert = bert
        self.dropout = nn.Dropout(0.1)

        # 감정, 상황, 질병 각각의 분류기
        self.fc_emotion = nn.Linear(768, num_emotions)  # 감정 예측
        self.fc_situation = nn.Linear(768, num_situations)  # 상황 예측
        self.fc_disease = nn.Linear(768, num_diseases)  # 질병 여부 예측

    def forward(self, input_ids, attention_mask):
        output = self.bert(input_ids, attention_mask)[0]
        cls_token = output[:, 0, :]  # [CLS] 벡터 추출
        cls_token = self.dropout(cls_token)

        emotion_out = self.fc_emotion(cls_token)
        situation_out = self.fc_situation(cls_token)
        disease_out = self.fc_disease(cls_token)

        return emotion_out, situation_out, disease_out


In [None]:
#

In [None]:
# 모델, 손실 함수, 옵티마이저 정의
model = MultiLabelKoBERT(kobert_model)
criterion = nn.CrossEntropyLoss()
optimizer = AdamW(model.parameters(), lr=2e-5)

# 학습 루프
for epoch in range(3):
    model.train()
    total_loss = 0

    for batch in train_loader:
        input_ids, attention_mask, labels_emotion, labels_situation, labels_disease = batch

        optimizer.zero_grad()

        # 모델 예측
        outputs_emotion, outputs_situation, outputs_disease = model(input_ids, attention_mask)

        # 손실 계산
        loss_emotion = criterion(outputs_emotion, labels_emotion)
        loss_situation = criterion(outputs_situation, labels_situation)
        loss_disease = criterion(outputs_disease, labels_disease)

        # 총 손실 계산 및 역전파
        loss = loss_emotion + loss_situation + loss_disease
        loss.backward()
        optimizer.step()
        total_loss += loss.item()

    print(f"Epoch {epoch+1} | Loss: {total_loss:.4f}")

print("✅ KoBERT 학습 완료")


## **0. 모델 평가**

In [None]:
from sklearn.metrics import accuracy_score

# 모델 평가 모드
model.eval()

preds_emotion = []
preds_situation = []
preds_disease = []
true_labels_emotion = []
true_labels_situation = []
true_labels_disease = []

for batch in train_loader:
    input_ids, attention_mask, labels_emotion, labels_situation, labels_disease = batch
    with torch.no_grad():
        outputs_emotion, outputs_situation, outputs_disease = model(input_ids, attention_mask)

        preds_emotion.extend(torch.argmax(outputs_emotion, dim=1).tolist())
        preds_situation.extend(torch.argmax(outputs_situation, dim=1).tolist())
        preds_disease.extend(torch.argmax(outputs_disease, dim=1).tolist())

        true_labels_emotion.extend(labels_emotion.tolist())
        true_labels_situation.extend(labels_situation.tolist())
        true_labels_disease.extend(labels_disease.tolist())

# 정확도 계산
accuracy_emotion = accuracy_score(true_labels_emotion, preds_emotion)
accuracy_situation = accuracy_score(true_labels_situation, preds_situation)
accuracy_disease = accuracy_score(true_labels_disease, preds_disease)

print(f"감정 분석 정확도: {accuracy_emotion:.4f}")
print(f"상황 분석 정확도: {accuracy_situation:.4f}")
print(f"질병 예측 정확도: {accuracy_disease:.4f}")
