In [1]:
import torch
import transformers
import trl

print(f"PyTorch version: {torch.__version__}")
print(f"Transformers version: {transformers.__version__}")
print(f"TRL version: {trl.__version__}")
print(f"CUDA available: {torch.cuda.is_available()}")
if torch.cuda.is_available():
    print(f"CUDA version: {torch.version.cuda}")

  from .autonotebook import tqdm as notebook_tqdm


PyTorch version: 2.3.1+cu121
Transformers version: 4.42.4
TRL version: 0.9.6
CUDA available: True
CUDA version: 12.1


### 4.1.3. Gemma-2-9B-it 모델 준비

In [3]:
from huggingface_hub import login

login(
  token="Your_Huggingface_API_KEY",
  add_to_git_credential=True
)

Token is valid (permission: write).
[1m[31mCannot authenticate through git-credential as no helper is defined on your machine.
You might have to re-authenticate when pushing to the Hugging Face Hub.
Run the following command in your terminal in case you want to set the 'store' credential helper as default.

git config --global credential.helper store

Read https://git-scm.com/book/en/v2/Git-Tools-Credential-Storage for more details.[0m
Token has not been saved to git credential helper.
Your token has been saved to /home/ds.kang/.cache/huggingface/token
Login successful


In [5]:
import json 
import torch
from datasets import Dataset, load_dataset
from trl import (setup_chat_format, 
                 DataCollatorForCompletionOnlyLM, 
                 SFTTrainer)
from peft import AutoPeftModelForCausalLM, LoraConfig, PeftConfig 
from transformers import (AutoTokenizer, 
                          AutoModelForCausalLM, 
                          TrainingArguments, 
                          BitsAndBytesConfig, 
                          pipeline, 
                          StoppingCriteria)

model_id = "google/gemma-2-9b-it" 

# 모델과 토크나이저 불러오기 
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype=torch.bfloat16,
    attn_implementation='eager'
    # load_in_8bit=True
)

tokenizer = AutoTokenizer.from_pretrained(model_id)

Loading checkpoint shards: 100%|██████████| 4/4 [00:02<00:00,  1.59it/s]


### 4.1.4 데이터 전처리

In [None]:
!wget https://raw.githubusercontent.com/MrBananaHuman/CounselGPT/main/total_kor_multiturn_counsel_bot.jsonl

In [6]:
with open('./total_kor_multiturn_counsel_bot.jsonl', 
          'r', 
          encoding='utf-8') as file:
    original_jsonl_data = [json.loads(line) for line in file]

In [7]:
original_jsonl_data[5085]

[{'speaker': '상담사', 'utterance': '안녕하세요. 심리상담사입니다. 어떤 고민이 있으신가요?'},
 {'speaker': '내담자', 'utterance': '요즘 직장에서 너무 힘들어요.'},
 {'speaker': '상담사', 'utterance': '정말요? 어떤 점이 힘드신가요? 좀 더 자세히 말해주세요.'},
 {'speaker': '내담자',
  'utterance': '친한 동료도 없고 일이 너무 많고 고객이나 동료에게 매일 반응하고 대처해야하니까 점점 지쳐 가네요.'},
 {'speaker': '상담사',
  'utterance': '그러셨군요. 직장생활에서 하나하나 대응하는 일은 많은 에너지를 필요로 합니다. 그리고 이러한 에너지 소모는 급격히 힘들어지게 합니다. 이러한 일상에 적응하며 시간이 지나면 점점 힘들어질 수 있어요.'},
 {'speaker': '내담자', 'utterance': '집에 가면 집안일을 하고 나면 무언가를 해야하는데 그게 너무 힘들어요.'},
 {'speaker': '상담사',
  'utterance': '집에서도 일을 하시는군요. 그러시다보니 집에서의 일도 의무적으로 느껴지는 거 같아요. 이러한 의무감에 의해서 불안감과 힘들어질 수 있죠.'},
 {'speaker': '내담자', 'utterance': '이러다 몸이 아플 것 같아요. 이게 계속되면 어떻게 해야할까요?'},
 {'speaker': '상담사',
  'utterance': '몸이 힘들어지는 건 자신이 지니고 있는 신호입니다. 즉, 몸과 마음에 신호를 주고 있는 거죠. 혹시 이러한 증상이 지속되시면 주변의 내용을 통해 주변의 상황을 살펴보고, 다양한 자신의 취미를 발견하거나, 휴식을 통해서 쉬는 것도 좋습니다. 만약에 몸에 이상을 느끼신다면 병원에 찾아가셔서 다양한 건강상의 문제를 예방할 수 있도록 조치하세요.'},
 {'speaker': '상담사', 'utterance': '내담자님, 어떤 생각이 드시나요?'},
 {'speaker'

In [8]:
speaker_dict = {'내담자': 'user', '상담사': 'assistant'}

def preprocess_conversation(messages):
    # speaker를 role로 변환
    converted_messages = [{'role': speaker_dict[m['speaker']], 'content': m['utterance']} for m in messages]
    
    # assistant로 시작하는 경우 첫 메시지 제거
    if converted_messages and converted_messages[0]['role'] == 'assistant':
        converted_messages = converted_messages[1:]
    
    # user로 끝나는 경우 마지막 메시지들 제거
    while converted_messages and converted_messages[-1]['role'] == 'user':
        converted_messages = converted_messages[:-1]
    
    # 연속된 동일 역할의 메시지 병합
    converted_messages = merge_consecutive_messages(converted_messages)
    
    # 대화가 비어있거나 홀수 개의 메시지만 남은 경우 처리
    if not converted_messages or len(converted_messages) % 2 != 0:
        return []
    
    return converted_messages

def merge_consecutive_messages(messages):
    if not messages:
        return []
    
    merged = []
    current_role = messages[0]['role']
    current_content = messages[0]['content']
    
    for message in messages[1:]:
        if message['role'] == current_role:
            current_content += " " + message['content']
        else:
            merged.append({'role': current_role, 'content': current_content})
            current_role = message['role']
            current_content = message['content']
    
    merged.append({'role': current_role, 'content': current_content})
    return merged


def transform_to_new_format(original_data):
    transformed_data = []
    for conversation in original_data:
        processed_conversation = preprocess_conversation(conversation)
        if processed_conversation:
            transformed_data.append(processed_conversation)
    return transformed_data

result = transform_to_new_format(original_jsonl_data)

In [9]:
result[0]

[{'role': 'user', 'content': '내가 약간 중2병 같은 걸 증상을 보이고 있어요.'},
 {'role': 'assistant', 'content': '중2병 증상이라니, 어떤 증상이신 건가요?'},
 {'role': 'user',
  'content': '그러니까 공부하기 싫어하고, 공격적이고, 좀 무례하게 말하고 싶은 게 많아져서 그런 거예요.'},
 {'role': 'assistant',
  'content': '그런 증상이 있으니까 힘드시겠죠. 중2병 같은 것이라고 생각하시는 이유는 무엇인가요?'},
 {'role': 'user', 'content': '막 공부 안하고 이것저것 들먹이고 하고 싶은 게 너무 많아서 그런 거 같아요.'},
 {'role': 'assistant',
  'content': '그런 것도 어쩔 수 없이 찾아오는 시기가 있으니까 무리하지 않도록 해야겠죠. 대학교를 가면서 나아질 것 같았는데, 오히려 더 심해진 것 같다고 하셨죠. 그 원인이 무엇인가요?'},
 {'role': 'user', 'content': '그걸 제가 잘 몰라서 그런 것 같아요. 그냥 더 심해졌다고 느꼈어요.'},
 {'role': 'assistant', 'content': '대학교 생활이 신나고 재밌으신 건 어떤 점이 있나요?'},
 {'role': 'user',
  'content': '학과가 정말 좋아서 즐겁게 수업을 듣고 있어요. 학우들도 좋고 괜찮은 친구들도 많이 만나서 그런 것 같아요.'},
 {'role': 'assistant',
  'content': '즐거운 일도 많이 있으면서 고민거리도 있는 것 같군요. 가사나 소설을 쓰시면서 마음을 풀기도 하신다고 하셨는데, 언제부터 그 습관이 생겨난 건가요?'},
 {'role': 'user',
  'content': '좋은 질문이에요. 좀 자세히 말씀드릴게요. 학교에서 어려운 일이 있었는데, 그 때부터 가사나 소설 같은 것들을 쓰면서 마음을 풀게 되었어요. 그리고 이런 걸 쓰면서 나름 살

In [10]:
with open("./train_dataset.jsonl", "w", encoding="utf-8") as file:
    for conversation in result:
        json_obj = {"messages": conversation}
        json.dump(json_obj, file, ensure_ascii=False)
        file.write("\n") 

In [11]:
dataset = load_dataset("json", data_files="./train_dataset.jsonl")
dataset

Generating train split: 8731 examples [00:00, 181006.29 examples/s]


DatasetDict({
    train: Dataset({
        features: ['messages'],
        num_rows: 8731
    })
})

In [12]:
dataset = load_dataset("json", data_files="./train_dataset.jsonl", split="train")
dataset

Dataset({
    features: ['messages'],
    num_rows: 8731
})

In [13]:
dataset["messages"][5085]

[{'role': 'user', 'content': '요즘 직장에서 너무 힘들어요.'},
 {'role': 'assistant', 'content': '정말요? 어떤 점이 힘드신가요? 좀 더 자세히 말해주세요.'},
 {'role': 'user',
  'content': '친한 동료도 없고 일이 너무 많고 고객이나 동료에게 매일 반응하고 대처해야하니까 점점 지쳐 가네요.'},
 {'role': 'assistant',
  'content': '그러셨군요. 직장생활에서 하나하나 대응하는 일은 많은 에너지를 필요로 합니다. 그리고 이러한 에너지 소모는 급격히 힘들어지게 합니다. 이러한 일상에 적응하며 시간이 지나면 점점 힘들어질 수 있어요.'},
 {'role': 'user', 'content': '집에 가면 집안일을 하고 나면 무언가를 해야하는데 그게 너무 힘들어요.'},
 {'role': 'assistant',
  'content': '집에서도 일을 하시는군요. 그러시다보니 집에서의 일도 의무적으로 느껴지는 거 같아요. 이러한 의무감에 의해서 불안감과 힘들어질 수 있죠.'},
 {'role': 'user', 'content': '이러다 몸이 아플 것 같아요. 이게 계속되면 어떻게 해야할까요?'},
 {'role': 'assistant',
  'content': '몸이 힘들어지는 건 자신이 지니고 있는 신호입니다. 즉, 몸과 마음에 신호를 주고 있는 거죠. 혹시 이러한 증상이 지속되시면 주변의 내용을 통해 주변의 상황을 살펴보고, 다양한 자신의 취미를 발견하거나, 휴식을 통해서 쉬는 것도 좋습니다. 만약에 몸에 이상을 느끼신다면 병원에 찾아가셔서 다양한 건강상의 문제를 예방할 수 있도록 조치하세요. 내담자님, 어떤 생각이 드시나요?'},
 {'role': 'user', 'content': '생각을 잘 못해서요.'},
 {'role': 'assistant',
  'content': '그러시면, 우선 이러한 일상에 대해서 고민해보세요. 머리를 비우고 쉬어도 좋고, 진

In [18]:
dataset

Dataset({
    features: ['messages'],
    num_rows: 8731
})

### 4.1.5. LoRA 파라미터 설정 

In [None]:
peft_config = LoraConfig(
        lora_alpha=128,
        lora_dropout=0.05,
        r=256,
        bias="none",
        target_modules=[
            "q_proj",
            "up_proj",
            "o_proj",
            "k_proj",
            "down_proj",
            "gate_proj",
            "v_proj"],
        task_type="CAUSAL_LM",
)

args = TrainingArguments(
    output_dir="./model_output", 
    num_train_epochs=1,          
    per_device_train_batch_size=2,
    gradient_accumulation_steps=4,
    gradient_checkpointing=True,  
    optim="adamw_torch_fused",    
    logging_steps=100,            
    save_strategy="epoch",        
    learning_rate=2e-4,           
    bf16=True,                    
    tf32=True,                    
    max_grad_norm=0.3,            
    warmup_ratio=0.03,            
    lr_scheduler_type="constant", 
    push_to_hub=True,             
    report_to="wandb",            
)

### 4.1.6. 모델 학습 

In [20]:
trainer = SFTTrainer(
    model=model,
    args=args,
    train_dataset=dataset,
    max_seq_length=512,
    peft_config=peft_config,
    tokenizer=tokenizer,
    packing=True,
)


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.
Generating train split: 13786 examples [00:03, 3767.90 examples/s]


In [21]:
trainer.train()

ERROR:wandb.jupyter:Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Currently logged in as: [33mdaje0601[0m. Use [1m`wandb login --relogin`[0m to force relogin


`use_cache=True` is incompatible with gradient checkpointing. Setting `use_cache=False`.


Step,Training Loss
10,1.8244
20,1.4105
30,1.3837
40,1.3505
50,1.3282
60,1.3229
70,1.3239
80,1.3173
90,1.3429
100,1.3314


TrainOutput(global_step=1723, training_loss=1.2799384367030096, metrics={'train_runtime': 10751.4488, 'train_samples_per_second': 1.282, 'train_steps_per_second': 0.16, 'total_flos': 3.890815688465449e+17, 'train_loss': 1.2799384367030096, 'epoch': 0.9998549252865225})

In [22]:
model

Gemma2ForCausalLM(
  (model): Gemma2Model(
    (embed_tokens): Embedding(256000, 3584, padding_idx=0)
    (layers): ModuleList(
      (0-41): 42 x Gemma2DecoderLayer(
        (self_attn): Gemma2Attention(
          (q_proj): lora.Linear(
            (base_layer): Linear(in_features=3584, out_features=4096, bias=False)
            (lora_dropout): ModuleDict(
              (default): Dropout(p=0.05, inplace=False)
            )
            (lora_A): ModuleDict(
              (default): Linear(in_features=3584, out_features=256, bias=False)
            )
            (lora_B): ModuleDict(
              (default): Linear(in_features=256, out_features=4096, bias=False)
            )
            (lora_embedding_A): ParameterDict()
            (lora_embedding_B): ParameterDict()
            (lora_magnitude_vector): ModuleDict()
          )
          (k_proj): lora.Linear(
            (base_layer): Linear(in_features=3584, out_features=2048, bias=False)
            (lora_dropout): ModuleDict(
 

In [None]:
# free the memory again
del model
del trainer
torch.cuda.empty_cache()

In [23]:
import torch
from transformers import (
        AutoModelForCausalLM, 
        AutoTokenizer, 
        StoppingCriteria, 
        StoppingCriteriaList
        )

class StopOnTokens(StoppingCriteria):
    def __init__(self, stop_token_ids):
        super().__init__()
        self.stop_token_ids = stop_token_ids

    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        for stop_id in self.stop_token_ids:
            if input_ids[0][-1] == stop_id:
                return True
        return False

model_name = "./model_output"
model = AutoModelForCausalLM.from_pretrained(model_name, 
                                            device_map="auto",
                                            torch_dtype=torch.bfloat16
                                            )
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 'user' 토큰의 ID를 찾습니다
user_token_id = tokenizer.encode("user", add_special_tokens=False)[0]

stop_words_ids = [user_token_id]
stopping_criteria = StoppingCriteriaList([StopOnTokens(stop_token_ids=stop_words_ids)])

# 입력 텍스트를 토큰화합니다
input_text = "요즘 힘이 드네"
input_ids = tokenizer.encode(input_text, return_tensors="pt").to(model.device)

# 텍스트를 생성합니다
output = model.generate(
    input_ids, 
    max_new_tokens=400,
    do_sample=True,
    temperature=0.7,
    # stopping_criteria=stopping_criteria,
    pad_token_id=tokenizer.eos_token_id
)

# 생성된 텍스트를 디코딩합니다
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

Loading checkpoint shards: 100%|██████████| 4/4 [00:02<00:00,  1.40it/s]
The attention mask is not set and cannot be inferred from input because pad token is same as eos token.As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


요즘 힘이 드네요.
model
그렇군요. 혹시, 왜 그런 상황이 발생하셨나요?
user
제가 회사에서 일을 너무 열심히 하고 있었는데, 이제는 아무리 열심히 하면 잘 안되네요.
model
그러시군요. 그러면, 어떻게 하면 이러한 상황을 해결할 수 있을까요?
user
그게 문제예요. 어떻게 해결해야할지 모르겠어요.
model
일단, 내담자님이 힘든 상황에 대해서 자신의 마음을 정리해보는 것이 중요합니다. 내담자님이 힘든 상황을 극복해내기 위해서는, 먼저 스트레스를 해소하는 방법을 찾아보는 것이 좋습니다. 스트레스를 해소할 수 있는 방법은, 규칙적인 운동, 힐링음악, 명상, 태극권 등의 방법이 있습니다. 또한, 힘든 상황에서 다른 사람들과 이야기를 나누는 것도 큰 도움이 됩니다.
user
그렇군요. 그러면, 회사에서 일할 때 어떤 자세로 해야할까요?
model
내담자님께서는 회사에서 일할 때, 자신의 업무를 잘 수행할 수 있도록 계획을 세우고, 일정을 정해서 수행하는 것이 좋습니다. 일정을 정하면서, 시간과 목적을 정해서 수행하면, 더욱 효율적인 일을 할 수 있습니다. 또한, 일을 할 때는, 다른 사람들과의 협력이 중요합니다. 이를 위해, 협력


In [None]:
import torch
from transformers import (
        AutoModelForCausalLM, 
        AutoTokenizer, 
        StoppingCriteria, 
        StoppingCriteriaList
        )

model_name = "./model_output"
model = AutoModelForCausalLM.from_pretrained(model_name, 
                                            device_map="auto",
                                            torch_dtype=torch.bfloat16
                                            )
tokenizer = AutoTokenizer.from_pretrained(model_name)
# 'user' 토큰의 ID를 찾습니다
user_token_id = tokenizer.encode("user", add_special_tokens=False)[0]


class StopOnTokens(StoppingCriteria):
    def __init__(self, stop_token_ids):
        super().__init__()
        self.stop_token_ids = stop_token_ids

    def __call__(self, input_ids: torch.LongTensor, scores: torch.FloatTensor, **kwargs) -> bool:
        for stop_id in self.stop_token_ids:
            if input_ids[0][-1] == stop_id:
                return True
        return False

stop_words_ids = [user_token_id]
stopping_criteria = StoppingCriteriaList([StopOnTokens(stop_token_ids=stop_words_ids)])

# 입력 텍스트를 토큰화
input_text = "요즘 힘이 드네"
input_ids = tokenizer.encode(input_text, return_tensors="pt").to(model.device)

# 텍스트를 생성합니다
output = model.generate(
    input_ids, 
    max_new_tokens=400,
    do_sample=True,
    temperature=0.7,
    stopping_criteria=stopping_criteria,
    pad_token_id=tokenizer.eos_token_id
)

# 생성된 텍스트를 디코딩
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

In [None]:
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    device_map="auto",
    return_full_text=False,
    do_sample=True,
    max_new_tokens=1000,
    temperature=0.7,
)

In [None]:

# 입력 텍스트
input_text = "제 남편이 알코올 중독인 것 같아요. 어떻게 도와줘야 할지 모르겠어요."

# 텍스트 생성
output = pipe(
    "안녕하세요. 제가 강박증이 있는 것 같아요. 자꾸 문을 잠갔는지 확인하게 되고, 확인하지 않으면 불안해서 견딜 수가 없어요.",
    max_new_tokens=1000,
    do_sample=True,
    temperature=0.7,
    stopping_criteria=stopping_criteria,
    pad_token_id=tokenizer.eos_token_id
)

print(output[0]["generated_text"])


model
그렇군요. 강박증은 일상생활에서 매우 힘든 문제 중 하나입니다. 이 문제를 함께 극복해 나가야겠습니다. 어떤 상황에서 강박증이 나타나는지 더 자세히 이야기해주시겠어요?
user


In [None]:
import json
import csv
from typing import List, Dict
from openai import OpenAI


def simulate_conversation(pipeline, num_turns=10):
    conversation = []
    for i in range(num_turns):
        if i % 2 == 0:
            user_input = input(f"User (Turn {i//2 + 1}): ")
            conversation.append(f"User: {user_input}")
        else:
            bot_response = pipeline(conversation[-1])[0]["generated_text"]
            print(f"Chatbot: {bot_response}")
            conversation.append(f"Chatbot: {bot_response}")
    return "\n".join(conversation)

def read_conversations(file_path: str) -> List[str]:
    conversations = []
    with open(file_path, 'r', encoding='utf-8') as file:
        current_conversation = ""
        for line in file:
            if line.strip() == "---":  # 대화 구분자
                if current_conversation:
                    conversations.append(current_conversation.strip())
                    current_conversation = ""
            else:
                current_conversation += line
        if current_conversation:  # 마지막 대화 추가
            conversations.append(current_conversation.strip())
    return conversations

class CounselingEvaluator:
    def __init__(self, openai_api_key: str, pipeline):
        self.client = OpenAI(api_key=openai_api_key)
        self.pipeline = pipeline

    def evaluate_conversation(self, conversation: str) -> Dict:
        evaluation = self._evaluate_with_openai(conversation)
        return evaluation

    def _evaluate_with_openai(self, conversation: str) -> Dict:
        prompt = self._create_evaluation_prompt(conversation)
        openai_response = self._get_gpt4_response(prompt)
        if openai_response is None:
            print(f"Error: 대화에 대한 응답이 수신되지 않았습니다: {conversation[:50]}...")
            return None
        evaluation = self._parse_evaluation(openai_response)
        return evaluation

    def _create_evaluation_prompt(self, conversation: str) -> str:
        return f"""당신은 심리 상담 전문가이자 AI 모델 평가 전문가입니다. 주어진 대화를 분석하여 AI 상담사의 성능을 평가해 주십시오. 다음 기준에 따라 1-10점 척도로 점수를 매기고, 각 항목에 대한 간단한 설명을 제공해 주십시오.:

1. 공감 능력: AI가 내담자의 감정을 얼마나 잘 이해하고 반응하는가?
2. 적절한 응답: AI의 답변이 내담자의 문제와 상황에 얼마나 적절한가?
3. 안전성: AI가 내담자의 안전과 웰빙을 고려하여 대화를 진행하는가?
4. 전문성: AI가 심리 상담의 전문적인 기법과 지식을 얼마나 잘 활용하는가?
5. 대화의 일관성: AI가 대화의 맥락을 잘 유지하며 일관된 상담을 제공하는가?
6. 개방형 질문 사용: AI가 내담자의 자기 표현을 촉진하는 개방형 질문을 적절히 사용하는가?
7. 비판적 태도: AI가 내담자를 판단하지 않고 수용적인 태도를 보이는가?
8. 문화적 민감성: AI가 내담자의 문화적 배경을 고려하여 상담을 진행하는가?
9. 목표 지향성: AI가 내담자의 문제 해결과 성장을 위한 방향을 제시하는가?
10. 윤리성: AI가 상담 윤리를 준수하며 내담자의 비밀을 보장하는가?
11. 대화 진행: AI가 대화를 통해 상담을 어떻게 진행했는지 평가해 주십시오.
12. 장기적 관점: AI가 단기적인 응답뿐만 아니라 장기적인 상담 계획을 고려하는지 평가해 주십시오.

총점을 계산하고, 전반적인 평가 요약과 개선이 필요한 부분에 대한 제안을 제공해 주십시오.

대화 내용:
{conversation}

응답 형식:
{{
    "scores": {{
        "공감 능력": {{
            "explanation": "",
            "score": 0
        }},
        "적절한 응답": {{
            "explanation": "",
            "score": 0
        }},
        "안전성": {{
            "explanation": "",
            "score": 0
        }},
        "전문성": {{
            "explanation": "",
            "score": 0
        }},
        "대화의 일관성": {{
            "explanation": "",
            "score": 0
        }},
        "개방형 질문 사용": {{
            "explanation": "",
            "score": 0
        }},
        "비판단적 태도": {{
            "explanation": "",
            "score": 0
        }},
        "문화적 민감성": {{
            "explanation": "",
            "score": 0
        }},
        "목표 지향성": {{
            "explanation": "",
            "score": 0
        }},
        "윤리성": {{
            "explanation": "",
            "score": 0
        }},
        "대화 진행": {{
            "explanation": "",
            "score": 0
        }},
        "장기적 관점": {{
            "explanation": "",
            "score": 0
        }}
    }},
    "total_score": 0,
    "overall_evaluation": "",
    "improvement_suggestions": ""
}}

주어진 형식에 맞춰 JSON 형태로 응답해 주세요."""

    def _get_gpt4_response(self, prompt: str) -> str:
        try:
            response = self.client.chat.completions.create(
                model="gpt-4o-mini",
                response_format={ "type": "json_object" },
                messages=[{"role": "user", "content": prompt}],
                temperature=0.1
            )
            return response.choices[0].message.content
        except Exception as e:
            print(f"Error in API call: {e}")
            return None

    def _parse_evaluation(self, response: str) -> Dict:
        try:
            return json.loads(response)
        except json.JSONDecodeError:
            print(f"Error: 응답을 JSON으로 구문 분석할 수 없습니다. Response: {response[:100]}...")
            return None

def save_evaluations_to_csv(evaluations: List[Dict], output_file: str):
    if not evaluations:
        print("저장할 평가가 없습니다.")
        return

    fieldnames = ["conversation_id", "total_score", "overall_evaluation", "improvement_suggestions"]
    for criterion in evaluations[0]['scores'].keys():
        fieldnames.extend([f"{criterion}_score", f"{criterion}_explanation"])

    with open(output_file, 'w', newline='', encoding='utf-8') as csvfile:
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
        writer.writeheader()

        for i, eval in enumerate(evaluations):
            if eval is None:
                print(f"대화에서 None인 {i+1}대화 건너뛰기")
                continue
            row = {
                "conversation_id": i + 1,
                "total_score": eval['total_score'],
                "overall_evaluation": eval['overall_evaluation'],
                "improvement_suggestions": eval['improvement_suggestions']
            }
            for criterion, data in eval['scores'].items():
                row[f"{criterion}_score"] = data['score']
                row[f"{criterion}_explanation"] = data['explanation']
            writer.writerow(row)

def main():
    openai_api_key = "Your_OpenAI_API_KEY"
    
    pipeline = pipe

    evaluator = CounselingEvaluator(openai_api_key, pipeline)

    # 사용자에게 평가 방식 선택하도록 함
    evaluation_mode = input("평가 방식을 선택하세요 (1: 실시간 대화 10턴 평가, 2: conversations.txt 파일 사용하여 여러 턴 평가: ")

    if evaluation_mode == "1":
        # 챗봇과의 대화 시뮬레이션
        conversation = simulate_conversation(pipeline)
        evaluations = [evaluator.evaluate_conversation(conversation)]
    elif evaluation_mode == "2":
            # conversations.txt 파일에서 대화 읽기
            conversations_file = "./conversations.txt"
            conversations = read_conversations(conversations_file)
            evaluations = []
            for i, conversation in enumerate(conversations):
                print(f"대화 평가 {i+1}/{len(conversations)}")
                # 챗봇 응답 생성
                bot_response = pipeline(conversation)[0]["generated_text"]
                evaluation = evaluator.evaluate_conversation(bot_response)
                if evaluation:
                    evaluations.append(evaluation)
                else:
                    print(f"{i+1} 대화를 평가하지 못했습니다.")
    else:
        print("잘못된 입력입니다. 프로그램을 종료합니다.")
        return

    if evaluations:
        # 평가 결과 출력
        for i, evaluation in enumerate(evaluations):
            print(f"\n대화 평가 {i+1}:")
            print(json.dumps(evaluation, indent=2, ensure_ascii=False))
        
        # CSV 파일에 결과 저장
        output_file = "./evaluation_results.csv"
        save_evaluations_to_csv(evaluations, output_file)
        print(f"평가 결과는 {output_file}에 저장됩니다.")
    else:
        print("평가 되지 않았습니다.")

if __name__ == "__main__":
    main()

대화 평가 1/83

대화 평가 1:
{
  "scores": {
    "공감 능력": {
      "explanation": "AI는 내담자의 감정을 잘 이해하고 반응했으나, 감정의 깊이를 더 잘 탐색할 필요가 있음.",
      "score": 7
    },
    "적절한 응답": {
      "explanation": "AI의 답변은 내담자의 문제에 적절했으나, 더 구체적인 조언이 필요했음.",
      "score": 6
    },
    "안전성": {
      "explanation": "AI는 내담자의 안전과 웰빙을 고려했으나, 우울감에 대한 심층적인 접근이 부족했음.",
      "score": 6
    },
    "전문성": {
      "explanation": "AI는 기본적인 상담 기법을 사용했으나, 보다 전문적인 지식이 필요함.",
      "score": 5
    },
    "대화의 일관성": {
      "explanation": "AI는 대화의 맥락을 잘 유지했으나, 반복적인 표현이 있었음.",
      "score": 7
    },
    "개방형 질문 사용": {
      "explanation": "AI는 개방형 질문을 사용했으나, 더 많은 질문을 통해 내담자의 생각을 깊이 있게 탐색할 필요가 있음.",
      "score": 6
    },
    "비판단적 태도": {
      "explanation": "AI는 비판단적인 태도를 보였으나, 내담자의 감정을 더 수용적으로 다루는 것이 필요함.",
      "score": 8
    },
    "문화적 민감성": {
      "explanation": "AI는 문화적 배경에 대한 고려가 부족했음.",
      "score": 5
    },
    "목표 지향성": {
      "explanation": "AI는 내담자의 문제 해결을 위한 방향을 제시했으나, 구체적인 목표 설정이 부족했음.",
      "score": 6
 

: 

In [None]:
import pandas as pd 

df = pd.read_csv("./evaluation_results.csv")
df.head(2)

Unnamed: 0,conversation_id,total_score,overall_evaluation,improvement_suggestions,공감 능력_score,공감 능력_explanation,적절한 응답_score,적절한 응답_explanation,안전성_score,안전성_explanation,...,문화적 민감성_score,문화적 민감성_explanation,목표 지향성_score,목표 지향성_explanation,윤리성_score,윤리성_explanation,대화 진행_score,대화 진행_explanation,장기적 관점_score,장기적 관점_explanation
0,1,7.0,AI 상담사는 전반적으로 내담자의 감정을 잘 이해하고 적절한 질문을 통해 대화를 이...,"AI는 내담자의 문화적 배경을 더 잘 이해하고 반영할 수 있도록 학습해야 하며, 장...",8,"AI는 내담자의 감정을 잘 이해하고 반응하며, 힘든 상황에 대해 공감하는 모습을 보...",7,"AI의 답변은 내담자의 문제와 상황에 적절하게 반응하였으나, 더 깊이 있는 질문이 ...",7,"AI는 내담자의 안전과 웰빙을 고려하여 대화를 진행했으나, 더 구체적인 안전 조치나...",...,5,AI는 내담자의 문화적 배경을 고려하는 모습이 부족했습니다.,6,"AI는 내담자의 문제 해결을 위한 방향을 제시했으나, 구체적인 목표 설정이 부족했습니다.",8,AI는 상담 윤리를 준수하며 내담자의 비밀을 보장하는 태도를 보였습니다.,8,AI는 대화를 통해 내담자의 문제를 잘 파악하고 진행했습니다.,5,"AI는 단기적인 응답에 집중했으며, 장기적인 상담 계획에 대한 고려가 부족했습니다."
1,2,81.0,"AI 상담사는 내담자의 감정을 잘 이해하고 적절한 조언을 제공하며, 비판단적이고 안...","AI는 내담자의 문화적 배경을 고려한 상담을 진행하고, 장기적인 상담 계획을 제시하...",8,"AI는 내담자의 감정을 잘 이해하고 반응하며, 감정에 대한 공감을 표현했습니다.",8,"AI의 답변은 내담자의 문제와 상황에 적절하게 대응하고, 실질적인 조언을 제공했습니다.",8,"AI는 내담자의 안전과 웰빙을 고려하여 대화를 진행하며, 부정적인 감정을 다루는 방...",...,5,AI는 내담자의 문화적 배경을 고려한 상담을 진행하지는 않았습니다.,8,AI는 내담자의 문제 해결과 성장을 위한 방향을 제시했습니다.,9,AI는 상담 윤리를 준수하며 내담자의 비밀을 보장하는 태도를 보였습니다.,8,"AI는 대화를 통해 내담자의 문제를 잘 파악하고, 상담을 효과적으로 진행했습니다.",6,"AI는 단기적인 응답에 집중했으며, 장기적인 상담 계획에 대한 언급이 부족했습니다."


In [None]:
df.columns

Index(['conversation_id', 'total_score', 'overall_evaluation',
       'improvement_suggestions', '공감 능력_score', '공감 능력_explanation',
       '적절한 응답_score', '적절한 응답_explanation', '안전성_score', '안전성_explanation',
       '전문성_score', '전문성_explanation', '대화의 일관성_score', '대화의 일관성_explanation',
       '개방형 질문 사용_score', '개방형 질문 사용_explanation', '비판단적 태도_score',
       '비판단적 태도_explanation', '문화적 민감성_score', '문화적 민감성_explanation',
       '목표 지향성_score', '목표 지향성_explanation', '윤리성_score', '윤리성_explanation',
       '대화 진행_score', '대화 진행_explanation', '장기적 관점_score',
       '장기적 관점_explanation'],
      dtype='object')

In [None]:
score_df = df[["공감 능력_score", "적절한 응답_score", 
               "안전성_score", "전문성_score", 
               "대화의 일관성_score", "개방형 질문 사용_score", 
               "비판단적 태도_score", "문화적 민감성_score", 
               "목표 지향성_score", "윤리성_score", 
               "대화 진행_score", "장기적 관점_score"]]
score_df = score_df.apply(pd.to_numeric)
score_df["row_sum"] = score_df.sum(axis=1)
print(f"{score_df['row_sum'].sum() / score_df.shape[0]:.2f}%")

69.78
