### Pre-defined Method

In [1]:
from sklearn.metrics import mean_absolute_error
import numpy as np
import re

def test_compute_metrics(label, pred):
    MAE = []
    
    for i in range(5):
        if pred[i][-1] == '.':
            pred[i] = pred[i][:-1]
        
        MAE.append(1 - mean_absolute_error([float(label[i])], [float(pred[i])]))
    
    
    return MAE

In [2]:
import pandas as pd

FI_test = pd.read_csv("/data/visi2/FI/KETI_test_from_ver0.4.csv",
                     index_col=0)

In [3]:
FI_test

Unnamed: 0,transcription,OCEAN,speaker,file,scenario,num_discourse
0,저는 우선 그래프를 봤을 때 연령대가 나오는데 일단 중년층이랑 고등학생과 이제 대학...,"[0.9791666666666667, 0.9791666666666667, 0.833...",9,36,BP,1
1,특히 여기 지역 특산물 판매 부스도 있어가지고 좀 지역 특산물 이 부스랑 좀 연계해...,"[0.9791666666666667, 0.9791666666666667, 0.833...",9,36,BP,7
2,맥심 골드 그거를 제일 좋아하시니까 나이 드신 연령대가,"[0.9791666666666667, 0.9791666666666667, 0.833...",9,36,BP,13
3,네 탕후루 가격을 어떻게 할 건지?,"[0.9791666666666667, 0.9791666666666667, 0.833...",9,36,BP,15
4,이게 종목이 딱 정해져 빠르게 해결책을 찾은 것 같아요 그럼 저희가 우리 부스를 알...,"[0.9791666666666667, 0.9791666666666667, 0.833...",9,36,BP,19
...,...,...,...,...,...,...
626,그럼 노라조는 한 오백이면 되지 않을까 오 노래를,"[0.5208333333333334, 0.6875, 0.791666666666666...",8,44,GS,41
627,근데 그 목소리가 팽수여야 되잖아요 더 싸게 부를 수 있는 사람이 있을까,"[0.5208333333333334, 0.6875, 0.791666666666666...",8,44,GS,46
628,뜬금없는 걸로 하면 설민석님이 근데 생각보다 저는 한혜진 님이 제일 인기를 못 끄실...,"[0.5208333333333334, 0.6875, 0.791666666666666...",8,44,GS,48
629,설은석 님이랑 비슷해 그쪽이어가지고 뷰티,"[0.5208333333333334, 0.6875, 0.791666666666666...",8,44,GS,50


### Zero-shot LLM Inference

In [4]:
import torch
import pandas as pd
from tqdm import tqdm
from llama_cpp import Llama
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer, GenerationConfig
import logging
logging.disable(logging.INFO) 
logging.disable(logging.WARNING) 

FI_test = pd.read_csv("/data/visi2/FI/KETI_test_from_ver0.4.csv")  # 데이터 불러오기 (First Impression V2 데이터의 Test set 불러오기)

model_id = 'Bllossom/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M'  # 모델 이름
GGUF = "llama-3-Korean-Bllossom-70B-gguf-Q4_K_M.gguf" # GGUF 경로
model = Llama(
    model_path='/data/visi2/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M.gguf',
    n_ctx=1024,
    n_gpu_layers=-1,       
    verbose=False, 
)

tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token = tokenizer.eos_token

zero_shot2 = '당신은 문장에 대해 OCEAN 성격 요소 각각에 대한 점수를 알려주는 전문가 입니다. \n\
OCEAN 성격 요소는 다음에 대한 사항을 확인합니다. O(Openness), C(Conscientiousness), E(Extraversion), A(Agreeableness), N(Neuroticism) \n\
주어진 문장을 읽고, 문장에서 나타나는 OCEAN 성격 요소들을 분석하여 각각의 요소에 0에서 1 사이의 점수를 매기세요. \n\
점수는 문장에서 해당 요소가 얼마나 잘 드러나는지를 기반으로 하며, 0에 가까울수록 전혀 드러나지 않음을, 1에 가까울수록 매우 강하게 드러남을 의미합니다. \n\
다음의 예시와 같이 출력 값으로 주어진 문장에 대한 OCEAN 성격 요소 5가지를 각각의 점수로 나타내어야합니다. [O: 0.6722, C: 0.8322, E: 0.4860, A: 0.5298, N: 0.9323] \n\
'

generation_kwargs = {  
    "max_tokens" : 512, 
    "temperature" : 0.6,
    "top_p" :0.9,
    "stop":["<|eot_id|>"],
}

result_df = pd.DataFrame(columns=["Text", "Inference"])  # 결과를 저장할 데이터프레임

for content in tqdm(FI_test['transcription'].to_list()):
    user = content
    inputs = tokenizer.encode(zero_shot2 + '문장: "' + user + '",\n 결과- [O: ', return_tensors='pt').to("cuda")  # 입력 데이터 토크나이징
    raw_inputs = zero_shot2 + '문장: "' + user + '",\n 결과- ['  # 토크나이징 전 텍스트
    outputs = model(raw_inputs, **generation_kwargs)

    out_text = outputs['choices'][0]['text'][len(inputs):]
    tmp_df = pd.DataFrame({'Text': [user], 'Inference': [out_text]})  # 만들어진 출력 저장하기
    result_df = pd.concat([result_df, tmp_df])

# KULLM, KoSOLAR (SOLAR-10.7B) : 약 21GB GPU 메모리 소모

100%|██████████| 631/631 [31:16<00:00,  2.97s/it]  


In [None]:
result_df['Inference'].to_list()

In [6]:
score = []
p = re.compile('0[.]\d*')

for content in result_df['Inference'].to_list():
    tmp = p.findall(content)
    score.append(tmp)

In [7]:
score

[['0.5437', '0.8471', '0.3965', '0.5822', '0.7586'],
 ['0.5', '0.5', '0.5', '0.5', '0.5'],
 ['0.5', '0.6', '0.7', '0.8', '0.9'],
 ['0.7000', '0.8500', '0.3500', '0.4000', '0.3000'],
 ['0.5', '0.8', '0.6', '0.4', '0.9'],
 ['0.5', '0.4', '0.6', '0.6', '0.2'],
 ['0.7', '0.8', '0.5', '0.6', '0.9'],
 ['0.0', '0.0', '0.0'],
 ['0.6486', '0.8478', '0.5151', '0.5619', '0.9215'],
 ['0.5', '0.4', '0.2', '0.6', '0.9'],
 ['0.5', '0.6', '0.4', '0.5', '0.5'],
 ['0.5', '0.8', '0.6', '0.4', '0.7'],
 ['0.5426', '0.8457', '0.5159', '0.5431', '0.7793'],
 ['0.5', '0.6', '0.8', '0.4', '0.7'],
 ['0.8502', '0.9101', '0.7007', '0.8901', '0.3231'],
 ['0.5', '0.5', '0.5', '0.5', '0.5'],
 ['0.5', '0.5', '0.5', '0.5', '0.5'],
 ['0.8', '0.7', '0.5', '0.6', '0.4'],
 ['0.8', '0.6', '0.7', '0.5', '0.4'],
 ['0.1092', '0.5821', '0.6706', '0.7299'],
 ['0.6869', '0.8478', '0.5137', '0.5486', '0.9565'],
 ['0.4000', '0.5000', '0.7000', '0.1000', '0.9000'],
 ['0.0', '0.0', '0.0', '0.8', '0.0'],
 ['0.5', '0.4', '0.6', '0.6', 

In [None]:
FI_test = pd.read_csv("/data/visi2/FI/KETI_test_from_ver0.4.csv",
                     index_col=0)

FI_test['label'] = FI_test['OCEAN'].map(lambda x : [float(i) for i in x[1:-1].split(',')])

In [None]:
MAE_arr = []
error_idx = []

for i in range(len(FI_test)):
    try:
        MAE_arr.append(test_compute_metrics(FI_test['label'].iloc[i][:5], score[i][:5]))
    except Exception as e:
        print(i, e)
        error_idx.append(i)

In [None]:
error_idx

In [12]:
factor_mae = np.array(MAE_arr).mean(axis=0)
avg_mae = np.mean(factor_mae)

factor_mae, avg_mae

(array([0.76689361, 0.74817063, 0.72982805, 0.82210586, 0.6573215 ]),
 0.7448639302694146)

In [None]:
while len(error_idx) !=0:
    re_df = pd.DataFrame(columns=["Text", "Inference"])
    
    for data in tqdm(FI_test['transcription'][error_idx].to_list()):
        user = data
        re_inputs = zero_shot2 + '문장: "' + user + '",\n 결과- ['
        outputs = model(re_inputs, **generation_kwargs)
        out_text = outputs['choices'][0]['text'][len(inputs):]
    
        tmp_df = pd.DataFrame({'Text': [user], 'Inference': [out_text]})  # 만들어진 출력 저장하기
        re_df = pd.concat([re_df, tmp_df])

    re_score = []
    p = re.compile('0[.]\d*')
    
    for content in re_df['Inference'].to_list():
        tmp = p.findall(content)
        re_score.append(tmp)
        
    for i, idx in enumerate(error_idx):
        score[idx] = re_score[i]

    MAE_arr = []
    error_idx = []
    
    for i in range(len(FI_test)):
        try:
            MAE_arr.append(test_compute_metrics(FI_test['label'].iloc[i][:5], score[i][:5]))
        except Exception as e:
            print(i, e)
            error_idx.append(i)

--------------------

### One-shot LLM Inference (Kernel Restart Required for GPU Memory)

In [3]:
import torch
import pandas as pd
from tqdm import tqdm
from llama_cpp import Llama
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer, GenerationConfig
import logging
logging.disable(logging.INFO)
logging.disable(logging.WARNING)

FI_test = pd.read_csv("/data/visi2/FI/KETI_test_from_ver0.4.csv")  # 데이터 불러오기 (First Impression V2 데이터의 Test set 불러오기)

model_id = 'Bllossom/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M'  # 모델 이름
GGUF = "data/visi/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M.gguf" # GGUF 경로
model = Llama(
    model_path='/data/visi2/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M.gguf',
    n_ctx=1024,
    n_gpu_layers=-1,        # Number of model layers to offload to GPU
    verbose=False, 
)

tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token = tokenizer.eos_token

one_shot_text = "공연 보는 건 어떨까요? 네 좋아요"

zero_shot2 = '당신은 문장에 대해 OCEAN 성격 요소 각각에 대한 점수를 알려주는 전문가 입니다. \n\
OCEAN 성격 요소는 다음에 대한 사항을 확인합니다. O(Openness), C(Conscientiousness), E(Extraversion), A(Agreeableness), N(Neuroticism) \n\
주어진 문장을 읽고, 문장에서 나타나는 OCEAN 성격 요소들을 분석하여 각각의 요소에 0에서 1 사이의 점수를 매기세요. \n\
점수는 문장에서 해당 요소가 얼마나 잘 드러나는지를 기반으로 하며, 0에 가까울수록 전혀 드러나지 않음을, 1에 가까울수록 매우 강하게 드러남을 의미합니다. \n\
다음의 예시와 같이 출력 값으로 주어진 문장에 대한 OCEAN 성격 요소 5가지를 각각의 점수로 나타내어야합니다. [O: 0.6722, C: 0.8322, E: 0.4860, A: 0.5298, N: 0.3541] \n\
'

ko_prompt_one_shot = zero_shot2 + '문장: "' + one_shot_text + '",\n 결과- [O: 0.9792, C: 0.9792, E: 0.8334, A: 0.6458, N: 0.2083] \n'

generation_kwargs = {  # Decoding/Sampling Strategy
    "max_tokens" : 512, # 최대 생성 토큰, 1024
    "temperature" : 0.9,
    "repeat_penalty" : 1.3,
    "top_k" :50,
    "top_p" :0.92,
    "stop":["<|eot_id|>"],
}

result_df = pd.DataFrame(columns=["Text", "Inference"])  # 결과를 저장할 데이터프레임

for content in tqdm(FI_test['transcription'].to_list()):
    user = content
    inputs = tokenizer.encode(zero_shot2 + '문장: "' + user + '",\n 결과- [O: ', return_tensors='pt').to("cuda")  # 입력 데이터 토크나이징
    raw_inputs = zero_shot2 + '문장: "' + user + '",\n 결과- ['  # 토크나이징 전 텍스트
    outputs = model(raw_inputs, **generation_kwargs)
    out_text = outputs['choices'][0]['text'][len(inputs):]

    tmp_df = pd.DataFrame({'Text': [user], 'Inference': [out_text]})  # 만들어진 출력 저장하기
    result_df = pd.concat([result_df, tmp_df])

# KULLM, KoSOLAR (SOLAR-10.7B) : 약 21GB GPU 메모리 소모

100%|██████████| 631/631 [1:01:02<00:00,  5.80s/it]


In [None]:
result_df['Inference'].to_list()

In [5]:
score = []
p = re.compile('0[.]\d*')

for content in result_df['Inference'].to_list():
    tmp = p.findall(content)
    score.append(tmp)

In [None]:
score

In [None]:
FI_test = pd.read_csv("/data/visi2/FI/KETI_test_from_ver0.4.csv",
                     index_col=0)
FI_test['label'] = FI_test['OCEAN'].map(lambda x : [float(i) for i in x[1:-1].split(',')])

In [None]:
MAE_arr = []
error_idx = []

for i in range(len(FI_test)):
    try:
        MAE_arr.append(test_compute_metrics(FI_test['label'].iloc[i][:5], score[i][:5]))
    except Exception as e:
        print(i, e)
        error_idx.append(i)

In [None]:
error_idx

In [None]:
while len(error_idx) !=0:
    re_df = pd.DataFrame(columns=["Text", "Inference"])
    
    for data in tqdm(FI_test['transcription'][error_idx].to_list()):
        user = data
        re_inputs = zero_shot2 + '문장: "' + user + '",\n 결과- ['
        outputs = model(re_inputs, **generation_kwargs)
        out_text = outputs['choices'][0]['text'][len(inputs):]
    
        tmp_df = pd.DataFrame({'Text': [user], 'Inference': [out_text]})  # 만들어진 출력 저장하기
        re_df = pd.concat([re_df, tmp_df])

    re_score = []
    p = re.compile('0[.]\d*')
    
    for content in re_df['Inference'].to_list():
        tmp = p.findall(content)
        re_score.append(tmp)
        
    for i, idx in enumerate(error_idx):
        score[idx] = re_score[i]

    MAE_arr = []
    error_idx = []
    
    for i in range(len(FI_test)):
        try:
            MAE_arr.append(test_compute_metrics(FI_test['label'].iloc[i][:5], score[i][:5]))
        except Exception as e:
            print(i, e)
            error_idx.append(i)

In [None]:
factor_mae = np.array(MAE_arr).mean(axis=0)
avg_mae = np.mean(factor_mae)

factor_mae, avg_mae

------------

### five-shot LLM Inference (Kernel Restart Required for GPU Memory)

In [None]:
import torch
import pandas as pd
from tqdm import tqdm
from llama_cpp import Llama
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer, GenerationConfig
import logging
logging.disable(logging.INFO) 
logging.disable(logging.WARNING)

FI_test = pd.read_csv("/data/visi2/FI/KETI_test_from_ver0.4.csv")  # 데이터 불러오기 (First Impression V2 데이터의 Test set 불러오기)

model_id = 'Bllossom/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M'  # 모델 이름
GGUF = "data/visi/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M.gguf" # GGUF 경로
model = Llama(
    model_path='/data/visi2/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M.gguf',
    n_ctx=1024,
    n_gpu_layers=-1        # Number of model layers to offload to GPU
    verbose=False
)

tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token = tokenizer.eos_token

few_shot_text0 = "네 그럼 14위는 어떤 분으로 하는 게 좋을까요?"
few_shot_text1 = "편의점 귀엽다"
few_shot_text2 = "술 팔까요? 아 근데"
few_shot_text3 = "진짜요? 그러면 해주실 수 있어요."
few_shot_text4 = "그렇죠 그렇죠 그렇죠 여기 여기 메인 무대가 무대랑 좌석인 거죠?"

zero_shot2 = '당신은 문장에 대해 OCEAN 성격 요소 각각에 대한 점수를 알려주는 전문가 입니다. \n\
OCEAN 성격 요소는 다음에 대한 사항을 확인합니다. O(Openness), C(Conscientiousness), E(Extraversion), A(Agreeableness), N(Neuroticism) \n\
주어진 문장을 읽고, 문장에서 나타나는 OCEAN 성격 요소들을 분석하여 각각의 요소에 0에서 1 사이의 점수를 매기세요. \n\
점수는 문장에서 해당 요소가 얼마나 잘 드러나는지를 기반으로 하며, 0에 가까울수록 전혀 드러나지 않음을, 1에 가까울수록 매우 강하게 드러남을 의미합니다. \n\
다음의 예시와 같이 출력 값으로 주어진 문장에 대한 OCEAN 성격 요소 5가지를 각각의 점수로 나타내어야합니다. [O: 0.6722, C: 0.8322, E: 0.4860, A: 0.5298, N: 0.9323] \n\
'

ko_prompt_few_shot = zero_shot2 + '문장: "' + few_shot_text0 + '",\n 결과- [O: 0.9762 , C: 0.9792 , E: 0.8333 , A: 0.6458 , N: 0.2083 ] \n' + \
                    '문장: "' + few_shot_text1 + '",\n 결과- [O: 0.6667 , C: 0.7292, E: 0.8542, A: 0.5625, N: 0.2708] \n' + \
                    '문장: "' + few_shot_text2 + '",\n 결과- [O: 0.5625, C: 0.8333, E: 0.8125, A: 0.3125, N: 0.2708 ] \n' + \
                    '문장: "' + few_shot_text3 + '",\n 결과- [O: 0.7917, C: 0.5625, E: 0.8542, A: 0.7083, N: 0.3750] \n' + \
                    '문장: "' + few_shot_text4 + '",\n 결과- [O: 0.9375, C: 0.9583, E: 0.8750, A: 0.3542, N: 0.1875 ] \n'


generation_kwargs = {  # Decoding/Sampling Strategy
    "max_tokens" : 512, # 최대 생성 토큰, 1024
    "temperature" : 0.9,
    "repeat_penalty" : 1.3,
    "top_k" :50,
    "top_p" :0.92,
    "stop":["<|eot_id|>"],
}

result_df = pd.DataFrame(columns=["Text", "Inference"])  # 결과를 저장할 데이터프레임

for content in tqdm(FI_test['transcription'].to_list()):
    user = content
    inputs = tokenizer.encode(zero_shot2 + '문장: "' + user + '",\n 결과- [O: ', return_tensors='pt').to("cuda")  # 입력 데이터 토크나이징
    raw_inputs = zero_shot2 + '문장: "' + user + '",\n 결과- ['  # 토크나이징 전 텍스트
    outputs = model(raw_inputs, **generation_kwargs)
    out_text = outputs['choices'][0]['text'][len(inputs):]


    tmp_df = pd.DataFrame({'Text': [user], 'Inference': [out_text]})  # 만들어진 출력 저장하기
    result_df = pd.concat([result_df, tmp_df])

# KULLM, KoSOLAR (SOLAR-10.7B) : 약 21GB GPU 메모리 소모

In [None]:
result_df['Inference'].to_list()

In [None]:
score = []
p = re.compile('0[.]\d*')

for content in result_df['Inference'].to_list():
    tmp = p.findall(content)
    score.append(tmp)

In [None]:
score

In [None]:
FI_test = pd.read_csv("/data/visi2/FI/KETI_test_from_ver0.4.csv",
                     index_col=0)
# FI_test['label'] = FI_test[['openness', 'conscientiousness', 'extraversion', 'agreeableness', 'neuroticism']].apply( lambda row: ' '.join(row.values.astype('str')), axis=1)

# FI_test['label'] = FI_test['label'].str.split(' ')
FI_test['label'] = FI_test['OCEAN'].map(lambda x : [float(i) for i in x[1:-1].split(',')])

In [None]:
MAE_arr = []
error_idx = []

for i in range(len(FI_test)):
    try:
        MAE_arr.append(test_compute_metrics(FI_test['label'].iloc[i][:5], score[i][:5]))
    except Exception as e:
        print(i, e)
        error_idx.append(i)

In [None]:
error_idx

In [None]:
while len(error_idx) !=0:
    re_df = pd.DataFrame(columns=["Text", "Inference"])
    
    for data in tqdm(FI_test['transcription'][error_idx].to_list()):
        user = data
        re_inputs = zero_shot2 + '문장: "' + user + '",\n 결과- ['
        outputs = model(raw_inputs, **generation_kwargs)

        out_text = outputs['choices'][0]['text'][len(inputs):]
    
        tmp_df = pd.DataFrame({'Text': [user], 'Inference': [out_text]})  # 만들어진 출력 저장하기
        re_df = pd.concat([re_df, tmp_df])

    re_score = []
    p = re.compile('0[.]\d*')
    
    for content in re_df['Inference'].to_list():
        tmp = p.findall(content)
        re_score.append(tmp)
        
    for i, idx in enumerate(error_idx):
        score[idx] = re_score[i]

    MAE_arr = []
    error_idx = []
    
    for i in range(len(FI_test)):
        try:
            MAE_arr.append(test_compute_metrics(FI_test['label'].iloc[i][:5], score[i][:5]))
        except Exception as e:
            print(i, e)
            error_idx.append(i)

In [None]:
factor_mae = np.array(MAE_arr).mean(axis=0)
avg_mae = np.mean(factor_mae)

factor_mae, avg_mae

### ETC

In [None]:
p1 = "너는 지금부터 문장에 대해 BIG 5 성격 검사의 결과를 보여주는 전문 계산기야. 너는 전문가로써 BIG 5에 대한 정보를 충분히 알고있고 \
주어진 문장에 대해 5가지 요소를 가지는 BIG 5 성격 검사로 개성을 평가해야만 해. \
이 때, 문장이 주어지면 각각의 요소(개방성, 성실성, 우호성, 외향성, 신경증)에 대해 0부터 1사이의 값을 가지도록 숫자로 평가해야하고, \
모든 요소에 대해 최대한 세밀하고 정확하게 값을 출력해야 해. \
결과를 출력할 때, BIG 5에 대한 설명이나 이유에 대해서는 필요 없이 숫자 값만 보여줘. <요소 - 숫자> 형식으로 출력해.\
문장 : 오늘 워크샵은 정말 기대돼!>"

p2 = "당신은 문장에 대해 BIG 5 성격 검사의 결과를 보여주는 전문가 입니다. 주어진 문장을 읽고, 다음과 같은 OCEAN 요소들을 각각 0에서 1 사이의 값으로 나타내세요. O(Openness): 개방성, C(Conscientiousness): 성실성, \
E(Extraversion): 외향성, A(Agreeableness): 친화성, N(Neuroticism): 신경성, 문장을 이용하여 각 요소의 점수를 계산할 때, 다음과 같은 접근을 사용할 수 있습니다: \
Openness (O): 문장에 포함된 창의성, 호기심, 복잡성에 대한 언급 등을 고려합니다. Conscientiousness (C): 문장에서 나타나는 계획성, 철저함, 조직성을 고려합니다. \
Extraversion (E): 문장에서 외향적인 특성, 사회적 활동에 대한 언급을 고려합니다. Agreeableness (A): 문장에서 타인에 대한 관심, 협동성, 친화력을 고려합니다. \
Neuroticism (N): 문장에 포함된 감정적 불안, 긴장, 우울 등을 고려합니다. \
이러한 기준을 이용하여 주어진 문장을 분석하여 각 요소에 대한 0에서 1 사이의 값을 계산해보세요. \
계산된 값은 다음의 예시처럼 다섯 개의 요소에 대한 배열로 표현되어야 합니다. \
예시) 다른 방에서 미친 듯이 달려가서 없는지 확인했는데 없는 것 같았어요 이제 잠을 충분히 못 자서 가위를 어딘가로 옮겼을 수도 있지만 맹세컨대 - [0.8222, 0.6699, 0.4860, 0.6458, 0.6813]"

In [None]:
base_prompt = '당신은 문장에 대해 OCEAN 성격 요소 각각에 대한 점수를 알려주는 전문가 입니다. \n\
OCEAN 성격 요소는 다음에 대한 사항을 확인합니다. O(Openness), C(Conscientiousness), E(Extraversion), A(Agreeableness), N(Neuroticism) \n\
주어진 문장을 읽고, 문장에서 나타나는 OCEAN 성격 요소들을 분석하여 각각의 요소에 0에서 1 사이의 점수를 매기세요. \n\
점수는 문장에서 해당 요소가 얼마나 잘 드러나는지를 기반으로 하며, 0에 가까울수록 전혀 드러나지 않음을, 1에 가까울수록 매우 강하게 드러남을 의미합니다. \n\
다음의 예시와 같이 출력 값으로 주어진 문장에 대한 OCEAN 성격 요소 5가지를 각각의 점수로 나타내어야합니다. [O: 0.6722, C: 0.8322, E: 0.4860, A: 0.5298, N: 0.9323] \n\
'
one_shot_text = "현재 가장 좋아하는 책 사실 몇 달 전에 서점에서 이 책을 샀는데 읽을 기회가 없었는데 읽기 시작했어요 한번 시작하면 내려놓고 싶지 않은 책 조이스 마이어의 <용감하게 살기>라는 책이에요."

zero = base_prompt + '문장: "' + "<EXAMPLE SENTENCE OF FI_TEST DATASET>" + '",\n 결과- [O: '

one = base_prompt + '문장: "' + one_shot_text + '",\n 결과- [O: 0.6333, C: 0.7184, E: 0.4019, A: 0.4176, N: 0.5313] \n' + '문장: "' + "<EXAMPLE SENTENCE OF FI_TEST DATASET>" + '",\n 결과- [O: '



print("Zero shot Input: ", "\n", zero )
print("\n\n" ,"========================="*15, "\n\n")
print("One shot Input: ", "\n", one)

### prompt example mining

In [None]:
import pandas as pd

val = pd.read_csv("/data/visi2/FI/val_ko_pp.csv",
                 index_col=0)

In [None]:
val.describe().T

In [None]:
open_high = val[val['openness'] == val['openness'].max()]
open_low = val.sort_values(by='openness')
cons_high = val[val['conscientiousness'] == val['conscientiousness'].max()]
cons_low = val[val['conscientiousness'] == val['conscientiousness'].min()]
extra_high = val[val['extraversion'] == val['extraversion'].max()]
extra_low = val.sort_values(by='extraversion')
agree_high = val.sort_values(by='agreeableness',ascending=False)
agree_low = val.sort_values(by='agreeableness')
neuro_high = val[val['neuroticism'] == val['neuroticism'].max()]
neuro_low = val.sort_values(by='neuroticism')

In [None]:
neuro_low

In [None]:
res = {
    open_high['transcription'].to_list()[0] : open_high[["openness", "conscientiousness", "extraversion", "agreeableness", "neuroticism"]].iloc[0],
    open_low['transcription'].to_list()[1] : open_low[["openness", "conscientiousness", "extraversion", "agreeableness", "neuroticism"]].iloc[0],
    cons_high['transcription'].to_list()[0] : cons_high[["openness", "conscientiousness", "extraversion", "agreeableness", "neuroticism"]].iloc[0],
    cons_low['transcription'].to_list()[0] : cons_low[["openness", "conscientiousness", "extraversion", "agreeableness", "neuroticism"]].iloc[0],
    extra_high['transcription'].to_list()[0] : extra_high[["openness", "conscientiousness", "extraversion", "agreeableness", "neuroticism"]].iloc[0],
    extra_low['transcription'].to_list()[1] : extra_low[["openness", "conscientiousness", "extraversion", "agreeableness", "neuroticism"]].iloc[0],
    agree_high['transcription'].to_list()[1] : agree_high[["openness", "conscientiousness", "extraversion", "agreeableness", "neuroticism"]].iloc[0],
    agree_low['transcription'].to_list()[1] : agree_low[["openness", "conscientiousness", "extraversion", "agreeableness", "neuroticism"]].iloc[0],
    neuro_high['transcription'].to_list()[0] : neuro_high[["openness", "conscientiousness", "extraversion", "agreeableness", "neuroticism"]].iloc[0],
    neuro_low['transcription'].to_list()[1] : neuro_low[["openness", "conscientiousness", "extraversion", "agreeableness", "neuroticism"]].iloc[0],
}


len(res), res

### Ten-Shot Inference

In [None]:
import torch
import pandas as pd
from tqdm import tqdm
from llama_cpp import Llama
from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer, GenerationConfig
import logging
logging.disable(logging.INFO) 
logging.disable(logging.WARNING) 

FI_test = pd.read_csv("/data/visi2/FI/KETI_test_from_ver0.4.csv")  # 데이터 불러오기 (First Impression V2 데이터의 Test set 불러오기)

model_id = 'Bllossom/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M'  # 모델 이름
GGUF = "llama-3-Korean-Bllossom-70B-gguf-Q4_K_M.gguf" # GGUF 경로
model = Llama(
    model_path='/data/visi2/llama-3-Korean-Bllossom-70B-gguf-Q4_K_M.gguf',
    n_ctx=1024,
    n_gpu_layers=-1       
    verbose=False,
)


tokenizer = AutoTokenizer.from_pretrained(model_id)
tokenizer.pad_token = tokenizer.eos_token

zero_shot2 = '당신은 문장에 대해 OCEAN 성격 요소 각각에 대한 점수를 알려주는 전문가 입니다. \n\
OCEAN 성격 요소는 다음에 대한 사항을 확인합니다. O(Openness), C(Conscientiousness), E(Extraversion), A(Agreeableness), N(Neuroticism) \n\
주어진 문장을 읽고, 문장에서 나타나는 OCEAN 성격 요소들을 분석하여 각각의 요소에 0에서 1 사이의 점수를 매기세요. \n\
점수는 문장에서 해당 요소가 얼마나 잘 드러나는지를 기반으로 하며, 0에 가까울수록 전혀 드러나지 않음을, 1에 가까울수록 매우 강하게 드러남을 의미합니다. \n\
다음의 예시와 같이 출력 값으로 주어진 문장에 대한 OCEAN 성격 요소 5가지를 각각의 점수로 나타내어야합니다. [O: 0.6722, C: 0.8322, E: 0.4860, A: 0.5298, N: 0.9323] \n\
'

ko_prompt_few_shot = zero_shot2 + '문장: "' + few_shot_text0 + '",\n 결과- [O: 0.6875, C: 0.4792, E: 0.4375, A: 0.7708, N: 0.4375] \n' + \
                    '문장: "' + few_shot_text1 + '",\n 결과- [O: 0.6667, C: 0.7292, E: 0.8542, A: 0.5625, N: 0.2708 ] \n' + \
                    '문장: "' + few_shot_text2 + '",\n 결과- [O: 0.5208, C: 0.6875, E: 0.7920, A: 0.6458, N: 0.2500 ] \n' + \
                    '문장: "' + few_shot_text3 + '",\n 결과- [O: 0.4583, C: 0.6875, E: 0.7083, A: 0.5833, N: 0.3333] \n' + \
                    '문장: "' + few_shot_text4 + '",\n 결과- [O: 0.5000, C: 0.5625, E: 0.6875, A: 0.5625, N: 0.2708 ] \n' + \
                    '문장: "' + few_shot_text5 + '",\n 결과- [O: 0.5833, C: 0.4583, E: 0.8125, A: 0.5420, N: 0.4583] \n' + \
                    '문장: "' + few_shot_text6 + '",\n 결과- [O: 0.7292, C: 0.4792, E: 0.5000, A: 0.4583, N: 0.7292 ] \n' + \
                    '문장: "' + few_shot_text7 + '",\n 결과- [O: 0.9792, C: 0.9792, E: 0.8333, A: 0.6458, N: 0.2083] \n' + \
                    '문장: "' + few_shot_text8 + '",\n 결과- [O: 0.7920, C: 0.5625, E: 0.8542, A: 0.7083, N: 0.3750] \n' + \
                    '문장: "' + few_shot_text9 + '",\n 결과- [O: 0.5625, C: 0.8333, E: 0.8125, A: 0.3125, N: 0.2708] \n'

generation_kwargs = {  # Decoding/Sampling Strategy
    "max_tokens" : 512, # 최대 생성 토큰, 1024
    "temperature" : 0.9,
    "repeat_penalty" : 1.3,
    "top_k" :50,
    "top_p" :0.92,
    "stop":["<|eot_id|>"],
}

result_df = pd.DataFrame(columns=["Text", "Inference"])  # 결과를 저장할 데이터프레임

for content in tqdm(FI_test['transcription'].to_list()):
    user = content
    inputs = tokenizer.encode(zero_shot2 + '문장: "' + user + '",\n 결과- [O: ', return_tensors='pt').to("cuda")  # 입력 데이터 토크나이징
    raw_inputs = zero_shot2 + '문장: "' + user + '",\n 결과- [O: '  # 토크나이징 전 텍스트
    outputs = model(raw_inputs, **generation_kwargs)
    out_text = outputs['choices'][0]['text'][len(inputs):]


    tmp_df = pd.DataFrame({'Text': [user], 'Inference': [out_text]})  # 만들어진 출력 저장하기
    result_df = pd.concat([result_df, tmp_df])

# KULLM, KoSOLAR (SOLAR-10.7B) : 약 21GB GPU 메모리 소모

In [None]:
result_df['Inference'].to_list()

In [None]:
score = []
p = re.compile('0[.]\d*')

for content in result_df['Inference'].to_list():
    tmp = p.findall(content)
    score.append(tmp)


In [None]:
score

In [None]:
FI_test = pd.read_csv("/data/visi2/FI/KETI_test_from_ver0.4.csv",
                     index_col=0)

FI_test['label'] = FI_test['OCEAN'].map(lambda x : [float(i) for i in x[1:-1].split(',')])

In [None]:
MAE_arr = []
error_idx = []

for i in range(len(FI_test)):
    try:
        MAE_arr.append(test_compute_metrics(FI_test['label'].iloc[i][:5], score[i][:5]))
    except Exception as e:
        print(i, e)
        error_idx.append(i)

In [None]:
error_idx

In [None]:
while len(error_idx) !=0:
    re_df = pd.DataFrame(columns=["Text", "Inference"])
    
    for data in tqdm(FI_test['transcription'][error_idx].to_list()):
        user = data
     #   conversation = [{'role': 'system', 'content': en_prompt}, {'role' : 'user', 'content' : 'Given Sentence: "' + user + '",\n Results- [O: '}]
        inputs = tokenizer.encode(ko_prompt_few_shot + '문장: "' + user + '",\n 결과- [O: ', return_tensors='pt').to("cuda")  # No template
        outputs = model(raw_inputs, **generation_kwargs)

    out_text = outputs['choices'][0]['text'][len(inputs):]


    tmp_df = pd.DataFrame({'Text': [user], 'Inference': [out_text]})  # 만들어진 출력 저장하기
    re_df = pd.concat([re_df, tmp_df])

    re_score = []
    p = re.compile('0[.]\d*')
    
    for content in re_df['Inference'].to_list():
        tmp = p.findall(content)
        re_score.append(tmp)
        
    for i, idx in enumerate(error_idx):
        score[idx] = re_score[i]

    MAE_arr = []
    error_idx = []
    
    for i in range(len(FI_test)):
        try:
            MAE_arr.append(test_compute_metrics(FI_test['label'].iloc[i][:5], score[i][:5]))
        except Exception as e:
            print(i, e)
            error_idx.append(i)


In [None]:
factor_mae = np.array(MAE_arr).mean(axis=0)
avg_mae = np.mean(factor_mae)

factor_mae, avg_mae