In [None]:
import os
from openai import OpenAI
from dotenv import load_dotenv


load_dotenv()

OPENAI_API_KEY = os.getenv('OPENAI_API_KEY')

client = OpenAI(
    api_key = OPENAI_API_KEY
)

completion = client.chat.completions.create(
    model='gpt-3.5-turbo',
    messages=[{'role':'user', 'content':'hi'}],
    temperature=0
)

print(completion.choices[0].message.content)


Hello! How can I assist you today?


## 데이터 전처리 함수 작성
리뷰 JSON 파일 로드

In [11]:
import json

with open('./res/reviews.json', 'r') as f:
    review_list = json.load(f)
    
review_list[:3]

[{'review': '서울 호캉스를 알아보다가 접근성 좋은 용산역 바로앞에 위치한 나인트리 프리미어 로카우스 호텔 서울 용산!! 정말 기대 이상으로 호텔시설, 애프터눈 티,\r\n수영장, 해피아워, 야경, 조식 이 모든거를 다 누렸는데!\r\n\r\n가격이 20만원 초중반이라니 😍 정말 엄마도 너무 좋아하시고 저도 너무 행복했던 야놀자에 있는 이그제큐티브 라운지 상품 강추합니다👍👍👍\r\n\r\n애프터눈티- 체크인 직후에 라운지에서 티타임❤️\r\n가볍게 샌드위치랑 쿠키가 나왔어요\r\n\r\n수영장- 1,2,3부 중에 원하는 시간 선택해서 이용하는 방식이고 그래서 그런지 다른 수영장 대비 사람이 엄청 많지도 않았어요 카바나 이런거도 무료라 무조건 빨리 입장하셔서 좋은자리 잡는거 추천드려용! 💕\r\n\r\n해피아워- 연어,불고기,치즈 각종음식들이 생각보다 종류도 많고 5성급 해피아워에 밀리지 않는 음식 퀼리티여서 진짜 해피아워 이용하면서 더 반한 로카우스!! 와인, 보드카가 좀 아쉬운거 빼고는 진짜 굿\r\n\r\n야경 정말 완벽 그자체! 제가 3번째 사진에서 찍은것은 해피아워 라운지10층 왼쪽복도 맨끝!!\r\n\r\n조식- 가짓수는 30~40여가지로 엄청 많은것도 적지도 않은 가짓수에요 근데 맛이 다 좋아서 ㅎㅎ\r\n아침부터 폭풍식사 했습니다. 다만 1부, 2부든 무조건 빨리가세오 안그러면 웨이팅 있습니다.\r\n\r\n나인트리 프리미어 로카우스 호텔 서울 용산\r\n서울 호캉스로 가성비도 좋고 기대이상 다 좋아서 만족도 정말 높은 호캉스였어용 또올게용❤️👍',
  'stars': 5,
  'date': '2024.01.24'},
 {'review': '한강뷰가 잘 안보인다는 후기가 있어 걱정했는데 통창으로 너무 잘보였어요!!!! 짱짱!!!',
  'stars': 5,
  'date': '1일 전'},
 {'review': '서울 출장으로 편하게 쉬었습니다', 'stars': 5, 'date': '2일 전'}]

좋은 평점 및 나쁜 평점 정의
- 좋은 평점 = 별점 5개
- 나쁜 평점 = 별점 4개 이하

In [12]:
good_cnt, bad_cnt = 0, 0
for r in review_list:
    if r['stars'] == 5:
        good_cnt += 1
    else:
        bad_cnt += 1

# 좋은 리뷰, 나쁜 리뷰
good_cnt, bad_cnt

(188, 32)

좋은 리뷰 및 나쁜 리뷰로 구분후 저장

In [13]:
reviews_good, reviews_bad = [], []
for r in review_list:
    if r['stars'] == 5:
        reviews_good.append('[REVIEW_START]' + r['review'] + '[REVIEW_END]')
    else:
        reviews_bad.append('[REVIEW_START]' + r['review'] + '[REVIEW_END]')

reviews_bad[:3]

['[REVIEW_START]깨끗하고 좋앗어요\n다음에 또가고 싶어요[REVIEW_END]',
 '[REVIEW_START]좋아요~~다음에 재방문할게요[REVIEW_END]',
 '[REVIEW_START]이런 집에서 살고 싶은 청와대 주변과 매우 잘 어울리는 숙소\n\n입구에서 나는 향이 좋고 방 디자인이 미국식 인테리어일거 같다\n미군들도 많이 이용하는거 같다\n\n훌륭하다[REVIEW_END]']

In [14]:
reviews_good_text = '\n'.join(reviews_good)
reviews_bad_text = '\n'.join(reviews_bad)

reviews_bad_text[:100]

'[REVIEW_START]깨끗하고 좋앗어요\n다음에 또가고 싶어요[REVIEW_END]\n[REVIEW_START]좋아요~~다음에 재방문할게요[REVIEW_END]\n[REVIEW_ST'

전처리 함수 작성

In [16]:
import datetime
from dateutil import parser

def preprocess_reviews(path='./res/reviews.json'):
    with open(path, 'r', encoding='utf-8') as f:
        review_list = json.load(f)
        
    reviews_good, reviews_bad = [], []
    
    current_date = datetime.datetime.now()
    date_boundary = current_date - datetime.timedelta(days=6*30)
    
    for r in review_list:
        review_date_str = r['date']
        # 몇 일전, 몇 시간전 등의 예외 케이스를 대응하기 위한 try~excpet
        try:
            review_date = parser.parse(review_date_str)
        except (ValueError, TypeError):
            # 최대 일주일간은 현재 날짜로 대체
            review_date = current_date
        
        if review_date < date_boundary:
            continue
        
        if r['stars'] == 5:
            reviews_good.append('[REVIEW_START]' + r['review'] + '[REVIEW_END]')
        else:
            reviews_bad.append('[REVIEW_START]' + r['review'] + '[REVIEW_END]')
            
    reviews_good_text = '\n'.join(reviews_good)
    reviews_bad_text = '\n'.join(reviews_bad)
    
    return reviews_good_text, reviews_bad_text

good, bad = preprocess_reviews()
good[:100]

'[REVIEW_START]한강뷰가 잘 안보인다는 후기가 있어 걱정했는데 통창으로 너무 잘보였어요!!!! 짱짱!!![REVIEW_END]\n[REVIEW_START]서울 출장으로 편하'

## 평가용 함수 작성
평가 기준 설정
- MT-Bench 논문 기반 Pairwise Comparision (=LLM 기반 평가)
    - 비교하는 방식 VS 점수 매기는 방식
    - 점수라는것이 애매할 수 있음(EX. 어느 정도의 요약 품질이 3점인가?)
    - 경험상 점수보다는 비교가 상대적으로 더 정확한 편

평가 스크립트 작성
- MT-Bench 논문 Prompt에서 일부 단어만 수정

In [18]:
def pairwise_eval(reviews, answer_a, answer_b):
    # 원래는 뉴스 비교 프롬프트 지만 조금 수정함
    # 1. x -> korean summaries
    # 2. news -> accommodations
    eval_prompt = f"""[System]
Please act as an impartial judge and evaluate the quality of the Korean summaries provided by two
AI assistants to the set of user reviews on accommodations displayed below. You should choose the assistant that
follows the user’s instructions and answers the user’s question better. Your evaluation
should consider factors such as the helpfulness, relevance, accuracy, depth, creativity,
and level of detail of their responses. Begin your evaluation by comparing the two
responses and provide a short explanation. Avoid any position biases and ensure that the
order in which the responses were presented does not influence your decision. Do not allow
the length of the responses to influence your evaluation. Do not favor certain names of
the assistants. Be as objective as possible. After providing your explanation, output your
final verdict by strictly following this format: "[[A]]" if assistant A is better, "[[B]]"
if assistant B is better, and "[[C]]" for a tie.
[User Reviews]
{reviews}
[The Start of Assistant A’s Answer]
{answer_a}
[The End of Assistant A’s Answer]
[The Start of Assistant B’s Answer]
{answer_b}
[The End of Assistant B’s Answer]"""

    completion = client.chat.completions.create(
        model='gpt-4o',
        messages=[{'role':'user', 'content': eval_prompt}],
        temperature=0
    )
    
    return completion

## Baseline 모델 개발

In [19]:
PROMPT_BASELINE = f"""아래 숙소 리뷰에 대해 5문장 내로 요약해줘:"""

In [22]:
reviews, _ = preprocess_reviews(path='./res/reviews.json')

def summarize(reviews, prompt, temperature=0.0, model='gpt-3.5-turbo'):
    prompt = prompt + '\n\n' + reviews
    
    completion = client.chat.completions.create(
         model=model,
         messages=[{'role':'user', 'content': prompt}],
         temperature=temperature
    )
    
    return completion

summarize(reviews, PROMPT_BASELINE).choices[0].message.content

'한강뷰가 걱정됐지만 통창으로 잘 보였고, 서울 출장으로 편하게 쉬었다. 방과 야경이 좋았고, 수영장은 작지만 재미있었고, 깨끗하고 친절한 숙소였다. 만족스럽고, 나무랄데 없이 깔끔한 방과 좋은 시간을 보냈다. 위치도 좋고, 편안하게 잘 쉬었다.'

In [24]:
summary_real_20241114 = '본 숙소는 용산역과 가까운 뛰어난 접근성을 자랑하며, 주변에 편의시설이 잘 갖추어져 있습니다. 객실은 깨끗하고 넓으며, 한강과 도시 전경을 감상할 수 있는 전망이 좋습니다. 고객 서비스와 직원의 친절함이 우수하며, 조식의 품질도 높습니다. 수영장은 작지만 깔끔하게 관리되고 있으며, 전반적으로 편안한 휴식을 제공합니다. 다만 주차비가 비싼 점은 유의해야 합니다. 전체적으로 매우 만족스러운 숙박 경험을 제공하는 곳입니다.'

In [25]:
print(pairwise_eval(reviews, summarize(reviews, PROMPT_BASELINE).choices[0].message.content, summary_real_20241114).choices[0].message.content)

Both Assistant A and Assistant B provided summaries of the user reviews, but there are some differences in their approaches and details.

Assistant A's summary focuses on specific aspects mentioned in the reviews, such as the view from the room, the comfort during a business trip, the quality of the room and night view, the small size of the swimming pool, and the high parking fees. It also highlights the cleanliness, friendliness, and good location of the accommodation, as well as the satisfaction with the facilities and services. The summary captures a range of experiences and opinions from the reviews, providing a broad overview of the positive and negative aspects mentioned by the users.

Assistant B's summary, on the other hand, emphasizes the location's accessibility, the cleanliness and spaciousness of the rooms, the good view of the Han River and cityscape, the quality of customer service, and the breakfast. It also mentions the small but well-maintained swimming pool and the h

## 대규모 평가 스크립트
- 원래는 많은 수의 다양한 데이터에 대해 평가를 하지만, 동일한 Prompt에 대해 temperature 높여서 평가 진행

In [None]:
# 10개의 다른 요약을 하여 대조군과 비교하여 얼마나 더 좋고, 좋지 않고, 혹은 무승부인지 확인하기
# 10번은 적다 -> 현재는 6개월치 데이터만 가져왔을 뿐
# 그래도 50번~100번은 사용해야한다 -> gpt-4 비용 급등
eval_count = 10

summaries_baseline = [summarize(reviews, PROMPT_BASELINE, temperature=1.0).choices[0].message.content for _ in range(eval_count)]
summaries_baseline

['한강뷰는 통창으로 잘 보였고 편하게 서울 출장 잘 쉬었다. 방과 야경이 좋았지만 주차비가 조금 아쉬웠고, 깨끗하고 만족스러운 호텔이었으며 편하게 잘 쉬었다. 최고로 만족스러운 시간을 보내고, 호텔 청결도와 서비스에 감동했고, 즐거운 휴가를 보냈다고 했다. 위치와 친절, 청결 모두 좋았고, 넓고 시티 뷰가 좋았다.',
 '한강뷰가 너무 잘 보임. 서울 출장할 때 편하게 쉬기 좋음. 시설, 야경, 직원 서비스 모두 만족스러움. 용산역 근처에 위치하며 친절한 직원들과 깔끔한 객실로 편안한 휴식을 즐길 수 있음. 쾌적하고 편안한 숙박 경험.',
 '1. 한강뷰를 통창으로 잘 볼 수 있어서 만족스러웠고, 서울 출장으로 편안하게 쉬었다.\n2. 숙소 방과 야경이 좋았으며, 다음에 또 방문하겠다는 계획이었다.\n3. 깨끗하고 친절한 숙소지만 주차비가 비싸다는 아쉬움이 남는다.\n4. 깨끗하고 쾌적한 서울 호텔로, 위치와 시설 등 모두 만족스러웠다.\n5. 고객응대가 친절하고, 시설이 좋아 다시 방문할 의사가 있는 호텔이었다.',
 '한강뷰를 걱정했지만 통창으로 잘 보였고, 서울 출장으로 편안하게 쉬기 좋았다. 수영장은 작지만 재밌게 놀 수 있었고, 호텔은 깨끗하고 친절해 위치도 좋았다. 다음에 또 방문할 의사가 있다.',
 '한강뷰가 걱정돼 했지만 통창을 통해 좋은 전망을 즐기고 출장 숙소로서 편했다. 방과 야경, 아침 전망이 훌륭하고, 친절하고 깨끗한 숙소였다. 다만 주차비가 비싸다는 점이 아쉽고, 일두호텔에 호텔 서비스와 시설에 만족하면서 머물렀다. 위치와 편의성이 좋고, 서울에서 최고로 깨끗하고 최고라 평가할 수 있는 호텔이었다. 생일이나 기념일에도 좋은 선택이며, 남산, 한강 뷰로 매력적이었다. 추천합니다.',
 '한강뷰가 잘 안보인다는 걱정을 했지만 통유리로 너무 잘 보였고, 서울 출장으로 편하게 쉴 수 있었던 호텔입니다. 다음 방문을 고려중인 생각 좀 크게, 친절하고 깨끗한 서비스를 받았고, 미국식인테리어로 세련되었지만 편안함을 주는 호텔이었습니다. 종합적으

In [27]:
from tqdm import tqdm

def pairwise_eval_batch(reviews, answers_a, answers_b):
    a_cnt, b_cnt, draw_cnt = 0, 0, 0
    for i in tqdm(range(len(answers_a))):
        completion = pairwise_eval(reviews, answers_a[i], answers_b[i])
        verdict_text = completion.choices[0].message.content
        
        if '[[A]]' in verdict_text:
            a_cnt +=1 
        elif '[[B]]' in verdict_text:
            b_cnt += 1
        elif '[[C]]' in verdict_text:
            draw_cnt += 1
        else:
            print('Evalutaion ERROR!')

    return a_cnt, b_cnt, draw_cnt

wins, loses, ties = pairwise_eval_batch(reviews, summaries_baseline, [summary_real_20241114 for _ in range(len(summaries_baseline))])
print(f'Wins: {wins}, Losses: {loses}, Ties: {ties}')

100%|██████████| 10/10 [00:54<00:00,  5.45s/it]

Wins: 0, Losses: 10, Ties: 0



