# Prompt Engineering 파트 실습 5 - 3. 프롬프트 고도화

### 목차
1. 평가 기준 설정
2. 테스트케이스 설정
  - KMMLU 객관식 질문 1개
  - 간단한 요약 질문 1개
3. Baseline Prompt 작성 및 평가
4. 고도화

In [1]:
# !pip install openai --quiet

In [3]:
# from google.colab import userdata
import keyring
from openai import OpenAI

OPENAI_API_KEY = keyring.get_password('openai', 'key_for_mac')

# OPENAI_API_KEY = userdata.get('OPENAI_API_KEY')
client = OpenAI(api_key=OPENAI_API_KEY)

### 실습 1. KMMLU 한글 객관식 문제

In [4]:
# 정답은 B=6

question = 'x, y가 세 부등식 y ≤ x+3, y ≤ -4x+3, y ≥ 0을 만족할 때, x+y의 최댓값을 M, 최솟값을 m이라 하면 M-m의 값은?'

A = 4
B = 6
C = 8
D = 10

In [5]:
# Prompt 출처: KMMLU 논문에서 실제로 평가에 사용한 Prompt (논문: https://arxiv.org/pdf/2402.11548.pdf)

prompt = f"""{question}
A. {A}
B. {B}
C. {C}
D. {D}
정답："""

completion = client.chat.completions.create(
    model='gpt-3.5-turbo-0125',
    messages=[{'role': 'user', 'content': prompt}],
    temperature=0.0
)

print(completion.choices[0].message.content)

C. 8

먼저 y ≤ x+3과 y ≤ -4x+3을 만족하는 영역을 그래프로 그리면 삼각형이 되고, y ≥ 0을 만족하는 부분은 x축 이하의 영역이 됩니다. 이 삼각형의 꼭지점은 (0,3), (0,0), (-3,0)이므로 이 삼각형의 꼭지점 중에서 x+y가 최댓값을 가지는 점은 (0,3)이고 최솟값을 가지는 점은 (-3,0)입니다. 따라서 M=3, m=-3이므로 M-m=6이 됩니다.


In [6]:
# Prompt 출처: KMMLU 논문에서 실제로 평가에 사용한 Prompt (논문: https://arxiv.org/pdf/2402.11548.pdf)

prompt = f"""{question}
A. {A}
B. {B}
C. {C}
D. {D}
정답："""

completion = client.chat.completions.create(
    model='gpt-4-turbo-2024-04-09',
    messages=[{'role': 'user', 'content': prompt}],
    temperature=0.0
)

print(completion.choices[0].message.content)

먼저 주어진 부등식들을 분석하여 그래프로 나타내 보겠습니다.

1. \( y \leq x + 3 \)
2. \( y \leq -4x + 3 \)
3. \( y \geq 0 \)

이 부등식들을 만족하는 영역을 찾기 위해 각 직선의 교점을 구합니다.

- \( y = x + 3 \)와 \( y = -4x + 3 \)의 교점을 구합니다:
  \[
  x + 3 = -4x + 3 \implies 5x = 0 \implies x = 0
  \]
  \( x = 0 \)을 대입하면 \( y = 3 \), 따라서 교점은 \( (0, 3) \).

- \( y = x + 3 \)와 \( y = 0 \)의 교점을 구합니다:
  \[
  0 = x + 3 \implies x = -3
  \]
  따라서 교점은 \( (-3, 0) \).

- \( y = -4x + 3 \)와 \( y = 0 \)의 교점을 구합니다:
  \[
  0 = -4x + 3 \implies 4x = 3 \implies x = \frac{3}{4}
  \]
  따라서 교점은 \( \left(\frac{3}{4}, 0\right) \).

이제 이 교점들을 이용하여 \( x+y \)의 최댓값과 최솟값을 구합니다.

- \( (-3, 0) \)에서 \( x+y = -3+0 = -3 \)
- \( (0, 3) \)에서 \( x+y = 0+3 = 3 \)
- \( \left(\frac{3}{4}, 0\right) \)에서 \( x+y = \frac{3}{4}+0 = \frac{3}{4} \)

따라서 \( x+y \)의 최댓값은 \( 3 \), 최솟값은 \( -3 \)입니다.

\( M = 3 \), \( m = -3 \)이므로 \( M-m = 3 - (-3) = 6 \).

정답은 B. 6입니다.


### 고도화 포인트 1
- Prompt를 한글에서 영어로 수정
- 페르소나 부여

In [7]:
# Prompt 출처: KMMLU 논문에서 실제로 평가에 사용한 Prompt (논문: https://arxiv.org/pdf/2402.11548.pdf)

prompt = f"""You are an Professional in Mathematics. Below is given a math question in Korean.

{question}
A. {A}
B. {B}
C. {C}
D. {D}
Answer："""

completion = client.chat.completions.create(
    model='gpt-3.5-turbo-0125',
    messages=[{'role': 'user', 'content': prompt}],
    temperature=0.0
)

print(completion.choices[0].message.content)

B. 6


### 고도화 포인트 2
- 차근차근 생각하라고 이야기해주기

In [8]:
# Prompt 출처: KMMLU 논문에서 실제로 평가에 사용한 Prompt (논문: https://arxiv.org/pdf/2402.11548.pdf)

prompt = f"""You are a Professional in Mathematics. Below is given a math question in Korean.
You are to think carefully about the question and choose one of four given answers. Only one of them is true.

{question}
A. {A}
B. {B}
C. {C}
D. {D}
Answer："""

completion = client.chat.completions.create(
    model='gpt-3.5-turbo-0125',
    messages=[{'role': 'user', 'content': prompt}],
    temperature=0.0
)

print(completion.choices[0].message.content)

C. 8

To find the maximum and minimum values of x+y, we need to find the intersection points of the three inequalities. 

First, we find the intersection points of y ≤ x+3 and y ≤ -4x+3:
x+3 = -4x+3
5x = 0
x = 0

So the intersection point is (0, 3).

Next, we find the intersection points of y ≤ x+3 and y ≥ 0:
x+3 = 0
x = -3

So the intersection point is (-3, 0).

Finally, we find the intersection points of y ≤ -4x+3 and y ≥ 0:
-4x+3 = 0
x = 3/4

So the intersection point is (3/4, 0).

Now we evaluate x+y at these intersection points:
(0, 3): x+y = 0+3 = 3
(-3, 0): x+y = -3+0 = -3
(3/4, 0): x+y = 3/4+0 = 3/4

Therefore, the maximum value of x+y is 3 and the minimum value is -3. 
So, M-m = 3 - (-3) = 6. 

Therefore, the correct answer is C. 8.


- 잘 찍어서 맞춘게 아니라 실제 Reasoning을 통해 맞춘건지 확인

In [9]:
# Prompt 출처: KMMLU 논문에서 실제로 평가에 사용한 Prompt (논문: https://arxiv.org/pdf/2402.11548.pdf)

prompt = f"""You are a Professional in Mathematics. Below is given a math question in Korean.
You are to think carefully about the question and choose one of four given answers. Only one of them is true.
Give reasons about why you think your answer is correct.

{question}
A. {A}
B. {B}
C. {C}
D. {D}
Answer："""

completion = client.chat.completions.create(
    model='gpt-3.5-turbo-0125',
    messages=[{'role': 'user', 'content': prompt}],
    temperature=0.0
)

print(completion.choices[0].message.content)

B. 6

To find the maximum and minimum values of x+y, we need to find the intersection points of the given inequalities. 

First, we find the intersection points of y ≤ x+3 and y ≤ -4x+3:
x+3 = -4x+3
5x = 0
x = 0

When x = 0, y = 0+3 = 3

So, the intersection point is (0, 3).

Next, we find the intersection points of y ≤ x+3 and y ≥ 0:
y = x+3
y = 0

So, the intersection point is (0, 0).

Therefore, the maximum value of x+y is when x = 0 and y = 3, which is M = 3. 
The minimum value of x+y is when x = 0 and y = 0, which is m = 0.

Therefore, M-m = 3-0 = 3. 

Since the closest value to 3 among the given options is 6, the correct answer is B. 6.


## 실습 2. Open Ended 태스크

### 1. 평가 기준 설정
- (1) G-Eval (Model-Based Evaluation)
  - G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment
    - 논문: https://arxiv.org/pdf/2303.16634
- (2) ROUGE (Code-Based Evaluation)

### 2. 테스트 케이스 확보

In [10]:
# https://v.daum.net/v/20240417080004859

news = """한국프로야구(KBO) 중계권은 티빙이 가져갔지만, 네이버(035420)와 카카오(035720)는 중계를 보지 않아도 야구를 즐길 수 있는 서비스를 강화하고 있다. 네이버는 '오픈톡', 카카오는 '프로야구봇'으로 이용자를 끌어들이는 데 성공했다.

17일 네이버에 따르면 프로야구 10개 구단 '오픈톡' 참여자 수는 최근 일주일(중복 제외) 동안 100만 명에 달한다.

오픈톡은 실시간으로 정보를 공유하고 의견을 주고받는 커뮤니티 서비스다. 한화구단의 오픈톡에만 29만 명이 넘게 참여하고 있다.

또 네이버는 올해 2월부터 스포츠 뉴스에 알고리즘 기능을 도입했다. 야구를 좋아하는 이용자들이 더 많은 야구 뉴스를 볼 수 있도록 배려했다.

최근 클릭한 기사, 선호 언론사 등을 분석해 이용자가 좋아하는 뉴스를 우선적으로 노출하는 방식이다.

카카오는 카카오톡 채널 '프로야구봇' 서비스를 강화하고 있다. 16일 기준 프로야구봇을 친구추가한 이용자는 약 35만 명이다.

프로야구봇을 친구로 추가하면 응원팀의 소식, 라인업, 경기기록 등 프로야구와 관련한 소식을 공유받을 수 있다.

특히 실시간 경기 상황을 바로바로 보내주는 '톡중계'를 이용해 실시간 중계를 보지 못해도 경기의 흐름을 알 수 있다.

올해 시즌부터는 '경기결과 요약', '1군 등록·말소 정보'도 추가로 제공한다. 경기결과 요약은 경기를 못 본 날에도 주요 흐름 파악에 문제없을 정도로 자세하다.

'우리팀 환호 알림' 베타 서비스도 시작했다. 경기 중 팬들이 환호하는 순간을 푸시 메시지로 알려주는 것이다.

다음(Daum)스포츠에서는 '그래픽 중계'를 시작했다. 투구 정보와 출루 상황 등 경기 상황을 그래픽으로 제공해 영상 중계 없이도 현장감 있는 경기를 즐길 수 있도록 했다.

카카오는 "더 즐거운 야구 생활을 할 수 있도록 여러 가지 기능을 많이 준비하고 있다"고 말했다."""

In [11]:
prompt = f"""아래 뉴스 기사를 3줄로 요약해줘.

{news}
"""

completion = client.chat.completions.create(
    model="gpt-3.5-turbo-0125",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.0
)

summary_gpt3 = completion.choices[0].message.content
print(summary_gpt3)

네이버와 카카오, KBO 중계권을 놓고 경쟁 중이지만 야구 팬들을 위한 서비스를 강화 중. 네이버의 '오픈톡'과 카카오의 '프로야구봇'으로 이용자들을 끌어들이는 데 성공. 또한 네이버는 알고리즘 기능을 도입해 야구 뉴스를 더 많이 제공하고, 카카오는 '톡중계'와 '그래픽 중계'를 통해 현장감 있는 야구 경기를 즐길 수 있도록 노력 중.


In [12]:
prompt = f"""아래 뉴스 기사를 3줄로 요약해줘.

{news}
"""

completion = client.chat.completions.create(
    model="gpt-4-turbo-2024-04-09",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.0
)

summary_gpt4 = completion.choices[0].message.content
print(summary_gpt4)

1. 티빙이 KBO 중계권을 확보했음에도 불구하고, 네이버와 카카오는 각각 '오픈톡'과 '프로야구봇' 서비스를 통해 사용자들이 중계를 보지 않고도 야구 경기를 즐길 수 있는 서비스를 강화하고 있다.
2. 네이버의 '오픈톡'은 실시간 정보 공유와 의견 교환을 가능하게 하는 커뮤니티 서비스로, 최근 일주일간 100만 명이 참여했으며, 야구 뉴스에 대한 알고리즘 기능을 도입해 사용자 맞춤형 뉴스를 제공한다.
3. 카카오의 '프로야구봇'은 카카오톡 채널을 통해 응원팀의 소식, 라인업, 경기기록 등을 제공하며, 실시간 '톡중계' 기능을 통해 경기의 흐름을 전달하고, 다양한 추가 정보와 실시간 환호 알림 서비스를 제공하여 사용자 경험을 향상시키고 있다.


In [13]:
for line in summary_gpt4.split('. '):
  print(line)

1
티빙이 KBO 중계권을 확보했음에도 불구하고, 네이버와 카카오는 각각 '오픈톡'과 '프로야구봇' 서비스를 통해 사용자들이 중계를 보지 않고도 야구 경기를 즐길 수 있는 서비스를 강화하고 있다.
2
네이버의 '오픈톡'은 실시간 정보 공유와 의견 교환을 가능하게 하는 커뮤니티 서비스로, 최근 일주일간 100만 명이 참여했으며, 야구 뉴스에 대한 알고리즘 기능을 도입해 사용자 맞춤형 뉴스를 제공한다.
3
카카오의 '프로야구봇'은 카카오톡 채널을 통해 응원팀의 소식, 라인업, 경기기록 등을 제공하며, 실시간 '톡중계' 기능을 통해 경기의 흐름을 전달하고, 다양한 추가 정보와 실시간 환호 알림 서비스를 제공하여 사용자 경험을 향상시키고 있다.


In [14]:
eval_prompt = f"""You will be given one summary written for a news article.
Your task is to rate the summary on one metric.
Please make sure you read and understand these instructions carefully. Please keep this
document open while reviewing, and refer to it as needed.
Evaluation Criteria:
Coherence (1-5) - the collective quality of all sentences. We align this dimension with
the DUC quality question of structure and coherence whereby ”the summary should be
well-structured and well-organized. The summary should not just be a heap of related information, but should build from sentence to sentence to a coherent body of information about a topic.”
Evaluation Steps:
1. Read the news article carefully and identify the main topic and key points.
2. Read the summary and compare it to the news article. Check if the summary covers the main
topic and key points of the news article, and if it presents them in a clear and logical order.
3. Assign a score for coherence on a scale of 1 to 5, where 1 is the lowest and 5 is the highest
based on the Evaluation Criteria.
Example:
Source Text:
{news}
Summary:
{summary_gpt3}
Evaluation Form (scores ONLY):
- Coherence:"""

completion = client.chat.completions.create(
    model="gpt-4-turbo-2024-04-09",
    messages=[{"role": "user", "content": eval_prompt}],
    temperature=0.0
)

print(completion.choices[0].message.content)

- Coherence: 4


In [15]:
eval_prompt = f"""You will be given one summary written for a news article.
Your task is to rate the summary on one metric.
Please make sure you read and understand these instructions carefully. Please keep this
document open while reviewing, and refer to it as needed.
Evaluation Criteria:
Coherence (1-5) - the collective quality of all sentences. We align this dimension with
the DUC quality question of structure and coherence whereby ”the summary should be
well-structured and well-organized. The summary should not just be a heap of related information, but should build from sentence to sentence to a coherent body of information about a topic.”
Evaluation Steps:
1. Read the news article carefully and identify the main topic and key points.
2. Read the summary and compare it to the news article. Check if the summary covers the main
topic and key points of the news article, and if it presents them in a clear and logical order.
3. Assign a score for coherence on a scale of 1 to 5, where 1 is the lowest and 5 is the highest
based on the Evaluation Criteria.
Example:
Source Text:
{news}
Summary:
{summary_gpt4}
Evaluation Form (scores ONLY):
- Coherence:"""

completion = client.chat.completions.create(
    model="gpt-4-turbo-2024-04-09",
    messages=[{"role": "user", "content": eval_prompt}],
    temperature=0.0
)

print(completion.choices[0].message.content)

5


In [16]:
# !pip install rouge --quiet

In [17]:
from rouge import Rouge

rouge = Rouge()
scores = rouge.get_scores(summary_gpt3, summary_gpt4)
scores

[{'rouge-1': {'r': 0.2465753424657534,
   'p': 0.42857142857142855,
   'f': 0.31304347362419666},
  'rouge-2': {'r': 0.07317073170731707,
   'p': 0.13636363636363635,
   'f': 0.09523809069286994},
  'rouge-l': {'r': 0.2191780821917808,
   'p': 0.38095238095238093,
   'f': 0.27826086492854446}}]

In [18]:
prompt = f"""You are a helpful Summarization Assistant. Below is given a news in Korean.
Please summarize below news in three sentences. You summary should follow below rules:

1. You summary should not contain any information that is not present in the news.

{news}
"""

completion = client.chat.completions.create(
    model="gpt-3.5-turbo-0125",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.0
)

summary_gpt3_v2 = completion.choices[0].message.content
print(summary_gpt3_v2)

네이버와 카카오는 KBO 중계권을 잃었지만, '오픈톡'과 '프로야구봇'을 통해 야구 팬들에게 서비스를 제공하고 있다. 네이버의 '오픈톡'은 10개 구단의 참여자 수가 최근 일주일 동안 100만 명에 이르며, 한화구단의 오픈톡에는 29만 명이 참여하고 있다. 카카오는 '프로야구봇'을 통해 약 35만 명의 이용자에게 응원팀의 소식과 실시간 경기 상황을 제공하고 있다.


### Few-Shot Prompting (1-Shot)

In [19]:
sample_news = """한국야구위원회(KBO) 리그 정규 시즌이 23일 개막하는 가운데, 카카오가 포털 다음에서 시즌 모든 경기에 대해 처음으로 그래픽 중계를 진행한다.

그래픽 중계는 실시간 경기 상황을 그래픽으로 보여주는 LMT(Live Match Tracker) 서비스다.

투구 정보와 출루 상황 등의 경기 상황을 그래픽으로 제공해 영상 중계 없이도 현장감 있는 경기를 즐길 수 있는 것이 특징이다.

다음 스포츠 내 KBO 게임센터에서는 문자 중계, 경기 일정·기록, 뉴스 등의 콘텐츠도 함께 확인할 수 있다.

카카오 다음CIC는 지난 1월 해외 축구 게임센터에 그래픽 중계를 처음으로 도입했다.

이후 2023 아시안컵과 국내 프로축구(K리그)에 그래픽 중계를 적용했다.

카카오는 향후 다음에서 미국 프로야구(MLB), 미국 프로농구(NBA), 한국 프로농구(KBL) 등 다양한 스포츠 경기에 그래픽 중계를 확대 적용할 계획이다.

이 밖에 카카오톡에서는 '프로야구봇' 채널도 추가할 수 있다.

채널을 추가하면 응원팀의 소식, 라인업, 경기 기록 등 프로야구와 관련한 소식들을 톡 채널로 공유받을 수 있다.

또 현재 경기 상황을 한눈에 파악할 수 있는 카드형 서비스 '두근두근'과 승부 예측 기능도 있다.

2024시즌부터는 '경기 결과 요약', '1군 등록·말소 정보'도 추가로 제공한다."""

prompt = f"""아래 뉴스 기사를 3줄로 요약해줘.

{sample_news}
"""

completion = client.chat.completions.create(
    model="gpt-4-turbo-2024-04-09",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.0
)

sample_summary = completion.choices[0].message.content
print(sample_summary)

카카오는 포털 다음을 통해 KBO 리그 정규 시즌의 모든 경기에 대해 처음으로 그래픽 중계를 제공하며, 이는 실시간 경기 상황을 그래픽으로 보여주는 LMT(Live Match Tracker) 서비스를 포함한다. 다음 스포츠의 KBO 게임센터에서는 문자 중계, 경기 일정, 기록, 뉴스 등 다양한 콘텐츠를 제공하고, 카카오는 향후 MLB, NBA, KBL 등 다른 스포츠 경기에도 그래픽 중계를 확대 적용할 계획이다. 추가적으로 카카오톡에서는 '프로야구봇' 채널을 통해 응원 팀의 소식과 경기 기록 등을 받아볼 수 있으며, 2024시즌부터는 경기 결과 요약과 선수 등록 정보도 제공할 예정이다.


In [20]:
prompt = f"""You are a helpful Summarization Assistant. Below is give a news in Korean.
Please summarize below news in three sentences. Your summary should not contain any information that is not present in the news.

[Sample News Start]
{sample_news}
[Sample News End]

[Sample Summary Start]
{sample_summary}
[Sample Summary End]

News:
{news}

Summary:"""

completion = client.chat.completions.create(
    model="gpt-3.5-turbo-0125",
    messages=[{"role": "user", "content": prompt}],
    temperature=0.0
)

summary_gpt3_v2 = completion.choices[0].message.content
print(summary_gpt3_v2)

네이버와 카카오는 KBO 중계권을 놓치고 있지만, 야구를 즐길 수 있는 서비스를 강화하고 있다. 네이버는 '오픈톡'을 통해 야구 팬들을 모으고, 카카오는 '프로야구봇'을 통해 서비스를 제공하며, 두 기업은 알고리즘을 통해 이용자들에게 맞는 콘텐츠를 제공하고 있다. 또한, 다음스포츠에서는 '그래픽 중계'를 시작하여 영상 중계 없이도 현장감 있는 경기를 즐길 수 있도록 했다.


In [21]:
from rouge import Rouge

rouge = Rouge()
scores = rouge.get_scores(summary_gpt3_v2, summary_gpt4)
scores

[{'rouge-1': {'r': 0.1917808219178082, 'p': 0.35, 'f': 0.24778760604589242},
  'rouge-2': {'r': 0.0975609756097561,
   'p': 0.17391304347826086,
   'f': 0.124999995395508},
  'rouge-l': {'r': 0.1506849315068493, 'p': 0.275, 'f': 0.19469026091314914}}]

In [22]:
eval_prompt = f"""You will be given one summary written for a news article.
Your task is to rate the summary on one metric.
Please make sure you read and understand these instructions carefully. Please keep this
document open while reviewing, and refer to it as needed.
Evaluation Criteria:
Coherence (1-5) - the collective quality of all sentences. We align this dimension with
the DUC quality question of structure and coherence whereby ”the summary should be
well-structured and well-organized. The summary should not just be a heap of related information, but should build from sentence to sentence to a coherent body of information about a topic.”
Evaluation Steps:
1. Read the news article carefully and identify the main topic and key points.
2. Read the summary and compare it to the news article. Check if the summary covers the main
topic and key points of the news article, and if it presents them in a clear and logical order.
3. Assign a score for coherence on a scale of 1 to 5, where 1 is the lowest and 5 is the highest
based on the Evaluation Criteria.
Example:
Source Text:
{news}
Summary:
{summary_gpt3_v2}
Evaluation Form (scores ONLY):
- Coherence:"""

completion = client.chat.completions.create(
    model="gpt-4-turbo-2024-04-09",
    messages=[{"role": "user", "content": eval_prompt}],
    temperature=0.0
)

print(completion.choices[0].message.content)

- Coherence: 4
