## 기본적은 prompt 구조 이해
prompt에는 3가지 종류의 역할이 존재
1. System prompt: 사용자 prompt를 입력받기 이전에 정의되는 전제 및 규칙prompt
- user prompt를 GPT모델에게 전달하기 전 관련된 맥락이나 응답 지침 등을 설정하기 위해 사용
- 예시: 출력 형태 지정(JSON, 일반 자연어, 파일 등)
- 페르소나(투자전문가, 예술가 등) 및 어조 설정(공손하게, 전문적인 등)
- 모델이 지켜야 할 규칙들 설정
- 기타 base 가 되는 외부 정보 및 지식 주입

2. User prompt: 사용자가 GPT모델에게 실제로 전달하는 질문 prompt
- 
3. Assistant prompt: GPT 모델이 응답하는 prompt

개발자들이 언어모델의 성능을 최대로 끌어내기 위해 사용자의 질문을 모델이 이해하기 쉽게 변환시켜주는 용도로도 사용하며
ChatGPT포함 웬만한 LLM모델 서비스들은 기본적으로 system prompt가 붙어 있음.

In [3]:
from openai import OpenAI
from getpass import getpass

In [5]:
MY_API_KEY = getpass.getpass("OpenAI API key : ")

OpenAI API key :  ········


In [7]:
client = OpenAI(api_key=MY_API_KEY)

In [13]:
completion = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages = [{'role':'system','content':'You area a marketing expert. You must explain professionally, precisely, and be as easiest as possible as if you are explaining to a primary school student.'},
               {'role':'user','content':'What is AARRR?'}],
                temperature = 0
)
print(completion.choices[0].message.content)

AARRR is a framework used in marketing to help businesses understand and improve their customer journey. It stands for:

1. **Acquisition**: Getting new customers to visit your website or use your product.
2. **Activation**: Making sure those customers have a good experience and find value in your product.
3. **Retention**: Keeping those customers coming back and using your product regularly.
4. **Revenue**: Making money from those customers through purchases or subscriptions.
5. **Referral**: Encouraging happy customers to tell their friends about your product.

By focusing on each step of the AARRR framework, businesses can improve their marketing strategies and grow their customer base.


In [17]:
# system prompt를 지정해줄 수 있지만 user prompt에 내용을 같이 작성해도 무방하다.
question = """You area a marketing expert. You must explain professionally, precisely, 
and be as easiest and kindest as possible as if you are explaining to a primary school student.
What is AARRR?"""

completion = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages =[{'role':'user','content':question}],
                temperature = 0
)
print(completion.choices[0].message.content)

AARRR is a framework that helps businesses understand and improve their marketing strategies. It stands for Acquisition, Activation, Retention, Revenue, and Referral. 

- Acquisition: This is when a business attracts new customers to their product or service.
- Activation: This is when a new customer tries out the product or service for the first time and has a positive experience.
- Retention: This is when a customer continues to use the product or service over time and becomes a loyal customer.
- Revenue: This is when a customer makes a purchase or pays for the product or service.
- Referral: This is when a satisfied customer recommends the product or service to others.

By focusing on each of these steps, businesses can improve their marketing efforts and grow their customer base.


## Stream 객체
- stream = True로 지정시 GPT가 문장을 모두 완성하여 출력하기 전에 각 토큰별로 완성되는데로 바로바로 보게 할 수 있음.

In [23]:
completion_stream = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages = [{'role':'user','content':'What is AARRR?'}],
                temperature = 0,
                stream = True
)
# stream을 설정하게 되면 출력 형태가 ChatCompletionChunk객체로 변환되고
# i를 출력해보면 각 토큰들이 하나씩 생성되어 있음.
for i in completion_stream:
    content = i.choices[0].delta.content # 실제 응답 토큰 추출
    if content is not None: # content에 내용이 있다면
        print(content, end='') # 내용을 이어붙여서 출력

AARRR is a framework used in digital marketing and product development to measure and optimize the customer journey. It stands for:

- Acquisition: Getting users to visit your website or download your app
- Activation: Getting users to sign up or create an account
- Retention: Keeping users engaged and coming back to your product
- Revenue: Generating revenue from users through purchases or subscriptions
- Referral: Encouraging users to refer others to your product

The AARRR framework helps businesses identify key metrics at each stage of the customer journey and make data-driven decisions to improve their overall performance.

## 프롬프트 엔지니어링에서 기본적으로 생각해야할 점
1. GPT모델의 출력값은 입력값에 대한 의존도가 매우 높음
   - 잘 입력할 거 같은데...원하는 결과가 안 나왔다면 입력기 잘못된거임. 입력이 모호하거나 응답에 필요한 내용이 빠진 걸 수 있음.
2. 자연어 질문을 기반으로 하기 때문에 절대적으로 성능 좋은 prompt를 단정지을 수 없음.
    - 입력 문장에 대한 문맥을 파악하고 새로운 문장을 생성할 때 그때그때 내부 연산이 달라질 수 있음.
    - 대화에서 성능이 좋다는 건 사용자가 만족해야하는 건데, 이는 매우 주관적임.
    - 프롬프트 엔지니어링은 task에 맞는 여러번의 테스트가 필수적이고 이를 통한 반복적이 개선이 필요함.

## LLM 평가
- 전통적인 Language Model의 평가 지표
1. MMLU(Massive Multitask Language Understanding)
   - 다양한 분야에 대해 질문 후 정답을 찾아내는 객관식 시험으로 평가
2. HellaSwag
   - 문장들을 주고 이어지는 마지막 문장으로 가장 적합한 문장들 4개 중 하나를 고르는 문제로 평가
3. TruthfulQA
   - 할루시네이션 측정용 데이터셋을 활용하며 주어진 문제에 대한 답이 맞는지 정확도를 측정하여 평가

-> 위 평가지표들을 사용해서 평가할 수도 있지만 현재 우리가 진행하려는 QA task에 적합하다고 보기에는 애매 so, 다른 평가 기준 설정이 필요함. 일반적으로 실제 자연어 서비스에서는 해당 지표들만으로 점수가 높다고 바로 사용하지는 않고 실제 사용자 평가를 추가적으로 진행 후 적용함.

## Q&A task에 적합한 평가 방식
1. Human Based Evaluation: 사람이 직접 평가, 성능이 가장 좋음.
   - 전문가 블라인드 테스트: 각기 다른 LLM의 여러 답변 중에서 더 좋은 답변을 사람이 선택
   - 명확한 결과로 성능을 판단하기 쉬움
   - 많은 인력에 따른 비용과 시간이 필요
   - LMSys사의 Chatbot Arena 평가
     - 대표적인 Human Based 평가 방법 중 하나
     - 동일한 질문에 대해 2개의 모델의 답변을 보고 승/패/무 투표 이후 모델명을 공개
     - 사이트: https://chat.lmsys.org
2. Model Based Evaluation: 다른 LLM이 평가
   - 고성능 LLM을 통해 평가하는 방법(일반적으로 GPT-4o이상 급)
   - 평가 방식에는 3가지가 존재
     1. PairWise Comparison: 2개의 평가받은 모델에 같은 질문을 하고, 고성능 모델이 2개의 답변을 받아 둘 중 어떤 답변이 더 좋은지 또는 무승부인지 출력
     2. Single Answer Grading: 질문과 답변이 있을 때 답변에 점수를 매기는 것
     3. Reference-Guided Grading: 예시 답변을 주고 이와 비교하여 +, -로 상대적인 점수를 매김.
3. Code Base Evaluation: 코드와 지표로 평가
   - 우리에게 익숙한 코드/로직을 통한 평가법
   - Accuracy, Precision, Recall, F1Score
   - ROUGE(Recall-Oriented Understudy for Gisting Evaluation): 요약 및 자연어 생성을 평가
   - BLUE(Bilingual Evaluation Understudy): 번역, 자연어 생성 등을 평가
   - Human Based나 Model Based에 비해 실제 사용자의 만족과는 다소 거리가 있을 수 있음.

## LLM benchmark 플랫폼: 인공지능 모델, 특히 LLM의 성능의 평가하기 이해 설계된 시스템
1. MT-bench
   - multi-turn 대화 능력을 평가하는 벤티마트(평가 시스템)
   - 사용자의 지시를 정확하게 따르고 여러 차례의 이어지는 대화에서 일관된 응답을 제공하는 모델의 능력을 테스트
   - 먼저 58명의 전문가가 모델의 응답을 평가하고 LLM을 심판으로 사용하여 사람의 평가와 일치하는지 검증
   - multi-turn 대화: 한번의 질의응답이 아닌 이어지는 여러 질문들에 얼마나 잘 응답하는지를 평가하기 위해 사용
   - 8개의 카테고리(작문, 역할놀이, 추출, 추론, 수학, 코딩, STEM, 인문 및 사회과학)의 80개의 고품질 질문으로 구성되어 있고 각 질문은 여러 차례의 응답을 요구하여 모델의 대화 지속능력을 평가
2. 

### 논문을 근거로 해당 논문의 평가용 프롬프트를 사용하여 모델의 성능을 평가해보자.
- gpt3.5와 gpt4의 응답을 비교해서 gpt4o에게 더 나은 응답이 무엇인지 질의하는 식

In [37]:
question = "Why did dodo birds go extinct?"

In [39]:
completion = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages = [{'role':'user','content':question}],
                temperature = 0
)

answer_a = completion.choices[0].message.content
print(answer_a)

Dodo birds went extinct primarily due to human activities. When humans first arrived on the island of Mauritius in the 16th century, they brought with them invasive species such as rats, pigs, and monkeys that preyed on dodo eggs and competed with them for food. Additionally, humans hunted dodo birds for food and their feathers, which led to a rapid decline in their population. By the late 17th century, the dodo bird had become extinct.


In [41]:
completion2 = client.chat.completions.create(
    model = 'gpt-4-turbo',
    messages = [{'role':'user','content':question}],
                temperature = 0
)

answer_b = completion2.choices[0].message.content
print(answer_b)

Dodo birds, native to the island of Mauritius in the Indian Ocean, went extinct in the late 17th century, with the last widely accepted sighting occurring around 1662. The extinction of the dodo bird is primarily attributed to human activity. Here are the main factors that contributed to their extinction:

1. **Human Hunting**: When Dutch sailors discovered Mauritius in 1598, they found that dodo birds were easy to catch because the birds had no natural fear of humans. Dodos were hunted for their meat by sailors and settlers.

2. **Introduced Species**: Along with humans, other species such as pigs, rats, and monkeys were introduced to Mauritius. These animals competed with dodos for food resources and also preyed on their eggs and young, which were laid on the ground.

3. **Habitat Destruction**: The clearing of forests for agriculture and settlement destroyed the natural habitat of the dodo, reducing the areas where they could live and find food.

4. **Lack of Fear**: The dodo's lack

In [43]:
# MT-bech 논문의 평가용 프롬프트
prompt = f"""[System]
Please act as an impartial judge and evaluate the quality of the responses provided by two
AI assistants to the user question displayed below. You should choose the assistant that
follows the user's instructions and answers the user's question better. Your evaluation
should consider factors such as the helpfulness, relevance, accuracy, depth, creativity,
and level of detail of their responses. Begin your evaluation by comparing the two
responses and provide a short explanation. Avoid any position biases and ensure that the
order in which the responses were presented does not influence your decision. Do not allow
the length of the responses to influence your evaluation. Do not favor certain names of
the assistants. Be as objective as possible. After providing your explanation, output your
final verdict by strictly following this format: "[[A]]" if assistant A is better, "[[B]]"
if assistant B is better, and "[[C]]" for a tie.

[User Question]
{question}

[The Start of Assistant A's Answer]
{answer_a}
[The End of Assistant A's Answer]

[The Start of Assistant B's Answer]
{answer_b}
[The End of Assistant B's Answer]"""

print(prompt)

[System]
Please act as an impartial judge and evaluate the quality of the responses provided by two
AI assistants to the user question displayed below. You should choose the assistant that
follows the user's instructions and answers the user's question better. Your evaluation
should consider factors such as the helpfulness, relevance, accuracy, depth, creativity,
and level of detail of their responses. Begin your evaluation by comparing the two
responses and provide a short explanation. Avoid any position biases and ensure that the
order in which the responses were presented does not influence your decision. Do not allow
the length of the responses to influence your evaluation. Do not favor certain names of
the assistants. Be as objective as possible. After providing your explanation, output your
final verdict by strictly following this format: "[[A]]" if assistant A is better, "[[B]]"
if assistant B is better, and "[[C]]" for a tie.

[User Question]
Why did dodo birds go extinct?

[Th

In [45]:
# gpt-4o 모델로 앞의 두 모델을 평가
completion3 = client.chat.completions.create(
    model = 'gpt-4o',
    messages = [{'role':'user','content':prompt}],
                temperature = 0
)
print(completion3.choices[0].message.content)

Both Assistant A and Assistant B provide explanations for the extinction of the dodo bird, attributing it primarily to human activities. However, there are differences in the depth and detail of their responses.

Assistant A gives a concise explanation, mentioning the introduction of invasive species, human hunting, and the timeline of extinction. The response is accurate but lacks depth in terms of specific details about the factors leading to extinction.

Assistant B, on the other hand, offers a more detailed response. It not only mentions human hunting and the introduction of invasive species but also elaborates on habitat destruction and the dodo's lack of fear as contributing factors. Additionally, Assistant B provides a brief historical context and explains the symbolic significance of the dodo's extinction.

Overall, Assistant B's response is more comprehensive, providing a richer context and a more thorough explanation of the factors leading to the dodo's extinction.

[[B]]


In [49]:
# gpt-5 모델로 앞의 두 모델을 평가
# gpt-5는 추론 모델이라 temperature 사용 못 함. 시간 오래 걸림.
completion4 = client.chat.completions.create(
    model = 'gpt-5',
    messages = [{'role':'user','content':prompt}]
)
print(completion4.choices[0].message.content)

Assistant B provides a more comprehensive and accurate explanation. It covers multiple contributing factors (hunting, introduced species, habitat destruction, and behavioral vulnerability), includes relevant context (location and timeline), and offers specific details like ground-nesting eggs. Assistant A gives a brief summary but omits habitat loss and includes a questionable claim about hunting for feathers. Overall, B is more thorough and precise.

[[B]]


## 장단점 비교
1. Human Based Evaluation
   - 통제된 환경을 가정했을 때 사람이 직접 평가하는 방법이라 안정적이고 신뢰가 높음.
   - 다만 평가하는 인원이 불특정 다수일 경우 약간의 노이즈가 발생할 수 있음.
   - 전문 분야의 경우 해당 전문가가 아닌 일반인이 평가할 경우 정확도 및 속도가 낮아질 수 있음.
2. Model Based Evaluation
   - 사람의 평가와 어느정도 유사한 수준의 평가를 내릴 수 있음.
   - 평가를 위해 API 호출 횟수 및 토크 수가 늘어나는데 이는 평가 데이터가 굉장히 많다면 수백만원 이상은 금방 넘어갈 수 있어서 비용에 대한 부분을 생각해야함.
3. Code Based Evaluation
   - 위 방법들에 대해서 비용이 훨씬 적지만 task에 따라서 활용할 수 있는 범위가 제한적
   - 사람이 만족할만한 답변을 선택하는데 있어서 신회도가 상대적으로 떨어지는 편
## 결론
- 각 task에 적합한 전문 인력들이 평가하는 방법이 가장 좋음
- 그러나 현실적, 효율성 문제로 모델이 평가하는 방법도 충분히 좋음
- 정량적 평가와 정성적 평가를 모두 진행하는 게 가장 이성적인 케이스
- 실제 서비스로 봤을 때 언어 모델의 최종 평가 지표를 결국 사용자의 만족이 가장 중요함.

## prompt 엔지니어링 고급 기법 적용
1. Few-shot: 참고할 수 있는 문제-정답 예시나 사례들을 프롬프트에 추가하여 질문
2. Chain-of-thought: Few-shot에 추가로 문제 해결과정을 단계별로 모델에게 알려주면서 질문

### zero-shot
- 질문에 아무런 예시가 없는 상태

In [54]:
prompt = "Q: Who wrote the book 'To Kill a Mockingbird'?"

completion = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages = [{'role':'user','content':prompt}],
                temperature = 0
)

print(completion.choices[0].message.content)

Harper Lee wrote the book 'To Kill a Mockingbird'.


## Few-shot
- 질의-응답 예시 쌍을 1개 이상 프롬프트에 포함

In [57]:
prompt = """
Answer these question:
Q: Who wrote the book 'To Kill a Mockingbird'?

Below is an example for your reference.
Q: Who sang 'Espresso'?
A: Sabrina Carpenter
"""
# few-shot예시로 Espresso라는 노래를 부른 가수가 누군지 물어보고 응답은 사람 이름만 하도록 지정

completion = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages = [{'role':'user','content':prompt}],
                temperature = 0
)

print(completion.choices[0].message.content)

A: Harper Lee


## Few-shot 장단점
- 질문과 응답 예시만 넣어주면 되기 때문에 응답이 존재하는 모든 케이스에 적용이 가능함.
- but, 요약과 같은 task에서는 prompt의 예시가 굉장히 길어질 수 있어서 추론 속도나 비용에 영향을 줄 수 있음.

## Chain-of-thought
- 마이크로소프트의 예시 프롬프트 사용
- 중간과정들을 알려주면서 프롬프트를 작성하면 어떻게 나올지

In [64]:
prompt = """
Clover has 5 mangos, throws 3 mangos, gives 2 to Felix and Felix gives one back,
how many mangos does Clover have?"""

completion = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages = [{'role':'user','content':prompt}],
                temperature = 0
)

print(completion.choices[0].message.content)
# 답은 1이 나와야함. 잘 나옴!!!:)

Clover originally had 5 mangos. After throwing 3 mangos, she has 5 - 3 = 2 mangos left.
After giving 2 mangos to Felix, she has 2 - 2 = 0 mangos left.
When Felix gives one mango back, Clover now has 0 + 1 = 1 mango. 

Therefore, Clover has 1 mango.


In [80]:
prompt = """
[Question]
Clover has 5 mangos, throws 3 mangos, gives 2 mangos to Felix and Felix gives one mango back,
how many mangos does Clover have?

Below are two examples for your reference.
[reference]
Anika has 7 mangos, throws 1 mango gives 4 mangos to Minho,
and Minho gives one back.:
7 - 1 = 6
6 - 4 = 2
2 + 1 = 3

Han has 6 mangos, throws 3 mangos, gives 1 mango to Ian,
and Ian gives 2 back.:
6 - 3 = 3
3 - 1 = 2
2 + 2 = 4
"""

completion = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages = [{'role':'user','content':prompt}],
                temperature = 0
)

print(completion.choices[0].message.content)

Clover has 5 mangos.
5 - 3 = 2
2 - 2 = 0
0 + 1 = 1

Clover has 1 mango.


## 다른 프롬프트 고도화 예시
- KMMLU논문의 예시 프롬프트 템플릿 사용

In [83]:
# 실제 정답은
question = 'x, y가 세 부등식 y ≤ x+3, y ≤ -4x+3, y ≥ 0을 만족할 때, x+y의 최댓값을 M, 최솟값을 m이라 하면 M-m의 값은?'

A = 4
B = 6
C = 8
D = 10

In [85]:
prompt = f"""
{question}
A. {A}
B. {B}
C. {C}
D. {D}
Answer :
"""
completion = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages = [{'role':'user','content':prompt}],
                temperature = 0
)

print(completion.choices[0].message.content)
# 답이 B인데 C라고 답함.

C. 8


### GPT-3.5모델로 고도화 시켜보기
- 페르소나 적용
- 영문으로 prompt 작성
- 효과적인 prompt 작성

In [88]:
# 페르소나 부여
prompt = f"""
You are a professional in Mathematics. Below is a given math question in Korean.

{question}
A. {A}
B. {B}
C. {C}
D. {D}

Answer :
"""
completion = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages = [{'role':'user','content':prompt}],
                temperature = 0
)

print(completion.choices[0].message.content)
# 아직도 C라고 잘못 답함;;;;;;

C. 8


In [90]:
# 페르소나 부여 + 효과적인 프롬프트 작성
prompt = f"""
You are a professional in Mathematics. Below is a given math question in Korean.
You have to think carefully and step by step about the question
and choose one out of four given possible answers.
Only one of them is true. And you have to explain to me why it is the answer in Korean.
{question}
A. {A}
B. {B}
C. {C}
D. {D}

Answer :
"""
completion = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages = [{'role':'user','content':prompt}],
                temperature = 0
)

print(completion.choices[0].message.content)
# 아직도 C라고 잘못 답함;;;;;;

C. 8

선분 y ≤ x+3와 y ≤ -4x+3의 교점을 찾으면 된다. 두 선분의 교점은 (-1, 2)이다. 이 교점과 y ≥ 0을 만족하는 영역에서 x+y의 최댓값과 최솟값을 찾으면 된다. 최댓값은 (3, 0)에서 나타나고 최솟값은 (-1, 2)에서 나타난다. 따라서 M-m = 3-(-1) + 0-2 = 4+2 = 6이므로 정답은 8이다.


In [92]:
# 페르소나 부여 + 효과적인 프롬프트 작성
prompt = f"""You are a Professional in Mathematics.

1. Internally, perform accurate mathematical reasoning, but do not include any solution steps or explanations in the output.
2. The answer must be exactly one uppercase letter (A/B/C/D). Do not include any extra text, punctuation, or quotation marks.
3. For any reason, if the result does not match any of the given choices, output None

{question}
A. {A}
B. {B}
C. {C}
D. {D}
Answer：
"""
completion = client.chat.completions.create(
    model = 'gpt-3.5-turbo',
    messages = [{'role':'user','content':prompt}],
                temperature = 0
)

print(completion.choices[0].message.content)
# 이제서야 B라고 제대로 나옴

B


### 프롬프트 엔지니어링 특징
- 추가 모델 학습이 없음에도 성능 개선의 가능성이 있기 때문에 가성비가 굉장히 좋음.
- 더 좋은 모델을 사용하면 프롬프트 엔지니어링 없이도 해결할 수 있는 경우가 있지만 비용 측면을 무시 못하기 때문에 맨 먼저 프롬프트 엔지니어링으로 성능 향상을 시도해보는 게 좋음.
- 프롬프트 엔지니어링으로도 해결 안 되면 이후에 이어질 RAG 및 Fine-tuning 등으로 성능을 더 향상시킬 수 있음.