# Prompt Engineering 파트 실습 1 - 기초 편

Prompt Engineering 관련 아래 기본기들을 익힐 예정
- 기본 용어 정리
  - Prompt, Role, Response
- ChatGPT 간단한 원리
  - LLM Next Token Prediction
- OpenAI API 호출 방법
  - Model, Prompt Text, Temperature
  - Max Length
- 몇 가지 기본 규칙들

*Prompt Engineering 실습 파트는 OpenAI, Anthropic Cookbook, 관련 논문들 및 컨퍼런스 등의 다양한 정보들을 취합한 내용과 강사의 경험을 토대로 진행

**실습 비용은 프롬프트 엔지니어링 파트 통틀어서 1000원 미만으로 나올 예정

## 기본 용어 정리

- Prompt: ChatGPT의 출력을 원하는 방향으로 유도하기 위한 입력 텍스트. Prompt는 보통 질문 또는 지시 형태를 나타냄

| Role | Prompt |
| --- | --- |
| User | 왜 하늘은 하늘색인가요? |

- Role: 역할. 크게는 (1) 사용자를 뜻하는 User (2) ChatGPT를 뜻하는 Assistant 그리고 (3) System이 존재
  - System은 사용자 Prompt 이전에 입력하는 성능 개선 용도의 Prompt

| Role | Prompt |
| --- | --- |
| Assistant | 하늘은 하늘색인 이유는 대기 중의 분자들이 태양으로부터 오는 빛을 흡수하고 산란시키기 때문입니다. 태양으로부터 오는 빛은 다양한 색상을 가지고 있는데, 대기 중의 분자들은 파란색 빛을 더 많이 흡수하고 산란시키기 때문에 하늘은 파란색으로 보이게 됩니다. 이러한 현상을 레이리 산란이라고 합니다. 따라서 하늘은 하늘색으로 보이는 것입니다. |

- Response (또는 Output): 사용자의 Prompt에 대한 LLM의 출력값

## 간단한 원리 설명 - ChatGPT가 말을 하는 방식에 대하여

- Next Token Prediction
- ChatGPT 같은 Large Language Model(LLM) 또는 대규모 언어 모델들은 기본적으로 정해진 수의 단어들을 알고 있습니다.
  - 예를 들어 메타의 라마2 7B는 32000개, 구글의 젬마 7B는 256000개를 알고 있습니다. (단어를 더 많이 안다고 성능이 좋아지는 것은 아닙니다)
- ChatGPT가 예를 들어 10만개의 단어를 알고 있다고 했을 때, 10만개 단어 중 다음 1개의 단어를 예측하는 방식입니다.
  - 예시 1. 왜 하늘은 하늘색인가요? ___
  - 예시 2. 왜 하늘은 하늘색인가요? 하늘은 하늘색인 이유는 대기 중의 분자들이 태양으로부터 오는 빛을 ___
- "단어"란 우리가 생각하는 단어는 아닙니다. ChatGPT는 한글이나 영어 문자를 바로 보는게 아니고 이걸 AI모델이 이해 할 수 있는 숫자들로 변환해야하는데 이 숫자들의 수입니다.
  - 공식 명칭은 tokens라고 합니다. platform.openai.com/tokenizer 웹사이트에서 tokenizer 기억 나시죠?

## Google Colab에 OpenAI API Key 등록
- 왼쪽 열쇠 모양 버튼 클릭 (보안 비밀 / Secrets 메뉴)
- 이름에는 OPENAI_API_KEY 입력
- 값에는 OpenAI API Key 복붙하기

In [None]:
from google.colab import userdata

OPENAI_API_KEY = userdata.get('OPEN_AI_JPMKN_KEY')

## OpenAI API 호출 방법
- OpenAI API 호출 방법이지만 다른 많은 LLM API들도 OpenAI API 형식을 동일하게 따르거나 비슷한 방식의 구조를 채택했습니다.

In [None]:
!pip install openai

Collecting openai
  Downloading openai-1.23.6-py3-none-any.whl (311 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m311.6/311.6 kB[0m [31m2.3 MB/s[0m eta [36m0:00:00[0m
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.27.0-py3-none-any.whl (75 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m75.6/75.6 kB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0m
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.5-py3-none-any.whl (77 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m77.9/77.9 kB[0m [31m8.1 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: h11, httpcore, httpx, openai
Successfully installed h11-0.14.0 httpcore-1.0.5 ht

In [None]:
from openai import OpenAI

client = OpenAI(
    api_key=OPENAI_API_KEY
)

In [None]:
completion = client.chat.completions.create(
    model='gpt-3.5-turbo-0125',
    messages=[{'role': 'user', 'content': '왜 하늘은 하늘색인가요?'}],
    temperature=0.0
)

print(completion.choices[0].message.content)

하늘은 하늘색인 이유는 대기 중의 분자들이 푸른 빛을 흡수하고 다른 색상의 빛을 반사하기 때문입니다. 태양 빛은 다양한 색상의 빛으로 구성되어 있지만, 대기 중의 분자들이 푸른 빛을 흡수하고 다른 색상의 빛을 반사하게 되어 우리 눈에는 하늘이 푸르게 보이게 됩니다. 이러한 현상을 산란이라고 하며, 이로 인해 하늘은 하늘색으로 보이게 됩니다.


### 한 개씩 살펴보기
- model: GPT 3.5, GPT-4 버전 별로 선택하실 수 있으며, 보통 더 좋은 성능의 모델일 수록 가격도 그만큼 비싼 편입니다.
- messages: Prompt, Role, Response/Output
- temperature: 높을 수록 동일한 Prompt에도 매번 다르게 이야기하는 경향이 강해집니다. 0.0으로 셋팅 시 같은 답변으로만 대답합니다.


### OpenAI API 결과 조금 더 자세히 살펴보기

In [None]:
completion

ChatCompletion(id='chatcmpl-9IEuiGjJAaLjFzXqIY8L13ScUTptI', choices=[Choice(finish_reason='stop', index=0, logprobs=None, message=ChatCompletionMessage(content='하늘은 하늘색인 이유는 대기 중의 분자들이 푸른 빛을 흡수하고 다른 색상의 빛을 반사하기 때문입니다. 태양 빛은 다양한 색상의 빛으로 구성되어 있지만, 대기 중의 분자들이 푸른 빛을 흡수하고 다른 색상의 빛을 반사하게 되어 우리 눈에는 하늘이 푸르게 보이게 됩니다. 이러한 현상을 산란이라고 하며, 이로 인해 하늘은 하늘색으로 보이게 됩니다.', role='assistant', function_call=None, tool_calls=None))], created=1714134260, model='gpt-3.5-turbo-0125', object='chat.completion', system_fingerprint='fp_3b956da36b', usage=CompletionUsage(completion_tokens=184, prompt_tokens=21, total_tokens=205))

### 호출 시 지정하진 않지만 알아야 하는 내용
- max length / context window
  - 모델마다 입력 및 출력 최대 길이가 다르며, 보통 각 모델 소개 페이지에서 찾을 수 있습니다.
  - OpenAI API의 경우 입력 최대 길이 확인: https://platform.openai.com/tokenizer
    - 모델 별로 tokenizer는 다릅니다. "왜 하늘은 하늘색인가요?" 문장이 어떤 모델한테는 14토큰, 어떤 모델은 29토큰 일 수 있습니다.

### 기본적인 Prompt 구조

Prompt에는 2가지 종류가 존재
1. 사용자가 ChatGPT한테 실제로 전달하는 Prompt = User Prompt
2. 사용자 Prompt 이전에 오는 해당 LLM 어플리케이션에 적합한 메타 Prompt = System Prompt

System Prompt란?
- 사용자 Prompt를 전달하기 전에 관련 맥락이나 지침을 설정하는 Prompt
  - 페르소나, 어조 등도 설정 할 수 있음
- System Prompt 예시
  - 출력값 지정 (ex. JSON Formatting)
  - 페르소나 및 어조 설정
  - 외부 정보 주입
  - 모델이 지켜야 할 규칙들 설정

왠만한 모델들은 Prompt 입력 시 기본 System Prompt가 붙어있습니다. ChatGPT도 그렇습니다!

In [None]:
completion = client.chat.completions.create(
    model='gpt-3.5-turbo-0125',
    messages=[
        {'role': 'system', 'content': '당신은 물리학 선생님입니다. 초등학교 5학년한테 설명하듯이 아주 쉽고 친근하게 설명해주세요.'},
        {'role': 'user', 'content': '왜 하늘은 하늘색인가요?'}
    ],
    temperature=0.0
)

print(completion.choices[0].message.content)

하늘은 왜 하늘색일까요? 그 이유는 바로 태양 빛이 하늘을 통과할 때 일어나는 일 때문이에요! 태양은 다양한 색깔의 빛을 내보내는데, 그 중에서도 파란색 빛이 하늘에 가장 많이 퍼져요. 그래서 우리 눈에 보이는 하늘은 파란색으로 보이게 되는거죠! 이렇게 태양 빛이 하늘을 통과하면서 파란색 빛이 우리 눈에 가장 많이 보이게 되어서 하늘은 파란색으로 보이는거에요. 신기하죠? 하늘색은 태양 빛과 공기가 어떻게 상호작용하는지에 따라 달라질 수 있어요!


In [None]:
completion = client.chat.completions.create(
    model='gpt-3.5-turbo-0125',
    messages=[
        {'role': 'user', 'content': '당신은 물리학 선생님입니다. 초등학교 5학년한테 설명하듯이 아주 쉽고 친근하게 설명해주세요. 왜 하늘은 하늘색인가요?'}
    ],
    temperature=0.0
)

print(completion.choices[0].message.content)

하늘은 왜 하늘색인지 궁금하시죠? 그 이유는 바로 '빛의 산란' 때문이에요! 

우리가 보는 빛은 여러 색으로 이루어져 있는데요, 빨간색, 주황색, 노란색, 초록색, 파란색, 남색, 보라색이 있어요. 이 중에서 하늘은 파란색으로 보이게 되는데요, 그 이유는 태양에서 나오는 빛 중에서 파란색 빛이 더 많이 산란되기 때문이에요. 

산란이란 빛이 공기나 물같은 물질과 부딪히면 흩어지는 현상을 말해요. 하늘에는 공기가 많이 있어서 태양에서 나오는 빛 중 파란색 빛이 더 많이 흩어지게 되어 하늘이 파란색으로 보이는 거죠! 

그래서 하늘은 파란색이에요. 이렇게 쉽게 설명해 드렸어요! 이해가 되셨나요? 더 궁금한 점 있으면 언제든지 물어주세요!


### Completion 말고 Stream도 살펴보기
- ChatGPT가 문장을 모두 완성하지 않고 각 단어 별로 완성되는데로 바로바로 보여주는 방법입니다.

In [None]:
stream = client.chat.completions.create(
    model='gpt-3.5-turbo-0125',
    messages=[{'role': 'user', 'content': '왜 하늘은 하늘색인가요?'}],
    temperature=0.0,
    stream=True
)

for chunk in stream:
  if chunk.choices[0].delta.content is not None:
    print(chunk.choices[0].delta.content, end='')

하늘은 하늘색인 이유는 대기 중의 분자들이 햇빛을 흡수하고 산란시키기 때문입니다. 태양으로부터 오는 빛은 다양한 파장을 가지고 있는데, 대기 중의 분자들은 이 빛을 흡수하고 다시 방출하면서 산란시킵니다. 이 과정에서 파란색 빛이 다른 색보다 더 많이 산란되어 하늘은 파란색으로 보이게 됩니다. 이러한 현상을 레이리 산란이라고 합니다.

In [None]:
stream

<openai.Stream at 0x7b5822f55990>

### 몇 가지 기본 규칙들

1. Prompt는 영어로 해야 모델의 제성능을 발휘하는 편
   - ChatGPT, Claude 같은 모델들의 학습 데이터 중 큰 비중이 영어로 추정되기 때문
   - 학습 데이터가 공개된 라마1의 경우에도 대부분이 영어이며 한글은 극소량만 존재함
   - 한글 출력값이 필요하더라도 영어 Prompt를 통해 한글 출력값을 유도하는게 성능이 더 좋을 수 있음
2. AI 모델의 출력값은 입력값에 의존도가 매우 높음
   - 잘 한 것 같은데 원하는 결과가 안 나오면 입력이 모호하거나 필요한 내용이 빠졌을 수도 있음 (그게 아닌 경우 모델한테 태스크가 너무 어려울 수는 있음)
3. Prompt를 이렇게 저렇게 바꿨을 때 "더 좋아보이는" 결과보다는 특정 지표에서 유의미하게 더 좋거나 여러 번의 블라인드 테스팅을 통해 더 좋은 Prompt를 정하는 것을 추천
   - 다음 챕터인 프롬프트 엔지니어링 라이프사이클에서 자세하게 알려드릴 예정

## 정리
- Prompt, Role, Output
  - Role은 User, Assistant(ex. ChatGPT)
  - Prompt는 User, System Prompt
- ChatGPT 작동 원리 = Next Token Prediction
  - ChatGPT 같은 모든 LLM API는 단어1, 단어2, 단어3이 있을 때 단어3 뒤에 나올 가장 적합한 단어를 선택하는 식으로 출력
- OpenAI API 호출 시 model과 messages를 지정해줘야 하며 결과 재현을 위해서는 temperature=0.0 지정을 추천
  - 전체 결과값을 한꺼번에 받는 Completions, 실시간으로 바로바로 받을 수 있는 Stream으로 나뉨