# Text Generation Using OpenAI Models

## Chat Completion API

In [1]:
import os
import openai
import sys
sys.path.append('./')

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file

- 메시지는 메시지 개체의 배열이어야 하며, 각 개체에는role(“system", “user" 또는 “assistant")과 content가 있습니다. 대화는 하나의 메시지만큼 짧을 수도 있고 여러 번 주고받을 수도 있습니다.
- 대화는 먼저 system 메시지로 형식화되고 이어서 user 메시지와 assistanc 메시지가 교대로 표시됩니다.  
- system 메시지는 assistant의 동작을 설정하는 데 도움이 됩니다. 예를 들어, assitant의 성격을 수정하거나 대화 전반에 걸쳐 assistant가 어떻게 행동해야 하는지에 대한 구체적인 지침을 제공할 수 있습니다. 그러나 system 메시지는 선택 사항이며 system 메시지가 없는 모델의 동작은 "당신은 도움이 되는 조수입니다"와 같은 일반적인 메시지를 사용하는 것과 유사할 가능성이 높습니다.  
- 
User 메시지는 assistant가 응답할 요청이나 설명을 제공합니다. Assistant 메시지는 이전 assistant 응답을 저장하지만 원하는 동작의 예를 제공하기 위해 user가 작성할 수도 있습니다  .- 
사용자 지침이 이전 메시지를 참조할 때 대화 기록을 포함하는 것이 중요합니다. 위의 예에서 사용자의 마지막 질문인 " Where was it played?" 는 2020년 월드 시리즈에 대한 이전 메시지의 context 에서만 의미가 있습니다. 모델에는 과거 요청에 대한 기억이 없기 때문에 모든 관련 정보는 각 요청의 대화 기록의 일부로 제공되어야 합니다. 대화가 모델의 토큰 제한에 맞지 않으면 어떤 방식으로든 줄여야 합니다 .



In [2]:
from openai import OpenAI
client = OpenAI()

Model = "gpt-4o-mini"

response = client.chat.completions.create(
  model=Model,
  messages=[
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "2020년 코리안 시리즈를 우승한 야구팀이 어디?"},
    {"role": "assistant", "content": "2020년 한국시리즈(Korean Series) 우승 야구팀은 NC 다이노스(NC Dinos)입니다."},
    {"role": "user", "content": "마지막 게임이 어디에서 열렸어?"}
  ]
)

In [3]:
response.to_dict()

{'id': 'chatcmpl-A8cJshX1x8FasDleNdifOrlL6qBiG',
 'choices': [{'finish_reason': 'stop',
   'index': 0,
   'logprobs': None,
   'message': {'content': '2020년 한국시리즈 마지막 게임은 창원 NC파크에서 열렸습니다. NC 다이노스가 이 대회에서 우승을 차지한 경기입니다.',
    'role': 'assistant',
    'refusal': None}}],
 'created': 1726617288,
 'model': 'gpt-4o-mini-2024-07-18',
 'object': 'chat.completion',
 'system_fingerprint': 'fp_483d39d857',
 'usage': {'completion_tokens': 38,
  'prompt_tokens': 81,
  'total_tokens': 119,
  'completion_tokens_details': {'reasoning_tokens': 0}}}

In [4]:
print(response.choices[0].message.content)

2020년 한국시리즈 마지막 게임은 창원 NC파크에서 열렸습니다. NC 다이노스가 이 대회에서 우승을 차지한 경기입니다.


### 모든 응답에는 'finish_reason'이 포함되며, 'finish_reason'의 가능한 값은 다음과 같습니다:
- stop: API가 완전한 메시지를 반환하거나, stop 매개변수를 통해 제공된 중단 시퀀스 중 하나에 의해 메시지가 종료됨
- length: max_tokens 매개변수 또는 토큰 제한으로 인해 완전하지 않은 모델 출력
- function_call: 모델이 함수를 호출하기로 결정함

In [5]:
print(response.choices[0].finish_reason)

stop


## Token 관리
- "ChatGPT is great!“ 는 6개의 토큰으로 인코딩됩니다 $\rightarrow$ ["Chat", "G", "PT", " is", " great", "!"]
- 예를 들어, API 호출이 메시지 입력에서 10개의 토큰을 사용하고 메시지 출력에서 ​​20개의 토큰을 받은 경우 30개의 토큰에 대한 요금이 청구됩니다.


In [6]:
print(response.usage)
print(response.usage.prompt_tokens)

CompletionUsage(completion_tokens=38, prompt_tokens=81, total_tokens=119, completion_tokens_details={'reasoning_tokens': 0})
81


In [7]:
import tiktoken

encoding = tiktoken.encoding_for_model(Model)

In [8]:
messages=[
    {"role": "system", "content": "You are a helpful assistant designed to output JSON."},
    {"role": "user", "content": "2020년 코리안 시리즈를 우승한 야구팀이 어디?"},
    {"role": "assistant", "content": "2020년 한국시리즈(Korean Series) 우승 야구팀은 NC 다이노스(NC Dinos)입니다."},
    {"role": "user", "content": "마지막 게임이 어디에서 열렸어? 한국어로 답해줘"}
  ]

num_tokens = 0
for message in messages:
  num_tokens += 4  # every message follows <im_start>{role/name}\n{content}<im_end>\n
  for key, value in message.items():
      num_tokens += len(encoding.encode(value))
      print(value)
      print(encoding.encode(value))

num_tokens

system
[17360]
You are a helpful assistant designed to output JSON.
[3575, 553, 261, 10297, 29186, 6884, 316, 4733, 8205, 13]
user
[1428]
2020년 코리안 시리즈를 우승한 야구팀이 어디?
[1323, 15, 12622, 43824, 4960, 14307, 12468, 186042, 4831, 26090, 42643, 3748, 109887, 10997, 91214, 2186, 154074, 30]
assistant
[173781]
2020년 한국시리즈(Korean Series) 우승 야구팀은 NC 다이노스(NC Dinos)입니다.
[1323, 15, 12622, 52971, 5637, 186042, 28797, 99693, 14932, 8, 26090, 42643, 109887, 10997, 91214, 4740, 28895, 14367, 2186, 21464, 5648, 10564, 34, 415, 8200, 8, 27001, 13]
user
[1428]
마지막 게임이 어디에서 열렸어? 한국어로 답해줘
[11630, 118016, 55377, 2186, 154074, 11440, 49496, 76892, 5959, 30, 52971, 5959, 3710, 107393, 5650, 153545]


92

### 기타 parameters

seed - 응답 생성을 제어하기 위한 시드 값입니다. 동일한 입력에 대해 항상 같은 결과를 얻을 수 있습니다. 이는 재현 가능성을 위해 사용됩니다.  
max_tokens - 응답의 최대 토큰 수를 설정하는 파라미터입니다.  
temperature - 창의성과 무작위성을 제어하는 파라미터입니다. 값은 0에서 2 사이로 설정됩니다. 낮은 값(0.0)에 가까울수록모델이 더 결정적인 응답을 생성하며, 덜 창의적이고 더 예측 가능한 응답을 제공합니다. 높은 값(2.0)에 가까울수록 모델이 더 창의적이고 무작위성이 높은 응답을 생성합니다. 

In [11]:
from IPython.display import display, HTML

GPT_MODEL = "gpt-4o-mini"
SEED = 123

topic = "a journey to Mars"
system_message = "You are a helpful assistant that generates short stories."
user_request = f"{topic}에 관한 짧은 이야기를 한국어로 생성하세요."

try:
    messages = [
        {"role": "system", "content": system_message},
        {"role": "user", "content": user_request},
    ]

    response = openai.chat.completions.create(
        model=GPT_MODEL,
        messages=messages,
        seed=SEED,
        max_tokens=1000,
        temperature=0.7,
    )

    response_content = response.choices[0].message.content
    system_fingerprint = response.system_fingerprint  # 특정 API 응답을 식별하고 추적하는 데 도움 되는 고유 식별자
    completion_tokens = (
        response.usage.total_tokens - response.usage.prompt_tokens
    )
    finish_reason = response.choices[0].finish_reason

    table = f"""
    <table>
    <tr><th style="text-align: left;">Response</th><td style="text-align: left;">{response_content}</td></tr>
    <tr><th style="text-align: left;">System Fingerprint</th><td style="text-align: left;">{system_fingerprint}</td></tr>
    <tr><th style="text-align: left;">Number of completion tokens</th><td style="text-align: left;">{completion_tokens}</td></tr>
    <tr><th style="text-align: left;">finish reason</th><td style="text-align: left;">{finish_reason}</td></tr>
    </table>
    """
    display(HTML(table))
except Exception as e:
    print(f"An error occurred: {e}")

0,1
Response,"제목: 붉은 행성으로의 여정 2035년, 인류는 마침내 화성 탐사를 위한 첫 유인 우주선 '호프'를 발사했다. 우주선에는 6명의 우주 비행사가 탑승하고 있었고, 그들은 각각 과학자, 의사, 엔지니어, 그리고 탐험가로 구성되어 있었다. 이들은 화성에서의 새로운 삶을 위한 첫걸음을 내딛기 위해 훈련과 준비를 거듭해왔다. 우주선이 발사된 후, 승무원들은 지구를 뒤로하고 무한한 우주의 어둠 속으로 나아갔다. 창밖으로 펼쳐지는 별빛은 그들에게 희망의 상징이자, 새로운 도전의 시작을 알리는 신호였다. 하루하루가 지나면서 그들은 서로의 존재에 의지하며, 어려운 상황을 극복해 나갔다. 여행 중 가장 큰 위기는 우주선의 산소 공급 장치에 문제가 생겼을 때 발생했다. 엔지니어인 미나는 즉시 문제를 진단하고, 다수의 대체 시스템을 가동해야 했다. 그녀의 침착한 대처 덕분에 팀원들은 안정을 찾을 수 있었고, 함께 힘을 모아 문제를 해결했다. 이 사건은 그들에게 팀워크의 중요성을 다시 한번 일깨워주었다. 마침내 6개월의 긴 여정 끝에 화성에 도착한 그들은 붉은 행성의 경이로운 풍경을 바라보며 감격에 젖었다. 화성의 대기는 희박했지만, 그들은 각자의 임무를 수행하기 위해 준비한 모든 것을 쏟아부었다. 과학자들은 샘플을 채취하고, 의사는 생명의 징후를 확인하며, 탐험가는 미지의 땅을 탐험했다. 그들이 화성에서 보낸 시간은 단순한 탐험이 아닌, 인류의 미래를 위한 중요한 발걸음이었다. 화성에서의 연구 결과는 지구의 기후 문제를 해결하는 데 큰 도움이 될 것이라는 희망을 안겼다. 여정이 끝나고, 그들은 지구로 돌아갈 준비를 하면서도 화성에 남겨진 아름다운 기억을 가슴에 새겼다. 인류의 꿈과 탐험은 이어질 것이며, 그들은 그 여정의 첫 주인공으로서 새로운 역사를 썼다. 붉은 행성을 뒤로하고 지구를 향해 떠나는 우주선 '호프'의 모습은 다시 한번 희망을 상징하는 별빛처럼 빛나고 있었다."
System Fingerprint,fp_483d39d857
Number of completion tokens,589
finish reason,stop


In [12]:
response.to_dict()

{'id': 'chatcmpl-A8cQQfyhYsIwytd8MgnYHmjvhDOgM',
 'choices': [{'finish_reason': 'stop',
   'index': 0,
   'logprobs': None,
   'message': {'content': "제목: 붉은 행성으로의 여정\n\n2035년, 인류는 마침내 화성 탐사를 위한 첫 유인 우주선 '호프'를 발사했다. 우주선에는 6명의 우주 비행사가 탑승하고 있었고, 그들은 각각 과학자, 의사, 엔지니어, 그리고 탐험가로 구성되어 있었다. 이들은 화성에서의 새로운 삶을 위한 첫걸음을 내딛기 위해 훈련과 준비를 거듭해왔다.\n\n우주선이 발사된 후, 승무원들은 지구를 뒤로하고 무한한 우주의 어둠 속으로 나아갔다. 창밖으로 펼쳐지는 별빛은 그들에게 희망의 상징이자, 새로운 도전의 시작을 알리는 신호였다. 하루하루가 지나면서 그들은 서로의 존재에 의지하며, 어려운 상황을 극복해 나갔다.\n\n여행 중 가장 큰 위기는 우주선의 산소 공급 장치에 문제가 생겼을 때 발생했다. 엔지니어인 미나는 즉시 문제를 진단하고, 다수의 대체 시스템을 가동해야 했다. 그녀의 침착한 대처 덕분에 팀원들은 안정을 찾을 수 있었고, 함께 힘을 모아 문제를 해결했다. 이 사건은 그들에게 팀워크의 중요성을 다시 한번 일깨워주었다.\n\n마침내 6개월의 긴 여정 끝에 화성에 도착한 그들은 붉은 행성의 경이로운 풍경을 바라보며 감격에 젖었다. 화성의 대기는 희박했지만, 그들은 각자의 임무를 수행하기 위해 준비한 모든 것을 쏟아부었다. 과학자들은 샘플을 채취하고, 의사는 생명의 징후를 확인하며, 탐험가는 미지의 땅을 탐험했다.\n\n그들이 화성에서 보낸 시간은 단순한 탐험이 아닌, 인류의 미래를 위한 중요한 발걸음이었다. 화성에서의 연구 결과는 지구의 기후 문제를 해결하는 데 큰 도움이 될 것이라는 희망을 안겼다. \n\n여정이 끝나고, 그들은 지구로 돌아갈 준비를 하면서도 화성에 남겨진 아름다운 기억을 가슴에 새겼다. 인류의 꿈과 