# Openai API 呼叫方式介紹

completion vs chat


![image.png](attachment:image.png)

In [6]:
# Import necessary libraries
## 設定 OpenAI API Key 變數
from dotenv import load_dotenv
import os

# Load the environment variables from .env file
load_dotenv()

# Access the API key
openai_api_key = os.getenv('OPENAI_API_KEY')


In [None]:
## 如果使用 colab, 可以使用以下方式設定 API key 
# from google.colab import userdata
# openai_api_key = userdata.get('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')

### 傳統 HTTP library 格式，透過 payload 和 header 進行 HTTP 請求

大部分的人都是使用 OpenAI 的 notebook 都用 OpenAI 官方出的 https://github.com/openai/openai-python

In [4]:
import requests
import json # 這有兩個方法 dumps (物件轉字串) 跟 loads (字串轉物件)
from pprint import pp # 為了印出來漂亮

## OpenAI Completion API

In [5]:
# 在 payload 中加入 max_tokens
payload = {
    "model": "gpt-3.5-turbo-instruct",
    "temperature": 1,
    "prompt": "頑皮豹的膚色是?",
    "max_tokens": 100  # 限制回應的最大 token 數量為 50
}

headers = {
    "Authorization": f'Bearer {openai_api_key}',
    "Content-Type": "application/json"
}

response = requests.post('https://api.openai.com/v1/completions', headers=headers, data=json.dumps(payload))
obj = response.json()  # 使用 response.json() 是一個更簡潔的方式來處理 JSON 回應
pp(obj)


{'id': 'cmpl-8zmyjqBTZnhuqITleIUEzcKAk4UcA',
 'object': 'text_completion',
 'created': 1709736973,
 'model': 'gpt-3.5-turbo-instruct',
 'choices': [{'text': '\n類似黑色的顏色，身上可能還帶有一些模擬豹紋的斑點。',
              'index': 0,
              'logprobs': None,
              'finish_reason': 'stop'}],
 'usage': {'prompt_tokens': 13, 'completion_tokens': 36, 'total_tokens': 49}}


## OpenAI Chat API

在OpenAI的API中，當我們使用Chat模式進行多輪對話時，我們會通過一個名為messages的陣列來傳遞對話記錄。這個陣列中的每一項都代表對話中的一個訊息，而這些訊息依照角色（role）的不同有不同的含義：

* system: 用於設定和調整整個對話的行為，通常作為對話陣列messages的第一個元素。它可以指定對話的某些規則或者參數設定，幫助引導對話的方向或者行為。
* user: 代表使用者的訊息。當我們想要模擬使用者向系統提問或者進行互動時，會使用這個角色。
* assistant: 代表AI助手的回覆。在一次對話完成後，如果想要進行多輪對話，我們需要將上一次AI的回覆作為一部分加入到messages陣列中，以便系統可以理解對話的上下文。

若只進行一輪對話，則messages陣列中可以只包含一個角色為user的訊息，這時候的使用方式與Completion API非常相似，你只需要將整個對話的內容放入該訊息的content中即可。這樣，API就會根據這個單一的輸入訊息來生成回覆。

In [7]:
import requests
import json

def get_openai_completion(messages, model="gpt-3.5-turbo", temperature=0, max_tokens=300, seed=None, timeout=10):
    """
    Fetches a completion for a given prompt from OpenAI's API.

    :param messages: The input messages for the completion.
    :param model: The model to use for the completion. Defaults to "gpt-3.5-turbo".
    :param temperature: The temperature to use for the completion. Defaults to 0.
    :param max_tokens: The maximum number of tokens to generate. Defaults to 300.
    :param seed: An optional seed for deterministic completions.
    :return: The generated completion text or an error message.
    """
    # Configure the API request payload
    payload = {
        "model": model,
        "temperature": temperature,
        "messages": messages,
        "max_tokens": max_tokens
    }
    
    # Add the seed to the payload if it is provided
    if seed is not None:
        payload["seed"] = seed

    # Setup the request headers with API key and content type
    headers = {
        "Authorization": f'Bearer {openai_api_key}',
        "Content-Type": "application/json"
    }
    
    # Send a POST request to the API
    response = requests.post('https://api.openai.com/v1/chat/completions', headers=headers, data=json.dumps(payload), timeout=timeout)


    # Parse the JSON response
    obj = response.json()

    # Check if the request was successful
    if response.status_code == 200:
        # Return the content of the first choice
        return obj["choices"][0]["message"]["content"]
    else:
        # Return the error message
        return obj.get("error", "An unknown error occurred")



In [8]:
user_message = "什麼是 python? 請用台灣繁體中文" # 可以改任意問題


## array 格式輸入
messages = [
    {
        "role": "user",
        "content": user_message
    }
]

response = get_openai_completion(messages, temperature=0)
pp(response)

('Python 是一種高階、直譯式、通用、直譯式程式語言，由 Guido van Rossum 於 1989 年創造。Python '
 '的設計哲學強調程式碼的可讀性和簡潔性，使其成為初學者學習程式設計的理想選擇。Python '
 '擁有豐富的標準庫和第三方庫，可應用於各種領域，如網頁開發、數據分析、機器學習等。Python 在台灣也廣泛應用於各種領域，是一種非常受歡迎的程式語言。')


## API 可調參數 - Temperature 溫度

In [12]:
user_message = "鬆鬆軟軟的食物是? "

messages = [
    {
        "role": "user",
        "content": user_message
    }
]

response = get_openai_completion(messages, temperature=1)  # 可以改看看溫度
print(response)

糯米糰、奶油蛋糕、蒸湯丸、奶凍果凍、布丁等。


## API 可調參數 - Seed 種子

在OpenAI的API中，從1106版本的新模型開始，引入了seed參數。這項功能允許開發者固定伺服器的亂數種子，即便在非零溫度（temperature）設定下，也能盡可能地獲得一致的輸出結果。不過，要達到完全一致的輸出，還需確保system_fingerprint回傳值相同，此值代表伺服器當時的環境版本。

### 用途
由於模型的輸出本質上是非確定性的，開發和測試階段往往難以重現相同的結果。透過設定seed參數，我們可以實現更確定性的輸出，從而幫助開發者在測試時預測和控制模型的行為，提高開發效率和準確性。

* https://platform.openai.com/docs/guides/text-generation/reproducible-outputs
* https://cookbook.openai.com/examples/deterministic_outputs_with_the_seed_parameter

In [16]:
user_message = "鬆鬆軟軟的食物是? "

messages = [
    {
        "role": "user",
        "content": user_message
    }
]

response = get_openai_completion(messages, temperature=0.8, seed=6666)  # seed 必須是數字
print(response)



燉飯、燉湯、布丁、果凍等都是鬆鬆軟軟的食物。


## 使用 System Message

在使用OpenAI API特定版本的模型時，對於系統消息（system message）的處理方式有特別的建議。以下是對於不同版本模型應如何處理系統消息的精簡指南：

* 對於版本 0613 之後的模型
這些版本的模型支持並關注系統消息，因此開發者可以通過系統消息來設定對話的行為和參數。

* 對於版本 0613 之前的模型
特別是版本gpt-3.5-turbo-0301，它不像gpt-4-0314或gpt-3.5-turbo-0613那樣密切關注系統消息。
對於這個較早版本的模型，建議將重要指示放在用戶消息（user message）中。
隨著對話變長，一些開發者發現將系統提示（system prompt）持續地移動到對話的末尾，可以幫助防止模型的注意力漸漸偏離。

(出自 https://github.com/openai/openai-cookbook/blob/main/examples/How_to_format_inputs_to_ChatGPT_models.ipynb)

### 無 System Message

In [18]:
# 這是 completion 風格(蠻多教材仍這樣寫，包括 ChatGPT Prompt Engineering for Developers 課程)
user_message = """
請分類以下文字是 neutral, negative 或 positive
文字: 沙丘2超級好看! 讚
情緒:
"""

messages = [
    {
        "role": "user",
        "content": user_message
    }
]

response = get_openai_completion(messages, temperature=0.7)
print(response)


positive


### 有 System Message

In [20]:
# 可改成使用 system prompt 的風格: 把整體指示放在 system message
user_message = """
文字: 沙丘2超級好看! 讚
"""

messages = [
    {
        "role": "system",
        "content": "請分類以下文字是 neutral, negative 或 positive"
    },
    {
        "role": "user",
        "content": user_message
    }
]

response = get_openai_completion(messages, temperature=0.7)
print(response)

positive


## 連續對話 messages 的使用

In [22]:
# 第一輪問答
messages=[
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "2008年奧運在哪裡舉辦?"},
  ]

response1 = get_openai_completion(messages, temperature=0.3)
print(response1)



2008年奧運在中國的北京舉辦。


### 模型的幻覺現象 Hallucination

In [25]:
# 延續同一個對話的 第二輪問答
messages=[
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "2008年奧運在哪裡舉辦?"}, # 這是第一輪的 user 問句
      {"role": "assistant", "content": response1 }, # 這是第一輪的 AI 回覆
      {"role": "user", "content": "那2017年呢?"} # 這是第二輪的 user 問句
]

response2 = get_openai_completion(messages, temperature=0.3)
print(response2)


2017年世界大學運動會在臺灣的臺北舉辦，而非奧運。


In [26]:
# 延續同一個對話的 第二輪問答
messages=[
      {"role": "system", "content": "You are a helpful assistant."},
      {"role": "user", "content": "2008年奧運在哪裡舉辦?"}, # 這是第一輪的 user 問句
      {"role": "assistant", "content": response1 }, # 這是第一輪的 AI 回覆
      {"role": "user", "content": "那2017年呢? 如果沒舉辦，請回答沒舉辦"} # 這是第二輪的 user 問句
]

response2 = get_openai_completion(messages, temperature=0.3)
print(response2)



2017年並沒有舉辦夏季奧運會。


### 更多 Prompt 使用範例: https://platform.openai.com/examples



## Token 數的計算

除了 response 會告訴你實際使用 tokens，我們也可以自己先算

![image.png](attachment:image.png)

In [27]:
!pip install tiktoken -q

In [28]:
import tiktoken

string = "哈囉哈囉"

encoding = tiktoken.get_encoding("cl100k_base")

num_tokens = len(encoding.encode(string))
print(num_tokens)



6


In [30]:
# 出自 https://platform.openai.com/docs/guides/gpt/managing-tokens
def num_tokens_from_messages(messages, model="gpt-3.5-turbo-0613"):
  """Returns the number of tokens used by a list of messages."""
  try:
      encoding = tiktoken.encoding_for_model(model)
  except KeyError:
      encoding = tiktoken.get_encoding("cl100k_base")
  if model == "gpt-3.5-turbo-0613":  # note: future models may deviate from this
      num_tokens = 0
      for message in messages:
          num_tokens += 4  # every message follows <im_start>{role/name}\n{content}<im_end>\n
          for key, value in message.items():
              num_tokens += len(encoding.encode(value))
              if key == "name":  # if there's a name, the role is omitted
                  num_tokens += -1  # role is always required and always 1 token
      num_tokens += 2  # every reply is primed with <im_start>assistant
      return num_tokens
  else:
      raise NotImplementedError(f"""num_tokens_from_messages() is not presently implemented for model {model}.
  See https://github.com/openai/openai-python/blob/main/chatml.md for information on how messages are converted to tokens.""")




In [31]:
messages = [
    {
        "role": "user",
        "content": "hello world!"
    }
]

num_tokens_from_messages(messages)


10

## 故意超過 token 數造成錯誤

In [32]:
user_message = "故意撐爆長度" * 4000

messages = [
    {
        "role": "user",
        "content": user_message
    }
]

response = get_openai_completion(messages, temperature=0.7)
pp(response)


{'message': "This model's maximum context length is 16385 tokens. However, "
            'your messages resulted in 40007 tokens. Please reduce the length '
            'of the messages.',
 'type': 'invalid_request_error',
 'param': 'messages',
 'code': 'context_length_exceeded'}


## 官方的 error codes

* https://help.openai.com/en/collections/3808446-api-error-codes-explained
* https://platform.openai.com/docs/guides/error-codes/python-library-error-types

## Timeout 問題

gpt-4 比較慢，一個 request 很可能會長達3~5分鐘，我甚至有紀錄過達到25分鐘的.... 因此可以考慮把 timeout 設長一點。

* GPT 3.5 Turbo 約 0.02s per token，4k tokens 大約要1分鐘
* GPT-4 約 0.06s per token，4k tokens 大約要4分鐘
* GPT-4 Turbo 約 0.04s per token，4k tokens 大約要3分鐘
* 難怪 ChatGPT 要做成 stream 一個字一個字傳給你，因為等全部完成有點久啊

##  server 錯誤 https://status.openai.com/

相比 Azure OpenAI, 目前 OpenAI 比較不穩一點，會有莫名的 server 錯誤....，只能重試 retry。server 的錯誤訊息還不一樣，例如

* The server had an error processing your request. Sorry about that! You can retry your request, or contact us through our help center at help.openai.com if you keep seeing this error.
* Internal server error
* Bad gateway

處理 Rate Limit 可參考: https://github.com/openai/openai-cookbook/blob/main/examples/How_to_handle_rate_limits.ipynb (這是 Python 的 retry 解法)