# OpenAI APIの前準備

In [None]:
# パッケージのインストール
!pip install openai

In [None]:
# 環境変数の準備 (左端の鍵アイコンでOPENAI_API_KEYを設定)
import os
from google.colab import userdata
os.environ["OPENAI_API_KEY"] = userdata.get("OPENAI_API_KEY")

In [None]:
from openai import OpenAI

# クライアントの準備
client = OpenAI()

In [None]:
import json

# JSON出力ヘルパーの準備
def show_json(obj):
    display(json.loads(obj.model_dump_json()))

# 画像の質問応答 - 画像URL

In [None]:
# メッセージリストの準備
messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "これは何の画像ですか？"},
            {
                "type": "image_url",
                "image_url": {
                    "url": "https://assets.st-note.com/img/1699330153755-AtaoOsjEq4.jpg",
                    "detail": "low",
                }
            },
        ],
    }
]

In [None]:
# 画像の質問応答
response = client.chat.completions.create(
    model="gpt-4-vision-preview",
    messages=messages,
    max_tokens=300,
)
show_json(response)

{'id': 'chatcmpl-8UshhPAt2No6WeTvVVMYBJSRvZDAw',
 'choices': [{'finish_reason': None,
   'index': 0,
   'message': {'content': 'これはニンテンドースイッチの横に横たわっている白黒の猫の画像です。猫はカメラを見つめていて、リラックスした姿勢を取っています。背景にはSHARPブランドのテレビが見えます。',
    'role': 'assistant',
    'function_call': None,
    'tool_calls': None},
   'finish_details': {'type': 'stop', 'stop': '<|fim_suffix|>'}}],
 'created': 1702370813,
 'model': 'gpt-4-1106-vision-preview',
 'object': 'chat.completion',
 'system_fingerprint': None,
 'usage': {'completion_tokens': 85, 'prompt_tokens': 101, 'total_tokens': 186}}

In [None]:
# メッセージコンテンツの取得
print(response.choices[0].message.content)

これは猫が家電の上に横たわっている画像です。猫の隣にはNintendo Switchのジョイコンが置いてあります。背景にはテレビや他の機器も見えます。猫は白と黒の毛色をしており、リラックスしているように見えます。


# 画像の質問応答 - 画像データ

In [None]:
import base64

# 画像ファイルを読み込む関数
def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

# 画像ファイルの読み込み (画像ファイルをカレントフォルダに配置)
base64_image = encode_image("cat.jpg")

In [None]:
# メッセージリストの準備
messages = [
    {
        "role": "user",
        "content": [
            {"type": "text", "text": "このネコの気持ちを推測してセリフを言ってください"},
            {
                "type": "image_url",
                "image_url": {
                    "url": f"data:image/jpeg;base64,{base64_image}",
                    "detail": "low",
                }
            },
        ],
    }
]

In [None]:
# 画像の質問応答
response = client.chat.completions.create(
    model="gpt-4-vision-preview",
    messages=messages,
    max_tokens=300,
)
show_json(response)

{'id': 'chatcmpl-8L3NccrwkBZpZ8vYQCGVOBbyQFgsO',
 'choices': [{'finish_reason': None,
   'index': 0,
   'message': {'content': '「え？今ゲームやる？ごめん、今ちょっと場所取ってるんだけど。でもこの温かい機械の上は気持ちいいんだよね。もう少しここでのんびりさせてよ。」',
    'role': 'assistant',
    'function_call': None,
    'tool_calls': None},
   'finish_details': {'type': 'stop', 'stop': '<|fim_suffix|>'}}],
 'created': 1700028572,
 'model': 'gpt-4-1106-vision-preview',
 'object': 'chat.completion',
 'system_fingerprint': None,
 'usage': {'completion_tokens': 75, 'prompt_tokens': 112, 'total_tokens': 187}}

In [None]:
# メッセージコンテンツの取得
print(response.choices[0].message.content)

「え？今ゲームやる？ごめん、今ちょっと場所取ってるんだけど。でもこの温かい機械の上は気持ちいいんだよね。もう少しここでのんびりさせてよ。」
