# DALL·E APIの使用方法

このノートブックでは、OpenAIのDALL·E画像APIエンドポイントの使用方法を説明します。

3つのAPIエンドポイントがあります：
- **Generations:** 入力されたキャプションに基づいて画像を生成する
- **Edits:** 既存の画像を編集または拡張する
- **Variations:** 入力画像のバリエーションを生成する

## セットアップ

- 必要なパッケージをインポートする
- OpenAI APIキーをインポートする：ターミナルで \``export OPENAI_API_KEY="your API key"`\` を実行することで行えます。
- 画像を保存するディレクトリを設定する

In [15]:
# imports
from openai import OpenAI  # OpenAI Python library to make API calls
import requests  # used to download images
import os  # used to access filepaths
from PIL import Image  # used to print and edit images

# initialize OpenAI client
client = OpenAI(api_key=os.environ.get("OPENAI_API_KEY", "<your OpenAI API key if not set as env var>"))


In [16]:
# set a directory to save DALL·E images to
image_dir_name = "images"
image_dir = os.path.join(os.curdir, image_dir_name)

# create the directory if it doesn't yet exist
if not os.path.isdir(image_dir):
    os.mkdir(image_dir)

# print the directory to save to
print(f"{image_dir=}")


image_dir='./images'


## 生成

生成APIエンドポイントは、テキストプロンプトに基づいて画像を作成します。[APIリファレンス](https://platform.openai.com/docs/api-reference/images/create)

**必須入力:**
- `prompt` (str): 希望する画像の説明文。最大長はdall-e-2で1000文字、dall-e-3で4000文字です。

**オプション入力:**
- `model` (str): 画像生成に使用するモデル。デフォルトはdall-e-2
- `n` (int): 生成する画像の数。1から10の間である必要があります。デフォルトは1。
- `quality` (str): 生成される画像の品質。hdはより細かいディテールと画像全体でのより高い一貫性を持つ画像を作成します。このパラメータはdall-e-3でのみサポートされています。
- `response_format` (str): 生成された画像が返される形式。"url"または"b64_json"のいずれかである必要があります。デフォルトは"url"。
- `size` (str): 生成される画像のサイズ。dall-e-2では256x256、512x512、または1024x1024のいずれかである必要があります。dall-e-3モデルでは1024x1024、1792x1024、または1024x1792のいずれかである必要があります。デフォルトは"1024x1024"。
- `style`(str | null): 生成される画像のスタイル。vividまたはnaturalのいずれかである必要があります。vividはモデルがハイパーリアルで劇的な画像の生成に傾くようにします。naturalはモデルがより自然で、ハイパーリアルでない見た目の画像を生成するようにします。このパラメータはdall-e-3でのみサポートされています。
- `user` (str): エンドユーザーを表す一意の識別子で、OpenAIが悪用を監視・検出するのに役立ちます。[詳細はこちら。](https://beta.openai.com/docs/usage-policies/end-user-ids)

In [17]:
# create an image

# set the prompt
prompt = "A cyberpunk monkey hacker dreaming of a beautiful bunch of bananas, digital art"

# call the OpenAI API
generation_response = client.images.generate(
    model = "dall-e-3",
    prompt=prompt,
    n=1,
    size="1024x1024",
    response_format="url",
)

# print response
print(generation_response)

ImagesResponse(created=1701994117, data=[Image(b64_json=None, revised_prompt=None, url='https://oaidalleapiprodscus.blob.core.windows.net/private/org-9HXYFy8ux4r6aboFyec2OLRf/user-8OA8IvMYkfdAcUZXgzAXHS7d/img-ced13hkOk3lXkccQgW1fAQjm.png?st=2023-12-07T23%3A08%3A37Z&se=2023-12-08T01%3A08%3A37Z&sp=r&sv=2021-08-06&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2023-12-07T16%3A41%3A48Z&ske=2023-12-08T16%3A41%3A48Z&sks=b&skv=2021-08-06&sig=tcD0iyU0ABOvWAKsY89gp5hLVIYkoSXQnrcmH%2Brkric%3D')])


In [18]:
# save the image
generated_image_name = "generated_image.png"  # any name you like; the filetype should be .png
generated_image_filepath = os.path.join(image_dir, generated_image_name)
generated_image_url = generation_response.data[0].url  # extract image URL from response
generated_image = requests.get(generated_image_url).content  # download the image

with open(generated_image_filepath, "wb") as image_file:
    image_file.write(generated_image)  # write the image to the file

In [None]:
# print the image
print(generated_image_filepath)
display(Image.open(generated_image_filepath))


## バリエーション

バリエーションエンドポイントは、入力画像に類似した新しい画像（バリエーション）を生成します。[API Reference](https://platform.openai.com/docs/api-reference/images/createVariation)

ここでは、上記で生成した画像のバリエーションを生成します。

**必須入力項目：**
- `image` (str): バリエーションの基礎として使用する画像。有効なPNGファイルで、4MB未満、正方形である必要があります。

**オプション入力項目：**
- `model` (str): 画像バリエーションに使用するモデル。現在はdall-e-2のみサポートされています。
- `n` (int): 生成する画像の数。1から10の間である必要があります。デフォルトは1です。
- `size` (str): 生成される画像のサイズ。"256x256"、"512x512"、または"1024x1024"のいずれかである必要があります。小さい画像の方が高速です。デフォルトは"1024x1024"です。
- `response_format` (str): 生成された画像が返される形式。"url"または"b64_json"のいずれかである必要があります。デフォルトは"url"です。
- `user` (str): エンドユーザーを表す一意の識別子で、OpenAIが悪用を監視・検出するのに役立ちます。[詳細はこちら。](https://beta.openai.com/docs/usage-policies/end-user-ids)

In [19]:
# create variations

# call the OpenAI API, using `create_variation` rather than `create`
variation_response = client.images.create_variation(
    image=generated_image,  # generated_image is the image generated above
    n=2,
    size="1024x1024",
    response_format="url",
)

# print response
print(variation_response)

ImagesResponse(created=1701994139, data=[Image(b64_json=None, revised_prompt=None, url='https://oaidalleapiprodscus.blob.core.windows.net/private/org-9HXYFy8ux4r6aboFyec2OLRf/user-8OA8IvMYkfdAcUZXgzAXHS7d/img-noNRGgwaaotRGIe6Y2GVeSpr.png?st=2023-12-07T23%3A08%3A59Z&se=2023-12-08T01%3A08%3A59Z&sp=r&sv=2021-08-06&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2023-12-07T16%3A39%3A11Z&ske=2023-12-08T16%3A39%3A11Z&sks=b&skv=2021-08-06&sig=ER5RUglhtIk9LWJXw1DsolorT4bnEmFostfnUjY21ns%3D'), Image(b64_json=None, revised_prompt=None, url='https://oaidalleapiprodscus.blob.core.windows.net/private/org-9HXYFy8ux4r6aboFyec2OLRf/user-8OA8IvMYkfdAcUZXgzAXHS7d/img-oz952tL11FFhf9iXXJVIRUZX.png?st=2023-12-07T23%3A08%3A59Z&se=2023-12-08T01%3A08%3A59Z&sp=r&sv=2021-08-06&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2023-12-07T16%3A39%3A11Z&ske=2023-12-08T16

In [20]:
# save the images
variation_urls = [datum.url for datum in variation_response.data]  # extract URLs
variation_images = [requests.get(url).content for url in variation_urls]  # download images
variation_image_names = [f"variation_image_{i}.png" for i in range(len(variation_images))]  # create names
variation_image_filepaths = [os.path.join(image_dir, name) for name in variation_image_names]  # create filepaths
for image, filepath in zip(variation_images, variation_image_filepaths):  # loop through the variations
    with open(filepath, "wb") as image_file:  # open the file
        image_file.write(image)  # write the image to the file

In [None]:
# print the original image
print(generated_image_filepath)
display(Image.open(generated_image_filepath))

# print the new variations
for variation_image_filepaths in variation_image_filepaths:
    print(variation_image_filepaths)
    display(Image.open(variation_image_filepaths))


## 編集

編集エンドポイントはDALL·Eを使用して、既存の画像の指定された部分を生成します。3つの入力が必要です：編集する画像、再生成する部分を指定するマスク、および希望する画像を説明するプロンプトです。[API Reference](https://platform.openai.com/docs/api-reference/images/createEdit)

**必須入力：**
- `image` (str): 編集する画像。有効なPNGファイルで、4MB未満、正方形である必要があります。マスクが提供されない場合、画像は透明度を持つ必要があり、それがマスクとして使用されます。
- `prompt` (str): 希望する画像の文字による説明。最大長は1000文字です。

**オプション入力：**
- `mask` (file): 完全に透明な領域（例：アルファ値がゼロの箇所）が画像を編集すべき場所を示す追加画像。有効なPNGファイルで、4MB未満、かつ画像と同じ寸法である必要があります。
- `model` (str): 画像編集に使用するモデル。現在はdall-e-2のみサポートされています。
- `n` (int): 生成する画像の数。1から10の間である必要があります。デフォルトは1です。
- `size` (str): 生成される画像のサイズ。"256x256"、"512x512"、または"1024x1024"のいずれかである必要があります。小さい画像の方が高速です。デフォルトは"1024x1024"です。
- `response_format` (str): 生成された画像が返される形式。"url"または"b64_json"のいずれかである必要があります。デフォルトは"url"です。
- `user` (str): エンドユーザーを表すユニークな識別子で、OpenAIが悪用を監視・検出するのに役立ちます。[詳細はこちら。](https://beta.openai.com/docs/usage-policies/end-user-ids)

### 編集エリアの設定

編集には、画像のどの部分を再生成するかを指定する「マスク」が必要です。アルファ値が0（透明）のピクセルが再生成されます。以下のコードは、下半分が透明な1024x1024のマスクを作成します。

In [21]:
# create a mask
width = 1024
height = 1024
mask = Image.new("RGBA", (width, height), (0, 0, 0, 1))  # create an opaque image mask

# set the bottom half to be transparent
for x in range(width):
    for y in range(height // 2, height):  # only loop over the bottom half of the mask
        # set alpha (A) to zero to turn pixel transparent
        alpha = 0
        mask.putpixel((x, y), (0, 0, 0, alpha))

# save the mask
mask_name = "bottom_half_mask.png"
mask_filepath = os.path.join(image_dir, mask_name)
mask.save(mask_filepath)

### 編集の実行

次に、画像、キャプション、マスクをAPIに提供して、画像の編集例を5つ取得します。

In [22]:
# edit an image

# call the OpenAI API
edit_response = client.images.edit(
    image=open(generated_image_filepath, "rb"),  # from the generation section
    mask=open(mask_filepath, "rb"),  # from right above
    prompt=prompt,  # from the generation section
    n=1,
    size="1024x1024",
    response_format="url",
)

# print response
print(edit_response)

ImagesResponse(created=1701994167, data=[Image(b64_json=None, revised_prompt=None, url='https://oaidalleapiprodscus.blob.core.windows.net/private/org-9HXYFy8ux4r6aboFyec2OLRf/user-8OA8IvMYkfdAcUZXgzAXHS7d/img-9UOVGC7wB8MS2Q7Rwgj0fFBq.png?st=2023-12-07T23%3A09%3A27Z&se=2023-12-08T01%3A09%3A27Z&sp=r&sv=2021-08-06&sr=b&rscd=inline&rsct=image/png&skoid=6aaadede-4fb3-4698-a8f6-684d7786b067&sktid=a48cca56-e6da-484e-a814-9c849652bcb3&skt=2023-12-07T16%3A40%3A37Z&ske=2023-12-08T16%3A40%3A37Z&sks=b&skv=2021-08-06&sig=MsRMZ1rN434bVdWr%2B9kIoqu9CIrvZypZBfkQPTOhCl4%3D')])


In [23]:
# save the image
edited_image_name = "edited_image.png"  # any name you like; the filetype should be .png
edited_image_filepath = os.path.join(image_dir, edited_image_name)
edited_image_url = edit_response.data[0].url  # extract image URL from response
edited_image = requests.get(edited_image_url).content  # download the image

with open(edited_image_filepath, "wb") as image_file:
    image_file.write(edited_image)  # write the image to the file

In [None]:
# print the original image
print(generated_image_filepath)
display(Image.open(generated_image_filepath))

# print edited image
print(edited_image_filepath)
display(Image.open(edited_image_filepath))