# Vision

- GPT-4o with image inpus

- GPT-4o와 GPT-4 Turbo 모두 비전 기능을 갖추고 있습니다. 즉, 모델이 이미지를 촬영하고 그에 대한 질문에 답할 수 있습니다

In [1]:
import os
import openai
import sys
sys.path.append('./')

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file

openai.api_key  = os.environ['OPENAI_API_KEY']

이미지는 두 가지 주요 방법, 즉 이미지에 대한 링크를 전달하거나 요청에 base64로 인코딩된 이미지를 직접 전달하는 방법으로 모델에서 사용할 수 있습니다. 

In [2]:
from openai import OpenAI

client = OpenAI()

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg" width=300px />

In [3]:
url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"

response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {"type": "text", "text": "이 이미지의 내용을 설명해줘. 한국어로 설명해줘."},
        {
          "type": "image_url",
          "image_url": {
            "url": url,
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

response.to_dict()

{'id': 'chatcmpl-9XLCoedtOImNla0C9ICceLwXAbXH3',
 'choices': [{'finish_reason': 'stop',
   'index': 0,
   'logprobs': None,
   'message': {'content': '이 이미지는 파란 하늘 아래 넓은 풀밭과 나무로 된 길이 있는 모습을 담고 있습니다. 길 양옆으로는 푸른 잔디와 식물들이 무성하게 자라 있으며, 저 멀리에는 나무들이 자리잡고 있습니다. 하늘은 맑고 밝은 하늘색으로, 여기저기 흰 구름이 떠 있습니다. 전반적으로 평화롭고 자연 친화적인 분위기가 느껴지는 풍경입니다.',
    'role': 'assistant'}}],
 'created': 1717733366,
 'model': 'gpt-4o-2024-05-13',
 'object': 'chat.completion',
 'system_fingerprint': 'fp_aa87380ac5',
 'usage': {'completion_tokens': 107,
  'prompt_tokens': 1127,
  'total_tokens': 1234}}

In [4]:
print(response.choices[0].message.content)

이 이미지는 파란 하늘 아래 넓은 풀밭과 나무로 된 길이 있는 모습을 담고 있습니다. 길 양옆으로는 푸른 잔디와 식물들이 무성하게 자라 있으며, 저 멀리에는 나무들이 자리잡고 있습니다. 하늘은 맑고 밝은 하늘색으로, 여기저기 흰 구름이 떠 있습니다. 전반적으로 평화롭고 자연 친화적인 분위기가 느껴지는 풍경입니다.


### Base 64로 인코딩된 이미지 업로드
로컬에 이미지 또는 이미지 세트가 있는 경우 이를 Base 64 인코딩 형식으로 모델에 전달할 수 있습니다. 다음은 이에 대한 실제 예입니다.

In [30]:
import base64
import requests

# Function to encode the image
def encode_image(image_path):
  with open(image_path, "rb") as image_file:
    return base64.b64encode(image_file.read()).decode('utf-8')

# Path to your image
image_path = "data/냉장고내용물.jpg"

# Getting the base64 string
base64_image = encode_image(image_path)

headers = {
  "Content-Type": "application/json",
  "Authorization": f"Bearer {openai.api_key }"
}

payload = {
  "model": "gpt-4o",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "이 이미지의 내용을 한국어로 설명해줘."
        },
        {
          "type": "image_url",
          "image_url": {
            "url": f"data:image/jpeg;base64,{base64_image}"
          }
        }
      ]
    }
  ],
  "max_tokens": 300
}

response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)

print(response.json())

{'id': 'chatcmpl-9XLOiPfMWspbFxjhfRZK0ucYRJITH', 'object': 'chat.completion', 'created': 1717734104, 'model': 'gpt-4o-2024-05-13', 'choices': [{'index': 0, 'message': {'role': 'assistant', 'content': '이 이미지는 다양한 식품과 음료로 가득 찬 냉장고의 내부를 보여줍니다. 냉장고 선반에는 각종 채소와 과일, 생수병, 유제품, 소스와 같은 여러 가지 음식이 정리되어 있습니다. 좌측과 우측 문 선반에는 우유, 주스, 그리고 각종 작은 병들이 배치되어 있고, 선반 위에는 신선한 채소와 과일들이 놓여 있습니다. 중간 선반에는 플라스틱 물병과 여러 가지 야채들이 눈에 띄며, 하단의 서랍에는 당근, 셀러리, 레몬 등 다양한 채소와 과일이 보관되어 있습니다. 전체적으로 냉장고는 정리정돈이 잘 되어 있으며 알록달록한 식품들이 매우 신선해 보입니다.'}, 'logprobs': None, 'finish_reason': 'stop'}], 'usage': {'prompt_tokens': 443, 'completion_tokens': 186, 'total_tokens': 629}, 'system_fingerprint': 'fp_aa87380ac5'}


In [31]:
res = response.json()
res['choices'][0]['message']['content']

'이 이미지는 다양한 식품과 음료로 가득 찬 냉장고의 내부를 보여줍니다. 냉장고 선반에는 각종 채소와 과일, 생수병, 유제품, 소스와 같은 여러 가지 음식이 정리되어 있습니다. 좌측과 우측 문 선반에는 우유, 주스, 그리고 각종 작은 병들이 배치되어 있고, 선반 위에는 신선한 채소와 과일들이 놓여 있습니다. 중간 선반에는 플라스틱 물병과 여러 가지 야채들이 눈에 띄며, 하단의 서랍에는 당근, 셀러리, 레몬 등 다양한 채소와 과일이 보관되어 있습니다. 전체적으로 냉장고는 정리정돈이 잘 되어 있으며 알록달록한 식품들이 매우 신선해 보입니다.'

### 다중 이미지 입력
Chat Completions API는 base64로 인코딩된 형식이나 이미지 URL로 여러 이미지 입력을 가져와 처리할 수 있습니다. 모델은 각 이미지를 처리하고 모든 이미지의 정보를 사용하여 질문에 답합니다.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg" width=300px />

<img src="https://img.freepik.com/premium-photo/a-wooden-walkway-leads-to-a-green-field-with-a-mountain-in-the-background_800563-10576.jpg" width=300px />

In [41]:
from openai import OpenAI

client = OpenAI()
response = client.chat.completions.create(
  model="gpt-4o",
  messages=[
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "이 이미지에는 무엇이 들어있나요? 그들 사이에 어떤 차이가 있나요?",
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
          },
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://img.freepik.com/premium-photo/a-wooden-walkway-leads-to-a-green-field-with-a-mountain-in-the-background_800563-10576.jpg",
          },
        },
      ],
    }
  ],
  max_tokens=300,
)

In [42]:
response

ChatCompletion(id='chatcmpl-9XLbIfU8isbxzCijlyZcAj1bgFCIS', choices=[Choice(finish_reason='length', index=0, logprobs=None, message=ChatCompletionMessage(content='이 두 이미지에는 다음과 같은 내용이 포함되어 있습니다:\n\n첫 번째 이미지:\n- 푸른 하늘과 구름이 있는 맑은 날씨\n- 녹색의 풀밭\n- 나무로 된 보도\n- 멀리 보이는 나무들\n\n두 번째 이미지:\n- 해질녘 또는 해돋이 시간의 하늘(어두운 하늘과 햇빛이 섞인 모습)\n- 녹색의 들판\n- 나무로 된 보도\n- 멀리 보이는 산들\n\n이미지 간 차이점:\n1. **시간 및 날씨**: 첫 번째 이미지는 맑은 날씨의 청명한 하늘을 보여주는 반면, 두 번째 이미지는 해질녘이나 해돋이 시간대의 하늘을 보여줍니다.\n2. **배경 요소**: 첫 번째 이미지는 멀리 있는 나무들이 배경을 이루지만, 두 번째 이미지는 멀리 산들이 보입니다.\n3. **보도의 상태**: 첫 번째 이미지의 나무 보도는 전체적으로 상태가 양호하지만, 두 번째 이미지의 나무 보도는 여기저기 빈틈이 보입니다.\n4. **조명 분위기**: 첫 번째 이미지는 밝고 명랑한 분위기를 강조하지만, 두 번째 이미지는 조용하고 평온한 느낌을 줍니다', role='assistant', function_call=None, tool_calls=None))], created=1717734884, model='gpt-4o-2024-05-13', object='chat.completion', system_fingerprint='fp_aa87380ac5', usage=CompletionUsage(completion_tokens=300, prompt_tokens=1556, total_tokens=1856))

In [44]:
print(response.choices[0].message.content)

이 두 이미지에는 다음과 같은 내용이 포함되어 있습니다:

첫 번째 이미지:
- 푸른 하늘과 구름이 있는 맑은 날씨
- 녹색의 풀밭
- 나무로 된 보도
- 멀리 보이는 나무들

두 번째 이미지:
- 해질녘 또는 해돋이 시간의 하늘(어두운 하늘과 햇빛이 섞인 모습)
- 녹색의 들판
- 나무로 된 보도
- 멀리 보이는 산들

이미지 간 차이점:
1. **시간 및 날씨**: 첫 번째 이미지는 맑은 날씨의 청명한 하늘을 보여주는 반면, 두 번째 이미지는 해질녘이나 해돋이 시간대의 하늘을 보여줍니다.
2. **배경 요소**: 첫 번째 이미지는 멀리 있는 나무들이 배경을 이루지만, 두 번째 이미지는 멀리 산들이 보입니다.
3. **보도의 상태**: 첫 번째 이미지의 나무 보도는 전체적으로 상태가 양호하지만, 두 번째 이미지의 나무 보도는 여기저기 빈틈이 보입니다.
4. **조명 분위기**: 첫 번째 이미지는 밝고 명랑한 분위기를 강조하지만, 두 번째 이미지는 조용하고 평온한 느낌을 줍니다
