# Vision 기능
이미지를 생성하거나 편집하려면 Images API 또는 Responses API를 사용할 수 있습니다.

| **API**                  | **지원되는 사용 사례**                                  |
| ------------------------ | ----------------------------------------------- |
| **Responses API**        | 이미지를 분석하고 입력으로 사용하거나, 이미지를 출력으로 생성할 수 있습니다.     |
| **Images API**           | 이미지를 출력으로 생성하며, 선택적으로 다른 이미지를 입력으로 사용할 수도 있습니다. |

## 이미지 분석 (Analyze images)

비전(Vision) 은 모델이 이미지를 “보고” 이해하는 능력을 의미합니다.  
이미지 안에 텍스트가 포함되어 있다면, 모델은 그 텍스트도 인식할 수 있습니다.  
또한 모델은 객체, 형태, 색상, 질감(texture) 등 대부분의 시각적 요소를 이해할 수 있지만, 일부 한계는 존재합니다.

### 이미지의 내용 설명
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg" width=300px /> 

**이미지 입력의 세부 수준 지정 (Specify image input detail level)**

`detail` 매개변수는 모델이 이미지를 **얼마나 세밀하게 분석하고 이해할지**를 결정합니다.
이 매개변수에는 다음 세 가지 옵션이 있습니다:

* `"low"` — 낮은 세부 수준으로 처리 (빠르지만 세밀한 인식은 제한적)
* `"high"` — 높은 세부 수준으로 처리 (더 정확하지만 처리 비용이 높음)
* `"auto"` — 모델이 상황에 따라 적절한 수준을 자동으로 선택

`detail` 매개변수를 생략하면,
모델은 기본적으로 `"auto"` 모드를 사용합니다.


### Base 64로 인코딩된 이미지 업로드
로컬에 이미지 또는 이미지 세트가 있는 경우 이를 Base 64 인코딩 형식으로 모델에 전달할 수 있습니다. 다음은 이에 대한 실제 예입니다.

In [None]:
# Function to encode the image
def encode_image(image_path):
# Path to your image
# Getting the base64 string

### 다중 이미지 입력
Chat Completions API는 base64로 인코딩된 형식이나 이미지 URL로 여러 이미지 입력을 가져와 처리할 수 있습니다. 모델은 각 이미지를 처리하고 모든 이미지의 정보를 사용하여 질문에 답합니다.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg" width=300px />

<img src="https://img.freepik.com/premium-photo/a-wooden-walkway-leads-to-a-green-field-with-a-mountain-in-the-background_800563-10576.jpg" width=300px />

### 한계점 (Limitations)

비전(Vision) 기능을 가진 모델은 매우 강력하고 다양한 상황에서 활용할 수 있지만,
이러한 모델에도 **명확한 한계**가 있습니다.
다음은 알려진 주요 제한 사항들입니다:

---

* **의료 영상 (Medical images)**

  * CT 스캔 등 **전문 의료 영상 해석**에는 적합하지 않으며,
    의료 조언이나 진단 목적으로 사용해서는 안 됩니다.

* **비영어권 문자 (Non-English text)**

  * 일본어나 한국어처럼 **비라틴 문자**가 포함된 이미지에서는
    인식 및 이해 성능이 최적이 아닐 수 있습니다.

* **작은 글씨 (Small text)**

  * 이미지 안의 글씨는 확대하면 인식이 개선되지만,
    중요한 세부 정보가 잘리지 않도록 주의해야 합니다.

* **회전된 이미지 (Rotation)**

  * 회전되거나 거꾸로 된 텍스트나 이미지를
    잘못 해석할 가능성이 있습니다.

* **시각적 요소(Visual elements)**

  * 색상이나 선의 스타일(예: 실선, 점선, 파선 등)이
    달라지는 **그래프나 도표의 구분**을 정확히 하지 못할 수 있습니다.

* **공간 추론 (Spatial reasoning)**

  * 바둑판이나 체스처럼 **정확한 공간적 위치 파악이 필요한 작업**에는 약합니다.

* **정확도 (Accuracy)**

  * 특정 상황에서는 잘못된 설명이나 캡션을 생성할 수 있습니다.

* **이미지 형태 (Image shape)**

  * 파노라마(panoramic)나 어안(fisheye) 이미지처럼
    비정상적인 비율의 이미지를 처리하는 데 어려움이 있습니다.

* **메타데이터 및 크기 변경 (Metadata and resizing)**

  * 원본 파일 이름이나 메타데이터를 처리하지 않으며,
    분석 전에 이미지를 리사이즈하기 때문에 **원본 해상도 정보가 손실**될 수 있습니다.

* **개체 수 세기 (Counting)**

  * 이미지 내의 객체 수를 세는 작업은 **대략적인 추정치**만 제공합니다.

* **CAPTCHA**

  * **보안상의 이유**로 CAPTCHA 이미지는 시스템에서 차단되어
    분석 요청을 보낼 수 없습니다.
