# 圖像標註 Image Captioning

圖像標註（Image Captioning）是一種結合計算機視覺和自然語言處理的技術，用於自動生成描述給定圖像內容的文字標註。換句話說，給定一張圖像，圖像標註系統會自動生成一段自然語言描述來描述圖像中的內容或情境。

圖像標註的過程通常包括以下步驟：

1. **圖像特徵提取**：利用預訓練的深度學習模型，如卷積神經網絡（CNN），從輸入圖像中提取特徵表示。

2. **圖像特徵表示**：將提取的圖像特徵表示為向量形式，以便於後續的處理和結合。

3. **自然語言生成**：利用預訓練的自然語言處理模型，如循環神經網絡（RNN）、注意力機制等，根據圖像特徵生成自然語言描述。

4. **生成文字標註**：將自然語言生成的結果轉換為文字形式，作為圖像的標註。

圖像標註技術的應用範圍非常廣泛，包括但不限於：

1. **視覺輔助技術**：幫助視覺障礙者理解圖像內容，例如在網絡上瀏覽圖片時生成描述。

2. **自動圖像標註**：自動為大量圖像生成描述，用於圖像檢索、相冊管理等。

3. **新聞報導**：自動為新聞圖片生成標題或描述，用於新聞媒體等。

4. **社交媒體**：自動為用戶上傳的圖片生成描述或標題，用於社交媒體平台。

總之，圖像標註是一種將圖像和自然語言處理相結合的技術，用於自動生成描述給定圖像內容的文字標註，具有廣泛的應用價值。


- 如果您想在自己的電腦上執行此程式碼，您可以安裝以下內容:

```
    !pip install transformers
```

In [None]:
!gdown '1cNXqWXVj19WfG0K_tA-XmHtiHUqNXSkO' --output images.zip
!unzip images.zip

- 這是一些抑制警告訊息的程式碼。

In [None]:
from transformers.utils import logging
logging.set_verbosity_error()

import warnings
warnings.filterwarnings("ignore",
                        message="Using the model-agnostic default `max_length`")

- Load the Model and the Processor.

In [None]:
from transformers import BlipForConditionalGeneration
model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-base")
from transformers import AutoProcessor
processor = AutoProcessor.from_pretrained("Salesforce/blip-image-captioning-base")
from PIL import Image

image = Image.open("beach.png")
image

image.size

### 條件式影像標題Conditional Image Captioning

In [None]:
text = "a photograph of"
inputs = processor(image, text, return_tensors="pt")

inputs

out = model.generate(**inputs)
out

print(processor.decode(out[0], skip_special_tokens=True))


### 無條件式影像說明 Unconditional Image Captioning

In [None]:
inputs = processor(image, return_tensors="pt")
out = model.generate(**inputs)
out

print(processor.decode(out[0], skip_special_tokens=True))

## gradio

In [None]:
import gradio as gr
from transformers import pipeline

pipe = pipeline("image-to-text",
                model="Salesforce/blip-image-captioning-base")

def 圖像標註(image, text):
    inputs = processor(image, text, return_tensors="pt")
    out = model.generate(**inputs)
    return processor.decode(out[0], skip_special_tokens=True)


iface = gr.Interface(圖像標註,
                     inputs=["image", "text"],
                     outputs="text")

iface.launch(share=True)



def 圖像標註2(image):
    inputs = processor(image, return_tensors="pt")
    out = model.generate(**inputs)
    return processor.decode(out[0], skip_special_tokens=True)

iface = gr.Interface(圖像標註2,
                     inputs=["image"],
                     outputs="text")

iface.launch(share=True)

In [None]:
iface.close()