<a href="https://colab.research.google.com/github/S-HATANO1970/otemae/blob/main/%E7%94%BB%E5%83%8F%E8%AA%8D%E8%AD%98.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# 必要なライブラリをインストール（Google Colabでは初回実行時に必要）
# !pip install transformers torch Pillow requests

# ライブラリをインポート
from transformers import CLIPProcessor, CLIPModel
from PIL import Image
import requests
from io import BytesIO
import torch

# 1. CLIPモデルとプロセッサの読み込み
model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")

# 2. 画像をURLから読み込む
image_url ="https://kyoto-edu.sakura.ne.jp/althusser/img/fox.jpg"  # ここに有効な画像URLを指定
try:
    response = requests.get(image_url)
    response.raise_for_status()  # URLが無効な場合にエラーを発生
    image = Image.open(BytesIO(response.content))
except requests.exceptions.RequestException as e:
    print(f"Error fetching image from URL: {e}")
    exit()
except Exception as e:
    print(f"Error processing image: {e}")
    exit()

# 3. キャプション候補を定義
candidate_captions = [
    "A shark stuffed animal",
    "A Fox stuffed animal",
    "A Triceratops stuffed animal",
    "A person reading a book",
    "A cup of coffee on a table"
]

# 4. 画像とキャプションを処理
inputs = processor(text=candidate_captions, images=image, return_tensors="pt", padding=True)

# 5. モデルで画像とキャプションのマッチングスコアを計算
with torch.no_grad():
    outputs = model(**inputs)
    logits_per_image = outputs.logits_per_image
    probs = logits_per_image.softmax(dim=1)

# 6. 結果を表示
print("キャプションと確率:")
for caption, prob in zip(candidate_captions, probs[0]):
    print(f"{caption}: {prob:.4f}")

# 7. 最も確率の高いキャプションを選択
best_caption_idx = probs.argmax().item()
best_caption = candidate_captions[best_caption_idx]
print(f"\n最も適切なキャプション: {best_caption} (確率: {probs[0][best_caption_idx]:.4f})")

# 8. 画像を表示（確認用、Google Colabでは表示可能）
image.show()