In [1]:
import torch
import clip
import cv2
import numpy as np
import matplotlib.pyplot as plt
from PIL import Image
import os
from urllib.request import urlretrieve
import warnings

try:
    from models import load_clip, load_sam_automask_generator, get_device
except ImportError:
    print("错误: 无法从 'src/models.py' 导入。")
    print("请确保这个 Notebook 和 'src' 文件夹在同一个根目录下。")


TEST_IMAGE_PATH = "samclip_project/images/truck.jpg"

def download_test_image(target_path=TEST_IMAGE_PATH, url=TEST_IMAGE_URL):
    """
    如果测试图片不存在，则下载它。
    """
    if not os.path.exists(target_path):
        print(f"测试图片 '{target_path}' 未找到，开始下载...")
        try:
            urlretrieve(url, target_path)
            print(f"测试图片下载完成: {target_path}")
        except Exception as e:
            print(f"下载测试图片失败: {e}")
            return False
    else:
        print(f"测试图片 '{target_path}' 已存在。")
    return True

def load_image(image_path):
    """
    加载图片并转换为 RGB 格式。
    """
    if not os.path.exists(image_path):
        print(f"图片文件未找到: {image_path}")
        return None
    image = cv2.imread(image_path)
    if image is None:
        print(f"无法读取图片: {image_path}")
        return None
    image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)
    return image



错误: 无法从 'src/models.py' 导入。
请确保这个 Notebook 和 'src' 文件夹在同一个根目录下。
--- 步骤 1: 加载模型 ---


NameError: name 'load_clip' is not defined

In [None]:
def apply_mask_to_image(image, mask):
    """
    将二进制蒙版应用于图像，裁剪出蒙版区域。
    返回一个 PIL Image，以便 CLIP 预处理器使用。
    """
    if mask.ndim == 3:
        mask = mask.squeeze()
    masked_image = np.zeros((*image.shape[:2], 4), dtype=np.uint8)
    masked_image[..., :3] = image
    masked_image[mask, 3] = 255
    return Image.fromarray(masked_image, 'RGBA')

def show_anns(image, anns, title=""):
    """
    在图像上显示所有 SAM 蒙版。
    """
    if not anns:
        print("没有找到蒙版。")
        return
    sorted_anns = sorted(anns, key=(lambda x: x['predicted_iou']), reverse=True)
    plt.figure(figsize=(10, 10))
    plt.imshow(image)
    plt.title(title, fontsize=16)
    ax = plt.gca()
    ax.set_autoscale_on(False)
    img = np.ones((sorted_anns[0]['segmentation'].shape[0], sorted_anns[0]['segmentation'].shape[1], 4))
    img[:,:,3] = 0
    for ann in sorted_anns:
        m = ann['segmentation']
        color_mask = np.concatenate([np.random.random(3), [0.35]])
        img[m] = color_mask
    ax.imshow(img)
    plt.axis('off')
    plt.show()

def show_best_mask(image, mask, score, text_prompt):
    """
    显示原始图像和得分最高的蒙版。
    """
    plt.figure(figsize=(12, 6))
    plt.subplot(1, 2, 1)
    plt.imshow(image)
    plt.title("原始图像", fontsize=14)
    plt.axis("off")
    plt.subplot(1, 2, 2)
    result_image = np.zeros_like(image)
    result_image[mask] = image[mask]
    plt.imshow(result_image)
    plt.title(f"结果: \"{text_prompt}\"\nCLIP Score: {score:.4f}", fontsize=14)
    plt.axis("off")
    plt.tight_layout()
    plt.show()

# %% [markdown]
# ## 3. 步骤 1: 加载模型
#
# 加载 SAM 和 CLIP。这可能需要一些时间，特别是 SAM checkpoint（约 2.4GB）需要下载时。

# %%
print("--- 步骤 1: 加载模型 ---")
clip_model, clip_preprocess, clip_device = load_clip()
mask_generator, sam_device = load_sam_automask_generator()

if not all([clip_model, mask_generator]):
    print("模型加载失败，请检查 'src/models.py' 的设置和 checkpoint 路径。")
else:
    print("--- 模型加载完毕 ---")

# %% [markdown]
# ## 4. 步骤 2: 加载图像
#
# 下载（如果需要）并加载我们的测试图像。

# %%
print("--- 步骤 2: 加载图像 ---")
download_test_image(TEST_IMAGE_PATH, TEST_IMAGE_URL)
image_rgb = load_image(TEST_IMAGE_PATH)

if image_rgb is not None:
    print(f"图像 '{TEST_IMAGE_PATH}' 加载成功，形状: {image_rgb.shape}")
    plt.figure(figsize=(7, 7))
    plt.imshow(image_rgb)
    plt.title("原始测试图像")
    plt.axis("off")
    plt.show()
else:
    print(f"无法加载图像: {TEST_IMAGE_PATH}，终止流程。")

# %% [markdown]
# ## 5. 步骤 3: SAM 生成所有蒙版
#
# 运行 `SamAutomaticMaskGenerator`。这会找到图像中所有可能的“事物”并为它们生成蒙版。
#
# （这一步可能需要几秒钟到一分钟，取决于你的设备）

# %%
print("--- 步骤 3: SAM 正在生成所有蒙版... ---")
# SAM generator 需要 BGR 格式的图像
image_bgr = cv2.cvtColor(image_rgb, cv2.COLOR_RGB2BGR)
sam_masks = mask_generator.generate(image_bgr)

if not sam_masks:
    print("SAM 未能生成任何蒙版。")
else:
    print(f"SAM 生成了 {len(sam_masks)} 个蒙版。")

# %% [markdown]
# ### (可选) 可视化 SAM 的所有输出
#
# 让我们看看 SAM 到底找到了多少东西。

# %%
# 可选：显示 SAM 生成的所有蒙版
print("正在显示所有 SAM 蒙版...")
show_anns(image_rgb, sam_masks, title=f"SAM 生成的 {len(sam_masks)} 个蒙版")

# %% [markdown]
# ## 6. 步骤 4: 定义语言提示
#
# 这是我们项目的核心。你想要分割什么？

# %%
# 试试 "a blue truck", "a wheel", "the driver's window"
text_prompt = "a blue truck"

print(f"--- 步骤 4: CLIP 正在处理文本提示... ---")
text = clip.tokenize([text_prompt]).to(clip_device)

with torch.no_grad():
    text_features = clip_model.encode_text(text)
    text_features /= text_features.norm(dim=-1, keepdim=True)

print(f"文本提示: \"{text_prompt}\"")

# %% [markdown]
# ## 7. 步骤 5 & 6: CLIP 评分
#
# 我们将循环遍历 SAM 生成的 *每一个* 蒙版：
# 1.  用蒙版裁剪（Crop）原始图像。
# 2.  将裁剪后的图像送入 CLIP 进行预处理。
# 3.  将所有处理后的图像打包（Batch）。
# 4.  计算文本特征和所有图像特征之间的相似度分数。

# %%
print(f"--- 步骤 5: CLIP 正在处理所有 {len(sam_masks)} 个蒙版图像... ---")

processed_images = []

for ann in sam_masks:
    mask = ann['segmentation'] # (H, W) boolean 数组
    cropped_pil_image = apply_mask_to_image(image_rgb, mask)
    processed_images.append(clip_preprocess(cropped_pil_image))

# 创建一个 batch
image_batch = torch.stack(processed_images).to(clip_device)
print(f"创建了 {len(image_batch)} 张裁剪图像的 Batch。")

print("\n--- 步骤 6: CLIP 正在计算相似度分数... ---")
with torch.no_grad():
    # 编码所有裁剪后的图像
    image_features = clip_model.encode_image(image_batch)
    image_features /= image_features.norm(dim=-1, keepdim=True)
    
    # 计算文本特征和所有图像特征之间的余弦相似度
    similarity = (100.0 * text_features @ image_features.T).softmax(dim=-1)
    
# (1, N) -> (N,)
scores = similarity.squeeze()
print("分数计算完毕。")

# %% [markdown]
# ## 8. 步骤 7 & 8: 查找并显示最佳结果
#
# 找到得分最高的蒙版并将其显示出来。

# %%
print("--- 步骤 7: 查找最佳匹配... ---")
best_score, best_index = torch.max(scores, 0)
best_mask_ann = sam_masks[best_index.item()]
best_mask = best_mask_ann['segmentation'] # (H, W) boolean 数组

print(f"找到最佳蒙版，索引: {best_index.item()}, 分数: {best_score.item():.4f}")

print("\n--- 步骤 8: 显示结果 ---")
show_best_mask(image_rgb, best_mask, best_score.item(), text_prompt)

