# 使用SAM2对图像进行分割标注
相比上一版,将SAM预训练模型更改为SAM2,SAM2相比较SAM1,将模型从SVM更改为Transformer,提高了泛化能力和微调效果.

**参考文献:**
- [SAM2 Paper](https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/)
- [SAM2 - GitHub](https://github.com/facebookresearch/segment-anything-2)
- [(Official)SAM2 Image Predictor Example notebook - GitHub](https://github.com/facebookresearch/segment-anything-2/blob/main/notebooks/image_predictor_example.ipynb)
- [(Official)Automatic Mask Generator Example notebook - GitHub](https://github.com/facebookresearch/segment-anything-2/blob/main/notebooks/automatic_mask_generator_example.ipynb)

## SVM2主要优势有:
- 提升了预训练模型的微调效果.(Paper - p11, zero-shot-image tasks)
- 效率提升(image fps, 6.2x faster)
- 更精确的图像掩码分割(在zero-shot, 1/5 click的情况下),比起SAM1识别出小物体和精细结构的能力提升(paper-p20,提升主要针对200像素以下,会自动填充间隙).
- 流式记忆,可以将一组图片视为同一个序列来处理,可能可以解决单张图片不能输入全部信息的情况.

## 预计下一步:
1. 参考其他开放数据集的图像和数据标注方式,设计一个自己标注数据的方法
2. 设计根据模型预测masks找出多边形顶点的方法
    - 可能使用opencv库或者别的小规模机器学习模型识别,因为masks中像素点可能不完全连续,需要测试后确定
    - 尝试是否可以让模型把每个缺陷部分都拆分成单独的masks组,之后再找顶点坐标,提升并发效率
    - 是否需要按面积/具体边数标记缺陷
3. 使用其他开放数据集微调模型,之后与原来的预训练模型效果比较,估测较好结果可能需要的数据量
4. 

## 预计使用的其他类型开放数据集
部分来源(有一组表面缺陷识别的开放数据集和paper): [GitHub - Surface Defect Detection: Dataset & Papers](https://github.com/Charmve/Surface-Defect-Detection)
1. 医学超声
2. 钢材缺陷 [Kaggle - Severstal: Steel Defect Detection](https://www.kaggle.com/c/severstal-steel-defect-detection/data)

## 参考建议
### 数据
1. 半监督学习方法：给定少量精标注数据以及较多的无标注数据，在精标注数据上训练模型，在无标注数据上预测标签，生成粗标注数据，之后结合精标注数据和粗标注数据，扩充训练样本量[参考](https://blog.csdn.net/qq_44015059/article/details/106448533)
2. 数据增强方法（文本数据，但可以参考）：利用现有数据，扩充训练数据集，从不同视角，参考论文：[A Group-Theoretic Framework for Data Augmentation](https://arxiv.org/abs/1907.10905), [Better Synthetic Data by Retrieving and Transforming Existing Datasets](https://arxiv.org/pdf/2404.14361), [When does data augmentation help generalization in NLP?](https://arxiv.org/pdf/2004.15012)

### 模型
1. 层次分类/聚类模型：流水线方法，构建标签的体系，如新闻分类中，首先构建一级分类器区分大类：如政治、体育、娱乐、游戏；之后在子分类中训练二级分类器，如体育分类下，有球类运动、水上运动、田径运动；根据需求进行更多级模型的构建，如球类运动分为，篮球、足球等。层次方法可以使用无监督模型进行初步的聚类分析（KNN等）。
2. 集成学习方法：boosting（迭代，专注区分错误样本）、bagging（多个模型投票，加权得到最终结论）、stacking（模型流水线，子模型模型输出特征拼接到原始特征，最终模型学习上述全部特征并给出最终结果，通过多级流水线特征方法构建分类器系统）[一文读懂集成学习](https://github.com/THUDataPI/TechnologyOverview/blob/master/%E4%B8%80%E6%96%87%E8%AF%BB%E6%87%82%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0/%E4%B8%80%E6%96%87%E8%AF%BB%E6%87%82%E9%9B%86%E6%88%90%E5%AD%A6%E4%B9%A0.md)。
3. 对比学习（contrastive learning）：比较并学习拉大正负样本之间的差异，来提高区别能力[A Simple Framework for Contrastive Learning of Visual Representations](https://arxiv.org/pdf/2002.05709)。
4. 元学习（meta learning）：学习一个元学习器，用来生成（训练/选择）模型[Fast Task-Aware Architecture Inference](https://arxiv.org/abs/1902.05781)。
 
### 训练
1. 使用[tensorboard](https://www.tensorflow.org/tensorboard)（pytorch也可用）或者[wandb.ai](https://wandb.ai/site/)进行深度学习参数和训练过程管理，便于对比不同参数下结果的提升情况。
2. 使用[accelerate](https://github.com/huggingface/accelerate)库进行训练加速。
3. 机器学习模型参数选择：[网格搜索](https://www.cnblogs.com/wj-1314/p/10422159.html), [随机搜索](https://www.jiqizhixin.com/graph/technologies/c8b3090d-c81e-4141-a4ac-a86e193b3071), [遗传算法](https://blog.csdn.net/carlyll/article/details/105900317), [贝叶斯优化](https://www.cnblogs.com/milliele/p/17782631.html)。

## 导入所需库及预训练模型部分

In [2]:
from numbers import Number

import torch
from sam2.build_sam import build_sam2
from sam2.sam2_image_predictor import SAM2ImagePredictor
from torch.utils.data import DataLoader
import numpy as np
import torch
import matplotlib.pyplot as plt
import cv2

# 选择运行设备
if torch.cuda.is_available():
    device = torch.device("cuda")
elif torch.backends.mps.is_available():
    device = torch.device("mps")
else:
    device = torch.device("cpu")
print(f"using device: {device}")

checkpoint = "./checkpoints/sam2_hiera_large.pt"
model_cfg = "sam2_hiera_l.yaml"
predictor = SAM2ImagePredictor(build_sam2(model_cfg, checkpoint))

using device: cuda


## 定义过程中的输出/标注函数部分

In [3]:
np.random.seed(3)

def show_mask(mask, ax, random_color=False, borders=True):
    if random_color:
        color = np.concatenate([np.random.random(3), np.array([0.6])], axis=0)
    else:
        color = np.array([30 / 255, 144 / 255, 255 / 255, 0.6])
    h, w = mask.shape[-2:]
    mask = mask.astype(np.uint8)
    mask_image = mask.reshape(h, w, 1) * color.reshape(1, 1, -1)
    if borders:
        import cv2
        contours, _ = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
        # Try to smooth contours
        contours = [cv2.approxPolyDP(contour, epsilon=0.01, closed=True) for contour in contours]
        mask_image = cv2.drawContours(mask_image, contours, -1, (1, 1, 1, 0.5), thickness=2)
    ax.imshow(mask_image)


def show_points(coords, labels, ax, marker_size=375):
    pos_points = coords[labels == 1]
    neg_points = coords[labels == 0]
    ax.scatter(pos_points[:, 0], pos_points[:, 1], color='green', marker='*', s=marker_size, edgecolor='white',
               linewidth=1.25)
    ax.scatter(neg_points[:, 0], neg_points[:, 1], color='red', marker='*', s=marker_size, edgecolor='white',
               linewidth=1.25)


def show_box(box, ax):
    x0, y0 = box[0], box[1]
    w, h = box[2] - box[0], box[3] - box[1]
    ax.add_patch(plt.Rectangle((x0, y0), w, h, edgecolor='green', facecolor=(0, 0, 0, 0), lw=2))


def show_masks(image, masks, scores, point_coords=None, box_coords=None, input_labels=None, borders=True):
    for i, (mask, score) in enumerate(zip(masks, scores)):
        plt.figure(figsize=(10, 10))
        plt.imshow(image)
        show_mask(mask, plt.gca(), borders=borders)
        if point_coords is not None:
            assert input_labels is not None
            show_points(point_coords, input_labels, plt.gca())
        if box_coords is not None:
            # boxes
            show_box(box_coords, plt.gca())
        if len(scores) > 1:
            plt.title(f"Mask {i + 1}, Score: {score:.3f}", fontsize=18)
        plt.axis('off')
        plt.show()


def find_polygon_boundary(matrix: np.ndarray):
    """
    从二维布尔矩阵(如图形masks)中找到多边形顶点
    Args:
        matrix (np.ndarray): 单个2D numpy数组,True代表包含于多边形中.
    Returns:
        以元组形式存储单个多边形顶点的坐标,将所有顶点以列表形式返回
    """
    # 设定矩阵数据类型
    matrix = np.asarray(matrix, dtype=bool)
    # 创建空矩阵
    boundary = np.zeros_like(matrix, dtype=bool)

    pass

    boundary_list = []

    return boundary_list
        

NameError: name 'Callable' is not defined

## 训练部分

In [None]:
# 定义数据加载类
class ChipDefectDatasetLoader(torch.utils.data.Dataset):
    """
    数据加载器类
    """
    def __init__(self, image_paths: list[str], mask_paths: list[str]) -> None:  # transform是转换函数
        self.image_paths = image_paths
        self.mask_paths = mask_paths

    def __len__(self) -> Number:
        return len(self.image_paths)

    def __getitem__(self, idx: int):
        image = cv2.imread(self.image_paths[idx])
        mask = cv2.imread(self.mask_paths[idx])
        if self.transform:
            image = self.transform(image)
            mask = self.transform(mask)

        return image, mask
# 加载训练数据
image_paths = ["./dataset/images"]
mask_paths = ["./dataset/masks"]
train_dataset = ChipDefectDatasetLoader(image_paths, mask_paths)
train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)

In [None]:
# 定义优化器和损失函数
optimizer = torch.optim.Adam(predictor.parameters(), lr=1e-4)
criterion = torch.nn.CrossEntropyLoss()

In [None]:
# 开始训练
for epoch in range(num_epochs):
    predictor.train()
    running_loss = 0.0
    for images, masks in train_loader:
        optimizer.zero_grad()

        # 模型前向传播
        masks_pred = predictor(images)

        # 计算损失
        loss = criterion(masks_pred, masks)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
    print(f'Epoch [{epoch+1}/{num_epochs}], Loss: {running_loss/len(train_loader)}')

## 测试模型部分

In [None]:
pass

## 保存新的checkpoint部分

In [None]:
pass