# Zero-Shot Transfer Experiments

**&rarr; Evaluation von SAM anhand von Datensätzen und Aufgaben, die während des Trainings nicht vorkamen** <br>
&rarr; Datensätze erhalten **neuartige Bilder**, die so nicht in SA-1B vorkommen

```{figure} ./images/transfer_experiments_1.png
:name: transfer_experiments_1
:align: center
Beispiele verschiedener Segmentierungsdatensätze, die zur Bewertung der Zero-Shot-Übertragungsfähigkeiten von SAM verwendet wurden. {cite}`kirillov2023segment`.
```

## Experimente

1. Ein **einziger Punkt** im Vordergrund als Prompt &rarr; Mehrdeutigkeit
2. **Bildverständnis** auf niedriger, mittlerer und hoher Ebene &rarr; erheblicher Unterschied zu SAMs ursprünglicher Segmentierungsaufgabe
	- **Edge Detection**
	- **Object Proposal Generation**
	- **Instance Segmentation**
	- Segmentierung von Objekten aus **Freiformtext**

### Zero-Shot Single Point Valid Mask Evaluation

&rarr; **ein Punkt** kann **mehrere Objekte** referenzieren &rarr; **größte Challenge** für SAM

#### Aufbau
- SAM bekommt Bilder mit nur **einem Punkt als Prompt**
- **Studie**, in welcher Menschen die **Qualität der Masken** bewerten
- **23 Datatsets** mit diversen Bildern
- als Vergleich wird der **RITM** Algorithmus hinzugezogen

`````{admonition} RITM
:class: note
- single-mask Methode 
- interaktiver Segmentierungs-Algorithmus
- performt am besten anhand SAMs Benchmark als andere Methoden
```{figure} ./images/transfer_experiments_ritm.png
:name: transfer_experiments_ritm
:align: center
Beispielbild einer single-mask Segmentierung mit RITM{cite}`Vladislav_Efremov_2022`.
```
`````

#### Ergebnisse

```{figure} ./images/transfer_experiments_ritm_sam.png
:name: transfer_experiments_ritm_sam
:align: center
Menschliche Bewertung der Maskenqualität bei SAM und RITM (Scale 1-10) {cite}`kirillov2023segment`
```

- Menschen bewerten die Qualität von SAMs Masken konsistent höher als die stärkste baseline RITM
- SAM Ratings zwischen 7 und 9
	&rarr; “A high score (7-9): The **object is identifiable and errors are small and rare** (e.g., missing a small, heavily obscured disconnected component, ...).”

&rarr; SAM hat **erfolgreich** gelernt, wie man **valide Masken** von einem einzigen Punkt auch bei **fremden Daten** erstellt

### Zero-Shot Edge Detection

&rarr; klassische **Low-Level Edge Detection**
#### Aufbau
- 16×16 Grid von Vordergrundpunkten ergibt 768 vorhergesagte Masken
- Sobel-Filterung &rarr; mask probability maps

#### Ergebnisse

```{figure} ./images/transfer_experiments_edge.png
:name: transfer_experiments_edge
:align: center
:width: 550px
:height: 400px
Vergleich von SAMs Edge Detection mit dem originalen Bild und der Ground Truth {cite}`kirillov2023segment`.
```

- SAM erzeugt **sinnvolle Edge Maps**
- **mehr Kanten** als bei **Ground Truth**
- im **Vergleich zu anderen Deep-Learning-Methoden** wie HED performt SAM auch **sehr gut**

### Zero-Shot Object Proposals

**&rarr; alles im Eingabebild als Masken segmentieren**

#### Aufbau:
- dafür **LVIS** Datensatz wegen hoher Anzahl an Kategorien
- Vergleichsbaseline: **ViTDet-H** (Mask R-CNN ViT-H)

#### Ergebnisse:

```{figure} ./images/transfer_experiments_objectproposals.png
:name: transfer_experiments_objectproposals
:align: center
:width: 550px
:height: 250px
Vergleich von SAMs Object Proposals mit ViTDet-H {cite}`kirillov2023segment`.
```

- **ViTDet-H** performt allgemein **besser**
- **SAM** **schlechter bei kleinen und häufigen Objekten**

### Zero-Shot Instance Segmentation
&rarr; SAM als **segmentation Modul** von einem Instance Segmenter &rarr; **Einbindung** von SAM in größeren Bereich

#### Ansatz
- **Object Detector** mit Bounding Boxen als Ausgabe
- **Bounding Boxen** sind Prompts für SAM
- Vergleich mit **ViTDet**
- **menschliche Bewertung** der Masken

#### Ergebnisse
- **SAM** Masken sind **qualitativ besser als ViTDet**
- **SAM** performt **besser in der menschlichen Studie** als ViTDet

### Zero-Shot Text-to-Mask

**&rarr; Objekte anhand von Freitext segementieren**

#### Ansatz
- SAM + **CLIP** <!--CLIP: text-to-image image-to-text Transformer-->
- Änderung an SAMs **Training**
	- für jede Maske &rarr; CLIP image embedding 
	- **Prompt** für SAM: **image embedding**
- **Inferenz Phase**
	- **Text an CLIP** Text Encoder
	- **Text Embedding als Prompt** an SAM

#### Ergebnisse

```{figure} ./images/transfer_experiments_text.png
:name: transfer_experiments_text
:align: center
:width: 550px
:height: 450px
Darstellung von Text Prompts für SAM{cite}`kirillov2023segment`.
```

- SAM **kann Objekte anhand Wörtern und Sätzen segmentieren**
- manchmal **fehlerhaft**
	- zusätzlicher Punkt hilft bei Prediction
