# Promptable Image Segmentation Task

`````{admonition} Ziel
:class: tip
*[...] Produce a broadly capable **model** that can **adapt** to many (though not all) **existing and new segmentation tasks** via prompt engineering and enable **task generalization**."* {cite}`kirillov2023segment`
`````

`````{admonition} Promptable Segmentation Task
:class: note
... soll eine valide Segmentation **Maske** für jeden beliebigen **Prompt** zurückgeben.
`````

## Prompt

&rarr; jegliche Information als **Eingabe**, die angibt was im Bild segmentiert werden soll

- Prinzip kommt von Natural Language Processing
- ein Prompt für Image Segmentation kann ... sein
    - **Punkte** im Vordergrund / Hintergrund
    - eine (ungefähre) **Box** oder Maske
    - freier **Text** <br>

```{figure} ./images/point_example.png
:name: point_example
:width: 500px
:height: 300px
Beispiel eines Punktes als Prompt {cite}`kirillov2023segment`.
```

```{figure} ./images/boundingBox_example.png
:name: boundingBox_example
:width: 500px
:height: 300px
Beispiel einer Bounding Box als Prompt {cite}`kirillov2023segment`.
```

### Warum Prompting?
- **jegliche Inputs** im obigen Format können als Eingabe für SAM benutzt werden
- ermöglicht **Task Generalization** und **Zero-Shot Transfer** <br> <br>
    &rarr; Modell kann erweiterbar verwendet werden mit anderen Modellen - **Komposition** <br>
    &rarr; ist **nicht beschränkt** auf limitierte Anzahl an Tasks vom Training

## Maske

&rarr;  **Ausgabe** als **Umrandung** des Bereichs im Bild, der durch den Prompt erfragt wurde

```{figure} ./images/mask_example.png
:name: mask_example
:width: 500px
:height: 300px
Beispiel einer generierten Maske {cite}`kirillov2023segment`.
```

### "Valide" Maske

- Problem der **Mehrdeutigkeit**
- Prompt ist mehrdeutig und könnte zu mehreren Sachen referenzieren <br>
    &rarr; Ausgabe sollte **eine sinvolle Maske** für **mindestens eines der Objekte** sein

```{figure} ./images/ambigious_masks_example.png
:name: ambigious_masks_example
Beispiel eines mehrdeutigen Prompts mit mehreren Masken {cite}`kirillov2023segment`.
```

<!-- requirement is similar to expecting a language model to output a coherent response to an ambiguous prompt -->
<br>

> *this task [...] leads to a **natural pre-training algorithm** and a general method for **zero-shot transfer** to downstream segmentation tasks via **prompting**.*

<!--
## Pre-Training Algorithmus

Wie soll es möglich sein jegliche Art von Prompt als Eingabe zu benutzen? <br>
&rarr; Pre-Training: **allgemeine Basis, um nachher auf Downstream Tasks finetunen zu können**

### Aufgabe
- simuliert eine Sequenz an Prompts (Punkte, Boxen, Masken) für jedes Training Sample
- vergleicht die Vorhersagen an Masken des Modells mit dem Ground Truth

### Methodik
- basiert auf "interactive segmentation" <br>
    - *"allows users to extract target masks by making positive/negative clicks"* {cite}`chen2022focalclick` <br>
    &rarr; nach genügend Benutzereingaben eine gültige Maske vorhersagen <br><br>

- SAM benutzt dafür die **Data Engine** <br>
    - sicherstellen, dass Mehrdeutigkeit kein Problem ist 
    - automatische Annotationen
-->

## Zero-shot Transfer

&rarr; Pretraining ermöglicht dem Model in der Inferenz Phase **auf jede Art an Prompt angemessen zu reagieren** <br>
    &rarr; **weiterführende Tasks (Downstream Tasks)** können durch die Entwicklung geeigneter Prompts gelöst werden
    &rarr; ermöglicht **Task Generalisierung**

#### Beispiel: Bounding-Box Detektor für Katzen
1. Bounding-Box Detektor gibt Box als Ausgabe aus
2. Box kann als Eingabe-Prompt für SAM benutzt werden
3. Grundlage für Katzen Instance Segmentation <br>
<!-- dadurch können viele unterscheidliche Segmentierungsaufgaben als Prompts verwendet werden -->


```{figure} ./images/cat_boundingBox.gif
:name: cat_boundingBox
:width: 600px
:height: 550px
Bounding box prompts from an object detector can enable text-to-object segmentation. {cite}`AI_2023`
```

