# Detecció d'objectes


<table>
    <tr>
        <td style="border:1px solid black">
            <img src="Imatges/class-local-detec-segm.jpeg">
        </td>
    </tr>
    <tr>
        <td style="border:1px solid black" align=center >
            Font imatge: <a href="https://medium.com/zylapp/review-of-deep-learning-algorithms-for-object-detection-c1f3d437b852">Medium </a>
        </td>
    </tr>
</table>



# Segmentació d'imatges 
<table>
    <tr>
        <td style="border:1px solid black">
            <img src="Imatges/segmentacio-semantica.png">
        </td>
        <td style="border:1px solid black">
            <img src="Imatges/segmentacio-instancia.jpg">
        </td>
    </tr>
    <tr>
        <td style="border:1px solid black">
            Segmentació semàntica: cada píxel és etiquetat.
        </td>
        <td style="border:1px solid black">
            Segmentació d'instàncies: s'etiqueten els píxels d'una mateixa instància detectada.
        </td>
    </tr>
    <tr>
        <td style="border:1px solid black">
            Font imatge: <a href="http://sqlml.azurewebsites.net/2017/09/12/convolutional-neural-network/">SQLML</a>
        </td>
        <td style="border:1px solid black">
            Font imatge: <a href="https://www.pyimagesearch.com/2018/11/26/instance-segmentation-with-opencv/">PyImageSearch</a>
        </td>
    </tr>
</table>

# Sliding window

Com ho faríeu?


<table>
    <tr>
        <td  style="border:1px solid black" width=350>
            <img src="Imatges/sliding-window-animated-sot.gif">
        </td>
    </tr>
    <tr>
        <td style="border:1px solid black" >
            Exemple de finestra lliscant i escalatge de la imatge original per a la detecció d'objectes.
        </td>
    </tr>
    <tr>
        <td style="border:1px solid black" align=center >
            Font imatge: <a href="https://www.pyimagesearch.com/2015/03/23/sliding-windows-for-object-detection-with-python-and-opencv/">PyImageSearch </a>
        </td>
    </tr>
</table>



<img src="Imatges/sliding_window.jpg">

Idea: recòrrer la imatge amb diferents mides de finestra, reescalar els patches i passar un classificador

Pseudo-codi:

```
for window in windows
    patch = get_patch(image, window)
    resized_patch = adapt_size(patch)
    results = detector(resized_patch)
```


# R-CNN
 

<table>
    <tr>
        <td  style="border:1px solid black" width=350>
            <img src="Imatges/rcnn.png">
        </td>
    </tr>
    <tr>
        <td style="border:1px solid black" >
            R-CNN
        </td>
    </tr>
    <tr>
        <td style="border:1px solid black" align=center >
            Font imatge: <a href="https://arxiv.org/pdf/1311.2524.pdf">Ross Girshick et al. "*Rich feature hierarchies for accurate object detection and semantic segmentation*" </a>
        </td>
    </tr>
</table>


IDEA: Fent servir selective seach, reduir el nombre de ROIS (unes 2000)

Pseudo-codi:

```
ROIs = region_proposal(image)
for ROI in ROIs
    patch = get_patch(image, ROI)
    results = detector(patch)
```

<img src='Imatges/selective_seach.png'>

* Propietats: 

 - Més eficient que sliding window
 - Selective search i classificador s'entrenen per separat

# Fast-RCNN

IDEA: Reutilitzar l'extracció de característiques per a totes les rois

Pseudo-codi:

```
feature_maps = process(image)
ROIs = region_proposal(image)
for ROI in ROIs
    patch = roi_pooling(feature_maps, ROI)
    results = detector2(patch)
```

* Propietats: 
 - Guany de 10X entrenant i de 150X inferint respecte R-CNN
 - End2End: S'entrena de forma simultànea el classificador i el localitzador
 - Roi pooling: Adapta les diferents mides de finestres a una mida fixa
 - Region proposal és idèntic a RCNN (treballa sobre imatges)

# Faster RCNN

IDEA: Optimitzar el region proposal (en Fast-RCNN és el que consumeix més temps)

Pseudo-codi:

```
feature_maps = process(image)
ROIs = region_proposal(feature_maps[0])
for ROI in ROIs
    patch = roi_pooling(feature_maps, ROI)
    results = detector2(patch)
```

* Propietats:
 - Té una xarxa neuronal per al region proposal.
 - Per tal de facilitar les coses, algoritme pot escollir entre 9 possibles regions per cada punt (3 escales i 3 orientacions)
 - Per cada regió, aplica un classificador que li diu si és objecte o background

# Comparativa 2 phases detectors

<img src='Imatges/comparativa1.jpeg'>


# Single shot detectors

IDEA: Fusionar la proposició de finestres amb la detecció

IDEA2: No cal predir directament les bounding boxes sobre la imatge, podem treballar directament sobre el feature map
    
<img src='Imatges/64locations.png'>

Per cada punt, podem predir una sèrie de bounding boxes 

<img src='Imatges/anchors.png'>

Aquí es mostra com per cada anchor, es fan una sèrie de prediccions

<img src='Imatges/predictions_anchors.jpeg'>

A diferència de Faster-RCNN, Single shot detectors prediuen N classes a la vegada



* Propietats
 - Més ràpids que Faster-RCNN
 - Tenen problemes per detectar objectes molt petits i propers entre ells
 - Exemples: SSD i YoloV3
 
 
<img src='Imatges/comparativa2.png'>

# Multiescala:

<img src='Imatges/ssd.jpeg'>



# Class imbalance

El nombre de finestres sense objectes a detectar (background) és molt més gran que el foreground

Alternatives:
- SSD limita amb un rati 1:3 els positius vs els negatius (triant els que més loss aporten)
- RetinaNET: Canvia la funció de loss respecte CrossEntropy, penalitzant les classes més freqüents


<img src='Imatges/focalloss.png'>

# Non maximal supression

<img src='Imatges/nms.png'>

# Comparativa

Paràmetres a escollir:
 - Backbone (feature extractor)
 - Data augmentation per millorar generalització i reduir overfitting
 - Single shot (fast) vs Dual Shot (precís)

<img src='Imatges/comparativa3.png'>

In [None]:
Exercici resolt