# Detección de Objetos

**SSD**: Single Shot Detection  
**YOLO**: You Only Look Once

Aplicaciones:
- Self Driven car entre otras. 
Necesita precisión y velocidad (video)

## Localización de objetos

![idea-basica-obj-loc](idea-basica-obj-loc.png)

Si por ejemplo tenemos 3 clases:
- Auto
- Peaton
- Moto

Se define un vector de 8:
- $P_c$: Hay o no objeto
- $b_x$: Posición central del objeto X
- $b_y$: Posición central del objeto Y
- $b_h$: Alto
- $b_w$: Ancho
- $c_1$: Auto
- $c_2$: Peaton
- $c_3$: Moto

Como es la función de costo?

![loss-func-obj-dect](loss-func-obj-dect.png)

$L = \alpha L_{binary} + \beta L_{categorical} + \gamma L_{boundingbox}$

![loss-eq-obj-dect](loss-eq-obj-dect.png)

Huber loss: Similar a MSE pero lineal para valores grandes
![](huber_loss.png)

## Landmark detection:
Con las mismas técnicas de localización detectar por ejemplo puntos especificos en una cara, posiciones de personas, etc

## Detección de Objetos

![](obj-det-train-set.png)

## Algoritmo de Sliding Window

In [12]:
from keras.models import Sequential
from keras.layers import Dense, Convolution2D, MaxPooling2D
model_dense = Sequential()
model_dense.add(Dense(100, input_shape=(25,)))
model_dense.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_3 (Dense)              (None, 100)               2600      
Total params: 2,600
Trainable params: 2,600
Non-trainable params: 0
_________________________________________________________________


In [7]:
model_slide = Sequential()
model_slide.add(Convolution2D(filters= 100, kernel_size=5, input_shape=(5,5,1)))
model_slide.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_1 (Conv2D)            (None, 1, 1, 100)         2600      
Total params: 2,600
Trainable params: 2,600
Non-trainable params: 0
_________________________________________________________________


![](sliding-wind-implem.png)

In [15]:
model_image = Sequential()
model_image.add(Convolution2D(filters= 16, kernel_size=5, input_shape=(14,14,3)))
model_image.add(MaxPooling2D(2))
model_image.add(Convolution2D(filters= 400, kernel_size=5))
model_image.add(Convolution2D(filters= 400, kernel_size=1))
model_image.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_8 (Conv2D)            (None, 10, 10, 16)        1216      
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 5, 5, 16)          0         
_________________________________________________________________
conv2d_9 (Conv2D)            (None, 1, 1, 400)         160400    
_________________________________________________________________
conv2d_10 (Conv2D)           (None, 1, 1, 400)         160400    
Total params: 322,016
Trainable params: 322,016
Non-trainable params: 0
_________________________________________________________________


## Yolo
Combinación entre Sliding Window con convolución + Localización de objetos

Se divide la imagen en una grilla y se aplica la localización a cada celda de la grilla. El barrido  de la grilla se realiza con una convolucional.

Y se agregan las siguientes tecnicas:

### IoU (Indice de Jaccard)

- Para evaluar performance del algoritmo
- Para decidir que detección sobrevive en el algoritmo de max-supression

## Max-supression
Elimina las multiples detecciones
- Mira el $P_c$' mas alto y lo toma como valido
- Luego elimina todas las detecciones que se superponen significativamente con la del mayor $P_c$ y las elimina


![](non-max-supression.png)

### Anchor boxes

![](anchor-boxes-2.png)