# YOLO Object Detection

## Demo - Utilizaremos un famoso algoritmo llamado YOLO para realizar reconocimiento de objetos en tiempo real en video. 

### Un poco de historia de "Object Detection" (2001-2017)

#### El primer detector de rostros eficiente (Viola-Jones Algorithm, 2001)

- Un algoritmo eficiente para detección de rostros fue investado por Paul Viola & Michael Jones 
- Su demo mostraba sus rostros siendo detectados en tiempo real a traves de una webcam.
- Fue la demostracion de vision computarizada y su potencial mas sorprendete de la epoca. 
- Luego fue implementado en OpenCV y detección de rostros se convirtió en sinonimo del algoritmo "Viola and Jones".

![alt text](https://ars.els-cdn.com/content/image/1-s2.0-S2468067216300116-gr1.jpg "Logo Title Text 1")

##### Una tecnica mucho más eficiente (Histograms of Oriented Gradients, 2005)

- Navneet Dalal y Bill Triggs inventaron "HOG" para detección de transeuntes
- Su descriptor de características, Histograms of Oriented Gradients (HOG), sobrepasó significantemente los algoritmos existentes
  en dicha tarea.
- Características escritas a mano, tal como antes
- Para cada pixel, queremos ver a los pixeles directamente al rededor de él

![Alt Text](https://cdn-images-1.medium.com/max/1440/1*RZS05e_5XXQdofdRx1GvPA.gif)

- La meta es, que tan oscuro es el pixel actual en comparación con los que lo rodean
- Luego dibujaremos una flecha mostrando la dirección en la que la imagen se vuelve más oscura:

![Alt Text](https://cdn-images-1.medium.com/max/1440/1*WF54tQnH1Hgpoqk-Vtf9Lg.gif)

- Repetimos el proceso para cada pixel de la imagen
- cada pixel es reemplazado por una flecha, las cuales son llamadas gradientes
- Las gradientes muestran el flujo desde luz a oscuridad a lo largo de la imagen:

![Alt Text](https://cdn-images-1.medium.com/max/1440/1*oTdaElx_M-_z9c_iAwwqcw.gif)

- Romperemos la imagen en pequeños cuadrados de 16x16 cada uno.
- En cada cuadrado, contaremos cuantas gradientes apuntan en cada dirección
- Luego reemplazamos ese cuadrado en la imagen con las flechas de dirección que fueron más fuertes.
- El resultado final? La imagen original convertida en una simple representación que captura la estructura básica de la cara
  de una forma simple:
- Detectar rostros significa encontrar la parte de la imagen más similar a un patron HOG que fue extraido del dataset:

![Alt Text](https://cdn-images-1.medium.com/max/1440/1*6xgev0r-qn4oR88FrW6fiA.png)

#### La era del Deep Learning comienza (2012)

- Convolutional Neural Networks se volvieron un estadar dorado para clasificación de imagenes luego del desempeño de la CNN de Kriszhevsky
    durante ImageNet

![Alt Text](https://image.slidesharecdn.com/cnn-toupload-final-151117124948-lva1-app6892/95/convolutional-neural-networks-cnn-65-638.jpg?cb=1455889178)

Aunque los resultados son increibles, el reconocimiento de imagenes esta lejos de de la complejidad y diversidad del endendimiento
del ojo humano.

![Alt Text](https://cdn-images-1.medium.com/max/1600/1*bGTawFxQwzc5yV1_szDrwQ.png)

En clasificación, generalmente hay una imagen con un objeto enfocado en el cual se centra la tarea de reconocer.

![Alt Text](https://cdn-images-1.medium.com/max/1600/1*8GVucX9yhnL21KCtcyFDRQ.png)

Pero cuando miramos al mundo, nosotros realizamos una tarea mucho más compleja

![Alt Text](https://cdn-images-1.medium.com/max/1600/1*NdwfHMrW3rpj5SW_VQtWVw.png)

Vemos formas complejas con muchos objetos superponiendose, diferentes fondos y no solo eso, tambien similitudes, difetencias correlaciones, etc.

Pueden las CNNs ayudarnos en estas tareas tan complejas? Si.

![Alt Text](https://irenelizihui.files.wordpress.com/2016/02/cnn2.png)

![Alt Text](https://www.pyimagesearch.com/wp-content/uploads/2017/03/imagenet_vgg16.png)

- Podemos tomar un clasificador como VGGNet o Inception y convertirlo en un detecor de objetos al mover una pequeña ventana a lo largo de la imagen
- En cada paso ejecutas el clasificador para obtener una predicción de que tipo de objetos estan en la ventana actual. 
- Usar una ventana movil resulta en cientos de miles de predicciones por imagen, pero solo mantiene las que estan seguros.
- Este enfoque funciona pero es muy lento, ya que debe correr el clasificador muchas veces.

##### Un mejor enfoque, R-CNN

![Alt Text](https://cdn-images-1.medium.com/max/1600/1*ZQ03Ib84bYioFKoho5HnKg.png)

- R-CNN crean cuadros delimitadores, o regiones propuestas, usando un proceso llamado busqueda selectiva (Selectiva Search) 
- En un alto nivel, Selective Search ve a través de ventanas de distintos tamaños, y para cada tamaño intenta agrupar pixeles por textura, color o  intensidad, para definir los objetos.

![Alt Text](https://cdn-images-1.medium.com/max/1600/0*Sdj6sKDRQyZpO6oH.)

1. Genera un set de propuestas para cuadros delimitadores.
2. Corre las imagenes en los cuadros delimitadores a través de la AlexNet y SVM pre-entrenada para saber que imagen esta en la caja.
3. Corre los cuadros a través de una regresion lineal para obtener cajas más precisas una vés que el objeto esta clasificado.
 
###### Algunas mejoras a las R-CNN
R-CNN: https://arxiv.org/abs/1311.2524
Fast R-CNN: https://arxiv.org/abs/1504.08083
Faster R-CNN: https://arxiv.org/abs/1506.01497
Mask R-CNN: https://arxiv.org/abs/1703.06870

Pero YOLO toma otro enfoque

### Qué es YOLO?

- YOLO toma un enfoque completamente diferente. 
- No es un clasificador tradicional que se usó como detector de objetos. 
- YOLO mira la imagen una sola vez (lo que le da su numbre: You Only Look Once) pero de una forma inteligente.

YOLO divide la imgen en una malla de 13x13 celdas:

![Alt Text](http://machinethink.net/images/yolo/Grid@2x.png)

- Cada celda es responsable de predecir 5 cuadros delimitadores. 
- Un cuadro delimitador describe un rectangulo que encierra un objeto.
- YOLO tambien nos da un puntaje de confianza el cual nos dice que tan seguro está de que el cuadro delimitador encierre el objeto.
- El puntaje no dice nada sobre que tipo de objeto hay en la caja, solo si la forma del rectangulo sirve.

Los cuadros delimitadores predichos pueden verse algo como lo siguiente (mientras mayor el indice de confianza, más gorda es la linea dibujada):

![Alt Text](http://machinethink.net/images/yolo/Boxes@2x.png)

- Para cada cuadro delimitador, la celda tambien predice una clase. 
- Esta parte es tal como un clasificador: da un distribución de probabilidad para todas las posibles clases. 
- YOLO fue entrenado en el dataset PASCAL VOC, el cual puede detectar 20 clases difetentes como pueden ser:

- bicicletas
- botes
- autos
- gatos
- perros
- personas

- El puntaje de confianza para el cuadro delimitador y la predición de clase son combinadas en un puntaje final, el cual nos dice la probabilidad de que ese cuadro delimitador contenga un objeto específico. 
- Por ejemplo, la caja amarilla nos dice que es un 85% seguro que contenga un "perro":

![Alt Text](http://machinethink.net/images/yolo/Scores@2x.png)

- Como son celdas de 13×13 = 169 celdasy cada celda precide 5 cuadros delimitadores, terminamos con 845 cuadros en total. 
- Resulta que la mayoría de esos cuadros tienen indices de confianza muy bajos, asi que nosotros solo mantenemos los cuadros cuyo puntaje final sea 30% o más(uno puede cambiar este valor dependiendo que tan preciso quiere que sea).

Y la predicción final queda así:

![Alt Text](http://machinethink.net/images/yolo/Prediction@2x.png)

- De un total de 845 cuadros solo mantenemos 3 que nos dan los mejores resultados. 
- Pero tengan en cuanta que las 845 predicciones separadas por cuadro fueron realizadas al mismo tiempo, por lo que la red neuronal fue ejecutada solo una vez. Y eso es por lo que YOLO es tan rapido y poderoso.

La arquitectura de YOLO es simple, consta solo de una "convolutional neural network":

![Alt Text](https://i.imgur.com/QH0CvRN.png)

Esta red neuronal solo usa capas estandar de los tipos: convolución con un kernel de 3x3 y pooling mazimo con kernel de 2x2. Nada muy elegante. No hay capas de tipo fully-conected en YOLOV2.

La ultima capa convulocional tiene un kernel de 1x1 y existe para reducir los datos a una forma de 13x13x125. Esta 13x13 deberia ser familiar: ya que es la malla en la que fue dividida la imagen.

Entonces terminamos con 125 canales por cada malla de celdas. Estos 125 numeros contienen los datos para los cuadros delimitadores y las predicciones de clase. Por qué 125? Para cada malla de celdas se predicen 5 cuadros delimitadores y estos se describen por 25 elementos:

- x, y, ancho, alto para el rectangulo del cuadro delimitador
- el puntaje de confianza
- la distribución de probabilidad entre las clases

Usar YOLO es simple: le das una imagen ded entrada (debe ser escalada a 416x146 pixeles), pasa a través de la "convolutional network" de una sola ves, y sale del otro lado como un tensor de 13x13x125 el que describe los cuadros delimitadores para las mallas de celdas. Todo lo que necesitas hacer es calcular los puntajes finales para cada cuadro e ignorar los menores al 30%.

### Mejoras a YOLO v1

YoLO v2 vs YoLO v1

- Velocidad (45 cuadros por segundo)
- Redes entienden representaciones generalizadas (Lo cual permite entrenar en imagenes reales, y al momento de predecir arte se obtuvo resultados bastante precisos).
- Versión rápida (con arquitectura más pequeña) — 155 cuadros por segundo, pero más impresiso.

Paper aquí
https://arxiv.org/pdf/1612.08242v1.pdf



