# 1. Definición del Problema

_Una imagen vale más que mil palabras._

¿Cuántas veces has escuchado esto? Lo sé, lo sé... Es un cliché, pero también cierto.

Esta pequeña porción de sabiduría justifica grandemente la existencia de todo un campo dedicado al entendimiento de las imágenes, su significado y qué acciones pueden derivarse de la información en ellas contenida. Claramente, nos referimos a computer vision.

Pero, ¿qué significa realmente "entender"? ¿Es interpretar una escena? ¿Decir qué hay en una foto? ¿Describir la relación entre los componentes de una imagen? Todo lo anterior, la verdad.

Por supuesto, cada ángulo o perspectiva mencionada anteriormente está relacionada a tareas específicas dentro de computer vision, siendo la detección de objetos una de las más antiguas.

En este proyecto desarrollaremos un modelo para diferenciar entre cosas que son carros y cosas que no lo son.


## ¿Por qué la detección de vehículos es importante? 
<img src="assets/car_boxes.jpg"/>

En general, decir si un objeto se encuentra en una imagen no es suficientemente relevante. Es como preguntarle a una base de datos si un determinado registro existe. La verdadera importancia de la cuestión yacen en el _por qué_.

¿_Por qué_ quieres saber? ¿Que harás con esta información?

En otras palabras, es la aplicación de la información lo que importa, no la información en sí misma.

He aquí varios escenarios donde la detección de carros puede resultar útil:

 - **Inventario**: Si eres un gran manufacturador de carros, como GM, Ford o Chrysler, una pieza de software capaz de contabilizar el número de autos en una imagen podría ayudarte enormemente manteniendo un inventario actualizado.
 - **Conducción autónoma**: Un vehículo autónomo, con el fin de poder entregar su carga o sus pasajeros sanos y salvos, desde un origen A a un destino B, debe estar muy atento a su entorno. Un algoritmo de detección de carros podría proveer información crucial a los múltiples sensores que un vehículo autónomo tiene, la cual ayudaría tomando decisiones importante como cambiar de carril o estacionar.
 - **Seguridad**: En áreas donde el acceso es restringido, tales como en complejos privados, aeropuertos o bases militares, un modelo entrenado para identificar determinado tipo de vehículos podría actuar como una alarma anti-invasores.

## ¿Cómo identificarías un carro?

<img src="assets/red_beetle.jpeg" />

¡**Tú** eres un EXPERTO!

¡Sí! ¡Tú! Estoy convencido de que podrías identificar un carro, incluso si pertenece a una marca de la cual nunca has escuchado.

Rayos, seguramente podría identificar un carro en una caricatura, un vehículo de tres ruedas o un auto de F1. ¿Cómo? Los seres humanos estamos construidos para detectar objetos en una escena. Quizás no podamos explicar en detalle lo que está sucediendo en nuestro cerebro... Simplemente podemos identificar cosas con extrema facilidad.

El neurocientífico en mi interior diría que, probablemente, nuestro cerebro se enfoca en una serie de aspectos distintivos de lo que hacen a un carro un carro: Ruedas (la mayoría tienen cuatro), luces delanteras y traceras, capó, maletero, etcétera. El ambiente típico en el que se hallan los carros también proporciona información valiosa: Es mucho más probable que un objeto con cuatro ruedas se trate de un carro si está rodeado de edificios y se encuentra sobre el asfalto, en vez de en las nubes.

## ¿Cómo una máquina identificaría un carro?

<img src="assets/yolo.jpg" />

Aquí es donde se pone interesante.

Primero recordemos que las imágenes que nosotros vemos en un computador, no son más que un montón de números para la máquina. Donde observamos un hermoso Cadillac conduciendo hacia el atardecer, la computadora ve un tensor gigante de enteros.

Entonces, una máquina ha de ser capaz de hallar patrones en este mar de números para afirmar que hay un carro en alguna parte.

Hay varias aproximaciones:

 - **Coincidencia de plantillas**: Podemos comparar una imagen con otra que nos sirva de plantilla (por ejemplo, la del VW que está más arriba). Digamos que substraemos los pixeles en ambas imágenes para determinar qué tan similares son. Si el número es bajo, significa que coinciden en la mayoría de sus regiones. Si el número es alto, entonces no se parecen tanto. Hay muchos problemas con esta estrategia:
     - ¿Qué pasa si el carro en la nueva imagen tiene un color diferente al de nuestra plantilla?
     - ¿Y si el vehículo en la nueva imagen aparece en el costado izquierdo, mientras que en nuestra plantilla se encuentra en el derecho?
     - ¿Y si el carro en la nueva imagen está muy lejos, mientras que en la plantilla se encuentra cerca a la cámara?
     - ¿Qué pasa si la nueva imagen tiene una foto en primer plano de Clifford, el perro rojo y en nuestra plantilla tenemos un camión de bomberos? La mayor parte de la nueva imagen también sería roja, pero estoy convencido de que Clifford no es un camión.
 - **CV Clásico + Machine Learning Clásico**: Esta estrategia es mucho más robusta que simplemente comparar dos imágenes. Básicamente, consiste en extraer características significativas de las imágenes, apoyándonos en técnicas tradicionales de computer vision, como Histogram of Oriented Gradients, con el fin de alimentar un clasificador, como un árbol de decisión. Hace unos años implementé un detector de vehículos usando esta aproximación. Puedes acceder al proyecto [aquí](https://github.com/jesus-a-martinez-v/vehicle-detection).
 - **Deep Learning**: Esta es la estrategia más poderosa. Muchas arquitecturas de redes neuronales vanguardistas han sido desarrolladas no sólo para realizar mejores predicciones, sino también más veloces. Una de las más interesantes es YOLO. He aquí un video de YOLO mirando YouTube:

In [6]:
from IPython.display import IFrame

IFrame('https://www.youtube.com/embed/r6ZzopHEO1U', width=560, height=315)

En este proyecto utilizaremos deep learning. 

En el próximo notebook exploraremos nuestra data.