# Notebook 8: YOLO CoCo

En este notebook vamos a ver como se entrena la red YOLO desde cero utilizando un dataset llamado CoCo. 

### 1- Recolección del dataset

Para entrenar YOLO nos hace falta un conjunto de imágenes que formen el dataset. En este caso el dataset está formado por las imágenes de la base de datos de [CoCo](http://cocodataset.org/#home) desde 2015 hasta 2018. Este dataset fue diseñado con el fin de avanzar en la detección de objetos, segmentación, detección de puntos clave de personas, segmentación de elementos y generación de leyendas. Este paquete proporciona las API de Matlab, Python y Lua que ayudan a cargar, analizar y visualizar las anotaciones en CoCo. Este dataset cuenta con un total de 300.000 imágenes etiquetadas, que contienen objetos de 80 clases distintas (personas, gatos, barcos, trenes, perros, etc), divididas en estos grupos:

<img src="imágenes/CoCoLista.png" style="width:500px;">

En este caso nosotros sólo vamos a usar 122.260 imágenes de las 300.000 que hay en el dataset. Para obtener estos datos hay que ejecutar los siguientes comandos que descargan y descomprimen el dataset.

In [0]:
!cp scripts/get_coco_dataset.sh data
!cd data
!bash get_coco_dataset.sh

Ahora tendremos todos los datos y las etiquetas generados para usar en YOLO del 2014. Estas instrucciones nos habrán generado un directorio llamado coco donde se habrán descargado todas las imágenes del dataset. Interesa sobre todo remarcar que en ese directorio hay 2 carpetas de imágenes: train2014 y val 2014. Y además también hay una carpeta que contiene las imágenes anotadas de la manera que requiere YOLO. 

### 2- Data augmentation
En este caso al tener un dataset de 122.260 imágenes, no ha sido necesario aumentarlo aún más.

### 3- Anotación del dataset
Ahora necesitamos que todas las imágenes están anotadas, es decir, YOLO necesita que cada imagen tenga un archivo .txt con una  línea por cada objeto que nos interese detectar. Aunque el formato de CoCo son archivos .json, este dataset también tiene una carpeta *labels* con las anotaciones de las imágenes en formato YOLO. Por lo que ya tenemos todas las anotaciones preparadas. 

### 4- Dataset split

Este paso es un poco distinto a lo que se hace habitualmente. Normalmente se tiene un conjunto de imágenes y el usuario es el encargado de partirlas en dos conjuntos, uno de entrenamiento y otro de test, en este caso CoCo tiene preparados conjuntos para que no sea necesario ir haciendo particiones. 
Para este caso el conjunto de entrenamiento será el train2014 y el de test val2014. YOLO necesita un archivo .txt donde tenga anotadas las imágenes que va a usar en el entrenamiento y lo mismo en el caso de las de test, estos archivos son 5k.txt para las imágenes de test y trainvalno5k.txt para las de entrenamiento.

<img src="imágenes/cocoDataset.png" style="width:500px;">

En este notebook se han usado 117.264 imágenes de entrenamiento y 4996 de test.

### 5- Entrenamiento

El primer paso antes de empezar a entrenar será cambiar el archivo de configuración cfg/coco.data para que apunte a las imágenes que hemos descargado. 

<img src="imágenes/cocodata.png" style="width:500px;">

A parte de este fichero también es necesario que modifiquemos el fichero cfg/yolov3.cfg, indicando que vamos a realizar el entrenamiento:

<img src="imágenes/yolov3cfg.png" style="width:250px;">

Hay dos maneras de entrenar la red YOLO: o bien usando unos pesos pre-entrenados o partiendo de cero. En este caso se van a usar unos pesos previamente pre-entrenados llamados *darknet53.conv.74*, estos pesos que usamos provienen del modelo darknet53. Y comenzamos el entrenamiento.

In [0]:
./darknet detector train cfg/coco.data cfg/yolov3.cfg darknet53.conv.74

### 6- Evaluación
Una vez finalizado el entrenamiento, y antes de comprobar que nos funciona en imágenes reales, vamos a evaluar el modelo construido en el conjunto de test. Como entrenar un modelo para CoCO lleva mucho tiempo vamos a coger los pesos ya entrenados que son proporcionados en la página de YOLO. Para poder ejecutar este test es necesario descargarse una librería [darknet](https://github.com/AlexeyAB/darknet) desde otro sitio que tiene un script que permite ejecutar la siguiente instrucción. Además también hará falta configurar el archivo voc.data, donde indiquemos las rutas de las listas de imágenes. Una vez realizado este paso, ejecutamos la siguiente instrucción.


In [0]:
 ./darknet detector map cfg/coco.data cfg/yolov3.cfg yolov3.weights

Al acabar, el comando anterior nos mostrará el valor de AP para cada clase del dataset, y el valor global de map, lo que nos permite clasificarlo como aceptable o no.

<img src="imágenes/map2.png" style="width:500px;">

### 7- Predicción
Por último probamos nuestro modelo con imágenes que no se encontraban en el conjunto inicial. Ejecutamos para ello la siguiente instrucción con una imagen.

In [0]:
./darknet detect cfg/yolov3.cfg yolov3.weights data/dog.jpg 

Por último probamos nuestro modelo con imágenes que no se encontraran en el conjunto inicial. Ejecutamos para ello la siguiente instrucción con una imagen.

<img src="imágenes/predicCoco.png" style="width:500px;">

Y en la imagen resultado lo vemos:

<img src="imágenes/finalCoco.png" style="width:500px;">