[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Mario-Carmona/ProyectoFinal-VC/blob/main/ProyectoFinal.ipynb)

# **Proyecto Final**

## **Autores:**



*   [Aparicio Martos, Francisco José](https://github.com/pacoapm)
*   [Carmona Segovia, Mario](https://github.com/Mario-Carmona)



##**Definición del problema y enfoque seguido**

El problema que hemos abarcado en esta práctica es la detección de nadadores en videos de competiciones deportivas en colaboración con la facultad de ciencias del deporte.

  Se trata de un problema de detección de objetos, en este caso, personas. Es un problema distinto a los que hemos tratado hasta ahora ya que no se puede etiquetar como un problema de clasificación o regresión, si no que se trata de un problema que combina ambos aspectos: clasificación, ya que se tiene que detectar si un objeto está o no presente en una imagen y decir a que clase pertenece; y regresión, pues se tiene que rodear a dicho elemento en un Bounding Box. 

  Para poder enfocar este problema tenemos a usar una red neuronal convolucional orientada a detección de objetos. La elegida ha sido la red YOLO ya que se trata de una red que alcanza resultados muy buenos y además se puede ejecutar en tiempo real si se tiene el hardware necesario. 

  La red YOLO ha sido entrenada en la base de datos [COCO](https://cocodataset.org/#home) la cual está compuesta por 80 clases de objetos diferentes, siendo una de ellas la clase persona. Debido a que la red consigue reconocer personas podríamos pensar que la detección se podría hacer usando directamente la red, pero existe principalmente 2 problemas: 

1.  La orientación de las personas. Las personas que detecta yolo se encuentran en disposición vertical mientras que los nadadores en los videos nadan horizontalmente. 
2.  El agua, pues distorsiona la luz y por lo tanto la forma en la que se ven a los nadadores.

El primero de los problemas se puede resolver de manera sencilla, pues lo único que hace falta es girar los videos para que de esta forma los nadadores aparezcan desplazandose en el eje vertical. Este experimento fue realizado por los estudiantes de la facultad de deportes consiguiendo resultados decentes aunque mejorables.

Partiendo de la base que ya existe un modelo que consigue resultados decentes en nuestra base de datos y que estos se pueden mejorar, el enfoque que hemos seguido en la práctica es el conocido como fine tuning. Este proceso consiste en dado una red preentrenada en una base de datos distinta a la que se va a estudiar, realizar un entrenamiento corto (5-10-15 épocas) para de esta forma mover el óptimo de la red hacia el óptimo de nuestro problema. 
 
Las bondades de esta metodología son: ahorramos tiempo de entrenamiento, pues no tenemos que entrenar la red al completo lo cual tardaría días. Al haber sido preentrenada en una BBDD grande como COCO evitamos que haya overfitting y mejoramos su rendimiento, pues para que las cnn puedan generalizar correctamente necesitan entrenarse en una gran cantidad de datos.


##**Fine tuning con YOLOv3**


Como modelo base para hacer el primer fine tuning hemos usado el modelo YOLOv3 proporcionado en el repositorio de github del investigador Alexey Bochkovskiy https://github.com/AlexeyAB/darknet . 

Para poder realizar el entrenamiento hemos tenido que aplicar una serie de cambios especificados por el autor para que de esta forma la red se adecúe a nuestro problema.

Lo primero que hemos realizado ha sido realizar un copia del archivo que almacena la arquitectura de la red ([darknet/cfg/yolov3.cfg](https://github.com/Mario-Carmona/ProyectoFinal-VC/blob/main/darknet/cfg/yolov3.cfg)). En este archivo hemos tenido que editar:
* El tamaño del batch a 64. 
* Las subidivisiones las establecemos a 16 (número de mini batches en las que se divide el batch, para que se procesen en paralelo).
* El número máximo de iteraciones la establecemos a 2000*número de clases, es decir, 2000.
* El parámetro steps lo hemos establecido al 80% y 90% del total de iteraciones. Este parámetro indica las iteraciones en las que el learning rate va a ser multiplicado por el valor especificado en el parámetro scales.
* Cambiamos la resolución de entrada de la red a 416x416, esta siempre tiene que ser múltiplo de 32.
* Cambiamos el número de clases en cada una de las capas yolo. Como solo vamos a detectar nadadores este parámetro lo hemos fijado a 1.
* Cambiamos la profundidad de los tensores resultantes de las capas convolucionales que van justo antes de las capas yolo a (numero de clases + 5) * 3. Esta profundidad tiene esta fórmula ya que en cada una de las celdas del tensor resultante se da información a cerca de los 3 BB que predice YOLO por cada una de las celdas en las que se divide la imagen, de ahí que se multiplique por 3. Por cada uno de estos bounding boxes se indica con 0 o 1 si hay o no un objeto presente en dicha celda, se dan las 4 coordenas (x esquina superior izquierda, y esquina superior izquierda, ancho y alto) que describen el bounding box, y por cada una de las clases un valor entre 0 y 1 indicando la probabilidad de que exista un objeto de dicha clase en la imagen.

Tras haber modificado la red para poder aplicar fine tuning nos dispusimos a hacer la división de la base de datos en el conjunto de entrenamiento, validación y test. 

Para los cojuntos de entrenamiento y validación usamos la carpeta que se nos proporcionó llamada: [TrainingSET](https://github.com/Mario-Carmona/ProyectoFinal-VC/tree/main/BBDD_Nadadores/TrainingSET). De esta carpeta el 80% se destinó a entrenamiento y el otro 20% a validación. El objetivo de crear la carpeta de validación es poder usarla para evaluar nuestro modelo y usarlo para poder comparar con las distintas versiones que creemos.

Con respecto al conjunto de test usamos las imagenes que venían en la carpeta [crops_120x120](https://github.com/Mario-Carmona/ProyectoFinal-VC/tree/main/BBDD_Nadadores/crops_120x120).

Todas estas divisiones se han realizado mediante la creación de los respectivos archivos train.txt y valid.txt que se le pasará a la red. En cada uno de los archivos se indica que imágenes se destinan a training y a validación.

Con la red y la base de datos ya preparada ahora ya solo nos queda ejecutar la red y esperar a ver que resultados ofrece.

**INSERTAR RESULTADOS**

Para obtener las métricas de la red hemos creado una función en el código en C que usando el conjunto de validación evalúa el modelo y mide la precisión, el recall, el F1-score y el average intersection over union.

Con el objetivo de poder valorar correctamente el modelo me dispongo a explicar cada una de las métricas que usaremos para la comparación:

* Precision: porcentaje de los casos clasificados como positivos que realmente son positivos. Es decir, $\frac{TP}{TP+FP}$.
* Recall: porcentaje de los casos que son positivos y que se han clasificado como tal. Es decir, $\frac{TP}{TP+FN}$
* F1-score: es una media armónica de las anteriores medidas.
* Average intersection over union: es la media de los intersection over union de cada detección. Intersection over union se trata de una medida que indica el nivel de solapamiento que hay entre el BB predecido y el BB verdadero, siendo 1 que ambos coinciden perfectamente y 0 si estos no coinciden. La forma de calcula dicho cociente es la siguiente: $\frac{interseccion\_BBs}{union\_BBs}$.


**INSERTAR VALORACION DEL MODELO**

##**Procesado de video con YOLOv3**

Una vez sabemos que el modelo ha obtenido muy buenos valores tanto en f1-score como en avg-iou nos disponemos a usarlo en los videos de la base de datos.   

Procesamos el video con la red YOLO y nos llevamos la sorpresa de que no detecta a los nadadores, a pesar de las métricas tan buenas que se habían obtenido.  Al no cuadrarnos estos resultados decidimos investigar cuales son los motivos por los que no se hace la detección y encontramos que uno de los posibles problemas es el tamaño de los nadadores en los videos. Si vemos los videos, los nadadores ocupan un pequeño porcentaje y esto genera problemas para la red YOLO. Bajo esta suposición insertamos unas modificaciones que recomienda el autor para cuando el objetivo es detectar objetos pequeños. 

Dichos cambios son:
* cambiar la capa route que se encuentra en la linea 720 a -1,11. Esta capa indica los tensores de las capas se van a usar para juntarlos con el tensor actual.
* cambiar el stride de la capa upsample de la linea 717 a 4.

Tras realizar el fine tuning volvimos a realizar la detección en video pero esta vez, además de los cambios introducidos en la red durante el fine tuning, aumentamos el tamaño de las imagenes de entrada de la red, y ahora sí, el modelo era capaz de detectar a los nadadores en el vídeo. Probamos varios tamaños de entrada para encontrar un equilibrio entre calidad de detección y velocidad para ver si era posible ejecutarlo en tiempo real. Tras varios experimentos concluimos que el equipo proporcionado por colab no es lo suficientemente potente como para poder procesar dicho modelo en tiempo real. 

Al hacer varias detecciones en los videos nos dimos cuenta de que aparecía otro problema en la red, y es que cuando los nadadores llegaban al final de la piscina y se daban la vuelta el modelo dejaba de detectarlos ya que la habíamos entrenado solamente para cuando estos estaban derechos. Es por ello, que decidimos hacer un aumento de datos introduciendo en el training las imagenes que ya existían con un flip, y de igualforma en la validación. 

Modificado el training set hicimos el fine tuning y volvimos a realizar la detección en video, y ahora sí, el modelo ya puede detectar a los nadadores independientemente de la fase de la carrera en la que se encuentren.



## **Imports:**

In [None]:

import os
import json
import shutil
import cv2
import numpy as np
import glob
import matplotlib.pyplot as plt
import re
from IPython.display import HTML
from base64 import b64encode
from moviepy.editor import VideoFileClip
import random
random.seed(0)
from datetime import datetime
from google.colab import drive
drive.mount('/content/gdrive')


## **Código:**

### <u>**Funciones**</u>

#### **Funciones auxiliares**

In [None]:

# define helper functions
def imShow(path: str)->'void':
  import cv2
  import matplotlib.pyplot as plt
  %matplotlib inline

  image = cv2.imread(path)
  height, width = image.shape[:2]
  resized_image = cv2.resize(image,(3*width, 3*height), interpolation = cv2.INTER_CUBIC)

  fig = plt.gcf()
  fig.set_size_inches(18, 10)
  plt.axis("off")
  plt.imshow(cv2.cvtColor(resized_image, cv2.COLOR_BGR2RGB))
  plt.show()

# use this to upload files
def upload()->'void':
  from google.colab import files
  uploaded = files.upload() 
  for name, data in uploaded.items():
    with open(name, 'wb') as f:
      f.write(data)
      print ('saved file', name)

# use this to download a file  
def download(path: str)->'void':
  from google.colab import files
  files.download(path)

# use this to download a file in Drive 
def downloadDrive(source: str, desti: str)->'void':
  shutil.copy(source, desti)


#### **Funciones para generación del entorno de trabajo**

##### **Generar carpetas en Drive**

In [None]:
"""
Función para la generación del directorio principal y de la carpeta de pesos dentro del Drive

- path: Ruta de la carpeta principal
"""
def generarDirectorioPrin(path: str)->'void':
  # Se comprueba la existencia del directorio
  existe = os.path.isdir(path)
  # si no existe se crea la estructura de la carpeta principal
  if(not existe):
    os.mkdir(path)
    os.mkdir(path + "/Weight")


"""
Función para la generación de carpetas dentro del Drive

- path: Ruta de la carpeta
"""
def generarDirectorio(path: str)->'void':
  # Se comprueba la existencia del directorio
  existe = os.path.isdir(path)
  # Si existe se procede a borrar el directorio
  # Exista o no se vuelve a crear el directorio
  if(existe):
    shutil.rmtree(path)
    os.mkdir(path)
  else:
    os.mkdir(path)


##### **Generar Dataset**

In [None]:

"""
Función para dividir el dataset en conjunto de training y conjunto de validación

- rutaDataset: Ruta del directorio que contiene el dataset
- nombreCarpeTrain: Nombre de la carpeta que contendrá el conjunto de training
- nombreCarpeValid: nombre de la carpeta que contendrá el conjunto de validación
- rutaSalida: Ruta de la carpeta que contendrá las carpetas con los conjuntos de datos
- porcenVali: Porcentaje de las imágenes que formarán parte del conjunto de validación
"""
def dividirDataset(rutaDataset: str, nombreCarpeTrain: str, nombreCarpeValid: str, 
                   rutaSalida: str, porcenVali:float)->(str, str):
    # Se obtienen todas las imágenes del dataset
    imagenes = sorted(glob.glob(rutaDataset + "*.jpg"))

    # Se calcula el número de imágenes en cada conjunto de datos
    numImgTrain = len(imagenes)
    numImgTest = int(numImgTrain * porcenVali)

    # Creación de las ruta de las carpetas para los conjuntos de datos
    carpetaTrain = rutaSalida + nombreCarpeTrain
    carpetaTest = rutaSalida + nombreCarpeValid

    # Creación de la carpeta de training
    try:
        os.mkdir(carpetaTrain)
    except FileExistsError:
        shutil.rmtree(carpetaTrain)
        os.mkdir(carpetaTrain)
      
    # Creación de la carpeta de validación
    try:
        os.mkdir(carpetaTest)
    except FileExistsError:
        shutil.rmtree(carpetaTest)
        os.mkdir(carpetaTest)

    # Creación del conjunto de validación
    validation = []

    for i in range(numImgTest):
        img = random.choice(imagenes)
        validation.append(img)
        imagenes.remove(img)

    # Creación del conjunto de training
    train = imagenes

    # Copia de las imágenes y sus BB a la carpeta de training
    for img in train:
        shutil.copy(img, carpetaTrain)
        nombreImg = img.split('.')[0]
        shutil.copy(nombreImg + ".txt", carpetaTrain)

    # Copia de las imágenes y sus BB a la carpeta de validación
    for img in validation:
        shutil.copy(img, carpetaTest)
        nombreImg = img.split('.')[0]
        shutil.copy(nombreImg + ".txt", carpetaTest)

    return carpetaTrain, carpetaTest


"""
Función para aumentar el conjunto de datos realizando el flip vertical de todas las imágenes
del conjunto de datos.

- carpeta: Ruta de la carpeta que contiene el conjunto de datos
"""
def generarFlip(carpeta: str)->'void':
    # Obtenemos las imágenes del conjunto de datos
    imagenes = sorted(glob.glob(carpeta + "/*.jpg"))

    # Para cada imagenes del conjunto de datos
    for img in imagenes:
        # Se obtiene el nombre junto con su ruta
        nombreImg = img.split('.')[0]

        # Se realiza el flip vertical de la imagen
        imagen = cv2.imread(nombreImg + ".jpg")
        imagen_flip = cv2.flip(imagen, 0)
        # Se genera la imagen con flip modificando el nombre original de la imagen
        cv2.imwrite(nombreImg + "_flip.jpg", imagen_flip)
        
        # Leemos el BB de la imagen original
        with open(nombreImg + ".txt", "r") as f:
          contenido = f.read()

        # Modificamos la coordenada y del centro del BB
        partes = contenido.split(' ')
        partes[2] = "{:.6f}".format(round(1.0-float(partes[2]), 6))

        # Generamos el BB de la imagen con flip
        with open(nombreImg + "_flip.txt", "w+") as f:
          for i in partes[:-1]:
            f.write(i + " ")
          f.write(partes[-1])


"""
Función para generar el archivo resumen del training a partir del conjunto de training

- carpetaTrain: Ruta de la carpeta que contiene el conjunto de training
- archivoTrain: Nombre del archivo resumen del training
"""
def generarTrain(carpetaTrain: str, archivoTrain: str)->str:
    # Lista que contendrá el nombre de las imágenes de training
    image_files = []
    # Obtenemos la ruta actual
    cwdIni = os.getcwd()

    # Nos movemos a la carpeta de training
    os.chdir(carpetaTrain)

    # Para cada imagen de training
    for filename in os.listdir(os.getcwd()):
        if filename.endswith(".jpg"):
            # Añado la ruta de la imagen a la lista
            image_files.append(carpetaTrain + "/" + filename)

    # Nos movemos a la carpeta anterior
    os.chdir("..")

    # Generamos el resumen de training
    with open(archivoTrain, "w+") as outfile:
        for image in image_files:
            outfile.write(image)
            outfile.write("\n")
    
    # Nos movemos a la ruta que se guardó al principio de la función
    os.chdir(cwdIni)

    return archivoTrain


"""
Función para generar el archivo resumen de la validación a partir del conjunto de validación

- carpetaTest: Ruta de la carpeta que contiene el conjunto de validación
- archivoValid: Nombre del archivo resumen de la validación
"""
def generarValid(carpetaTest: str, archivoValid: str)->str:
    # Lista que contendrá el nombre de las imágenes de la validación
    image_files = []
    # Obtenemos la ruta actual
    cwdIni = os.getcwd()

    # Nos movemos a la carpeta de validación
    os.chdir(carpetaTest)

    # Para cada imagen de validación
    for filename in os.listdir(os.getcwd()):
        if filename.endswith(".jpg"):
            # Añado la ruta de la imagen a la lista
            image_files.append(carpetaTest + "/" + filename)

    # Nos movemos a la carpeta anterior
    os.chdir("..")

    # Generamos el resumen de validación
    with open(archivoValid, "w+") as outfile:
        for image in image_files:
            outfile.write(image)
            outfile.write("\n")

    # Nos movemos a la ruta que se guardó al principio de la función
    os.chdir(cwdIni)

    return archivoValid


"""
Función para obtener la lista y el número de clases que contiene el dataset

- rutaDataset: Ruta de la carpeta que contiene el dataset
- archivoClases: Nombre del archivo que contiene las distintas clases del dataset
"""
def obtenerClases(rutaDataset: str, archivoClases: str)->(str, int):
    # Obtenemos todas las clases del dataset
    with open(rutaDataset + archivoClases, "r") as file:
        contenido = file.read()

    # Calculamos el número de clases del dataset
    listaClases = contenido.split('\n')
    numClases = len(listaClases) - 1

    return contenido, numClases


"""
Función para generar el archivo .names del conjunto de datos

- rutaSalida: Ruta de la carpeta que contiene el conjunto de datos
- nombreCarpeTrain: Nombre de la carpeta que contiene el conjunto de training
- clases: Lista de clases que contiene el conjunto de datos
"""
def generarNames(rutaSalida: str, nombreCarpeTrain: str, clases: str)->str:
    # Se obtiene el nombre del archivo a generar
    archivoNames = nombreCarpeTrain + ".names"

    # Se genera el archivo .names, junto con su contenido
    with open(rutaSalida + archivoNames, "w+") as outfile:
        outfile.write(clases)

    return archivoNames


"""
Función para generar el archivo .data del conjunto de datos

- rutaSalida: Ruta de la carpeta que contiene el conjunto de datos
- nombreCarpeTrain: Nombre de la carpeta que contiene el conjunto de training
- numClases: Número de clases del conjunto de datos
- archivoTrain: Nombre del archivo resumen del conjunto de training
- archivoValid: Nombre del archivo resumen del conjunto de validación
- archivoNames: Nombre del archivo .names del conjunto de datos
- carpetaBackup: Ruta de la carpeta que guardará los pesos durante el entrenamiento
"""
def generarData(rutaSalida: str, nombreCarpeTrain: str, numClases: int, archivoTrain: str, 
                archivoValid: str, archivoNames: str, carpetaBackup: str)->'void':
    # Se obtiene el nombre del archivo a generar
    archivoData = nombreCarpeTrain + ".data"

    # Se genera el archivo .names, junto con su contenido
    with open(rutaSalida + archivoData, "w+") as outfile:
        outfile.write("classes = " + str(numClases) + "\n")
        outfile.write("train = " + rutaSalida + archivoTrain + "\n")
        outfile.write("valid = " + rutaSalida + archivoValid + "\n")
        outfile.write("names = " + rutaSalida + archivoNames + "\n")
        outfile.write("backup = " + carpetaBackup)


"""
Función para genera el conjunto de datos para el fine tuning

- rutaDataset: Ruta de la carpeta que contiene el dataset
- rutaSalida: Ruta de la carpeta que contiene el conjunto de datos
- porcenVali: Porcentaje de las imágenes que formarán parte del conjunto de validación
"""
def generarDataset(rutaDataset: str, rutaSalida: str, porcenVali: float)->'void':
    nombreCarpeTrain = "obj"
    nombreCarpeValid = "valid"

    archivoTrain = "train.txt"
    archivoValid = "valid.txt"

    archivoClases = "classes.txt"

    carpetaBackup = "mydrive/ProyectoFinal/Weight"

    carpetaTrain, carpetaTest = dividirDataset(rutaDataset, nombreCarpeTrain, nombreCarpeValid, rutaSalida, porcenVali)

    #generarFlip(carpetaTrain)

    #generarFlip(carpetaTest)

    generarTrain(carpetaTrain, archivoTrain)

    generarValid(carpetaTest, archivoValid)

    clases, numClases = obtenerClases(rutaDataset, archivoClases)

    archivoNames = generarNames(rutaSalida, nombreCarpeTrain, clases)

    generarData(rutaSalida, nombreCarpeTrain, numClases, archivoTrain, archivoValid, archivoNames, carpetaBackup)


#### **Funciones gráficas**

In [None]:
#funcion que mide el recall, la precision y el f1 de nuestro modelo
def evaluacionModelo(pesos, archivo_modelo, archivo_resultados, iter_ini = 0, iter_fin = 2050):
  #limpiamos el fichero de datos
  os.system(r"echo "" > /content/gdrive/My\ Drive/ProyectoFinal/DatosGrafica/"+ archivo_resultados)
  modeloTest = generarModeloTest(archivo_modelo)
  #evaluamos el modelo en cada una de las evaluaciones
  for i in range(iter_ini,iter_fin,50):
    print("./darknet detector recprec data/obj.data " + modeloTest + " "+ pesos + str(i) + r".weights >> /content/gdrive/My\ Drive/ProyectoFinal/DatosGrafica/"+archivo_resultados)
    os.system(r"./darknet detector recprec data/obj.data " + modeloTest + " "+ pesos + str(i) + r".weights >> /content/gdrive/My\ Drive/ProyectoFinal/DatosGrafica/"+archivo_resultados)
  
def mostrarGrafica(medida,archivo,iter_ini,iter_fin):
  f = open("/content/gdrive/My Drive/ProyectoFinal/DatosGrafica/"+archivo, "r")
  comment = f.read()
  valores = re.findall(medida + ' = ([0-9]*.[0-9]*)',comment)
  valores = [float(i) for i in valores]
  x = range(iter_ini,iter_fin,50)
  #buscamos el valor maximo
  vmax = max(valores)
  indice_max = valores.index(max(valores))

  
  plt.plot(x,valores)
  plt.plot(x[indice_max],vmax, "ro")
  plt.yscale("linear")
  plt.xlabel("iteration")
  plt.ylabel(medida)
  plt.show()

  print("El " + medida + " maxima se alcanza en la iteracion " + str(x[indice_max]) + " valor: " + str(vmax))

pesosv3Base = "mydrive/ProyectoFinal/Weight/ModeloBaseYOLOv3/yolov3-modeloBase_"
pesosv3 = "mydrive/ProyectoFinal/Weight/FineTuningYOLOv3/yolov3-fineTuning_"
pesosv4 = "mydrive/ProyectoFinal/Weight/FineTuningYOLOv4/yolov4-prueba_3_"

modelov3Base = "cfg/yolov3-modeloBase.cfg"
modelov3 = "cfg/yolov3-fineTuning.cfg"
modelov4 = "cfg/yolov4-fineTuning.cfg"



In [None]:
#evaluacionModelo(pesosv3Base,modelov3Base,"Datosv3Base.txt",400,2050)

#### **Funciones para generación de modelos**

In [None]:

"""
Función para generar el modelo para test a partir de otro modelo

- archivoModelo: Ruta del archivo modelo usado como base
"""
def generarModeloTest(archivoModelo: str)->str:
  # Se obtiene la ruta del modelo sin el formato
  archivo = archivoModelo.split('.')[0]
  # Se genera la ruta del nuevo modelo
  archivoModeloTest = archivo + "-test.cfg"

  # Si no existe el nuevo modelo
  if(not os.path.exists(archivoModeloTest)):
    # Se hace una copia del modelo base
    shutil.copy(archivoModelo, archivoModeloTest)
    # Se modificar el valor del batch
    os.system(r"sed -i 's/batch=64/batch=1/' " + archivoModeloTest)
    # Se modificar el valor del subdivisions
    os.system(r"sed -i 's/subdivisions=16/subdivisions=1/' " + archivoModeloTest)

  return archivoModeloTest


#### **Funciones para detección imágenes**

In [None]:

"""
Función para generar una lista de las imágenes contenidas en una carpeta

- carpetaImagenes: Ruta de la carpeta que contiene las imágenes
"""
def obtenerImagenes(carpetaImagenes: str)->'void':
  image_files = []

  for filename in os.listdir(carpetaImagenes):
    if filename.endswith(".jpg"):
      image_files.append(carpetaImagenes + "/" + filename)
  
  with open("images.txt", "w+") as outfile:
    for image in image_files:
      outfile.write(image)
      outfile.write("\n")


def ejecutarDeteccion(archivoData, archivoModelo, archivoPesos, archivoJSON, umbralDetec):
  cmd = "./darknet detector test " + archivoData + " " + archivoModelo + " " + archivoPesos + " -thresh " + str(umbralDetec) + " -ext_output -dont_show -out " + archivoJSON + " < images.txt"
  os.system(cmd)

  for filename in os.listdir(os.getcwd()):
    if filename.endswith(".jpg"):
      shutil.move(filename, "predictions")


def dividirPredictions(confidence, archivoJSON, carpeta):
  carpetaDetectados = carpeta + "/Detectados"
  carpetaNoDetectados = carpeta + "/NoDetectados"
  carpetaOtros = carpeta + "/Otros"

  generarDirectorio(carpeta)
  generarDirectorio(carpetaDetectados)
  generarDirectorio(carpetaNoDetectados)
  generarDirectorio(carpetaOtros)

  downloadDrive(archivoJSON, carpeta)

  with open(archivoJSON, 'r', encoding="utf8") as f:
    data = json.load(f)

  numDetectados = 0
  numNoDetectados = 0
  numOtros = 0

  imagenes = []
  for imagen in data:
    nombreImg = imagen['filename']
    nombreImg = nombreImg.split("/")[-1]

    objetos = imagen['objects']

    if(len(objetos) == 0):
      shutil.move("predictions/" + nombreImg, carpetaNoDetectados)
      numNoDetectados += 1
    else:
      confianza = []
      for i in range(len(objetos)):
        confianza.append((i, objetos[i]['confidence']))

      sorted(confianza, reverse=True, key=lambda confi : confi[1])

      indiceObj = confianza[0][0]

      if(objetos[indiceObj]['name'] == "person"):
        if(objetos[indiceObj]['confidence'] >= confidence):
          shutil.move("predictions/" + nombreImg, carpetaDetectados)
          numDetectados += 1
        else:
          shutil.move("predictions/" + nombreImg, carpetaNoDetectados)
          numNoDetectados += 1
      else:
        shutil.move("predictions/" + nombreImg, carpetaOtros)
        numOtros += 1

  with open(carpeta + "/resumenPrediccion.txt", 'w+', encoding="utf8") as f:
    f.write("Detectados: " + str(numDetectados) + "\n")
    f.write("No Detectados: " + str(numNoDetectados) + "\n")
    f.write("Otros: " + str(numOtros))

  os.remove(archivoJSON)


def realizarDeteccionImagenes(carpetaImagenes, archivoData, archivoModelo, archivoPesos, archivoJSON, umbralDetec, carpetaDrive, umbralPredic):
  obtenerImagenes(carpetaImagenes)

  archivoModeloTest = generarModeloTest(archivoModelo)

  ejecutarDeteccion(archivoData, archivoModeloTest, archivoPesos, archivoJSON, umbralDetec)

  dividirPredictions(umbralPredic, archivoJSON, carpetaDrive)


def realizarDeteccionImagen(archivoImagen, archivoData, archivoModelo, archivoPesos, umbralDetec):
  archivoModeloTest = generarModeloTest(archivoModelo)

  os.system("./darknet detector test " + archivoData + " " + archivoModeloTest + " " + archivoPesos + " -thresh " + str(umbralDetec) + " -dont_show " + archivoImagen)


#### **Funciones para Fine Tuning**

In [None]:

def guardarPesos(nombreCarpeta = None):
  if(nombreCarpeta == None):
    now = datetime.now()
    partes = str(now).split(' ')
    nombreCarpeta = partes[0] + "_" + partes[1].split('.')[0]

  if(not os.path.exists("mydrive/ProyectoFinal/Weight/" + nombreCarpeta)):
    os.mkdir("mydrive/ProyectoFinal/Weight/" + nombreCarpeta)

  for filename in os.listdir("mydrive/ProyectoFinal/Weight"):
    if filename.endswith(".weights") and not filename.endswith("last.weights"):
      shutil.move("mydrive/ProyectoFinal/Weight/" + filename, "mydrive/ProyectoFinal/Weight/" + nombreCarpeta)


def realizarFineTuning(archivoData, archivoModelo, archivoPesos):
  os.system("./darknet detector train " + archivoData + " " + archivoModelo + " " + archivoPesos + " -dont_show")


#### **Funciones para evaluación del modelo**

In [None]:

def realizarEvaluacion(archivoData, archivoModelo, archivoPesos, archivoSalida):
  archivoModeloTest = generarModeloTest(archivoModelo)

  os.system(r"./darknet detector recprec " + archivoData + " " + archivoModeloTest + " " + archivoPesos + " > " + archivoSalida)


#### **Funciones para detección videos**

In [None]:
from moviepy.editor import *

def realizarDeteccionVideo(archivoVideo, archivoData, archivoModelo, archivoPesos, archivoSalida, start = None, end = None):
  archivoModeloTest = generarModeloTest(archivoModelo)
  #booleano con el que indicamos si se modifica o no el video indicado
  modificado = False
  #cargamos el archivo del video
  video = VideoFileClip(archivoVideo)
  #vemos si el video es horizontal o vertical, si es horizontal lo rotamos para ponerlo en vertical
  if video.size[0] > video.size[1]:
    video = video.rotate(90)
    modificado = True

  #si se indica el inicio se recorta el video dejando el fragmento comprendido entre start y end
  if start != None:
    video = video.subclip(start,end)
    modificado = True

  #creamos el nombre del video editado
  nombre = archivoVideo.split(".")[0]
  if start != None:
    nombreFinal = nombre + "_modificado_"+str(start)+"_"+ str(end)+".mp4"
  else:
    nombreFinal = nombre + "_modificado_entero.mp4"

  if modificado:
    video.write_videofile(nombreFinal)
  else:
    #si no se modifica el archivo entonces le pasamos como argumento a la función darknet el video original
    nombreFinal = archivoVideo

  os.system("./darknet detector demo " + archivoData + " " + archivoModeloTest + " " + archivoPesos + " -dont_show " + nombreFinal + " -i 0 -out_filename results.avi")

  os.system("mv results.avi " + archivoSalida)


#### **Funciones para visualización de videos**

In [None]:

def show_video(video_ori, video_detec, video_width = 600):   
  codigo_HTML = """<table border="1">
                      <tr>
                          <th>Video Original</th>
                          <th>Video con Detecciones</th>
                      </tr>
                      <tr>"""
  
  for video in [video_ori, video_detec]:
    formatoVideo = video.split('.')[1]
    rutaVideo = video.split('.')[0]

    if(formatoVideo == "avi"):
      os.system("ffmpeg -i " + video + " " + rutaVideo + ".mp4")
      video = rutaVideo + ".mp4"
    
    video_file = open(video, "r+b").read()
  
    video_url = f"data:video/mp4;base64,{b64encode(video_file).decode()}"

    if(formatoVideo == "avi"):
      os.system("rm " + video)

    codigo_HTML += f"""<td><video width={video_width} controls><source src="{video_url}"></video></td>"""

  codigo_HTML += "</tr></table>"

  return HTML(codigo_HTML)


### <u>**Generación entorno de trabajo**</u>

#### **Clonar y Construir Darknet**

In [None]:

# Clonar repositorio del proyecto final
!git clone https://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@github.com/Mario-Carmona/ProyectoFinal-VC.git
%cd ProyectoFinal-VC

In [None]:

# Mover contenido de la darknet
!mv darknet/* ./
# Eliminar la carpeta que contenía a la darknet
!rm -rf darknet


In [None]:

# Cambiar makefile para tener activados la GPU y OpenCV
!sed -i 's/OPENCV=0/OPENCV=1/' Makefile
!sed -i 's/GPU=0/GPU=1/' Makefile
!sed -i 's/CUDNN=0/CUDNN=1/' Makefile
!sed -i 's/CUDNN_HALF=0/CUDNN_HALF=1/' Makefile


In [None]:
# Verificar CUDA
!/usr/local/cuda/bin/nvcc --version

In [None]:
# Contruir Darknet (Al contruir Darknet se podrá usar los archivos ejecutable 
# para ejecutar o entrenar el reconocimiento de objetos)

!make


#### **Generar carpetas en Drive**

In [None]:

!ln -s /content/gdrive/My\ Drive/ ./mydrive


In [None]:

generarDirectorioPrin(r'mydrive/ProyectoFinal')


#### **Generar Dataset**

In [None]:

generarDataset("BBDD_Nadadores/TrainingSET/", "data/", 0.2)


#### **Descargar pesos preentrenados YOLOv3**

In [None]:

!wget https://github.com/AlexeyAB/darknet/releases/download/darknet_yolo_v3_optimal/yolov3.weights


In [None]:

!wget https://pjreddie.com/media/files/darknet53.conv.74


In [None]:

!wget https://github.com/AlexeyAB/darknet/releases/download/darknet_yolo_v3_optimal/yolov4.conv.137


### <u>**Modelo Base YOLOv3**</u>

#### **Ejecutar Fine Tuning**

In [None]:

"""
archivoData = "data/obj.data"
archivoModelo = "cfg/yolov3-modeloBase.cfg"
archivoPesos = "darknet53.conv.74"

realizarFineTuning(archivoData, archivoModelo, archivoPesos)
"""

!./darknet detector train data/obj.data cfg/yolov3-modeloBase.cfg darknet53.conv.74 -dont_show


In [None]:

guardarPesos("ModeloBaseYOLOv3")


#### **Generar gráficas**

#### **Ejecutar detecciones en videos**

In [None]:

archivoData = "data/obj.data"
archivoModelo = "cfg/yolov3-modeloBase.cfg"
archivoPesos = "mydrive/ProyectoFinal/Weight/ModeloBaseYOLOv3/yolov3-modeloBase_2000.weights"
archivoVideo = "mydrive/ProyectoFinal/Videos/video1_rotate_recortado.mp4"
archivoSalida = "mydrive/ProyectoFinal/results10.avi"

realizarDeteccionVideo(archivoVideo, archivoData, archivoModelo, archivoPesos, archivoSalida)


#### **Visualización videos**

In [None]:

video_ori = "mydrive/ProyectoFinal/Videos/video1_rotate_recortado.mp4"
video_detec = "mydrive/ProyectoFinal/results7.avi"
show_video(video_ori, video_detec, 400)


### <u>**Modelo Mejorado YOLOv3**</u>

#### **Ejecutar Fine Tuning**

In [None]:

"""
archivoData = "data/obj.data"
archivoModelo = "cfg/yolov3-fineTuning.cfg"
archivoPesos = "darknet53.conv.74"

realizarFineTuning(archivoData, archivoModelo, archivoPesos)
"""

!./darknet detector train data/obj.data cfg/yolov3-fineTuning.cfg darknet53.conv.74 -dont_show


In [None]:

guardarPesos("FineTuningYOLOv3")


#### **Generar gráficas**

#### **Ejecutar detecciones en videos**

In [None]:

archivoData = "data/obj.data"
archivoModelo = "cfg/yolov3-fineTuningAmpli.cfg"
archivoPesos = "mydrive/ProyectoFinal/Weight/FineTuningYOLOv3/yolov3-fineTuning_2000.weights"
archivoVideo = "mydrive/ProyectoFinal/Videos/video1_rotate_recortado.mp4"
archivoSalida = "mydrive/ProyectoFinal/results10.avi"

realizarDeteccionVideo(archivoVideo, archivoData, archivoModelo, archivoPesos, archivoSalida)


#### **Visualización videos**

In [None]:

video_ori = "mydrive/ProyectoFinal/Videos/video1_rotate_recortado.mp4"
video_detec = "mydrive/ProyectoFinal/results7.avi"
show_video(video_ori, video_detec, 400)


#### **Ejecutar detecciones con Modelo Fine Tuning**

In [None]:

archivoImagen = "mydrive/ProyectoFinal/imagen_video.jpg"
archivoData = "data/obj.data"
archivoModelo = "cfg/yolov3-fineTuningAmpli.cfg"
archivoPesos = "mydrive/ProyectoFinal/Weight/2022-01-06_11\:00\:10/yolov3-video_3_1350.weights"
umbralDetec = 0.25

realizarDeteccionImagen(archivoImagen, archivoData, archivoModelo, archivoPesos, umbralDetec)


In [None]:
# show image using our helper function
imShow('imagen_video.jpg')

In [None]:

archivoImagen = "mydrive/ProyectoFinal/imagen_video_flip.jpg"
archivoData = "data/obj.data"
archivoModelo = "cfg/yolov3-fineTuningAmpli.cfg"
archivoPesos = "mydrive/ProyectoFinal/Weight/2022-01-06_11\:00\:10/yolov3-video_3_1350.weights"
umbralDetec = 0.25

realizarDeteccionImagen(archivoImagen, archivoData, archivoModelo, archivoPesos, umbralDetec)


In [None]:

# show image using our helper function
imShow('imagen_video_flip.jpg')


In [None]:

carpetaImagenes = "BBDD_Nadadores/crops_120x120"
archivoData = "cfg/obj.data"
archivoModelo = "cfg/yolov3-fineTuningAmpli.cfg"
archivoPesos = "mydrive/ProyectoFinal/Weight/2022-01-06_11\:00\:10/yolov3-video_3_1350.weights"
archivoJSON = "modeloFineTuning.json"
umbralDetec = 0.25
carpetaDrive = "mydrive/ProyectoFinal/ModeloFineTuning"
umbralPredic = 0.3

realizarDeteccionImagenes(carpetaImagenes, archivoData, archivoModelo, archivoPesos, archivoJSON, umbralDetec, carpetaDrive, umbralPredic)


### <u>**Modelo Mejorado YOLOv4**</u>

#### **Ejecutar Fine Tuning**

In [None]:

"""
archivoData = "data/obj.data"
archivoModelo = "cfg/yolov4-fineTuning.cfg"
archivoPesos = "yolov4.conv.137"

realizarFineTuning(archivoData, archivoModelo, archivoPesos)
"""

!./darknet detector train data/obj.data cfg/yolov4-fineTuning.cfg yolov4.conv.137 -dont_show


In [None]:

guardarPesos("FineTuningYOLOv4")


#### **Generar gráficas**

#### **Ejecutar detecciones en videos**

In [None]:

archivoData = "data/obj.data"
archivoModelo = "cfg/yolov4-fineTuningAmpli.cfg"
archivoPesos = "mydrive/ProyectoFinal/Weight/FineTuningYOLOv4/yolov4-fineTuning_2000.weights"
archivoVideo = "mydrive/ProyectoFinal/Videos/video1_rotate_recortado.mp4"
archivoSalida = "mydrive/ProyectoFinal/results10.avi"

realizarDeteccionVideo(archivoVideo, archivoData, archivoModelo, archivoPesos, archivoSalida)


#### **Visualización videos**

In [None]:

video_ori = "mydrive/ProyectoFinal/Videos/video1_rotate_recortado.mp4"
video_detec = "mydrive/ProyectoFinal/results7.avi"
show_video(video_ori, video_detec, 400)


### <u>**Generación gráficas**</u>

In [None]:
evaluacionModelo(pesosv3Base,modelov3Base,"Datosv3Base.txt",400,2050)

In [None]:
#mostrarGrafica("F1-score","Datosv3.txt",400,2050)
#mostrarGrafica("avg-iou","Datosv3.txt",400,2050)
#mostrarGrafica("F1-score","Datosv4.txt",400,2050)
#mostrarGrafica("avg-iou","Datosv4.txt",400,2050)

In [None]:
#mostrarGrafica("precision")
#mostrarGrafica("recall")
#mostrarGrafica("F1-score")

### <u>**Ejecutar Fine Tuning YOLOv4**</u>

In [None]:

!./darknet detector train data/obj.data cfg/yolov4-fineTuning.cfg yolov4.conv.137 -dont_show


In [None]:

guardarPesos("FineTuningYOLOv4")


### <u>**Ejecutar evaluación del Modelo Fine Tuning YOLOv4**</u>

In [None]:
archivoData = "data/obj.data"
archivoModelo = "cfg/yolov4-fineTuning.cfg"
archivoPesos = "mydrive/ProyectoFinal/Weight/yolov4-prueba_3_1700.weights"
archivoSalida = "mydrive/ProyectoFinal/DatosGrafica/datos16.txt"

realizarEvaluacion(archivoData, archivoModelo, archivoPesos, archivoSalida)

### <u>**Ejecutar detecciones en Test con Mejor Modelo**</u>

In [None]:

carpetaImagenes = "BBDD_Nadadores/crops_120x120"
archivoData = "cfg/obj.data"
archivoModelo = "cfg/yolov4-fineTuning.cfg"
archivoPesos = "mydrive/ProyectoFinal/Weight/FineTuningYOLOv4/yolov4-fineTuning_2000.weights"
archivoJSON = "mejorModelo.json"
umbralDetec = 0.25
carpetaDrive = "mydrive/ProyectoFinal/MejorModelo"
umbralPredic = 0.3

realizarDeteccionImagenes(carpetaImagenes, archivoData, archivoModelo, archivoPesos, archivoJSON, umbralDetec, carpetaDrive, umbralPredic)


###**Detección en videos**

In [None]:
archivoData = "data/obj.data"
archivoModelo = "cfg/yolov4-fineTuningAmpli.cfg"
archivoPesos = "mydrive/ProyectoFinal/Weight/FineTuningYOLOv4/yolov4-prueba_3_1850.weights"
archivoVideo = "mydrive/ProyectoFinal/Videos/video3_modificado_21_28.mp4"
archivoSalida = "mydrive/ProyectoFinal/results_resultadov4_vuelta.avi"

realizarDeteccionVideo(archivoVideo, archivoData, archivoModelo, archivoPesos, archivoSalida)

In [None]:
!ls mydrive/ProyectoFinal

### Prueba parametros darknet

#### Threshold Flag

In [None]:
# this is ran without the threshold flag set
#!./darknet detector test cfg/coco.data cfg/yolov3.cfg yolov3.weights data/dog.jpg
#imShow('predictions.jpg')

In [None]:
# same detections but ran with the threshold flag set to 0.5 (pottedplant is no longer detected!)
#!./darknet detector test cfg/coco.data cfg/yolov3.cfg yolov3.weights data/dog.jpg -thresh 0.5
#imShow('predictions.jpg')

#### Output Bounding Box Coordinates

In [None]:
# darknet run with external output flag to print bounding box coordinates
#!./darknet detector test cfg/coco.data cfg/yolov3.cfg yolov3.weights data/person.jpg -ext_output
#imShow('predictions.jpg')

#### Don't Show Image

In [None]:
#!./darknet detector test cfg/coco.data cfg/yolov3.cfg yolov3.weights data/person.jpg -dont_show
#imShow('predictions.jpg')