<a href="https://colab.research.google.com/github/RodolfoFerro/dl-facilito-g2/blob/main/notebooks/Deep_Learning_Clase_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Drowsiness Detection

> **Descripción:** Este proyecto consiste en el entrenamiento de una red neuronal para determinar la somnolencia de conductos a través de la detección de los ojos cerrados.<br>
> **Autor:** [Pablo Juárez del Valle] <br>
> **Contacto:** [Gmail](pablo.juarezdelvalle@gmail.com) 


## Contenido

### Preámbulo

- Reconocimiento de imagenes

### Definición del problema

La Organización Mundial de la Salud (OMS) estima que anualmente 1,35 millones de personas en el mundo resultan víctimas mortales por lesiones del tránsito y entre 20 y 50 millones padecen secuelas físicas y psicológicas, siendo esta una de las principales causas de discapacidad [1]. En Argentina, considerando el año 2019 por ser el último anterior a la aparición de la pandemia a causa del COVID-19 (hecho que modificó los datos de movilidad a nivel nacional), la Agencia Nacional de Seguridad Vial (ANSV) registró 99.221 siniestros viales con víctimas [2], los cuales dejaron como consecuencia 4.911 personas fallecidas a causa de la inseguridad vial en Argentina.

El estrés es la reacción del cuerpo a un desafío o demanda que puede provenir de cualquier situación o pensamiento de furia, ansiedad, nervios o frustración. En cambio, la fatiga, si bien coloquialmente es sinónimo de cansancio y ambas palabras se utilizan indistintamente, se encuentra acompañada de otros síntomas generales como dolor generalizado, ansiedad, depresión, apatía, alteraciones del sueño, o alteraciones de la memoria o de la concentración; mientras que el cansancio se origina como consecuencia de una actividad física [3].

El estrés y la fatiga son factores de riesgo que, en general, son difíciles de medir y ser admitidos por las/os parecientes; mucho más cuando se presentan en rubros laborales donde la conducción de vehículos es la tarea principal y la prolongación del horario tras el volante reditúa económicamente. Conducir es una tarea compleja que involucra aspectos como la percepción, el tiempo de respuesta y la capacidad física, haciendo de la coordinación moto-sensorial un punto fundamental para realizar maniobras que requieren de varios movimientos simultáneos y de manera coordinada. En tal sentido, y en línea con la literatura especializada, se entiende a la conducción de vehículos bajo fatiga y/o estrés como uno de los principales factores de riesgo de la siniestralidad vial [4].

### Objetivos

El objetivo del proyecto consiste en diseñar una ANN convolucional y entrenarla para la detección de somnolencia mediante la obtención de fotos. Los datos de entrenamiento son obtenidos de Kaggle. [5]
1. Se implementará una red convolucional siguiendo el modelo LeNet5 de Yann LeCun para su entrenamiento y posterior predicción.
2. Se desarrollará una API para cargar fotos de ojos y detectar la somnolencia.
3. Sentar las bases del prototipo para implementarlo en un dispositivo que pueda instalarse en un vehiculo y mediante la toma de fotos pueda detectar si el conductor tiene sueño.

#### Referencias

1. <a href="www.who.int/publications/i/item/9789241565684">OMS (2018): Global Status Report on Road Safety.</a>
2. <a href="www.argentina.gob.ar/sites/default/files/2018/12/ansv_ov_anuario_estadistico_2019_final.pdf">Anuario nuario Estadístico de la Seguridad Vial 2019 de la ANSV.</a>
3. <a href="https://www.infosalus.com/salud-investigacion/noticia-fatiga-cuando-debemos-sospechar-algo-no-va-bien-20210720083435.html">Publicación del 20-7-2021 en el sitio Infosalus.com, editado por Europapress, España.</a>
4. <a href="www.argentina.gob.ar/sites/default/files/ansv_observatorio_situacion_seguridad_vial_arg.pdf">ANSV (2018): Situación de la seguridad vial en Argentina.</a> 
5. <a href="https://www.kaggle.com/datasets/prasadvpatil/mrl-dataset">Detección de somnolencia en conductores</a>




## **Preámbulo**

### Redes Convolucionales


Una red neuronal convolucional es un tipo de red neuronal artificial donde las neuronas artificiales, corresponden a campos receptivos de una manera muy similar a las neuronas en la corteza visual primaria de un cerebro biológico, es decir distintas capas. Donde cada capa en la que el modelo convoluciona, aplica un filtro por ejemplo, aportando información.
Este tipo de redes son muy efectivas para tareas de visión artificial, como en la clasificación y segmentación de imágenes, entre otras aplicaciones.​ 

Un modelo de red neuronal convolucional profunda, muy difundido por el investigador Yann LeCun, es el modelo LeNet5.

<center>
    <img src="https://www.datasciencecentral.com/wp-content/uploads/2021/10/1lvvWF48t7cyRWqct13eU0w.jpeg" width="60%">
</center>

### Código

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf

from tensorflow.keras.datasets import fashion_mnist
from tensorflow.keras.models import Model
from tensorflow.keras import layers

Cargamos los datos.

In [None]:
(x_train, _), (x_test, _) = fashion_mnist.load_data()

x_train = x_train.astype('float32') / 255.
x_test = x_test.astype('float32') / 255.

print (x_train.shape)
print (x_test.shape)

In [None]:
plt.imshow(x_train[0], cmap='gray')

Creamos la clase Autoencoder con TensorFlow.

In [None]:
class Autoencoder(Model):
    def __init__(self, latent_dim):
        super(Autoencoder, self).__init__()
        self.latent_dim = latent_dim   

        # Construimos el encoder
        self.encoder = tf.keras.Sequential([

            # TODO: Añade una capa Flatten
            
            # TODO: Añade una capa Dense -> latent_dim, ReLU

        ])

        # Construimos el decoder
        self.decoder = tf.keras.Sequential([
            
            # TODO: Añade una capa Dense -> 784, Sigmoid
            
            # TODO: Añade una capa Reshape -> (28, 28)

        ])

    def call(self, x):
        # Esta función nos permite invocar los sub modelos
        # para poder hacer inferencia sobre cada uno (predict)
        encoded = self.encoder(x)
        decoded = self.decoder(encoded)
        
        return decoded

Definimos parámetros y creamos un autoencoder.

In [None]:
# Definimos dimensión de espacio latente
latent_dim = 64

# Instanciamos un autoencoder
autoencoder = Autoencoder(latent_dim)

Compilamos y entrenamos.

In [None]:
autoencoder.compile(optimizer='adam', loss='mse')

history = autoencoder.fit(x_train, x_train,
                          epochs=10,
                          shuffle=True,
                          validation_data=(x_test, x_test))

In [None]:
autoencoder.summary()

In [None]:
import matplotlib.pyplot as plt
plt.style.use('seaborn-v0_8')

x = np.arange(len(history.history['loss']))
loss = history.history['loss']
val_loss = history.history['val_loss']

plt.figure(figsize=(12, 6))
plt.plot(x, loss, label='Training')
plt.plot(x, val_loss, label='Validation')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.savefig('loss_autoencoder.png', dpi=300)

Exploramos los resultados.

In [None]:
encoded_imgs = autoencoder.encoder(x_test).numpy()
decoded_imgs = autoencoder.decoder(encoded_imgs).numpy()

In [None]:
n = 10
plt.figure(figsize=(20, 4))

for i in range(n):
    # Mostramos imagen original
    ax = plt.subplot(2, n, i + 1)
    plt.imshow(x_test[i + 121])
    plt.title("Original")
    plt.gray()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)

    # Mostramos imagen reconstruida
    ax = plt.subplot(2, n, i + 1 + n)
    plt.imshow(decoded_imgs[i + 121])
    plt.title("Reconstruida")
    plt.gray()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)

plt.show()

**Reto:** ¿Puedes mejorar aún más las reconstrucciones?

Te recomiendo explorar lo siguiente:
- Modifica el número de capas y neuronas por capa. Recuerda que debe ir disminuyendo en el encoder y aumentando en el decoder y deben tener una estructura espejeada.
- Modifica el número de épocas de entrenamiento.
- ¿Quieres intentar reconstruir cosas con convoluciones? Te invito a que lo intentes.


**Lecturas recomendadas:**
- [A 2021 Guide to improving CNNs-Optimizers: Adam vs SGD](https://medium.com/geekculture/a-2021-guide-to-improving-cnns-optimizers-adam-vs-sgd-495848ac6008)

## **Sección XI**


### Limitaciones de autoencoders básicos

- **Incapacidad para capturar información espacial:** Los autoencoders básicos pueden tener dificultades para capturar la estructura espacial de las imágenes, ya que no tienen en cuenta la información de vecindad de los píxeles.
- **Sensibilidad a las transformaciones:** Pueden ser sensibles a las transformaciones geométricas, como la rotación o el desplazamiento de la imagen, lo que puede afectar su capacidad de reconstrucción.
- **Autoencoders convolucionales como solución:** Son una variante de los autoencoders que incorporan capas convolucionales para abordar las limitaciones mencionadas.
- **Ventajas de los autoencoders convolucionales:** Mejoran con la capacidad para capturar algunas características espaciales, preservar la estructura y ser más robustos frente a transformaciones geométricas



### Autoencoders convolucionales

La estructura de un autoencoder convolucional consta de dos partes principales: el codificador (encoder) y el decodificador (decoder). Cada una de estas partes está compuesta por capas convolucionales, capas de muestreo y, en algunos casos, capas de convolución transpuesta o de upsampling. 

<center>
    <img src="https://miro.medium.com/v2/resize:fit:4800/format:webp/1*TOJD69Y8dZsKFEW-21xUPg.png" width="70%">
</center>

#### Encoder

- **Capas convolucionales:** Estas capas utilizan filtros convolucionales para extraer características de nivel superior de la entrada.
- **Capas de pooling:** Estas capas reducen la dimensionalidad de las características extraídas al realizar un muestreo o reducción de tamaño, como el max pooling.
- **Funciones de activación:** Después de cada capa convolucional y de muestreo, se aplica una función de activación no lineal, como la función ReLU (Rectified Linear Unit), para introducir no linealidad en la red.

#### Espacio latente

- **Capa de aplanamiento:** Antes de llegar al espacio latente, la salida del codificador se aplanará en un vector unidimensional.
- **Capa densa (fully connected):** La capa densa o fully connected reduce aún más la dimensionalidad y mapea las características a un espacio latente de menor dimensión. Esta capa suele tener una función de activación, como la ReLU o la tangente hiperbólica.

#### Decoder

- **Capas densas (fully connected):** En el decodificador, se utilizan capas densas para aumentar gradualmente la dimensionalidad del espacio latente y reconstruir las características originales.
- **Capas de convolución transpuesta o upsampling:** Estas capas realizan la operación inversa de las capas de muestreo, aumentando gradualmente el tamaño espacial de las características.
- **Capas de convolución:** Al final del decodificador, se utilizan capas convolucionales para generar una salida final con las mismas dimensiones que la entrada original.
- **Función de activación final:** La función de activación final depende del rango de valores de la imagen de salida. Por ejemplo, en imágenes en escala de grises, se puede utilizar una función de activación sigmoide para obtener valores entre 0 y 1.

La estructura del autoencoder convolucional puede variar según la tarea específica y los requisitos del problema. Se pueden agregar capas adicionales, como capas de regularización, capas de normalización o capas de convolución dilatadas, para mejorar el rendimiento y la capacidad de generalización del modelo.

## **Sección XII**


### Implementación y entrenamiento de los autoencoders convolucionales

In [None]:
class Denoise(Model):
    def __init__(self):
        super(Denoise, self).__init__()

        # Creamos el encoder convolucional
        self.encoder = tf.keras.Sequential([

            # TODO: Añade una capa Input -> shape=(28, 28, 1)
            
            # TODO: Añade una capa Conv2D -> 16, (3, 3), activation='relu', padding='same', strides=2
            
            # TODO: Añade una capa Conv2D -> 8, (3, 3), activation='relu', padding='same', strides=2
        
        ])

        # Creamos el decoder convolucional
        self.decoder = tf.keras.Sequential([

            # TODO: Añade una capa Conv2DTranspose -> 8, kernel_size=3, activation='relu', padding='same', strides=2
            
            # TODO: Añade una capa Conv2DTranspose -> 16, kernel_size=3, activation='relu', padding='same', strides=2
            
            # TODO: Añade una capa Conv2D -> 1, (3, 3), activation='sigmoid', padding='same'
        
        ])

    def call(self, x):
        # Esta función nos permite invocar los sub modelos
        # para poder hacer inferencia sobre cada uno (predict)
        encoded = self.encoder(x)
        decoded = self.decoder(encoded)
        
        return decoded

**Lecturas recomendadas:**

- [Convolution, Padding, Stride, and Pooling in CNN](https://medium.com/analytics-vidhya/convolution-padding-stride-and-pooling-in-cnn-13dc1f3ada26)
- [Why do we need conv2d_transpose?
](https://medium.com/@vaibhavshukla182/why-do-we-need-conv2d-transpose-2534cd2a4d98)
- [Deconvolution](https://vincmazet.github.io/bip/restoration/deconvolution.html)
- [Image Segmentation using deconvolution layer in Tensorflow](https://cv-tricks.com/image-segmentation/transpose-convolution-in-tensorflow/)

### Aplicaciones de los autoencoders convolucionales en el denoising de imágenes

Para poder explorar un ejemplo de aplicación de autoencoders donde los utilicemos para quitar el ruido de alunas imágenes, volveremos a utilizar el dataset de modas y le agregaremos algo de ruido a las imágenes. De este modo, entrenaremos a la red para que aprenda cómo debe verse una imagen a partir de una con ruido.

Cargaremos y preprocesaremos nuevamente los datos.

In [None]:
(x_train, _), (x_test, _) = fashion_mnist.load_data()

x_train = x_train.astype('float32') / 255.
x_test = x_test.astype('float32') / 255.

x_train = x_train[..., tf.newaxis]
x_test = x_test[..., tf.newaxis]

print(x_train.shape)

Agregamos ruido a los datos.

In [None]:
noise_factor = 0.2
x_train_noisy = x_train + noise_factor * tf.random.normal(shape=x_train.shape) 
x_test_noisy = x_test + noise_factor * tf.random.normal(shape=x_test.shape) 

x_train_noisy = tf.clip_by_value(x_train_noisy, clip_value_min=0., clip_value_max=1.)
x_test_noisy = tf.clip_by_value(x_test_noisy, clip_value_min=0., clip_value_max=1.)

Podemos explorar cómo se ven los datos con algo de ruido.

In [None]:
n = 10
plt.figure(figsize=(20, 2))
for i in range(n):
    ax = plt.subplot(1, n, i + 1)
    plt.title("Original + Ruido")
    plt.imshow(tf.squeeze(x_test_noisy[i]))
    plt.gray()
    ax.set_xticks([])
    ax.set_yticks([])

plt.grid(False)

Instanciaremos, compilaremos y entrenaremos un nuevo autoencoder llamado "denoiser".

In [None]:
denoiser = Denoise()

In [None]:
denoiser.compile(optimizer='adam', loss='mse')

history = denoiser.fit(x_train_noisy, x_train,
                       epochs=10,
                       shuffle=True,
                       validation_data=(x_test_noisy, x_test))

In [None]:
import matplotlib.pyplot as plt
plt.style.use('seaborn-v0_8')

x = np.arange(len(history.history['loss']))
loss = history.history['loss']
val_loss = history.history['val_loss']

plt.figure(figsize=(12, 6))
plt.plot(x, loss, label='Training')
plt.plot(x, val_loss, label='Validation')
plt.xlabel('Epochs')
plt.ylabel('Loss')
plt.legend()
plt.savefig('loss_denoiser.png', dpi=300)

Podemos explorar los detalles de ambos submodelos.

In [None]:
denoiser.encoder.summary()

In [None]:
denoiser.decoder.summary()

Aplicamos la inferencia sobre las imágenes ruidosas utilizando ambos modelos.

In [None]:
encoded_imgs = denoiser.encoder(x_test_noisy).numpy()
decoded_imgs = denoiser.decoder(encoded_imgs).numpy()

In [None]:
n = 10
plt.figure(figsize=(20, 6))


for i in range(n):

    # Mostramos original + ruido
    ax = plt.subplot(3, n, i + 1)
    plt.title("Original + Ruido")
    plt.imshow(tf.squeeze(x_test_noisy[i + 121]))
    plt.gray()
    ax.get_xaxis().set_visible(False)
    ax.get_yaxis().set_visible(False)

    # Mostramos reconstrucción
    bx = plt.subplot(3, n, i + n + 1)
    plt.title("Reconstruida")
    plt.imshow(tf.squeeze(decoded_imgs[i + 121]))
    plt.gray()
    bx.get_xaxis().set_visible(False)
    bx.get_yaxis().set_visible(False)

    # Mostramos original
    cx = plt.subplot(3, n, i + n + n + 1)
    plt.title("Original")
    plt.imshow(tf.squeeze(x_test[i + 121]))
    plt.gray()
    cx.get_xaxis().set_visible(False)
    cx.get_yaxis().set_visible(False)

plt.savefig('imagen_sin_ruido.png', dpi=300)

**Reto:** ¿Puedes mejorar aún más el modelo?

Te recomiendo explorar lo siguiente:
- Modifica el número de capas y parámetros de convolución por capa.
- Modifica el número de épocas de entrenamiento.
- Puedes explorar el remover ruido de imágenes con más canales (imágenes RGB) utilizando otros datasets.

### Trabajos relacionados y avances recientes


Ha habido varios trabajos de investigación y avances recientes que han contribuido al desarrollo de nuevas arquitecturas, técnicas de entrenamiento mejoradas y aplicaciones emergentes.

- **UNet:** Es ampliamente utilizada en el campo de la segmentación de imágenes, pero también se ha aplicado con éxito en tareas de denoising.
- **Variational Autoencoders (VAEs):** Los VAEs son una variante de los autoencoders que se utilizan para el aprendizaje de distribuciones latentes. Han demostrado ser efectivos en el denoising de imágenes al aprender representaciones latentes que siguen una distribución probabilística, lo que permite una generación más controlada y realista de imágenes limpias.
- **GANs y Autoencoders Generativos (GANs-AE):** La combinación de las GANs y los AE ha llevado al desarrollo de los GANs-AE. Estos modelos aprovechan la capacidad de los GANs para generar imágenes realistas y los autoencoders para aprender representaciones latentes eficientes. Los GANs-AE han demostrado ser efectivos en el denoising y la generación de imágenes de alta calidad.


#### **Tareas en el campo de la visión artificial**

1. **Clasificación de imágenes:** La tarea de clasificación de imágenes implica asignar una etiqueta o categoría a una imagen de entrada. Esto implica entrenar un modelo para reconocer y distinguir diferentes objetos, personas o escenas en una imagen.
2. **Detección de objetos:** La detección de objetos implica localizar y clasificar múltiples objetos en una imagen. El objetivo es detectar la presencia y la ubicación de objetos específicos en una escena, a menudo utilizando cuadros delimitadores para delinear las regiones donde se encuentran los objetos.
3. **_Denoising_ o reconstrucción de imágenes:** Consiste en eliminar o reducir el ruido presente en una imagen, obteniendo una versión más limpia y clara. Esta tarea es relevante en áreas como la fotografía, la medicina y la seguridad..
4. **Segmentación semántica:** La segmentación semántica implica asignar una etiqueta a cada píxel de una imagen para identificar y delimitar las diferentes regiones o objetos presentes. El objetivo es comprender la estructura y el contenido de una imagen a nivel de píxel.
5. **Detección de rostros:** La detección de rostros es una tarea específica de la visión artificial que implica detectar y localizar los rostros en una imagen. Es ampliamente utilizado en aplicaciones de reconocimiento facial, análisis de emociones y sistemas de seguridad.
6. **Reconocimiento y verificación facial:** El reconocimiento facial se refiere a la tarea de identificar y reconocer a una persona específica a partir de una imagen o secuencia de imágenes. La verificación facial se enfoca en verificar si una imagen de rostro coincide con una identidad específica.
7. **Estimación de pose:** La estimación de pose se refiere a la tarea de determinar la posición y orientación de un objeto o persona en una imagen. Esto implica detectar y rastrear las articulaciones o puntos clave en una imagen para comprender la postura y el movimiento.
8. **Estimación de profundidad:** La estimación de profundidad implica inferir la información de la distancia o la profundidad de los objetos en una imagen. Es útil en aplicaciones de realidad virtual, conducción autónoma y sistemas de navegación.
9. **Super-resolución:** La super-resolución se refiere a aumentar la resolución o la calidad de una imagen de baja resolución. El objetivo es generar una versión de alta resolución que capture más detalles y claridad.


--------

> Contenido creado por **Rodolfo Ferro**, 2023. <br>
> Puedes contactarme a través de Insta ([@rodo_ferro](https://www.instagram.com/rodo_ferro/)) o Twitter ([@rodo_ferro](https://twitter.com/rodo_ferro)).