# Modelo Detección Drowsiness (Clasificación)

"En el año 2020 perdieron la vida en España, en accidentes de tráfico, 1.370 personas y en toda la Unión Europea el número de fallecidos fue de alrededor de 18000.”

En la primera parte de este proyecto queremos intentar ajustar un modelo para poder detectar periodos de somnolencia durante la conducción, para ello vamos a usar el Drowsiness Detection Dataset disponible en Kaggle, este es un dataset de aproximadamente 41790 imágenes extraidas del dataset **Real-Life Drowsiness Dataset** (originalmente son videos). Este dataset se ha empleado para el paper “Detection and Prediction of Driver Drowsiness for the Prevention of Road Accidents Using Deep Neural Networks Techniques” que posteriormente comentaremos.

Vamos a ver algunas de las imágenes y sus labels

**Drowsiness**

![k0390.png](attachment:k0390.png)

**Non drowsiness**

![zc1670.png](attachment:zc1670.png)

Parece fácil, fiteamos una CNN esperando que el modelo aprenda de aquellas características que desvelan episodios de somnolencia (ojos cerrados, mirada cansada ...). Para ello hay que esclarecer un poco más la pipeline, al ser una tarea de clasificación es importante centrarnos en lo que queremos clasificar, por lo que vamos a emplear una primera CNN para obtener el recorte de la imágen con solo el rostro de la misma, a partir de aquí podemos reducir muchísima variabilidad ante situaciones en las que la persona está encuadrada en diferentes lugares en la imagen. Adjunto una imágen de lo que sería la pipeline:

![image.png](attachment:image.png)

### **00_download_models.py**

En el step 0, 00_download_models.py, nos encargamos de descargar un modelo de detección de rostros ya entrenado, lo llamaremos **yolov11s-face**

### **01_download_datasets.py**

En este segundo step, 01_download_datasets.py, vamos a descargar este dataset directamente desde kaggle a la carpeta de datasets/

### **02_transform_ddd_yolo.py**

A partir de ahora ya podemos hacer un split del mismo y generar el dataset con la estructura requerida por YOLO. Para ello vamos a splittear el dataset en train/test/val empleando 02_transform_ddd_yolo.py, lo que nos dejará en transformed_datasets/ el dataset con las especificaciones requeridas por YOLO (estructura de carpetas para clasificación)

### **03_train_ddd_yolo.py**

Tras entrenar con el modelo small de YOLOv11 para clasificación podemos ver como el clasificador entrena de forma perfecta. Podemos pensar en que se ha producido overfitting, pero en las imágenes de test también mantiene esta precisión. 

**Nota**: en src/config.py se pueden encontrar los hiperparámetros que mejores resultados han ofrecido para esta tarea tras un proceso de búsqueda.

### **05_launch_drowsiness_detector.py**

Mediante este script podemos lanzar inferencia en tiempo real sobre la webcam de nuestro equipo, se emplea la pipeline comentada antes, **yolov11s-face** + el modelo que acabamos de entrenar. Probando a simular situaciones de somnolencia aquellas más obvias son captadas correctamente por el modelo pero cuando intentamos mostrar una actitud de atención el modelo no sabe muy bien clasificar esto y varía mucho su respuesta entre clases.
### **Conclusión**

Por lo tanto me replanteo si este problema esta bien enfocado, llego a una conclusión clara: La somnolencia del conductor no es un estado observable en un snapshot, es decir una instantánea de una persona, más bien es un fenómeno temporal que emerge de patrones a lo largo del tiempo y del contexto acumulado. Además al entrenar con estas instantáneas se ignoran la autocorrelación y la causalidad pasado→futuro, lo que induce data leakage de información en splits aleatorios y resultados artificialmente optimistas. Por tanto, el planteamiento que se debería haber realizado es un problema en streaming.

# Modelo Detección Colisión Frontal (Segmentación de instancias)

Este segundo problema consiste en aborda la detección temprana de riesgo de colisión frontal: es decir, detectar con antelación aquellas situaciones en las que un peatón o vehículo entra en la trayectoria de nuestro coche de modo que, a la velocidad actual, la distancia de frenado y el tiempo de reacción disponibles no bastan para evitar el impacto. Para ello vamos a simular este entorno de conducción urbana con CARLA.

CARLA (Car Learning to Act) es un simulador open-source de conducción autónoma basado en Unreal Engine que permite recrear entornos urbanos realistas, con control total sobre mapas, tráfico, peatones, clima, iluminación y sensores. Ofrece APIs en Python/C++ para orquestar escenarios, registrar ground truth (cajas, segmentación, profundidad), y montar un ego-vehicle con una suite de sensores virtuales (cámaras RGB, profundidad, LiDAR, radar, GNSS, IMU, etc.). Se está desarrollando en la UAB y suele incorporar las tecnologías más novedosas de Nvidia.

Un modelo de instance segmentation es ideal para este caso, permitiendo inferir peatones y vehículos de forma precisa para poder usar esta información en nuestro módulo de detección de colisión frontal.

Para este problema únicamente nos vamos a servir de una cámara perspectiva y un sistema de actuadores para poder activar los frenos del vehículo. Situando la cámara de la misma forma que los sistemas de City Active Brake (detrás del espejo retrovisor) conseguimos una buena visión de la parte frontal del vehículo, pero el tener una cámara perspectiva complica mucho las cosas:
- Como primer problema existe un punto muerto en la parte de la matrícula, este problema es irremediable al emplear una única camara perspectiva desde la posición comentada
- Las imágenes captadas, producto de este tipo de sensores, están deformadas, todo tiende hacia un punto en la imágen, llamado el punto de fuga. Esto provoca que las alturas de cualquier objeto sean inversamente proporcionales a la distancia que existe entre el objeto y el sensor. Por suerte técnicas clásicas de visión por computador pueden ayudar a la tarea.

**Problema de Shape Reconstruction**

Mapear la cónica dual (puntos circulares) de la imágen distorsionada a su posición canónica. Se puede encontrar más información acerca de este proceso en el notebook testing/notebooks/rectify_horizontal_plane.ipynb (aquí se ha realizado affine recontruction, similar pero no recupera la imágen en el espacio euclídeo). Principalmente el shape reconstruction consiste en llevar la cónica métrica (cónica dual del infinito, i.e., los puntos circulares) de la imagen a su forma canónica, de modo que el plano observado recupere una geometría euclídea: paralelismo, ortogonalidad real y escala uniforme (quedando indeterminada solo una semejanza global: rotación, traslación y un factor de escala). En la práctica, se procede en dos pasos: (1) rectificación afín, estimando la línea del infinito a partir de dos familias de paralelas para eliminar la distorsión proyectiva; y (2) rectificación métrica, imponiendo restricciones de ortogonalidad (p. ej., dos pares de direcciones perpendiculares) para recuperar la cónica métrica y obtener la homografía que restaura ángulos y proporciones.

![image.png](attachment:image.png)

### **Recolección del dataset**

La primera tarea para resolver este problema es recolectar el dataset que vamos a usar para poder entrenar este modelo de instance segmentation, el simulador de CARLA ofrece múltiples sensores, un sensor rgb y un sensor de instance segmentation son necesarios para poder guardarnos las imágenes de la cámara y todas las instancias con sus clases presentes en la imagen. Un total de 10000 imágenes han sido capturadas de varios mapas disponibles para aumentar la diversidad de escenarios.

### **01_download_datasets.py**

En este segundo step, 01_download_datasets.py, vamos a descargar este dataset directamente desde un repositorio propio en GitHub a la carpeta de datasets/. No es necesario ningun procesamiento extra, pues ya se ha realizado previamente para subirlo a GitHub.

### **03_train_rfa_dataset_yolo.py**

Tras entrenar con el modelo small de YOLOv11 para clasificación podemos ver como el clasificador entrena de forma perfecta. Podemos pensar en que se ha producido overfitting, pero en las imágenes de test también mantiene esta precisión. 

**Nota**: en src/config.py se pueden encontrar los hiperparámetros que mejores resultados han ofrecido para esta tarea tras un proceso de búsqueda.


![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

### **06_launch_collision_detector.py**

Tras entrenar con el modelo small de YOLOv11 para clasificación podemos ver como el clasificador entrena de forma perfecta. Podemos pensar en que se ha producido overfitting, pero en las imágenes de test también mantiene esta precisión. 

La detección se realiza en tiempo real capturando la ventana del simulador y procesando cada fotograma con el modelo de segmentación entrado que identifica peatones y vehículos. Cada detección se proyecta mediante la homografía computada anteriormente **homografía** a una vista cenital del entorno, lo que permite saber con precisión si un objeto está dentro de la **zona de riesgo** situada frente al coche, que gracias a esta rectificación podemos situarla con confianza a una cierta distancia con bastante precisión y fidelidad a la realidad (rectificación métrica permitiría una precisión absoluta). Si alguna máscara o caja detectada invade esa zona más de un cierto porcentaje, el sistema interpreta que existe **riesgo de colisión** y activa automáticamente una **frenada de emergencia** simulada por teclado y una posterior marcha atrás y alejamiento respecto al vehículo/peatón de enfrente.




Video disponible del funcionamiento: https://youtu.be/59sldph0dXY