Universidad: Universidad de Las Palmas de Gran Canaria
Titulación: Grado en Ingeniería Informática
Título: Verificación en escenarios multinivel con presencia de robots asistentes
Autor: Kevin David Rosales Santana
Tutores: Modesto Fernando Castrillón Santana y José Javier Lorenzo Navarro.
AVISO: El repositorio original tuvo que ser eliminado cuando se publicó el presente repositorio para proteger los derechos de las identidades que se encontraban en versiones antiguas de los cuadernos Jupyter y no firmaron el acuerdo de consentimiento de divulgación de sus imágenes (ver apartado de Normativa y Legislación en la Memoria del Trabajo de Fin de Grado).
La introducción de robots de servicio como asistentes en edificios enfrentándose a problemas diferentes a los existentes actualmente, como el guiado de personas en una única planta, será una realidad en años venideros. Uno de estos es la cooperación bajo interacción hombre-máquina entre varios robots ubicados en diversos pisos de dicho edificio, planteando una comunicación donde uno, localizado en una planta distinta, reconozca a la persona orientada inicialmente en otra entre varias, continuando la colaboración. Para resolver este problema de verificación de identidad se usará el conjunto de datos AveRobot, cuyas condiciones de captura no ideales implican un reto que será encarado estudiando tecnologías biométricas faciales y analizando técnicas de detección, generación y distancia de vectores descriptores o redes neuronales.
Toda la información del proyecto se puede encontrar en la Memoria del Trabajo de Fin de Grado entregada junto al enlace de este repositorio y al Manual de Usuario.
Si se tiene cualquier duda, se puede contactar con el autor vía correo electrónico universitario:
La asistencia necesaria para la correcta navegación y análisis del repositorio se puede encontrar en el Manual de Usuario entregado junto al enlace al presente repositorio.
- EER: Equal Error Rate.
- ACC: Test accuracy con el mismo número de pares de vídeos con la misma persona y con distinta persona.
Localización: zona del ascensor del Subconjunto de Vídeos B.
Modelo | Descripción Breve | Mejor umbral | EER | Mejor confianza | ACC |
---|---|---|---|---|---|
1 | Detección con MTCNN sin normalización + 4 fotogramas máximos por vídeo + FaceNet + L2 + distancia euclídea | 1.16 | 0.105 | 31.3% | 93.09% |
2 | Detección con MTCNN con normalización mediante redimensión + 4 fotogramas máximos por vídeo + FaceNet + L2 + distancia euclídea | 1.13 | 0.083 | 44.4% | 94.31% |
3 | Detección con MTCNN con normalización básica basada en doble detección + 4 fotogramas máximos por vídeo + FaceNet + L2 + distancia euclídea | 1.19 | 0.167 | 44.4% | 87.81% |
4 | Detección con MTCNN con normalización básica basada en recorte estático + 4 fotogramas máximos por vídeo + FaceNet + L2 + distancia euclídea | 1.12 | 0.109 | 25.3% | 93.09% |
5 | Detección con MTCNN con normalización mediante redimensión + 4 fotogramas máximos por vídeo + FaceNet + L2 + distancia coseno | 0.64 | 0.085 | 44.4% | 94.31% |
6 | Detección con MTCNN con normalización mediante redimensión + 1 fotograma de selección manual por vídeo + FaceNet + L2 + distancia euclídea | 1.10 | 0.057 | - | 95.94% |
7 | Detección con MTCNN con normalización mediante redimensión + 1 fotograma de selección manual por vídeo + FaceNet + L2 + distancia coseno | 0.61 | 0.060 | - | 95.53% |
8 | Detección con DLIB - MMOD con normalización mediante redimensión + 4 fotogramas máximos por vídeo + FaceNet + L2 + distancia euclídea | 1.17 | 0.145 | 50.5% | 90.65% |
9 | Detección con DLIB - HOG con normalización mediante redimensión + 4 fotogramas máximos por vídeo + FaceNet + L2 + distancia euclídea | 1.13 | 0.107 | 62.6% | 95.12% |
10 | Detección con MTCNN con normalización mediante redimensión + 4 fotogramas máximos por vídeo + VGGFace2 (ResNet50) + L2 + distancia euclídea | 1.03 | 0.017 | 13.1% | 100% |
Se puede consultar información más detallada en la sección 7.1.3 de la Memoria del Trabajo de Fin de Grado.
Todos los errores y tasas de acierto tratan de ser calculados con el mismo número de pares de vídeos con la misma persona y con distinta persona. Todas los prototipos construidos en este tipo de verificación hacen uso de descriptores de FaceNet.
- T_LOSS: Training loss.
- T_ACC: Training accuracy.
- V_LOSS: Validation loss.
- V_ACC: Validation accuracy.
- LOSS: Test loss.
- ACC: Test accuracy.
Localización: zona del ascensor del Subconjunto de Vídeos B.
Modelo | Características de la red | T_LOSS | T_ACC | V_LOSS | V_ACC | LOSS | ACC |
---|---|---|---|---|---|---|---|
1 | 4 embeddings (2 por vídeo) aportados por MTCNN y DLIB - MMOD | 0.045 | 99.13% | 0.029 | 99.28% | 0.422 | 82.9% |
2 | 4 embeddings (2 por vídeo) aportados por MTCNN y DLIB - MMOD restados entre sí | 0.013 | 99.77% | 0.007 | 99.87% | 0.358 | 88.5% |
3 | 4 embeddings (2 por vídeo) aportados por MTCNN y DLIB (MMOD) restados entre sí con valor absoluto | 0.119 | 97.62% | 0.077 | 98.29% | 0.209 | 92.3% |
4 | 4 embeddings (2 por vídeo) aportados por MTCNN y DLIB (MMOD) restados entre sí con valor absoluto usando un solo fotograma por vídeo. | 0.095 | 99.26% | 0.241 | 89.88% | 0.264 | 90.0% |
5 | 2 embeddings (1 por vídeo) aportados por MTCNN restados entre sí con valor absoluto | 0.029 | 99.32% | 0.031 | 99.03% | 0.206 | 92.8% |
6 | 2 embeddings (1 por vídeo) aportados por MTCNN restados entre sí con valor absoluto usando el Teorema de Kolmogorov | 0.122 | 95.12% | 0.096 | 96.73% | 0.183 | 93.3% |
7 | 2 embeddings (1 por vídeo) aportados por MTCNN restados entre sí con valor absoluto usando el Teorema de Kolmogorov e introduciendo en una de sus capas la distancia euclídea | 0.039 | 98.80% | 0.215 | 92.34% | 0.417 | 88.2% |
8 | 2 embeddings (1 por vídeo) aportados por MTCNN restados entre sí con valor absoluto usando el Teorema de Kolmogorov alterado e introduciendo en una de sus capas la distancia euclídea | 0.130 | 95.96% | 0.195 | 93.38% | 0.342 | 86.8% |
9 | 2 embeddings (1 por vídeo) aportados por MTCNN restados entre sí con valor absoluto usando el Teorema de Kolmogorov y manteniendo los 2 embeddings originales | 0.018 | 99.67% | 0.096 | 96.24% | 0.240 | 92.6% |
Se puede consultar información más detallada en la sección 7.2.3 de la Memoria del Trabajo de Fin de Grado.
- LOSS_NN: Test loss en el prototipo 6 de verificación mediante redes neuronales.
- ACC_NN: Test accuracy en el prototipo 6 de verificación mediante redes neuronales.
- EER: Equal Error Rate en el prototipo 10 de verificación mediante umbral de distancia.
- ACC_UMB: Test Accuracy en el prototipo 10 de verificación mediante umbral de distancia.
Subconjunto de vídeos | Cámaras | Localización | Dificultad | LOSS_NN | ACC_NN | EER | ACC_UMB | Fichero |
---|---|---|---|---|---|---|---|---|
A | [2,3,8] | Aleatoria | Difícil | 0.884 | 64.9% | 0.084 | 95.12% | random.ipynb |
B | [2,5,8] | Ascensor | Normal | 0.183 | 93.3% | 0.017 | 100% | main-lift.ipynb |
C | [2,5,8] | Pasillo | Muy difícil | 0.790 | 59.2% | 0.092 | 91.46% | corridor.ipynb |
D | [2,5,8] | Escalera | Muy difícil | 0.624 | 65.5% | 0.103 | 92.68% | stairs.ipynb |
Se puede consultar información más detallada en la sección 7.3 de la Memoria del Trabajo de Fin de Grado.