Proyecto final
- Curso: TÉCNICAS AVANZADAS DE DATA MINING Y SISTEMAS INTELIGENTES
- Clase del 2020-1
- Maestría en informática - Mención en ciencias de la computación
El proyecto tiene como objetivo la detección de gritos humanos en audios que están basados en sonidos de máquinas o herramientas en funcionamiento encontradas en el conjunto de datos UrbanSound8K. Para el proyecto se añadirá a este conjunto de datos sonidos que resulten de la fusión del conjunto original con gritos humanos, procedentes de otros conjuntos de datos, y se buscará determinar con un modelo en que audios se encuentran gritos y en cuáles no.
Para la aplicación se entrenaron 2 modelos: CNN y LSTM. A continuación se presenta los resultados del entrenamiento de la CNN para el accuracy con los sets de entrenamiento y validación:
Analizando la probabilidad de presencia de gritos en un track de larga duración:
El proyecto cuentas con las siguientes carpetas:
📁 PRESENTACION PARCIAL (Ver) .- Contiene los archivos que formaron parte de la presentación parcial del trabajo que inspiro este proyecto. Se cuenta con la presentación en PDF y el modelo en un Python Notebook
📁 ENUNCIADO PROYECTO (Ver) .- Contiene el archivo con la propuesta del proyecto.
📁 MEZCLA DE AUDIO (Ver) .- Contienen los scripts que se utilizaron para realizar la mezcla de los audios base con los gritos. En la acción de generar las mezclas se etiqueto el tiempo exacto en el que comienza el grito y se estandarizo que el mismo sea de 1s. Se presenta tambien Base.wav y Grito.wav como representantes de un audio base obtenido del dataset Urban Sound 8K y los datasets de gritos respectivamente.
📁 MODELOS (Ver) .- En esta carpeta se almacenan los cuadernos con las experimentaciones hechas con distintos modelos usando los datasets de audios mezclados.
📁 MODELOS FINALES (Ver) .- En esta carpeta hemos almacenado los modelos con mejor performance en las pruebas, estos contienen gráficas de su entrenamiento y un archivo donde se ponen a prueba.
📁 IMAGENES (Ver) .- Contiene algunas imagenes usadas en este archivo.
- Clonar el proyecto, usar:
git clone https://github.com/fararay/Scream_Detector.git- Instalar las dependencias requeridas por el cuaderno que usted desee ejecutar.
# Instalamos las dependencias del proyecto
!pip install xxxxxxxx'-
Descargar los datasets solicitados por el cuaderno de los enlaces listados a continuación.
-
Ejecutar el cuaderno.
-
Dataset compilación de gritos (Dataset)
-
Dataset habla humana no gritos (Dataset)
-
Dataset de audios base UrbanSound8K (Dataset)
-
Jose Ulises Morales Pariona - Github
La licencia de este proyecto es del tipo GNU General Public License v3.0 (Ver)


