El objetivo de este proyecto es detectar objetos en tiempo real pertenecientes a coches, peatones, ciclistas, camiones y semáforos, para la conducción autónoma. Para ello analizaremos imágenes de la vía pública, con el objetivo de que nuestro sistema localice y clasifique los diferentes objetos contenidos en las imágenes sin necesidad de supervisión humana. El conjunto de datos que hemos utilizado lo encontramos en Kaggle.
El conjunto de datos comprende más de 22 mil imágenes de conducción e información sobre los elementos ya etiquetados en las imágenes. Utilizando estos datos, entrenaremos un modelo de red neuronal preentrenada YOLOv8, que detectará e identificará los objetos comprendidos en una de estas 5 clases: coches, peatones, ciclistas, camiones y semáforos. Para ello divideremos los datos en datos de entrenamiento y datos de prueba.
Procesaremos las imágenes y las convertiremos al formato necesario para llevar a cabo el entrenamiento de YOLOv8.
Dividiremos las imágenes en 3 subconjuntos de datos: entrenamiento (train), validación (val) y pruebas (test).
Llevaremos a cabo el entrenamiento de la red para adaptar su funcionamiento a nuestro conjunto de datos. Establecimos una duración del entrenamiento de 20 epochs. Una vez entrenado guardaremos los mejores pesos alcanzados y evaluremos los resultados de precisión y pérdida para ajustar el entrenamiento.
Probaremos el modelo sobre el conjunto de datos de prueba y obtendremos la matriz de confusión resultante.
Una vez que tenemos el modelo listo, lo integraremos con Streamlit Share y lo probaremos sobre nuevos datos. Encontrarás nuestro proyecto en el siguiente enlace.
Aquí puedes ver un ejemplo de los resultados!⬇️
clip.mp4
Marta Búa Fernández ➡️ Ir al perfil de LinkedIn
Laura Arufe Jorge ➡️ Ir al perfil de LinkedIn