## Proyecto final
1. Recuerde que se divide en dos partes:
    - Informe escrito y código
    - Presentación
2. Habrá entregas parciales, las cuales son un prerrequisito para el proyecto final.
    - La calificación de dichas entregas entran en el apartado de tares y trabajo en clase.
    - Primera entrega:
        + Introducción
        + Antecedentes
        + Objetivos
        + Planteamiento del problema
        + EDA
        + Data Wrangling
3. Crear un repositorio en Github, añadir a los compañeros como colaboradores.
4. **Trabajo en clase (del proyecto) hoy Lunes 4 de Marzo de 2024.**
5. Fecha de entrega: Lunes 11 de Marzo de 2024 a las 19:55

___
### Título del trabajo: Sonic Saviors v2

#### 2. **Introducción:**

La búsqueda de soluciones para la reducción o supresión de ruido en archivos de audio ha sido un desafío constante en el campo del procesamiento de señales. En esta nueva iteración de nuestro proyecto, denominado "Sonic Saviors v2", nos enfocamos en mejorar la calidad sonora de grabaciones contaminadas por ruido no deseado mediante el uso de técnicas avanzadas de ciencia de datos y aprendizaje profundo.

#### 3. **Antecedentes:**

El procesamiento de audio, especialmente en entornos donde la calidad del sonido es crucial, ha sido objeto de investigación durante décadas. En nuestro trabajo anterior, "Sonic Saviors", exploramos enfoques innovadores para la reducción de ruido en señales de audio utilizando autoencoders. Estas investigaciones previas nos han proporcionado una base sólida para abordar el problema actual y mejorar nuestras soluciones.

#### 4. **Objetivos:**

**Objetivos Generales:**
El propósito fundamental de "Sonic Saviors v2" es aplicar conceptos avanzados de ciencia de datos y aprendizaje profundo para desarrollar un modelo que sea capaz de eliminar el ruido no deseado de las grabaciones de audio. Nuestro objetivo es mejorar significativamente la calidad sonora de las señales contaminadas por ruido.

**Objetivos Específicos:**
1. Realizar un exhaustivo análisis exploratorio de datos (EDA) para comprender las características y la distribución del ruido en las grabaciones de audio.
2. Preprocesar y limpiar los datos para eliminar artefactos y valores atípicos que puedan afectar la calidad del modelo.
3. Entrenar modelos de autoencoder utilizando técnicas de ciencia de datos avanzadas para la reducción de ruido en dos niveles: a nivel de características y a nivel de audio.
4. Implementar un sistema de registro de experimentos utilizando MLflow para rastrear el rendimiento de los modelos y optimizar los parámetros.
5. Seleccionar el mejor modelo en función de métricas de rendimiento y despliegue del modelo en una infraestructura en la nube para su uso práctico.

#### 5. **Planteamiento del problema:**

El ruido en las grabaciones de audio es un problema común que puede degradar significativamente la calidad del sonido y afectar la experiencia del usuario. En entornos donde la precisión y la fidelidad del audio son críticas, como en la industria de la música, la grabación de voz o la transmisión de audio, la presencia de ruido no deseado puede ser especialmente perjudicial. El desafío consiste en desarrollar un modelo eficaz que pueda discernir entre el ruido y la señal deseada, y eliminar selectivamente el ruido sin afectar negativamente la calidad del audio.

#### 6. **Desarrollo de la solución:**
Esta es la parte central del informe y debe dividirse en varias subsecciones:

+ **EDA (Análisis Exploratorio de Datos):** Aquí, los estudiantes deben mostrar cómo exploraron y analizaron los datos, identificando tendencias, patrones y características importantes.

+ **Data Wrangling:** En esta sección, se describe cómo se limpiaron y prepararon los datos para su análisis, incluyendo la eliminación de valores atípicos y la imputación de datos faltantes.

+ **Dataset final a trabajar:** Los estudiantes deben explicar qué datos seleccionaron para su proyecto y por qué eligieron esos datos específicos.

+ **Entrenamiento del modelo con MLflow:** En esta parte, se detalla cómo se entrenó el modelo de ciencia de datos. Deben utilizar MLflow para registrar los experimentos, incluyendo diferentes configuraciones de modelos y parámetros. Además, deben grabar métricas relevantes para evaluar el rendimiento de los modelos.

+ **Selección del mejor modelo:** Con base en los experimentos registrados en MLflow, se debe identificar y seleccionar el modelo que mejor desempeño y métricas muestra.

+ **Servir el modelo (API) con el mejor desempeño:** Describe cómo se creó una API para servir el modelo con el mejor rendimiento y métricas a través de una interfaz web o un servicio.

+ **Conteneirizar del servicio:** Explica cómo se empaquetó el servicio y se subió a una plataforma de nube, lo que puede incluir el uso de contenedores como Docker.

+ **Despliegue del servicio en la nube:** Detalla cómo se implementó el servicio en la nube, cómo se configuraron los recursos. La API se despliega utilizando el modelo que ha mostrado el mejor rendimiento y métricas durante los experimentos.


#### 7. **Conclusiones:**
En esta sección, los estudiantes deben resumir los resultados del proyecto, destacar los logros, discutir los desafíos enfrentados y brindar recomendaciones o posibles mejoras futuras.

#### 8. **Referencias:**
Dataset: https://research.google.com/audioset/dataset/speech.html

Los estudiantes deben proporcionar una lista de todas las fuentes, libros, documentos técnicos, sitios web y recursos utilizados durante el proyecto. Esto incluye cualquier bibliografía y recursos citados en el informe.

NOTA: El proyecto se debe encontrar en un repositorio de `dagshub` que al mismo tiempo debe estar ligado a un repositorio en `github`.

El repositorio debe tener la siguiente estructura

```
Proyecto de Ciencia de Datos
├── Informe Escrito
│   └── PrimerNombrePrimerApellido.ipynb
├── Data
│   ├── Raw Data (folder)
│   └── Clean Data (folder)
├── Entrenamiento
│   └── training.ipynb
├── EDA
│   └── EDA.ipynb
└── API
    ├── app.py
    ├── Dockerfile
    └── requirements.txt
```

___
## 2 Presentación.
> Recuerden que la nota del proyecto es mitad el trabajo, y mitad la presentación. Deben hacer una presentación en power point para presentar el trabajo en la clase. La presentación, además de llevar todos los componentes básicos descritos en el entregable, debe llevar una tabla de contenido.
>
> - Presentación: 15 minutos.
> - Seguir estas recomendaciones:
    > - https://www.ncsl.org/legislative-staff/lscc/tips-for-making-effective-powerpoint-presentations
    > - https://www.trentu.ca/academicskills/how-guides/how-write-university/how-approach-any-assignment/creating-effective-powerpoint-slides

<script>
  $(document).ready(function(){
    $('div.prompt').hide();
    $('div.back-to-top').hide();
    $('nav#menubar').hide();
    $('.breadcrumb').hide();
    $('.hidden-print').hide();
  });
</script>

<footer id="attribution" style="float:right; color:#808080; background:#fff;">
Created with Jupyter by Cristian Camilo Zapata Zuluaga.
</footer>

Rafael Juarez Badillo Chavez, Xa