# Reporte escrito examen 2024 Patricio A. Villanueva Gio

### Introducción

Este proyecto tiene como objetivo demostrar las habilidades adquiridas durante la clase **Proyecto de Ciencia de Datos**, impartida por el profesor [Cristian Camilo Zapata Zuluaga](https://github.com/zapatacc/), en el quinto semestre de la carrera de Ingeniería en Ciencia de Datos en el Instituto Tecnológico y de Estudios Superiores de Occidente (ITESO). A través de este trabajo, se busca realizar un análisis profundo de los datos, comprender la estructura de los proyectos de ciencia de datos, implementar modelos de *machine learning* para obtener predicciones óptimas y, además, dominar la orquestación de flujos mediante *pipelines* con Prefect para automatizar los procesos.

### Índice

1. **Entendimiento del problema**

2. **Análisis Exploratorio de los Datos (EDA)**
3. **Flujos de Datos y Estructura del Proyecto**
   - Organización de archivos y carpetas
   - Documentación técnica
4. **Entrenamiento de Modelos**
   - Experimentación y *hyperparameter tuning*
   - Comparación y selección de modelos (*Champion* y *Challenger*)
   - Registro en el Model Registry
5. **Pipelines de Automatización y Tracking**
   - Orquestación con Prefect
   - Ejecución local y configuración con MLflow
6. **Desarrollo de la Aplicación**
   - **Interfaz de Usuario (Frontend)**:
     - Diseño con Streamlit
   - **Modelo y API (Backend)**:
     - Implementación con FastAPI 
7. **Creación de Contenedores**
   - Configuración de Docker y docker-compose
8. **Conclusiones y Reflexiones Finales**

--- 
### 1. Entendimiento del Problema

El primer paso consistió en comprender el problema de inicio a fin. Esto requirió una lectura detallada de la descripción del caso, que se basa en el análisis de reseñas en línea para clasificar y predecir a qué grupo específico de productos pertenece cada reseña. En esencia, nos enfrentamos a un problema de **clasificación multiclase** que requiere el uso de herramientas de **Procesamiento de Lenguaje Natural (NLP)** para construir modelos de *machine learning* que clasifiquen las reseñas a partir de su texto. 

Adicionalmente, este análisis inicial permitió visualizar las necesidades de los usuarios finales y, por ende, planificar el desarrollo del **frontend**, priorizando una interfaz amigable e intuitiva para facilitar la interacción de diversos usuarios con la plataforma.

---

### 2. Análisis Exploratorio de los Datos (EDA)

Para explorar y preparar los datos, se creó un *notebook* dedicado, disponible en `notebooks/eda.ipynb`. Este contiene todo el desarrollo del análisis exploratorio de los datos. A continuación, se destacan los puntos principales:

- **Limpieza de los Datos**:  
  Los datos presentaban inconsistencias y requerían un tratamiento específico. Algunos aspectos clave de este proceso fueron:
  - **Normalización**: Los datos estaban almacenados en formato JSON, por lo que se normalizaron para convertirlos en un formato tabular (*dataframe*).
  - **Filtrado de columnas relevantes**: Se seleccionaron únicamente las columnas necesarias para el análisis:  
    - `"_source.complaint_what_happened"`  
    - `"_source.product"`  
    - `"_source.sub_product"`  
  - **Renombrado de columnas**: Las columnas se renombraron para mejorar su legibilidad y facilidad de uso en los siguientes pasos.

- **Ingeniería de Características**:  
  Se llevó a cabo una pequeña etapa de ingeniería de características para ajustar los datos a los requisitos del modelo. El resultado final de este proceso dejó los datos en un formato limpio y estructurado, adecuado para su uso en las siguientes etapas del proyecto.

- **Tratado de Nulos**:  
  Durante la limpieza de los datos, se identificó un caso particular con valores nulos. Aunque inicialmente parecía que no había valores faltantes evidentes (`NaN`), se descubrió que ciertos campos contenían un valor vacío (`""`), lo cual representa un carácter nulo (`'\0'`). 

  Para manejar este problema:
  - Se convirtieron estos valores vacíos explícitos a `NaN` para facilitar su identificación.
  - Posteriormente, se realizó un filtrado para eliminar estos registros nulos y garantizar la calidad de los datos.  

Este enfoque sistemático aseguró que los datos estuvieran preparados para entrenar modelos precisos y confiables, además de proporcionar información valiosa para el desarrollo del resto del proyecto.

El resultado final de este proceso fue:

![image.png](attachment:image.png)

- **Ultimas modificaciones**:
  Se detectaron varias categorias que tenian muy pocos registros (Algunas contaban solo con 1 registro por lo que no seria factile evaluar al modelo con ellas)