# Reporte escrito examen 2024 Patricio A. Villanueva Gio

### Introducción

Este proyecto tiene como objetivo demostrar las habilidades adquiridas durante la clase **Proyecto de Ciencia de Datos**, impartida por el profesor [Cristian Camilo Zapata Zuluaga](https://github.com/zapatacc/), en el quinto semestre de la carrera de Ingeniería en Ciencia de Datos en el Instituto Tecnológico y de Estudios Superiores de Occidente (ITESO). A través de este trabajo, se busca realizar un análisis profundo de los datos, comprender la estructura de los proyectos de ciencia de datos, implementar modelos de *machine learning* para obtener predicciones óptimas y, además, dominar la orquestación de flujos mediante *pipelines* con Prefect para automatizar los procesos.

### Índice

1. **Entendimiento del problema**

2. **Análisis Exploratorio de los Datos (EDA)**
3. **Flujos de Datos y Estructura del Proyecto**
   - Organización de archivos y carpetas
   - Documentación técnica
4. **Entrenamiento de Modelos**
   - Experimentación y *hyperparameter tuning*
   - Comparación y selección de modelos (*Champion* y *Challenger*)
   - Registro en el Model Registry
5. **Pipelines de Automatización y Tracking**
   - Orquestación con Prefect
   - Ejecución local y configuración con MLflow
6. **Desarrollo de la Aplicación**
   - **Interfaz de Usuario (Frontend)**:
     - Diseño con Streamlit
   - **Modelo y API (Backend)**:
     - Implementación con FastAPI 
7. **Conclusiones y Reflexiones Finales**

--- 
### 1. Entendimiento del Problema

El primer paso consistió en comprender el problema de inicio a fin. Esto requirió una lectura detallada de la descripción del caso, que se basa en el análisis de reseñas en línea para clasificar y predecir a qué grupo específico de productos pertenece cada reseña. En esencia, nos enfrentamos a un problema de **clasificación multiclase** que requiere el uso de herramientas de **Procesamiento de Lenguaje Natural (NLP)** para construir modelos de *machine learning* que clasifiquen las reseñas a partir de su texto. 

Adicionalmente, este análisis inicial permitió visualizar las necesidades de los usuarios finales y, por ende, planificar el desarrollo del **frontend**, priorizando una interfaz amigable e intuitiva para facilitar la interacción de diversos usuarios con la plataforma.

---

### 2. Análisis Exploratorio de los Datos (EDA)

Para explorar y preparar los datos, se creó un *notebook* dedicado, disponible en `notebooks/eda.ipynb`. Este contiene todo el desarrollo del análisis exploratorio de los datos. A continuación, se destacan los puntos principales:

- **Limpieza de los Datos**:  
  Los datos presentaban inconsistencias y requerían un tratamiento específico. Algunos aspectos clave de este proceso fueron:
  - **Normalización**: Los datos estaban almacenados en formato JSON, por lo que se normalizaron para convertirlos en un formato tabular (*dataframe*).
  - **Filtrado de columnas relevantes**: Se seleccionaron únicamente las columnas necesarias para el análisis:  
    - `"_source.complaint_what_happened"`  
    - `"_source.product"`  
    - `"_source.sub_product"`  
  - **Renombrado de columnas**: Las columnas se renombraron para mejorar su legibilidad y facilidad de uso en los siguientes pasos.

- **Ingeniería de Características**:  
  Se llevó a cabo una pequeña etapa de ingeniería de características para ajustar los datos a los requisitos del modelo. El resultado final de este proceso dejó los datos en un formato limpio y estructurado, adecuado para su uso en las siguientes etapas del proyecto.

- **Tratado de Nulos**:  
  Durante la limpieza de los datos, se identificó un caso particular con valores nulos. Aunque inicialmente parecía que no había valores faltantes evidentes (`NaN`), se descubrió que ciertos campos contenían un valor vacío (`""`), lo cual representa un carácter nulo (`'\0'`). 

  Para manejar este problema:
  - Se convirtieron estos valores vacíos explícitos a `NaN` para facilitar su identificación.
  - Posteriormente, se realizó un filtrado para eliminar estos registros nulos y garantizar la calidad de los datos.  

Este enfoque sistemático aseguró que los datos estuvieran preparados para entrenar modelos precisos y confiables, además de proporcionar información valiosa para el desarrollo del resto del proyecto.


- **Ultimas modificaciones**:

  Se detectaron varias categorias que tenian muy pocos registros (Algunas contaban solo con 1 registro) ya que no seria factile evaluar al modelo con ellas, se seleccionaron solo aquellas con por lo menos 100 registros, se que suena exagerdo pero sin la cantidad de registros suficientes son valores impredecibles que solo meteran ruido al modelo y haran que este ajuste peor 

---

### 3. Flujo de Datos y Estructura del Proyecto

El proyecto fue diseñado para facilitar la recepción de retroalimentación y la integración de nuevos datos para entrenamiento, asegurando un flujo eficiente y organizado. Para cumplir con este propósito, se definieron dos estructuras clave: la organización de los datos y la estructura de la aplicación.

#### Organización de los Datos

El proyecto cuenta con una carpeta principal denominada `data`, que contiene tres subdirectorios:

1. **`raw_data`**:  
   Almacena toda la información nueva que recibe el modelo como entrada del usuario. Esta es la fuente inicial de datos, aún sin procesar.

2. **`preprocessed_data`**:  
   Contiene los datos que ya han pasado por los procesos de normalización y selección de características descritos en el EDA. Estos datos están estructurados y preparados para análisis o entrenamiento preliminar.

3. **`clean_data`**:  
   Aquí se almacenan los datos en su forma más refinada. Estos han sido procesados para eliminar *stopwords*, caracteres no deseados y registros irrelevantes. Además, se ha realizado un filtrado para garantizar una cantidad equilibrada de registros por cada categoría a predecir.

Esta organización permite un manejo claro y eficiente de los datos en diferentes etapas del proyecto, asegurando trazabilidad y facilidad de actualización.

#### Estructura de la Aplicación

La aplicación se organizó en un directorio llamado `app`, dividido en dos subdirectorios:

1. **`UI`**:  
   Diseñado para la interfaz de usuario, desarrollada con **Streamlit**. Aquí se concentran los archivos necesarios para crear una experiencia amigable y accesible para los usuarios finales.

2. **`model`**:  
   Contiene el backend de la aplicación, desarrollado con **FastAPI**. Este subdirectorio maneja las operaciones relacionadas con el modelo, incluyendo las inferencias y la interacción con los datos procesados.

#### Integración con Docker

Ambas estructuras fueron pensadas para facilitar la implementación de la aplicación en contenedores mediante **Docker**, permitiendo una creación, despliegue y monitoreo oportunos. Esta organización asegura que los componentes puedan ser actualizados o modificados de manera modular, mejorando la eficiencia y mantenibilidad del proyecto.

### 4. Entrenamiento de Modelos y Selección del Mejor Modelo (*Champion*)
Para ver mejor el apartado de entrenamiento del modelo puedes ir al notebook `notebooks/training.ipynb` donde podras ver el codigo comentado y explicado bagamente igual aqui te dejo un resumen de los puntos clave que permitieron la ejecucion completa del entrenamiento en local y en dagshub (__Importante recalcar que este no esta automatizado el automatizado lo veremos más adelante en el pipeline__)

El enfoque para el entrenamiento de modelos incluyó los siguientes pasos principales, utilizando **GridSearchCV** para optimizar los hiperparámetros y **MLflow** para realizar el seguimiento y registro de experimentos.

#### 1. **Preprocesamiento de los Datos**
Se utilizó el campo de texto `complaint_what_happened` como entrada (`X`) y la columna `ticket_classification` como etiquetas de salida (`y`). Estas etiquetas fueron codificadas como valores enteros mediante un `LabelEncoder`. Posteriormente:
- Los datos se dividieron en conjuntos de entrenamiento (60%) y prueba (40%), asegurando una distribución balanceada por clase usando `stratify`.
- Para evitar problemas con clases desconocidas en el conjunto de prueba, se filtraron las instancias que no estaban presentes en las clases del conjunto de entrenamiento.
- Se utilizó `TfidfVectorizer` para transformar el texto en representaciones numéricas (*TF-IDF*), generando matrices esparcidas para el modelo.

#### 2. **Definición de Modelos y Búsqueda de Hiperparámetros**
Se definieron varios modelos con sus respectivos hiperparámetros para explorar sus configuraciones óptimas:
- **Regresión Logística**:
  - Parámetros optimizados: `C` (regularización) y `penalty` (tipo de penalización).
- **Random Forest**:
  - Parámetros optimizados: `n_estimators`, `max_depth`, `min_samples_split`, y `min_samples_leaf`.

Cada modelo se entrenó usando **GridSearchCV**, evaluando combinaciones de hiperparámetros mediante validación cruzada (*cross-validation*) con tres pliegues y utilizando `accuracy` como métrica de evaluación.

#### 3. **Tracking con MLflow**
Durante el entrenamiento, cada modelo se ejecutó en un experimento con seguimiento de MLflow:
- Se registraron los **hiperparámetros óptimos** encontrados por GridSearchCV.
- Se calcularon las métricas de desempeño en el conjunto de prueba, incluyendo:
  - `accuracy`
  - `precision`
  - `recall`
  - `f1_score` (promedio ponderado).
- Se almacenó el mejor modelo encontrado como un artefacto en MLflow.

#### 4. **Selección del Mejor Modelo (*Champion*)**
Después de realizar los experimentos:
- Los *runs* del experimento se recuperaron usando el cliente de MLflow.
- Se evaluó el desempeño de cada modelo en términos de la métrica `accuracy`.
- El modelo con la mayor precisión se identificó como el mejor modelo (*Champion*).

#### 5. **Registro del Modelo en MLflow Model Registry**
El mejor modelo se registró en el **Model Registry** de MLflow:
- Se asignó un alias `champion` al modelo.
- El modelo se transicionó a la etapa **Production**, asegurando que versiones anteriores fueran archivadas.

#### Resultado Final
El modelo con mejor desempeño quedó registrado como *Champion* y pasó a producción, listo para ser utilizado en la API de la aplicación. Este flujo garantiza trazabilidad y reproducibilidad en el desarrollo del modelo.

---

### 5. **Pipelines de Automatización y Tracking**

En este proyecto, se implementó un flujo automatizado utilizando **Prefect** para orquestar las tareas de procesamiento, entrenamiento y selección del mejor modelo. Además, se integró **MLflow** para realizar el seguimiento y registro de experimentos, asegurando trazabilidad y facilidad en la transición del modelo a producción. Puedes revisar esto con mayor detalle y explicacion en el codigo `pipeline/train.py`

#### **Descripción del Pipeline**

El pipeline se organiza en varias etapas interconectadas, cada una con un propósito específico:


#### **1. Lectura y Normalización de Datos**
- **`readData`**: Carga los datos en formato JSON desde el directorio `raw_data`.
- **`normalize`**: Normaliza el JSON en un `DataFrame` estructurado, adecuado para el preprocesamiento.


#### **2. Preprocesamiento de Datos**
- **`preprocessData`**:
  - Filtra y renombra columnas relevantes (`complaint_what_happened`, `category`, `sub_product`).
  - Genera una nueva columna `ticket_classification` combinando `category` y `sub_product`.
  - Elimina registros con valores nulos y guarda los datos procesados en `preprocessed_data`.

- **`cleanData`**:
  - Realiza una limpieza adicional, eliminando caracteres no deseados (e.g., "X").
  - Filtra clases con menos de 100 registros para garantizar la calidad del entrenamiento.
  - Genera el archivo final `cleaned.csv` en el directorio `clean_data`.


#### **3. Entrenamiento de Modelos**
- **`trainingModel`**:
  - Utiliza los datos limpios para dividirlos en conjuntos de entrenamiento y prueba, asegurando balance entre clases.
  - Transforma los datos textuales en representaciones numéricas mediante *TF-IDF Vectorizer*.
  - Entrena modelos con **GridSearchCV** para optimizar los hiperparámetros, probando:
    - Regresión Logística
    - Random Forest
  - Calcula métricas de desempeño:
    - `accuracy`
    - `precision`
    - `recall`
    - `f1_score`
  - Registra los mejores modelos y métricas en **MLflow**.


#### **4. Selección del Mejor Modelo**
- **`bestmodel`**:
  - Recupera todos los *runs* del experimento actual en MLflow.
  - Identifica el modelo con la mayor precisión (`accuracy`) y lo designa como *Champion*.
  - Registra el modelo en el **Model Registry** de MLflow, asignándole:
    - Alias: `champion`
    - Etapa: `Production`
  - Actualiza automáticamente el modelo en producción, archivando versiones anteriores.


#### **5. Flujo Principal**
- **`mainFlow`**:
  - Orquesta todo el proceso, desde la lectura de datos hasta la actualización del modelo *Champion*.
  - Los pasos incluyen:
    1. Lectura y normalización de datos.
    2. Preprocesamiento y limpieza.
    3. Entrenamiento y registro de modelos.
    4. Selección y despliegue del mejor modelo.

---

### 6. Desarrollo de la Aplicación

La aplicación está diseñada para brindar una experiencia integrada, desde la interacción del usuario con la interfaz de frontend hasta el procesamiento de datos y predicción en el backend. Se compone de dos módulos principales:

#### **Interfaz de Usuario (Frontend)**
El frontend está desarrollado con **Streamlit**, una herramienta ideal para crear aplicaciones web de datos de manera rápida y sencilla. Su propósito es permitir a los usuarios interactuar con la aplicación ingresando texto y recibiendo predicciones sobre la categoría de sus quejas o comentarios.

**Características:**
- **Formulario de Entrada:** Los usuarios pueden describir su queja o incidente a través de un cuadro de texto.
- **Botón de Predicción:** Una vez ingresado el texto, el botón activa el proceso de predicción.
- **Respuesta en Tiempo Real:** Muestra la categoría predicha directamente en la interfaz tras enviar la solicitud al backend.

#### **Modelo y API (Backend)**
El backend está construido con **FastAPI**, una herramienta moderna y eficiente para desarrollar APIs robustas y rápidas. Su función principal es recibir solicitudes desde el frontend, procesar los datos de entrada mediante el modelo entrenado, y devolver la predicción correspondiente.

**Características:**
- **Recepción de Datos:** Utiliza un modelo de datos definido con **Pydantic** para validar la entrada.
- **Carga Dinámica del Modelo:** Integra con **MLflow** para cargar dinámicamente el modelo etiquetado como `champion` en el registro de modelos.
- **Transformación de Datos:** Utiliza un codificador para transformar las predicciones numéricas del modelo en etiquetas legibles para el usuario.
- **Endpoint `/predict`:** Permite la interacción entre el frontend y el modelo, devolviendo resultados en formato JSON.

#### **Integración y Ejecución**
Ambos módulos están integrados mediante un archivo `docker-compose.yml`, que orquesta los contenedores de frontend y backend para asegurar una interacción fluida. Los servicios están configurados de la siguiente manera:
- **Frontend:** Disponible en el puerto `8501` para recibir entradas del usuario.
- **Backend:** Disponible en el puerto `8000` para procesar las solicitudes del frontend.

**Flujo de Interacción:**
1. El usuario ingresa un texto en el frontend.
2. El texto es enviado como una solicitud POST al endpoint `/predict` del backend.
3. El backend utiliza el modelo para realizar la predicción y devuelve la categoría predicha.
4. El frontend muestra el resultado al usuario.

Esta arquitectura asegura un flujo de trabajo claro, modular y escalable, permitiendo futuras actualizaciones en el modelo o la interfaz sin afectar otros componentes.
