      ___   _
     |_ _| | |_    ___   ___    ___
      | |  | __|  / _ \ / __|  / _ \
      | |  | |_  |  __/ \__ \ | (_) |
     |___|  \__|  \___| |___/  \___/



<h1><strong>Classification Challenge: Mejorando la Gestión de Quejas con Machine Learning</strong></h1>

<hr>
<p>Bienvenid@ al Classification Challenge</p>
<h2>Descripción</h2>

<p>En el ámbito corporativo, enfrentar y resolver desafíos diarios es esencial para mejorar la experiencia del cliente y optimizar las operaciones. Un desafío común es la adecuada gestión y clasificación de las quejas de los clientes. Para abordar esta problemática de manera efectiva, disponemos de un dataset inicial que será empleado para entrenar un modelo de machine learning. Este modelo tiene como objetivo predecir la categoría adecuada para cada nueva queja recibida, utilizando el conocimiento derivado de casos anteriores.

Es importante mencionar que el dataset proporcionado, denominado `tickets_classification_eng.json` (Puedes encontrar este dataset en la carpeta `data/raw_data`), no está limpio y requerirá un proceso de preparación antes de ser utilizado para el entrenamiento del modelo. Este dataset final deberá está formado por las siguientes columnas:

    complaint_what_happened - El contenido textual de la queja, que proporciona detalles sobre el incidente o problema experimentado por el cliente.
    ticket_classification - Una combinación de las categorías de producto y subproducto involucradas, que clasifica la queja en un contexto más amplio.

Para asegurarnos de que el dataset esté listo para su uso, es crucial seguir los procedimientos que se expondran adelante para seleccionar, limpiar y preparar adecuadamente los datos. Una vez que se haya completado este proceso, será necesario guardar el dataset limpio para asegurar que el modelo de machine learning pueda ser entrenado con datos precisos y confiables. 

La implementación de este proyecto no solo busca mejorar la eficiencia en la gestión de quejas, sino también permitir que la empresa comprenda mejor las tendencias de los problemas reportados por los clientes, facilitando una respuesta más rápida y adecuada en el futuro.




## Hints
- Utilice la función `json_normalize` del paquete `pandas` [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.json_normalize.html) para importar los datos.
- Use este código para importar el json como diccionario en `Python`:
````
import json
with open(file_path, "r") as file:  
    datos = json.load(file)
````
- Para la transformación de datos y obtener el dataset final a trabajar ejecute los comandos de pandas necesarios para aplicar el siguiente procedimiento:

    1. **Selección de Columnas**:
       Empieza seleccionando solo las columnas que contienen la información de la queja, el producto y el subproducto. Las columnas son:
       - `_source.complaint_what_happened`
       - `_source.product`
       - `_source.sub_product`

    2. **Renombrar Columnas**:
       Cambia el nombre de las columnas para que sean más claras y fáciles de manejar:
       - `_source.complaint_what_happened` a `complaint_what_happened`
       - `_source.product` a `category`
       - `_source.sub_product` a `sub_product`

    3. **Creación de Nueva Columna**:
       Añade una nueva columna llamada `ticket_classification` que sea el resultado de concatenar los valores de las columnas `category` y `sub_product`, separados por un signo más. Por ejemplo, si `category` contiene "Banco" y `sub_product` contiene "Cuenta Corriente", entonces `ticket_classification` debería ser "Banco + Cuenta Corriente".
    
    4. **Eliminar Columnas Redundantes**:
       Después de crear la columna `ticket_classification`, elimina las columnas `sub_product` y `category`, ya que su información ahora está encapsulada en la nueva columna.
    
    5. **Limpieza de Datos en Columnas Específicas**:
       Asegúrate de que la columna `complaint_what_happened` no contenga campos vacíos. Reemplaza esos campos vacíos con un valor que indique que los datos están ausentes (como `NaN`).
    
    6. **Eliminación de Filas con Datos Faltantes**:
       Elimina todas las filas que tengan datos faltantes en las columnas críticas, es decir, `complaint_what_happened` y `ticket_classification`.
    
    7. **Reiniciar Índice**:
       Finalmente, reinicia el índice del dataframe para asegurarte de que los índices sean consecutivos, lo cual es útil después de eliminar filas para mantener la consistencia y facilidad de acceso por índice.
    8. **Guardar el DataFrame en un Archivo CSV**:
   Guarda el DataFrame transformado en un archivo CSV. Elige un nombre de archivo que refleje el contenido del DataFrame y decide la ubicación más adecuada para guardar el archivo. Asegúrate de establecer el parámetro para no guardar el índice si no es necesario.


## <font color="mediumvioletred">REPORTE ESCRITO - DAFNE TAMAYO LEÓN 744752</font>


### Pasos para la resolución del examen:
 
<font color="thistle">
  <ol>
    <li>Ingeniería de características - Data wrangling</li>
    <li>Análisis exploratorio de los datos</li>
    <li>Entrenamiento, validación y evaluación de modelos</li>
    <li>Automatización y orquestación del flujo de entrenamiento</li>
    <li>Desarrollo de la API</li>
    <li>Desarrollo del frontend</li>
    <li>Contenerización del proyecto</li>
    <li>Conclusiones</li>
  </ol>
</font>

‎ 
‎
 

<font color=" steelblue"> 1. **Ingeniería de características - Data wrangling** </font>

**Archivo: `notebooks/analisis.ipynb`** 

- Primero importé el JSON como un diccionario usando `json.load` y lo normalicé con `json_normalize` para trabajar con los datos. Seleccioné solo las columnas necesarias: `_source.complaint_what_happened`, `_source.product` y `_source.sub_product`. 
- Luego, las renombré a `complaint_what_happened`, `category` y `sub_product` para que fueran más claras. 
- Creé una nueva columna llamada `ticket_classification`, donde concatené los valores de `category` y `sub_product` separados por un "+". 
- Eliminé las columnas `category` y `sub_product` porque ya no eran necesarias. 
- Sustituí los nulos en `complaint_what_happened` como NaN. 
- Después, eliminé las filas con datos faltantes en `complaint_what_happened` y `ticket_classification`, reinicié los índices para mantener el orden.
- Al final nos quedamos con las categorías que tenían 200 o más registros y nos quedamos con 15 de las 78 categorías.
- Y guardé el DataFrame transformado en un archivo CSV, sin guardar los índices.

‎



<font color=" slateblue"> 2. **Análisis exploratorio de los datos**  </font>

**Archivo: `notebooks/analisis.ipynb`**

- Realicé un análisis del dataset para identificar patrones, outliers y relaciones entre las variables.  
- Generé visualizaciones que ayudaron a comprender la distribución y correlación de las variables relevantes.

‎


<font color="pink">3. **Entrenamiento, validación y evaluación de modelos**  </font>

**Archivo: `experiments/experiments.ipynb`**

  - Dividí el dataset en un 80% para entrenamiento y un 20% para prueba, para que las clases estuvieran equilibradas   
   - Usé MLflow para realizar el seguimiento de los experimentos con varios algoritmos, registrando métricas como `accuracy`, `precision` y `f1_score`  
   - Ajusté los hiperparámetros de los modelos mediante GridSearch, que me permitió optimizar los modelos ajustando los mejores parámetros para el modelo
   - Seleccioné el mejor modelo como *Champion* y el segundo mejor como *Challenger*, registrándolos en el Model Registry de MLflow

‎


<font color="palevioletred">4. **Automatización y orquestación del flujo de entrenamiento** </font>

**Archivo: `training_pipeline/training.py`**

  - Diseñé e implementé un flujo de trabajo automatizado para la clasificación de quejas utilizando Prefect como herramienta de orquestación y MLflow para el seguimiento y registro de experimentos.
   - Configuré MLflow para realizar tracking y registro automático de los modelos entrenados.    

El entrenamiento de modelos se realiza mediante la tarea trainModels, donde se implementan tres algoritmos de clasificación: Regresión Logística, Máquinas de Soporte Vectorial (SVM) y K-Nearest Neighbors (KNN). Cada modelo es entrenado y evaluado dentro de experimentos registrados en MLflow, a su vez se guardaron los artefactos necesarios para reproducir los experiemntos el codificador y el vectorizador. 

Después la task selectModels utiliza MLflowClient para identificar y seleccionar los dos mejores modelos según su precisión. El modelo con mejor desempeño es etiquetado como Champion, y el segundo como Challenger. Ambos se registran en el Model Registry de MLflow con sus respectivos alias, facilitando la transición del modelo a producción.

El flujo principal mainFlow orquesta todas estas tasks, integrando procesamiento, entrenamiento y selección de modelos de manera eficiente. 

  ‎


<font color="lightsteelblue">5. **Desarrollo de la API**  </font>

**Archivo: `app/model/main.py`**

   - Creé una API con FastAPI que permite realizar predicciones utilizando el modelo registrado como *Champion*.   
   - Validé las entradas del usuario y devolví resultados en un formato que permitía la conexión de la UI.  
   El backend, desarrollado con FastAPI, recibe solicitudes del frontend, procesa los datos de entrada con el modelo entrenado y devuelve las predicciones. Integra Pydantic para validar las entradas, carga dinámicamente el modelo Champion desde MLflow, transforma las predicciones numéricas a etiquetas legibles y expone el endpoint /predict para comunicar resultados en formato JSON.

   ‎



<font color="lavender">6. **Desarrollo del frontend**</font>

**Archivo: `app/UI/main.py`**

 El frontend está desarrollado con Streamlit, proporcionando una interfaz intuitiva y rápida para que los usuarios interactúen con la aplicación. A través de un formulario, los usuarios pueden ingresar texto describiendo sus quejas o comentarios y, al presionar un botón, activar el proceso de predicción. La interfaz, integrada con el backend de FastAPI, muestra en tiempo real la categoría de manera clara y accesible. 

 ‎


<font color="darkseagreen">7. **Contenerización del proyecto**  </font>

**Archivo: `app/docker-compose.yaml`** 

   - Usé el archivo `docker-compose.yaml` para orquestar los contenedores del frontend y backend
   - Conecta el frontend y el backend para que trabajen juntos sin problemas. El frontend está en el puerto 8501, donde los usuarios ingresan datos, y el backend en el puerto 8000, parece procesar esa información y devolver los resultados. 

   ‎


<font color="lightcoral">8. **Conclusiones**  </font>

   En este proyecto implementé un flujo completo de aprendizaje automático, desde la limpieza y análisis de datos hasta el desarrollo de una aplicación funcional con frontend y backend. Gracias a herramientas como MLflow y Prefect, pude lograr un proceso organizado y automatizado que facilita la reproducibilidad y escalabilidad de los modelos. Además, con los contenedores de Docker hubo una integración fluida entre los componentes de frontend y backend, ofreciendo una solución eficiente para la clasificación de quejas.



