      ___   _
     |_ _| | |_    ___   ___    ___
      | |  | __|  / _ \ / __|  / _ \
      | |  | |_  |  __/ \__ \ | (_) |
     |___|  \__|  \___| |___/  \___/



<h1><strong>Classification Challenge: Mejorando la Gestión de Quejas con Machine Learning</strong></h1>

<hr>
<p>Bienvenid@ al Classification Challenge</p>
<h2>Descripción</h2>

<p>En el ámbito corporativo, enfrentar y resolver desafíos diarios es esencial para mejorar la experiencia del cliente y optimizar las operaciones. Un desafío común es la adecuada gestión y clasificación de las quejas de los clientes. Para abordar esta problemática de manera efectiva, disponemos de un dataset inicial que será empleado para entrenar un modelo de machine learning. Este modelo tiene como objetivo predecir la categoría adecuada para cada nueva queja recibida, utilizando el conocimiento derivado de casos anteriores.

Es importante mencionar que el dataset proporcionado, denominado `tickets_classification_eng.json` (Puedes encontrar este dataset en la carpeta `data/raw_data`), no está limpio y requerirá un proceso de preparación antes de ser utilizado para el entrenamiento del modelo. Este dataset final deberá está formado por las siguientes columnas:

    complaint_what_happened - El contenido textual de la queja, que proporciona detalles sobre el incidente o problema experimentado por el cliente.
    ticket_classification - Una combinación de las categorías de producto y subproducto involucradas, que clasifica la queja en un contexto más amplio.

Para asegurarnos de que el dataset esté listo para su uso, es crucial seguir los procedimientos que se expondran adelante para seleccionar, limpiar y preparar adecuadamente los datos. Una vez que se haya completado este proceso, será necesario guardar el dataset limpio para asegurar que el modelo de machine learning pueda ser entrenado con datos precisos y confiables. 

La implementación de este proyecto no solo busca mejorar la eficiencia en la gestión de quejas, sino también permitir que la empresa comprenda mejor las tendencias de los problemas reportados por los clientes, facilitando una respuesta más rápida y adecuada en el futuro.




## Hints
- Utilice la función `json_normalize` del paquete `pandas` [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.json_normalize.html) para importar los datos.
- Use este código para importar el json como diccionario en `Python`:
````
import json
with open(file_path, "r") as file:  
    datos = json.load(file)
````
- Para la transformación de datos y obtener el dataset final a trabajar ejecute los comandos de pandas necesarios para aplicar el siguiente procedimiento:

    1. **Selección de Columnas**:
       Empieza seleccionando solo las columnas que contienen la información de la queja, el producto y el subproducto. Las columnas son:
       - `_source.complaint_what_happened`
       - `_source.product`
       - `_source.sub_product`

    2. **Renombrar Columnas**:
       Cambia el nombre de las columnas para que sean más claras y fáciles de manejar:
       - `_source.complaint_what_happened` a `complaint_what_happened`
       - `_source.product` a `category`
       - `_source.sub_product` a `sub_product`

    3. **Creación de Nueva Columna**:
       Añade una nueva columna llamada `ticket_classification` que sea el resultado de concatenar los valores de las columnas `category` y `sub_product`, separados por un signo más. Por ejemplo, si `category` contiene "Banco" y `sub_product` contiene "Cuenta Corriente", entonces `ticket_classification` debería ser "Banco + Cuenta Corriente".
    
    4. **Eliminar Columnas Redundantes**:
       Después de crear la columna `ticket_classification`, elimina las columnas `sub_product` y `category`, ya que su información ahora está encapsulada en la nueva columna.
    
    5. **Limpieza de Datos en Columnas Específicas**:
       Asegúrate de que la columna `complaint_what_happened` no contenga campos vacíos. Reemplaza esos campos vacíos con un valor que indique que los datos están ausentes (como `NaN`).
    
    6. **Eliminación de Filas con Datos Faltantes**:
       Elimina todas las filas que tengan datos faltantes en las columnas críticas, es decir, `complaint_what_happened` y `ticket_classification`.
    
    7. **Reiniciar Índice**:
       Finalmente, reinicia el índice del dataframe para asegurarte de que los índices sean consecutivos, lo cual es útil después de eliminar filas para mantener la consistencia y facilidad de acceso por índice.
    8. **Guardar el DataFrame en un Archivo CSV**:
   Guarda el DataFrame transformado en un archivo CSV. Elige un nombre de archivo que refleje el contenido del DataFrame y decide la ubicación más adecuada para guardar el archivo. Asegúrate de establecer el parámetro para no guardar el índice si no es necesario.


In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json
%matplotlib inline



In [3]:
file_path = './raw_data/tickets_classification_eng.json'

with open(file_path, 'r') as file:
    datos = json.load(file)

# Convertir el JSON a un DataFrame de pandas
df = pd.json_normalize(datos)


FileNotFoundError: [Errno 2] No such file or directory: './raw_data/tickets_classification_eng.json'

In [None]:
df = df[['_source.complaint_what_happened', '_source.product', '_source.sub_product']]


In [None]:
df.rename(columns={
    '_source.complaint_what_happened': 'complaint_what_happened',
    '_source.product': 'category',
    '_source.sub_product': 'sub_product'
}, inplace=True)


In [None]:
df['ticket_classification'] = df['category'] + ' + ' + df['sub_product']


In [None]:
df.drop(columns=['category', 'sub_product'], inplace=True)



In [None]:
df['complaint_what_happened'].replace('', np.nan, inplace=True)
df.dropna(subset=['complaint_what_happened', 'ticket_classification'], inplace=True)


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['complaint_what_happened'].replace('', np.nan, inplace=True)


In [None]:
df.reset_index(drop=True, inplace=True)


In [None]:
df.to_csv('./raw_data/cl_dataset.csv', index=False)
df.head()



NameError: name 'df' is not defined