#### Erick Machuca
# Classification Challenge
## Introducción

En este examen final de la asignatura Proyecto de Ciencia de Datos se pretende demostrar los conocimientos adquiridos durante el curso y las enseñanzas previas a este. Se toma una dataset de quejas con la intención de crear un modelo de machine learning para clasificar las quejas en distintas categorías.

En este notebook se encontraran las descripciones de cada archivo, qué es lo que contienen, el por qué se crearon dichos archivos y que función cumplen.

## Descripción

Nuestro dataset es conformado por varias variables, sin embargo, para nuestro propósito, sólo utilizaremos las siguientes dos: ticket_classification y complaint_what_happened.

La columna de ticket_classification es nuestra variable objetivo, será la que contiene las categorías por clasificar.

La variable de complaint_what_happened es la que contiene la queja en sí, con detalles sobre el incidente o problemas experimentados por el cliente.

### Libraries and data loading

In [27]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import json

In [28]:
with open('../data/tickets_classification_eng.json', "r") as file:
    datos = json.load(file)

In [29]:
df = pd.json_normalize(datos)

In [30]:
df.shape # Hay 22 columnas y 78,313 registros

(78313, 22)

In [31]:
# Selección de columnas
cols = ['_source.complaint_what_happened', '_source.product', '_source.sub_product']

for col in df.columns:
    if col not in cols:
        df.drop(col, axis=1, inplace=True)

In [32]:
# Renombrar las columnas
df.rename(columns={"_source.complaint_what_happened": "complaint_what_happened", "_source.product": "category",
                   "_source.sub_product": "sub_product"}, inplace=True)

In [33]:
# Creación de nueva columna
df['ticket_classification'] = df['category'] + '+' + df['sub_product']
# Eliminar columnas redundantes
df.drop(columns=['category', 'sub_product'], inplace=True)

In [34]:
# Limpieza de datos
df['complaint_what_happened'].value_counts()

complaint_what_happened
                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                

In [35]:
# Reemplazar los valores vacíos con nan
df.replace(r'^\s*$', np.nan, regex=True, inplace=True)

In [36]:
# Comprobar que el número de valores vacíos haga match con el número de nans después del reemplazo
df['complaint_what_happened'].isna().sum()

np.int64(57241)

In [37]:
# Eliminación de filas con datos faltantes
df.dropna(inplace=True)
df.shape # Shape de nuestro dataframe final

(18963, 2)

In [38]:
df.isnull().sum() # No hay datos faltantes

complaint_what_happened    0
ticket_classification      0
dtype: int64

In [40]:
# Reiniciar índice
df.reset_index(inplace=True, drop=True)

In [42]:
df.to_csv('../data/interim.csv')

## Conclusiones

En este examen final, diseñé un flujo de trabajo integral que aborda todas las etapas clave de un proyecto de ciencia de datos, comenzando con un análisis exploratorio de datos riguroso, para identificar los datos con los que estaba trabajando y garantizar la calidad de los datos utilizados.

Implementé ingeniería de características para transformar y optimizar las variables, maximizando el rendimiento de los modelos predictivos. Decidí utilizar dos tipos de modelos distintos, uno de regresión logística y otro de SVM. Ambos fueron modelos precarios.

Para el entrenamiento y evaluación de modelos, utilicé MLflow, que no solo permitió gestionar y comparar experimentos de manera eficiente, sino también rastrear métricas clave y registrar versiones de los modelos. La orquestación de procesos con Prefect permitió coordinar y automatizar flujos de trabajo complejos, asegurando la ejecución fluida de tareas interdependientes. Además, desplegué los modelos mediante FastAPI, creando una API robusta que facilita la integración del modelo con aplicaciones externas, asegurando tanto la velocidad de respuesta como la escalabilidad. Para mejorar la interacción con los usuarios, desarrollé interfaces interactivas utilizando Streamlit, permitiendo visualizaciones dinámicas y accesibles de los resultados y métricas clave.

Finalmente, utilicé contenedores de Docker para la solución , lo que asegura la portabilidad, reproducibilidad y una transición sin fricciones hacia entornos de producción. Este enfoque cohesivo y escalable garantiza la aplicación práctica y eficiente de soluciones de ciencia de datos en contextos reales.