# Parte 1: Limpieza de datos

Antes de de entrenar el modelo es fundamental preparar el conjunto de datos. Esta etapa de limpieza nos permite asegurar que los datos sean consistentes, relevantes y útiles para el análisis posterior.

- Detección y tratamiento de valores nulos
- Eliminación de columnas innecesarias o sensibles
- Transformación de variables tipo fecha
- Creación de una nueva variable: tiempo de respuesta
- Imputación de valores faltantes con estrategia basada en el negocio

### Carga de datos y exploración inicial

In [41]:
import pandas as pd

# Cargar el dataset original
data = pd.read_csv('C:\CC219-TP-TF-2024-2--CC92\data\customer_support_tickets.csv')

  data = pd.read_csv('C:\CC219-TP-TF-2024-2--CC92\data\customer_support_tickets.csv')


In [42]:
data.shape

(8469, 17)

In [43]:
data.columns

Index(['Ticket ID', 'Customer Name', 'Customer Email', 'Customer Age',
       'Customer Gender', 'Product Purchased', 'Date of Purchase',
       'Ticket Type', 'Ticket Subject', 'Ticket Description', 'Ticket Status',
       'Resolution', 'Ticket Priority', 'Ticket Channel',
       'First Response Time', 'Time to Resolution',
       'Customer Satisfaction Rating'],
      dtype='object')

In [44]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8469 entries, 0 to 8468
Data columns (total 17 columns):
 #   Column                        Non-Null Count  Dtype  
---  ------                        --------------  -----  
 0   Ticket ID                     8469 non-null   int64  
 1   Customer Name                 8469 non-null   object 
 2   Customer Email                8469 non-null   object 
 3   Customer Age                  8469 non-null   int64  
 4   Customer Gender               8469 non-null   object 
 5   Product Purchased             8469 non-null   object 
 6   Date of Purchase              8469 non-null   object 
 7   Ticket Type                   8469 non-null   object 
 8   Ticket Subject                8469 non-null   object 
 9   Ticket Description            8469 non-null   object 
 10  Ticket Status                 8469 non-null   object 
 11  Resolution                    2769 non-null   object 
 12  Ticket Priority               8469 non-null   object 
 13  Tic

In [45]:
data.head()

Unnamed: 0,Ticket ID,Customer Name,Customer Email,Customer Age,Customer Gender,Product Purchased,Date of Purchase,Ticket Type,Ticket Subject,Ticket Description,Ticket Status,Resolution,Ticket Priority,Ticket Channel,First Response Time,Time to Resolution,Customer Satisfaction Rating
0,1,Marisa Obrien,carrollallison@example.com,32,Other,GoPro Hero,2021-03-22,Technical issue,Product setup,I'm having an issue with the {product_purchase...,Pending Customer Response,,Critical,Social media,2023-06-01 12:15:36,,
1,2,Jessica Rios,clarkeashley@example.com,42,Female,LG Smart TV,2021-05-22,Technical issue,Peripheral compatibility,I'm having an issue with the {product_purchase...,Pending Customer Response,,Critical,Chat,2023-06-01 16:45:38,,
2,3,Christopher Robbins,gonzalestracy@example.com,48,Other,Dell XPS,2020-07-14,Technical issue,Network problem,I'm facing a problem with my {product_purchase...,Closed,Case maybe show recently my computer follow.,Low,Social media,2023-06-01 11:14:38,2023-06-01 18:05:38,3.0
3,4,Christina Dillon,bradleyolson@example.org,27,Female,Microsoft Office,2020-11-13,Billing inquiry,Account access,I'm having an issue with the {product_purchase...,Closed,Try capital clearly never color toward story.,Low,Social media,2023-06-01 07:29:40,2023-06-01 01:57:40,3.0
4,5,Alexander Carroll,bradleymark@example.com,67,Female,Autodesk AutoCAD,2020-02-04,Billing inquiry,Data loss,I'm having an issue with the {product_purchase...,Closed,West decision evidence bit.,Low,Email,2023-06-01 00:12:42,2023-06-01 19:53:42,1.0


| **Columna**                    | **Descripción**                                                                            |
| ------------------------------ | ------------------------------------------------------------------------------------------ |
| `Ticket ID`                    | Identificador único de cada ticket (caso de soporte).                                      |
| `Customer Name`                | Nombre del cliente que reportó el problema.                                                |
| `Customer Email`               | Correo electrónico del cliente.                                                            |
| `Customer Age`                 | Edad del cliente.                                                                          |
| `Customer Gender`              | Género del cliente (`Male`, `Female`, `Other`).                                            |
| `Product Purchased`            | Nombre del producto comprado por el cliente.                                               |
| `Date of Purchase`             | Fecha en la que el cliente compró el producto.                                             |
| `Ticket Type`                  | Tipo de problema reportado (e.g. `Technical issue`, `Billing inquiry`, `Product inquiry`). |
| `Ticket Subject`               | Tema específico del ticket (e.g. `Data loss`, `Account access`).                           |
| `Ticket Description`           | Descripción del problema redactada por el cliente.                                         |
| `Ticket Status`                | Estado del ticket (e.g. `Open`, `Closed`, `Pending Customer Response`).                    |
| `Resolution`                   | Descripción de la solución proporcionada por soporte (si la hubo).                         |
| `Ticket Priority`              | Nivel de prioridad asignado al ticket (`Low`, `Medium`, `High`, `Critical`).               |
| `Ticket Channel`               | Canal por el cual se generó el ticket (e.g. `Email`, `Phone`, `Chat`, `Social media`).     |
| `First Response Time`          | Tiempo de la primera respuesta del equipo de soporte al cliente (timestamp).               |
| `Time to Resolution`           | Tiempo en que se resolvió el ticket (timestamp).                                           |
| `Customer Satisfaction Rating` | Puntuación dada por el cliente después de recibir la solución (e.g. 1 a 5).                |

### Revisión de valores nulos

Evaluamos qué tan completas están las columnas. Esto es clave para decidir si es mejor mantener o eliminar una variable.

In [46]:
# Cálculo de nulos y su porcentaje
nulos = data.isnull().sum()
porcentaje = (nulos / len(data)) * 100

# Mostrar tabla ordenada
nulos_df = pd.DataFrame({
    'Valores Nulos': nulos,
    'Porcentaje (%)': porcentaje.round(2)
}).sort_values(by='Porcentaje (%)', ascending=False)

nulos_df

Unnamed: 0,Valores Nulos,Porcentaje (%)
Customer Satisfaction Rating,5700,67.3
Resolution,5700,67.3
Time to Resolution,5700,67.3
First Response Time,2819,33.29
Ticket ID,0,0.0
Customer Name,0,0.0
Customer Email,0,0.0
Customer Age,0,0.0
Customer Gender,0,0.0
Ticket Subject,0,0.0


### Eliminación de columnas 

Columnas innecesarias para análisis/modelado:
- Ticket ID: Es un identificador, no realiza ningún aporta información útil al análisis.
- Customer Name y Customer Email: Ambas columnas contienen información personal identificable considerada sensible desde el punto de vista de privacidad. Debe ser eliminada o anonimizada cumpliendo con principios éticos y respetando las normativas de protección de datos. 
- Resolution: Esta variable contiene descripciones textuales extensas, poco estructuradas, lo que dificultaría realizar un análisis usando la misma. Además, presenta un alto porcentaje de valores nulos (67.30 %). 
- Customer Satisfaction Rating: Esta variable presenta un alto porcentaje de valores nulos (67.30 %), lo que limita su utilidad. 

In [47]:
data.drop(columns=['Ticket ID', 'Customer Name', 'Customer Email', 'Customer Satisfaction Rating', 'Resolution'], inplace=True)

In [48]:
data.columns

Index(['Customer Age', 'Customer Gender', 'Product Purchased',
       'Date of Purchase', 'Ticket Type', 'Ticket Subject',
       'Ticket Description', 'Ticket Status', 'Ticket Priority',
       'Ticket Channel', 'First Response Time', 'Time to Resolution'],
      dtype='object')

### Obtener tiempo de respuesta

In [49]:
# convertir variables de fechas a datatime
fechas = ['Date of Purchase', 'First Response Time', 'Time to Resolution']
for col in fechas:
    data[col] = pd.to_datetime(data[col], errors='coerce')

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8469 entries, 0 to 8468
Data columns (total 12 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   Customer Age         8469 non-null   int64         
 1   Customer Gender      8469 non-null   object        
 2   Product Purchased    8469 non-null   object        
 3   Date of Purchase     8469 non-null   datetime64[ns]
 4   Ticket Type          8469 non-null   object        
 5   Ticket Subject       8469 non-null   object        
 6   Ticket Description   8469 non-null   object        
 7   Ticket Status        8469 non-null   object        
 8   Ticket Priority      8469 non-null   object        
 9   Ticket Channel       8469 non-null   object        
 10  First Response Time  5650 non-null   datetime64[ns]
 11  Time to Resolution   2769 non-null   datetime64[ns]
dtypes: datetime64[ns](3), int64(1), object(8)
memory usage: 794.1+ KB


In [50]:
data['Hours_to_First_Response'] = (
    (data['Time to Resolution'] - data['First Response Time'])
    .dt.total_seconds().abs() / 3600
).round()

data['Hours_to_First_Response'].describe()

count    2769.000000
mean        7.743951
std         5.633863
min         0.000000
25%         3.000000
50%         7.000000
75%        12.000000
max        23.000000
Name: Hours_to_First_Response, dtype: float64

Esta variable nos permite cuantificar la eficiencia operativa, en otras palabras, cuánto tiempo pasa desde que se genera el ticket hasta la primera respuesta del equipo técnico

### Tratamiento de valores faltantes

Cerca del 33% de los tickets presentan información incompleta en la columna Hours_to_First_Response. Para preservar el volumen muestral y evitar sesgos asociados a la eliminación de casos, reemplazaremos los valores faltantes usando la mediana según la prioridad del ticket y el canal de atención. Este enfoque nos permite mantener la consistencia en el análisis posterior. 

In [51]:
# Calcular mediana por combinación
mediana = data.groupby(['Ticket Priority', 'Ticket Channel'])['Hours_to_First_Response'].median()

# Reemplazar nulos según grupo
data['Hours_to_First_Response'] = data.apply(
    lambda row: mediana.loc[row['Ticket Priority'], row['Ticket Channel']]
    if pd.isnull(row['Hours_to_First_Response']) else row['Hours_to_First_Response'],
    axis=1
)

data['Hours_to_First_Response']


0        7.0
1        6.0
2        7.0
3        6.0
4       20.0
        ... 
8464     7.0
8465     7.0
8466     5.0
8467    13.0
8468     7.0
Name: Hours_to_First_Response, Length: 8469, dtype: float64

### Eliminación de columnas tras nueva variable

In [52]:
data.drop(columns=['Time to Resolution', 'First Response Time'], inplace=True)

data.columns

Index(['Customer Age', 'Customer Gender', 'Product Purchased',
       'Date of Purchase', 'Ticket Type', 'Ticket Subject',
       'Ticket Description', 'Ticket Status', 'Ticket Priority',
       'Ticket Channel', 'Hours_to_First_Response'],
      dtype='object')

### Guardar data limpia

In [56]:
data.to_csv('C:\CC219-TP-TF-2024-2--CC92\data/data_limpia.csv', index=False)

  data.to_csv('C:\CC219-TP-TF-2024-2--CC92\data/data_limpia.csv', index=False)


# Nueva Data

| Tipo                             | Columnas clave                                                                               | Posible Uso                                                                                                                                                                                                                           |
| -------------------------------- | -------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| **Texto (NLP)** , **DistilBERT**,**Naïve Bayes + TF-IDF**,**spaCy TextCategorizer**             | `Ticket Subject`, `Ticket Description`                                                       | - Análisis de texto para clasificar o categorizar tickets, usar técnicas de minería de texto.                                                                                                                                         |
| **Etiquetas / Targets posibles** | `Ticket Type`, `Ticket Priority`, `Ticket Status`                                            | - Clasificación de tickets, análisis de resolución y asignación de prioridades.                                                                                                                                                       |
| **Variables adicionales útiles** | `Customer Age`, `Customer Gender`, `Product Purchased`, `Date of Purchase`, `Ticket Channel` | - Segmentación de clientes por edad y género. <br> - Análisis de tipos de productos con más incidencias. <br> - Estudio de recurrencia de problemas en función del tiempo desde la compra. <br> - Optimización de canales de soporte. |
| **Tiempo de Respuesta**          | `Hours_to_First_Response`                                                                    | - Cálculo del tiempo de respuesta a los tickets, análisis de la eficiencia en la atención al cliente.                                                                                                                                 |


### Uso Específico de Cada Columna

| Columna                        | Posible Uso                                                                                                                                      |
| ------------------------------ | ------------------------------------------------------------------------------------------------------------------------------------------------ |
| **Ticket Subject**             | - Análisis de temas comunes en los tickets, identificación de patrones o problemas recurrentes.                                                  |
| **Ticket Description**         | - Profundización en la descripción del problema para clasificación avanzada o análisis de tendencias.                                            |
| **Ticket Type**                | - Clasificación de tickets por tipo para optimizar la asignación de recursos o atención especializada.                                           |
| **Ticket Priority**            | - Análisis de urgencia y priorización en la atención, optimización de los tiempos de respuesta según la prioridad.                               |
| **Ticket Status**              | - Análisis del estado de los tickets para evaluar tiempos de resolución, identificar cuellos de botella o problemas recurrentes en la gestión.   |
| **Customer Age**               | - Segmentación de clientes por edad, personalización de la atención o análisis de la relación entre edad y tipo de problemas reportados.         |
| **Customer Gender**            | - Segmentación de clientes por género, análisis de patrones específicos de cada grupo para personalizar la atención.                             |
| **Product Purchased**          | - Análisis de problemas específicos de ciertos productos, identificación de productos con más incidencias o problemas recurrentes.               |
| **Date of Purchase**           | - Estudio de la recurrencia de problemas relacionados con el tiempo de compra, identificación de tendencias de fallos.                           |
| **Ticket Channel**             | - Optimización de canales de soporte en función de la frecuencia y eficacia en la atención a los tickets.                                        |
| **Hours\_to\_First\_Response** | - Cálculo y análisis del tiempo de respuesta inicial para mejorar la eficiencia en la atención al cliente y optimizar los tiempos de resolución. |