# Final Capstone Project (Module 20.1)

**Autor (Estudiante):** José Luis Álvarez González

# Theme: Support tickets classification

![Gráfico de datos](images/help-desk.png)


### Abstract:
    - El objetivo principal es crear un sistema de clasificación automática para predecir la prioridad de tickets de soporte técnico informático 
    - Los niveles de prioridad a predecir son: 
        - Prioritario 
        - Medio 
        - Bajo 
        - Primary 
         Social 
    - Las variables clave para la predicción son: 
        • Remitente del ticket 
        • Contexto del ticket (contenido textual) 
        • Tiempo sin atender 
        • Imágenes adjuntas 
    - El sistema debe proponer una priorización independiente de la asignada inicialmente por el remitente

# 1. Comprensión del Negocio

### 1.1 Determinación de los Objetivos de Negocio

### Contexto del Negocio
- Se trata de un sistema de soporte técnico informático que maneja tickets
- Actualmente la priorización inicial es asignada por el remitente
- Se necesita un sistema que pueda sugerir una priorización más objetiva

### Objetivo Principal del Negocio
Desarrollar un sistema automatizado que prediga y sugiera la prioridad correcta de los tickets de soporte técnico, mejorando la eficiencia en la atención y resolución de incidentes.

### Objetivos Específicos
1. Crear un modelo predictivo que clasifique tickets en diferentes niveles de prioridad
2. Reducir la subjetividad en la asignación de prioridades
3. Optimizar la gestión del tiempo de respuesta según la prioridad real
4. Mejorar la distribución de recursos de soporte técnico

## 1.2 Evaluación de la Situación

### Recursos Disponibles
- Dataset de tickets históricos con las siguientes columnas:
  - title: Título del ticket
  - body: Contenido del ticket
  - ticket_type: Tipo de ticket
  - category: Categoría actual (valores del 1-12)
  - sub_category1 y sub_category2: Subcategorías
  - business_service: Servicio de negocio
  - urgency: Nivel de urgencia
  - impact: Nivel de impacto

### Requisitos del Proyecto
1. Procesamiento de datos textuales (título y cuerpo del ticket)
2. Capacidad de manejar múltiples categorías
3. Sistema de evaluación de precisión en la clasificación
4. Interfaz para clasificar nuevos tickets (en le cuarderno jupyter)

### Desafíos y Limitaciones
1. Mapeo necesario entre categorías actuales y niveles de prioridad deseados
2. No se observan datos explícitos sobre:
   - Tiempo sin atender los tickets
   - Información del remitente
   - Imágenes adjuntas
3. Posible desbalance en las categorías (observado en los datos)

## 1.3 Determinación de Objetivos de Data Mining

### Objetivos Técnicos
1. Desarrollar un modelo de clasificación multiclase que:
   - Procese texto en lenguaje natural
   - Maneje características numéricas y categóricas
   - Proporcione probabilidades de clasificación
2. Implementar preprocesamiento de texto que:
   - Limpie y normalice el texto
   - Extraiga características relevantes
   - Maneje diferentes idiomas si es necesario
3. Crear un sistema de evaluación que mida:
   - Precisión general del modelo
   - Rendimiento por categoría
   - Confiabilidad de las predicciones

### Criterios de Éxito

1. Técnicos:
   - Precisión global > 80%
   - F1-score balanceado entre categorías
   - Tiempo de respuesta rápido para nuevos tickets

2. De Negocio:
   - Reducción en tiempo de respuesta para tickets críticos
   - Mejor distribución de carga de trabajo
   - Mayor satisfacción del usuario final

## 1.4 Plan del Proyecto
Nota: Este es el plan ideal para fines academicos algunos pasos son implicitos.
### Fases Siguientes
1. Comprensión de los Datos:
   - Análisis detallado de la distribución de categorías
   - Exploración de relaciones entre variables
   - Identificación de patrones en el texto

2. Preparación de los Datos:
   - Limpieza y normalización de texto
   - Tratamiento de valores faltantes
   - Codificación de variables categóricas
   - Balanceo de clases si es necesario

3. Modelado:
   - Selección de algoritmos apropiados
   - Entrenamiento y validación
   - Ajuste de hiperparámetros

4. Evaluación:
   - Validación cruzada
   - Análisis de errores
   - Evaluación de métricas por categoría
5. Implementación:
   - Sistema de clasificación en tiempo real
   - Documentación del modelo (comentarios en codigo)
   - Guías de uso y mantenimiento

# 2. Comprensión de los Datos

### 2.0 Librerias y bibliotecas Python para el proyecto

In [1]:
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import train_test_split
from imblearn.over_sampling import SMOTE

from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split, cross_val_score
from collections import Counter
import numpy as np

import pickle
import pandas as pd
import numpy as np
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re

# 2. Preprocesamiento del texto
import re
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

### 2.1 Recolección de Datos Iniciales 

In [2]:

# Cargar el archivo CSV proporcionado por el usuario
file_path = "all_tickets.csv"

# Leer el archivo para exploración inicial
tickets_data = pd.read_csv(file_path)

# Mostrar las primeras filas del dataset para revisar su estructura
tickets_data.head()


Unnamed: 0,title,body,ticket_type,category,sub_category1,sub_category2,business_service,urgency,impact
0,,hi since recruiter lead permission approve req...,1,4,2,21,71,3,4
1,connection with icon,icon dear please setup icon per icon engineers...,1,6,22,7,26,3,4
2,work experience user,work experience user hi work experience studen...,1,5,13,7,32,3,4
3,requesting for meeting,requesting meeting hi please help follow equip...,1,5,13,7,32,3,4
4,reset passwords for external accounts,re expire days hi ask help update passwords co...,1,4,2,76,4,3,4


### 2.2 Descripción de los Datos

In [3]:

# Verifica los valores nulos
print(tickets_data.isnull().sum())

# Combina 'title' y 'body' en una nueva columna 'text'
tickets_data['text'] = tickets_data['title'].fillna('') + " " + tickets_data['body'].fillna('')

# Verifica que 'text' no tenga valores nulos
print(f"Valores nulos en 'text': {tickets_data['text'].isnull().sum()}")


title               712
body                  0
ticket_type           0
category              0
sub_category1         0
sub_category2         0
business_service      0
urgency               0
impact                0
dtype: int64
Valores nulos en 'text': 0


### 2.3 Exploración de los Datos

In [4]:

# Distribución de categorías
print(tickets_data['category'].value_counts())

# Longitudes del texto
tickets_data['text_length'] = tickets_data['text'].apply(len)
print(tickets_data['text_length'].describe())


category
4     34061
5      9634
6      2628
7       921
11      612
8       239
9       191
3       137
1        72
12       45
0         4
2         3
10        2
Name: count, dtype: int64
count    48549.000000
mean       290.619271
std        387.195369
min          6.000000
25%        109.000000
50%        174.000000
75%        303.000000
max       7015.000000
Name: text_length, dtype: float64


### 2.4 Hallazgos Clave

1. **Estructura del Dataset:**
   - 9 columnas: title, body, ticket_type, category, sub_category1, sub_category2, business_service, urgency, impact
   - Cada ticket tiene un título y un cuerpo de texto

2. **Valores Nulos:**
   - Solo hay valores nulos en la columna 'title' (712 registros)
   - El resto de columnas están completas
   - Se creó una columna 'text' combinando title y body sin valores nulos

3. **Distribución de Categorías:**
   - Alta desbalance en las categorías
   - Categoría 4 domina con 34,061 registros (70.16%)
   - Categoría 5 segunda más común con 9,634 registros (19.84%)
   - Categorías 0, 2, y 10 tienen muy pocos registros (< 5)

4. **Análisis de Texto:**
   - Longitud media de texto: 290.62 caracteres
   - Longitud mínima: 6 caracteres
   - Longitud máxima: 7,015 caracteres
   - 50% de los tickets tienen entre 109 y 303 caracteres

## 2.5 Implicaciones para el Modelado

1. **Tratamiento de Desbalance:**
   - Será necesario aplicar técnicas de balanceo debido a la gran diferencia entre categorías
   - Considerar combinar o eliminar categorías con muy pocos ejemplos (0, 2, 10)

2. **Procesamiento de Texto:**
   - Los textos varían significativamente en longitud
   - Se deberá normalizar y tokenizar el texto
   - La columna 'text' combinada será la base para el análisis textual

3. **Valores Nulos:**
   - No será necesario un tratamiento especial de valores nulos para el modelo final
   - La estrategia de combinar title y body fue efectiva

In [5]:

# Importación de bibliotecas necesarias
import pickle
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
import re

In [6]:
# ****************************************************************************************
# Visualización de datos (para agregar después de la carga de datos)
# ****************************************************************************************

# Visualización de variables categóricas (frecuencia de clases)
# Se recomienda insertar esto después de cargar el DataFrame con los datos y antes de la división entre entrenamiento y prueba
def plot_categorical_data(tickets_data, column):
    plt.figure(figsize=(8, 6))
    sns.countplot(x=column, data=tickets_data)
    plt.title(f"Frecuencia de categorías en {column}")
    plt.show()

# Visualización de variables continuas (distribución de características numéricas)
# Se recomienda insertar esto después de la carga de datos y la limpieza inicial
def plot_continuous_data(tickets_data, column):
    plt.figure(figsize=(8, 6))
    sns.histplot(tickets_data[column], kde=True)
    plt.title(f"Distribución de {column}")
    plt.show()

# Ejemplo de visualización de correlación entre variables numéricas
def plot_correlation_matrix(tickets_data):
    plt.figure(figsize=(10, 8))
    corr_matrix = tickets_data.corr()
    sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f')
    plt.title("Matriz de Correlación")
    plt.show()

# 3. Preparación de los Datos

### 3.1 Preparación y Limpieza de Datos

In [7]:

tickets_data.to_csv("all_tickets_cleaned.csv", index=False)

# 1. Carga de datos
file_path = "all_tickets_cleaned.csv"
tickets_data = pd.read_csv(file_path)

# Combina 'title' y 'body' en una nueva columna 'text'
tickets_data['text'] = tickets_data['title'].fillna('') + " " + tickets_data['body'].fillna('')



# Asegúrate de descargar las stopwords y tokenizer de NLTK si no lo has hecho antes
# import nltk
# nltk.download('punkt')
# nltk.download('stopwords')

stop_words = set(stopwords.words('english'))

# Asegúrate de haber creado la columna 'text' a partir de 'title' y 'body'
tickets_data['text'] = tickets_data['title'].fillna('') + " " + tickets_data['body'].fillna('')

# Preprocesamiento del texto
def preprocess_text(text):
    # Eliminar caracteres especiales y números
    text = re.sub(r"[^a-zA-Z]", " ", text)
    # Convertir a minúsculas
    text = text.lower()
    # Tokenizar y eliminar stopwords
    words = word_tokenize(text)
    words = [word for word in words if word not in stop_words]
    return " ".join(words)

# Crear la columna 'text_clean'
tickets_data['text_clean'] = tickets_data['text'].apply(preprocess_text)

# Ahora deberías tener la columna 'text_clean' disponible para la vectorización y el modelado



# 3. Balanceo de clases con SMOTE (opcional)
X = tickets_data['text_clean']
y = tickets_data['category']

# Vectorización con TF-IDF
vectorizer = TfidfVectorizer(max_features=5000)
X_tfidf = vectorizer.fit_transform(X)

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X_tfidf, y, test_size=0.2, random_state=42, stratify=y)

# # Aplicar SMOTE al conjunto de entrenamiento
# smote = SMOTE(random_state=42)
# X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)


from collections import Counter

# Verificar el número de muestras por clase
class_counts = Counter(y_train)
min_class_size = min(class_counts.values())  # Tamaño de la clase más pequeña

# Ajustar k_neighbors según el tamaño de la clase más pequeña
k_neighbors = min(min_class_size - 1, 6)  # No más de 6 vecinos

# Aplicar SMOTE al conjunto de entrenamiento con k_neighbors ajustado
smote = SMOTE(random_state=42, k_neighbors=k_neighbors)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

print("Datos preprocesados y balanceados listos para el modelado.")

Datos preprocesados y balanceados listos para el modelado.



**Preparación de Datos**:
   - Texto limpio y normalizado
   - Datos balanceados con SMOTE
   - Vectorización TF-IDF efectiva

# 4. Modelado

### 4.1 Primer Entrenamiento del Modelo

In [None]:

# Cargar los datos preprocesados
file_path = "all_tickets_cleaned.csv"
tickets_data = pd.read_csv(file_path)

# Combina 'title' y 'body' en una nueva columna 'text'
tickets_data['text'] = tickets_data['title'].fillna('') + " " + tickets_data['body'].fillna('')

# Asegúrate de que 'text_clean' se generó correctamente si no existía
if 'text_clean' not in tickets_data.columns:
    # Preprocesamiento del texto
    import re
    from nltk.corpus import stopwords
    from nltk.tokenize import word_tokenize

    stop_words = set(stopwords.words('english'))

    def preprocess_text(text):
        # Eliminar caracteres especiales y números
        text = re.sub(r"[^a-zA-Z]", " ", text)
        # Convertir a minúsculas
        text = text.lower()
        # Tokenizar y eliminar stopwords
        words = word_tokenize(text)
        words = [word for word in words if word not in stop_words]
        return " ".join(words)

    tickets_data['text_clean'] = tickets_data['text'].apply(preprocess_text)

# Dividir en variables de características (X) y etiquetas (y)
X = tickets_data['text_clean']
y = tickets_data['category']

# Vectorización con TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(max_features=5000)
X_tfidf = vectorizer.fit_transform(X)


# Reasignar las clases con menos de 5 ejemplos a "Otros"
classes_to_reassign = y.value_counts()[y.value_counts() < 5].index
tickets_data.loc[tickets_data['category'].isin(classes_to_reassign), 'category'] = 'Otros'

# Volver a definir X e y después de reasignar
X = tickets_data['text_clean']
y = tickets_data['category']

# Volver a hacer la división de los datos
X_tfidf = vectorizer.fit_transform(X)


# Convertir todas las etiquetas a cadenas de texto
y = y.astype(str)

# Luego puedes continuar con el resto del código sin problemas
X_train, X_temp, y_train, y_temp = train_test_split(X_tfidf, y, test_size=0.3, random_state=42, stratify=y)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42, stratify=y_temp)


# Balanceo de clases con SMOTE en el conjunto de entrenamiento
from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state=42)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

# Crear y entrenar el modelo Naive Bayes
model = MultinomialNB()
model.fit(X_train_balanced, y_train_balanced)

# Realizar predicciones en el conjunto de validación
y_val_pred = model.predict(X_val)

# Evaluar el modelo usando métricas: precisión, recall, F1-score
print("Métricas en el conjunto de validación:")
print(classification_report(y_val, y_val_pred))

# Mostrar la matriz de confusión
print("Matriz de Confusión (Validación):")
print(confusion_matrix(y_val, y_val_pred))

# Evaluar el modelo en el conjunto de prueba
y_test_pred = model.predict(X_test)
print("Métricas en el conjunto de prueba:")
print(classification_report(y_test, y_test_pred))
print("Matriz de Confusión (Prueba):")
print(confusion_matrix(y_test, y_test_pred))

# Validación Cruzada (Cross-validation) para evaluar la estabilidad
cross_val_scores = cross_val_score(model, X_tfidf, y, cv=5, scoring='accuracy')
print("Validación Cruzada (precisión promedio):", np.mean(cross_val_scores))

# Evaluar la estabilidad del modelo mediante precisión sobre varias particiones
print(f"Precisión media de validación cruzada: {np.mean(cross_val_scores):.4f}")


  tickets_data.loc[tickets_data['category'].isin(classes_to_reassign), 'category'] = 'Otros'


#### **Nota:** 

**Es normal encontrar advertencias durante este proceso, la advertencia relacionada con el tipo de datos incompatible, en el siguiente ajuste se asegurará en convertir la columna category al tipo str antes de realizar la asignación.**

### 4.2 Análisis de Distribución de Categorías

In [None]:
print(y.value_counts())

### 4.3 Refinamiento del Modelo

In [None]:

# Cargar los datos preprocesados
file_path = "all_tickets_cleaned.csv"
tickets_data = pd.read_csv(file_path)

# Combinar 'title' y 'body' en una nueva columna 'text'
tickets_data['text'] = tickets_data['title'].fillna('') + " " + tickets_data['body'].fillna('')

# Asegúrate de que 'text_clean' se generó correctamente si no existía
if 'text_clean' not in tickets_data.columns:
    # Preprocesamiento del texto
    import re
    from nltk.corpus import stopwords
    from nltk.tokenize import word_tokenize

    stop_words = set(stopwords.words('english'))

    def preprocess_text(text):
        # Eliminar caracteres especiales y números
        text = re.sub(r"[^a-zA-Z]", " ", text)
        # Convertir a minúsculas
        text = text.lower()
        # Tokenizar y eliminar stopwords
        words = word_tokenize(text)
        words = [word for word in words if word not in stop_words]
        return " ".join(words)

    tickets_data['text_clean'] = tickets_data['text'].apply(preprocess_text)

# Convertir la columna 'category' a tipo str
tickets_data['category'] = tickets_data['category'].astype(str)

# Reasignar las clases con menos de 5 ejemplos a 'Otros'
classes_to_reassign = tickets_data['category'].value_counts()[tickets_data['category'].value_counts() < 5].index
tickets_data.loc[tickets_data['category'].isin(classes_to_reassign), 'category'] = 'Otros'

# Actualizar X e y después del cambio
X = tickets_data['text_clean']
y = tickets_data['category']

# Vectorización con TF-IDF
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(max_features=5000)
X_tfidf = vectorizer.fit_transform(X)

# División de los datos
X_train, X_temp, y_train, y_temp = train_test_split(X_tfidf, y, test_size=0.3, random_state=42, stratify=y)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42, stratify=y_temp)

# Balanceo de clases con SMOTE en el conjunto de entrenamiento
from imblearn.over_sampling import SMOTE
smote = SMOTE(random_state=42)
X_train_balanced, y_train_balanced = smote.fit_resample(X_train, y_train)

# Crear y entrenar el modelo Naive Bayes
model = MultinomialNB()
model.fit(X_train_balanced, y_train_balanced)

# Realizar predicciones en el conjunto de validación
y_val_pred = model.predict(X_val)

# Evaluar el modelo usando métricas: precisión, recall, F1-score
print("Métricas en el conjunto de validación:")
print(classification_report(y_val, y_val_pred))

# Mostrar la matriz de confusión
print("Matriz de Confusión (Validación):")
print(confusion_matrix(y_val, y_val_pred))

# Evaluar el modelo en el conjunto de prueba
y_test_pred = model.predict(X_test)
print("Métricas en el conjunto de prueba:")
print(classification_report(y_test, y_test_pred))
print("Matriz de Confusión (Prueba):")
print(confusion_matrix(y_test, y_test_pred))

# Validación Cruzada (Cross-validation) para evaluar la estabilidad
cross_val_scores = cross_val_score(model, X_tfidf, y, cv=5, scoring='accuracy')
print("Validación Cruzada (precisión promedio):", np.mean(cross_val_scores))

# Evaluar la estabilidad del modelo mediante precisión sobre varias particiones
print(f"Precisión media de validación cruzada: {np.mean(cross_val_scores):.4f}")



**Modelado**:
   - Modelo Naive Bayes implementado
   - Precisión global de 83.07%
   - Mejor rendimiento en categorías mayoritarias

#### Resultados principales de la evaluación

Accuracy promedio: 0.8307 (83.07%)
Mejor desempeño en categorías mayoritarias (4 y 5)
Desempeño más bajo en categorías minoritarias, lo cual es de esperarse en base a dataset que se tiene.

# 5. Evaluación

### 5.1 Evaluación del Modelo

In [None]:
print('model' in locals())
print('vectorizer' in locals())

El modelo (model) y el vectorizador (vectorizer) estén cargados correctamente en el entorno de ejecución.
Resultado: La evaluación muestra que ambos objetos están presentes y correctamente cargados en memoria (True para ambos), lo que indica que están listos para usarse en la clasificación de nuevos tickets.

Muchas Gracias!!! :D

**End!**