In [1]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
import pandas as pd
from sklearn.metrics import accuracy_score, f1_score

In [2]:
df = pd.read_csv('04_09_solicitudes.csv', delimiter=";")

In [3]:
X = df['Asunto']
y = df['Categoría']

- Clasificadores Naive Bayes:
    - Se usan para problemas de clasificación de texto de aprendizaje automático
    - Pueden predecir  el sentimiento de un tweet, identificar el idioma de un texto o categorizar un ticket de soporte

- Desafío: Analizar las solicitudes de soporte par predecir la categorización de solicitudes futuras
    1. Usar la columna de Categoría como variable de destino
    2. Usar la función train_test_split() con 20% de datos de prueba
    3. Utilizar CountVectorizer para convertir la columna detalle en un vector de números
    4. Guardar estos datos en una variable que será el set de datos para entrenamiento
    5. Ajustar el modelo de clasificación
    6. Realizar predicciones con los datos de prueba
    7. Imprimior la información devuelta por las funciones accuracy_score y f1_score


In [4]:
print(df.head())

                                     Asunto  \
0         Problema con el acceso web remoto   
1                           Error de acceso   
2              Embalaje del portátil dañado   
3  Caducidad de las licencias empresariales   
4                          Licencia perdida   

                                         Descripción  Categoría  Urgencia  
0  Vine aquí en busca de ayuda con respecto a la ...          4         3  
1                 No puedo ingresar a mi computadora          4         3  
2  Llegué a saber que el empaque estaba severamen...          1         3  
3  Tenemos una computadora que siempre tuvo una l...          3         3  
4  Después de un largo corte de energía perdí la ...          3         3  


In [5]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

In [6]:
vectorizer = CountVectorizer()

X_train = vectorizer.fit_transform(X_train)

# IMPORTANTE: usar transform y no fit_transform a partir de aquí al vectorizar datos, ya que el vectorizer anterior
# ya fue entrenado y lo que queremos es realizar vectorizaciones sobre dicho modelo. En otro caso, estaríamos entrenando
# un vectorizer diferente para cada vectorización.  

X_test = vectorizer.transform(X_test)

In [7]:
# alpha: Parámetro de suavizado (smoothing) que ayuda a evitar la probabilidad cero para palabras no vistas.
model = MultinomialNB(alpha=1.0)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

In [8]:
print(f"\nPrecisión (Accuracy) del modelo: {accuracy_score(y_test, y_pred):.2f}")
print(f"\nF1 Score del modelo: {f1_score(y_test, y_pred, average='weighted'):.2f}")


Precisión (Accuracy) del modelo: 0.67

F1 Score del modelo: 0.60


In [9]:
nuevo_texto = ["Carpeta compartida dañada"]
nuevo_texto_vectorizado = vectorizer.transform(nuevo_texto)
prediccion_nueva = model.predict(nuevo_texto_vectorizado)

print(f"\nPredicción para '{nuevo_texto[0]}': Categoría: {prediccion_nueva[0]}")


Predicción para 'Carpeta compartida dañada': Categoría: 1
