In [3]:
# Modello di classificazione ticket aziendali

# Importo le librerie che mi serviranno per lo sviluppo del modello
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Carico il dataset in colab e lo importo
df = pd.read_csv("synthetic_tickets.csv", encoding="utf-8")

# Creo una colonna combinata "testo"
df["testo"] = df["titolo"] + ". " + df["descrizione"]

# Imposto le variabili indipendenti e dipendenti
X = df["testo"]              # testo del ticket
y = df["categoria"]           # etichetta da prevedere (categoria)

# Divido i dati in train e test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Converto il testo in numeri con TF-IDF
vectorizer = TfidfVectorizer(max_features=1000)  #TF-IDF traduce il testo in numeri valutando l’importanza delle parole
X_train_vec = vectorizer.fit_transform(X_train)
X_test_vec = vectorizer.transform(X_test)

# Scelgo e addestro un modello semplice
model = DecisionTreeClassifier(random_state=42)   #Decision Tree è un modello che impara le regole sui dati e prende decisioni a seconda delle parole più significative
model.fit(X_train_vec, y_train)

# Faccio le previsioni
y_pred = model.predict(X_test_vec)

# Valuto le prestazioni
print("Accuracy:", accuracy_score(y_test, y_pred))      #Accuracy e Classification Report mostrano quanto bene il modello riconosce le categorie
print("\nClassification Report:\n", classification_report(y_test, y_pred))
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred))  #La matrice di confusione permette di capire visivamente in quali categorie il modello effettua previsioni
                                                                  #corrette e dove tende a sbagliare, mostrando per ogni classe i casi corretti e quelli confusi con altre categorie



# Salvo il modello e il vettorizzatore
import joblib
joblib.dump(model, "modello_ticket.pkl")   #.dump serve per salvare gli oggetti Python sul disco
joblib.dump(vectorizer, "vectorizer.pkl")

print("\nModello e vettorizzatore salvati con successo!")  #stampo per poter visualizzare se l'operazione di salvataggio è avvenuta con successo

Accuracy: 0.3333333333333333

Classification Report:
                 precision    recall  f1-score   support

Amministrativo       0.44      0.35      0.39        23
   Commerciale       0.28      0.23      0.25        22
       Tecnico       0.29      0.47      0.36        15

      accuracy                           0.33        60
     macro avg       0.34      0.35      0.33        60
  weighted avg       0.35      0.33      0.33        60


Confusion Matrix:
 [[ 8  8  7]
 [ 7  5 10]
 [ 3  5  7]]

Modello e vettorizzatore salvati con successo!
