# I- üßæ Description G√©n√©rale du Projet

Ce projet de machine learning vise √† d√©velopper un syst√®me capable de classer automatiquement les tickets de support client selon leur niveau de priorit√© (faible, moyen, √©lev√©), √† partir de donn√©es disponibles d√®s leur cr√©ation. L‚Äôobjectif est de faciliter la gestion des demandes techniques en permettant aux √©quipes de support de se concentrer rapidement sur les tickets les plus critiques.

Le dataset utilis√© est enti√®rement synth√©tique et contient 50 000 tickets de support provenant de 25 entreprises fictives. Il a √©t√© con√ßu pour simuler des situations r√©alistes avec un m√©lange de donn√©es num√©riques, cat√©gorielles et textuelles simplifi√©es.

Le projet combine deux approches compl√©mentaires :

**Apprentissage supervis√©** : pour entra√Æner des mod√®les de classification (ex. : Random Forest, XGBoost) √† pr√©dire la priorit√© des tickets.

**Apprentissage non supervis√©** : pour explorer les donn√©es via des techniques de regroupement (clustering) et d√©tecter des structures cach√©es.

Ce projet est une excellente opportunit√© p√©dagogique pour mettre en pratique l‚Äôanalyse exploratoire, le pr√©traitement des donn√©es, la mod√©lisation, l‚Äô√©valuation de performances, et l‚Äôinterpr√©tation des r√©sultats dans un contexte m√©tier r√©aliste.

# II- üß† Business Understanding

## 1- üìä Business Objectives (BO) vs Data Science Objectives (DSO)

| **Business Objective (BO)** | **Data Science Objective (DSO)** |
|------------------------------|----------------------------------|
| **1. Am√©liorer la gestion des tickets** : Automatiser l‚Äôattribution d‚Äôune priorit√© (faible, moyenne, √©lev√©e) d√®s la cr√©ation d‚Äôun ticket. | Construire un **mod√®le de classification supervis√©e** (Random Forest, XGBoost, etc.) pour pr√©dire la variable `priority` avec une performance > 80% (mesur√©e par F1-score ou accuracy). |
| **2. Optimiser l‚Äôutilisation des ressources humaines** : Identifier rapidement les tickets critiques pour mieux r√©partir les t√¢ches. | Mettre en place un **syst√®me de scoring bas√© sur les pr√©dictions ML** afin de classer automatiquement les tickets par ordre de criticit√©. |
| **3. Am√©liorer la satisfaction client** : R√©duire le temps de r√©ponse sur les tickets critiques. | Analyser l‚Äôimpact de variables comme `downtime_min`, `error_rate_pct` ou `customer_sentiment` et int√©grer ces signaux dans le mod√®le pour am√©liorer la d√©tection des cas urgents. |
| **4. Analyse strat√©gique** : Comprendre l‚Äôinfluence de facteurs comme la taille d‚Äôentreprise, la r√©gion ou le produit sur la priorit√© des tickets. | R√©aliser une **analyse exploratoire (EDA)** et utiliser des m√©thodes d‚Äôexplicabilit√© (Feature Importance, SHAP) pour identifier les variables qui influencent le plus la priorit√©. |
| **5. Innovation et automatisation** : Explorer de nouvelles approches pour am√©liorer la gestion des tickets. | - **Supervis√©** : Comparer plusieurs mod√®les ML (Logistic Regression, Random Forest, XGBoost, etc.) et choisir le meilleur.<br>- **Non supervis√©** : Appliquer du **clustering (K-Means, DBSCAN, PCA)** pour regrouper les tickets similaires et d√©tecter des anomalies. |


## 2- ‚ùì Probl√©matique G√©n√©rale

Les entreprises re√ßoivent un grand volume de tickets de support qu‚Äôil est difficile de prioriser manuellement.  
Comment d√©velopper un mod√®le de Machine Learning capable de pr√©dire automatiquement la priorit√© des tickets et, en parall√®le, utiliser des m√©thodes de clustering pour regrouper les tickets similaires et d√©tecter des anomalies ?


# II- üß† Data Understanding

## 1- üìÇ Importation de Dataset (Excel)

Nous allons charger le dataset au format **CSV** en utilisant la librairie **pandas**.  
La fonction `pd.read_csv()` permet de lire directement un fichier `.csv`. 

In [2]:
# Importer pandas
import pandas as pd

# Charger le fichier CSV
# Remplace "Support_tickets.csv" par le chemin exact de ton fichier
df = pd.read_csv("Support_tickets.csv")

# V√©rifier les dimensions du dataset
print("Shape :", df.shape)

# Aper√ßu des 5 premi√®res lignes
df.head()


Shape : (50000, 33)


Unnamed: 0,ticket_id,day_of_week,day_of_week_num,company_id,company_size,company_size_cat,industry,industry_cat,customer_tier,customer_tier_cat,...,downtime_min,payment_impact_flag,security_incident_flag,data_loss_flag,has_runbook,customer_sentiment,customer_sentiment_cat,description_length,priority,priority_cat
0,1000000000,Wed,3,100015,Small,1,media,7,Basic,1,...,6,0,0,0,0,neutral,2,227,low,1
1,1000000001,Sat,6,100023,Small,1,healthcare,5,Basic,1,...,2,0,0,0,0,neutral,2,461,low,1
2,1000000002,Mon,1,100012,Small,1,gaming,4,Basic,1,...,0,0,0,0,1,positive,3,306,low,1
3,1000000003,Wed,3,100003,Small,1,media,7,Plus,2,...,16,0,0,0,1,neutral,2,363,medium,2
4,1000000004,Mon,1,100019,Small,1,ecommerce,2,Plus,2,...,6,0,0,0,0,neutral,2,442,low,1


## 2- üóÇÔ∏è Sch√©ma des Donn√©es

Le dataset contient les colonnes suivantes¬†:

#### Identifiants & Temps
- **ticket_id** : Identifiant unique du ticket (int64)
- **day_of_week** : Jour de la semaine (Lun‚ÄìDim)
- **day_of_week_num** : Num√©ro du jour (1‚Äì7 ; Lun=1)

#### Profil de l‚ÄôEntreprise (r√©pliqu√© sur chaque ligne)
- **company_id** : Identifiant de l‚Äôentreprise (int)
- **company_size** : Taille de l‚Äôentreprise (Petite/Moyenne/Grande)
- **industry** : Secteur d‚Äôactivit√© (7 cat√©gories)
- **customer_tier** : Niveau de service client (Basic/Plus/Enterprise)
- **org_users** : Nombre d‚Äôutilisateurs actifs (jusqu‚Äô√† ~10 000 pour les grandes entreprises)

#### Contexte
- **region** : R√©gion (AMER/EMEA/APAC)
- **past_30d_tickets** : Nombre de tickets sur les 30 derniers jours (int)
- **past_90d_incidents** : Nombre d‚Äôincidents sur les 90 derniers jours (int)

#### Produit & Canal
- **product_area** : Domaine produit (authentification, facturation, mobile, pipeline de donn√©es, analytique, notifications)
- **booking_channel** : Canal de cr√©ation (web, email, chat, t√©l√©phone)
- **reported_by_role** : R√¥le du d√©clarant (support, devops, chef produit, finance, direction)

#### Impact & Indicateurs
- **customers_affected** : Nombre de clients impact√©s (int, distribution asym√©trique)
- **error_rate_pct** : Taux d‚Äôerreur (%) (float, 0‚Äì100 ; parfois 0.0 si non mesur√©)
- **downtime_min** : Dur√©e d‚Äôindisponibilit√© (minutes, 0 si seulement d√©grad√©)
- **payment_impact_flag** : Impact sur paiement (0/1)
- **security_incident_flag** : Incident de s√©curit√© (0/1)
- **data_loss_flag** : Perte de donn√©es (0/1)
- **has_runbook** : Proc√©dure disponible (0/1)

#### Texte & Proxies
- **customer_sentiment** : Sentiment client (n√©gatif/neutre/positif ; 0 = manquant)
- **description_length** : Longueur de la description (int, 20‚Äì2000)

#### Cible
- **priority** : Priorit√© du ticket (faible/moyenne/√©lev√©e)
- **priority_cat** : Priorit√© (1/2/3)

**Remarques¬†:**
- Jeu de donn√©es enti√®rement synth√©tique, adapt√© √† l‚Äô√©ducation et au benchmarking.
- Pas d‚Äôordre temporel ni de champs post-r√©solution (pas de fuite de label).
- Niveau de bruit ajust√© pour une performance plafond de ~97‚Äì98% avec des mod√®les optimis√©s.

## 3- üìñ Interpr√©tation de la Description des Donn√©es

#### * Nombre de lignes et de colonnes

In [3]:
# Nombre de lignes et colonnes
print("Nombre de lignes :", df.shape[0])
print("Nombre de colonnes :", df.shape[1])

Nombre de lignes : 50000
Nombre de colonnes : 33


#### * Types de variables

In [8]:
%pip install ace_tools
import ace_tools as tools
import pandas as pd

df = pd.read_csv("Support_tickets.csv")
# Identifier les types de variables
types_variables = df.dtypes.value_counts()
# D√©tail des colonnes avec leur type
colonnes_types = df.dtypes.reset_index()
colonnes_types.columns = ["Colonne", "Type"]
tools.display_dataframe_to_user("Types de variables", colonnes_types)

Note: you may need to restart the kernel to use updated packages.


ModuleNotFoundError: No module named 'ace_tools'

# III - üßπ Data Preparation

## 1 - üîé Objectifs

La phase de **Data Preparation** consiste √† transformer les donn√©es brutes en un format exploitable par les algorithmes de Machine Learning.  
Elle comprend :  
- le **nettoyage** des donn√©es,  
- la **gestion des valeurs manquantes**,  
- l‚Äô**encodage des variables cat√©gorielles**,  
- la **normalisation/standardisation**,  
- la cr√©ation de nouvelles **features** (feature engineering)