# 1- 🧾 Description Générale du Projet

Ce projet de machine learning vise à développer un système capable de classer automatiquement les tickets de support client selon leur niveau de priorité (faible, moyen, élevé), à partir de données disponibles dès leur création. L’objectif est de faciliter la gestion des demandes techniques en permettant aux équipes de support de se concentrer rapidement sur les tickets les plus critiques.

Le dataset utilisé est entièrement synthétique et contient 50 000 tickets de support provenant de 25 entreprises fictives. Il a été conçu pour simuler des situations réalistes avec un mélange de données numériques, catégorielles et textuelles simplifiées.

Le projet combine deux approches complémentaires :

**Apprentissage supervisé** : pour entraîner des modèles de classification (ex. : Random Forest, XGBoost) à prédire la priorité des tickets.

**Apprentissage non supervisé** : pour explorer les données via des techniques de regroupement (clustering) et détecter des structures cachées.

Ce projet est une excellente opportunité pédagogique pour mettre en pratique l’analyse exploratoire, le prétraitement des données, la modélisation, l’évaluation de performances, et l’interprétation des résultats dans un contexte métier réaliste.

# 2- 🗂️ Schéma des Données

Le dataset contient les colonnes suivantes :

#### Identifiants & Temps
- **ticket_id** : Identifiant unique du ticket (int64)
- **day_of_week** : Jour de la semaine (Lun–Dim)
- **day_of_week_num** : Numéro du jour (1–7 ; Lun=1)

#### Profil de l’Entreprise (répliqué sur chaque ligne)
- **company_id** : Identifiant de l’entreprise (int)
- **company_size** : Taille de l’entreprise (Petite/Moyenne/Grande)
- **industry** : Secteur d’activité (7 catégories)
- **customer_tier** : Niveau de service client (Basic/Plus/Enterprise)
- **org_users** : Nombre d’utilisateurs actifs (jusqu’à ~10 000 pour les grandes entreprises)

#### Contexte
- **region** : Région (AMER/EMEA/APAC)
- **past_30d_tickets** : Nombre de tickets sur les 30 derniers jours (int)
- **past_90d_incidents** : Nombre d’incidents sur les 90 derniers jours (int)

#### Produit & Canal
- **product_area** : Domaine produit (authentification, facturation, mobile, pipeline de données, analytique, notifications)
- **booking_channel** : Canal de création (web, email, chat, téléphone)
- **reported_by_role** : Rôle du déclarant (support, devops, chef produit, finance, direction)

#### Impact & Indicateurs
- **customers_affected** : Nombre de clients impactés (int, distribution asymétrique)
- **error_rate_pct** : Taux d’erreur (%) (float, 0–100 ; parfois 0.0 si non mesuré)
- **downtime_min** : Durée d’indisponibilité (minutes, 0 si seulement dégradé)
- **payment_impact_flag** : Impact sur paiement (0/1)
- **security_incident_flag** : Incident de sécurité (0/1)
- **data_loss_flag** : Perte de données (0/1)
- **has_runbook** : Procédure disponible (0/1)

#### Texte & Proxies
- **customer_sentiment** : Sentiment client (négatif/neutre/positif ; 0 = manquant)
- **description_length** : Longueur de la description (int, 20–2000)

#### Cible
- **priority** : Priorité du ticket (faible/moyenne/élevée)
- **priority_cat** : Priorité (1/2/3)

**Remarques :**
- Jeu de données entièrement synthétique, adapté à l’éducation et au benchmarking.
- Pas d’ordre temporel ni de champs post-résolution (pas de fuite de label).
- Niveau de bruit ajusté pour une performance plafond de ~97–98% avec des modèles optimisés.

# 📊 Business Objectives (BO) vs Data Science Objectives (DSO)

| **Business Objective (BO)** | **Data Science Objective (DSO)** |
|------------------------------|----------------------------------|
| **1. Améliorer la gestion des tickets** : Automatiser l’attribution d’une priorité (faible, moyenne, élevée) dès la création d’un ticket. | Construire un **modèle de classification supervisée** (Random Forest, XGBoost, etc.) pour prédire la variable `priority` avec une performance > 80% (mesurée par F1-score ou accuracy). |
| **2. Optimiser l’utilisation des ressources humaines** : Identifier rapidement les tickets critiques pour mieux répartir les tâches. | Mettre en place un **système de scoring basé sur les prédictions ML** afin de classer automatiquement les tickets par ordre de criticité. |
| **3. Améliorer la satisfaction client** : Réduire le temps de réponse sur les tickets critiques. | Analyser l’impact de variables comme `downtime_min`, `error_rate_pct` ou `customer_sentiment` et intégrer ces signaux dans le modèle pour améliorer la détection des cas urgents. |
| **4. Analyse stratégique** : Comprendre l’influence de facteurs comme la taille d’entreprise, la région ou le produit sur la priorité des tickets. | Réaliser une **analyse exploratoire (EDA)** et utiliser des méthodes d’explicabilité (Feature Importance, SHAP) pour identifier les variables qui influencent le plus la priorité. |
| **5. Innovation et automatisation** : Explorer de nouvelles approches pour améliorer la gestion des tickets. | - **Supervisé** : Comparer plusieurs modèles ML (Logistic Regression, Random Forest, XGBoost, etc.) et choisir le meilleur.<br>- **Non supervisé** : Appliquer du **clustering (K-Means, DBSCAN, PCA)** pour regrouper les tickets similaires et détecter des anomalies. |
