# Sélection du Modèle de Prédiction : Analyse et Justification

| **Modèle**                     | **Avantages**                                                                                     | **Inconvénients**                                                                                       |
|---------------------------------|---------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------|
| **Perceptron**                  | - Simple et rapide à entraîner. <br> - Convient pour les problèmes de classification binaire. <br> - Performances bonnes avec des données linéaires. | - Ne fonctionne que pour des données linéaires. <br> - Sensible aux paramètres et nécessite une normalisation des données. <br> - Mauvaise performance sur des relations non linéaires. |
| **Logistic Regression**         | - Simple à implémenter et à interpréter. <br> - Bon pour les données linéaires. <br> - Moins sujet au sur-ajustement. <br> - Fournit une probabilité de sortie. | - Inefficace pour des données non linéaires. <br> - Sensible aux variables fortement corrélées. <br> - Pas adapté pour des problèmes complexes. |
| **SVM (Support Vector Machine)** | - Efficace pour des marges claires entre classes. <br> - Gère des relations non linéaires avec un noyau. <br> - Bon pour des données de haute dimension. | - Coûteux en calculs. <br> - Sensible au choix des hyperparamètres et du noyau. <br> - Moins interprétable. |
| **KNN (K-Nearest Neighbors)**   | - Simple à comprendre et à implémenter. <br> - Pas besoin de phase d'entraînement explicite. <br> - Performant avec des frontières de décision complexes. | - Lent en phase de prédiction, surtout avec de grandes données. <br> - Sensible aux valeurs aberrantes. <br> - Inefficace avec des données de haute dimension. |
| **Naive Bayes**                 | - Simple et rapide. <br> - Bon pour des données bruitées. <br> - Performant même avec des données peu corrélées. | - Hypothèse d’indépendance irréaliste. <br> - Mauvais pour les données fortement corrélées. <br> - Moins performant pour des relations complexes. |
| **Decision Tree**               | - Facile à comprendre et à interpréter. <br> - Gère bien les relations non linéaires. <br> - Moins sensible aux anomalies. | - Risque de sur-ajustement avec des arbres trop profonds. <br> - Sensible aux petites variations des données. <br> - Moins robuste que Random Forest. |
| **Random Forest**               | - Moins susceptible au sur-ajustement. <br> - Très robuste et performant avec des données complexes et bruitées. <br> - Donne l'importance des variables. | - Plus difficile à interpréter. <br> - Plus coûteux en calculs. <br> - Moins efficace sur des petits jeux de données. |


# Évaluation et Comparaison des Modèles d'IA pour la Prédiction de l'Attrition  

---

## Contexte  

L'entreprise **HumanForYou** fait face à un taux de rotation des employés de **15 %**, impactant les projets et augmentant les coûts de recrutement. L'objectif est de prédire l'attrition des employés en identifiant les **facteurs clés** et en proposant des solutions pour améliorer la rétention.  

---

## Modèles Sélectionnés pour Comparaison  

Pour répondre à ce problème, nous avons sélectionné **quatre modèles d'IA** considérés comme les meilleurs pour ce projet. Ces modèles seront testés, comparés et évalués pour déterminer celui offrant les **meilleures performances** et répondant aux besoins de l'entreprise.  

---

### **1. Random Forest**  
- **Pourquoi ce modèle ?**  
   - Gère efficacement les **relations non linéaires**.  
   - Robuste face aux données complexes et bruitées.  
   - Fournit l'**importance des variables**, ce qui aide à expliquer les principaux facteurs d'attrition.  
- **Objectif** :  
   - Identifier les facteurs déterminants du départ des employés.  
   - Offrir des prédictions robustes et fiables.  

---

### **2. Logistic Regression**  
- **Pourquoi ce modèle ?**  
   - Modèle **simple**, rapide et interprétable.  
   - Fournit des **probabilités de prédiction**, utiles pour la prise de décision.  
- **Objectif** :  
   - Servir de **baseline** pour comparer les autres modèles.  
   - Évaluer les performances des relations **linéaires** entre les variables.  

---

### **3. Support Vector Machine (SVM)**  
- **Pourquoi ce modèle ?**  
   - Performant pour des **frontières complexes** grâce au noyau (Kernel Trick).  
   - Adapté pour des jeux de données avec des **marges claires** entre les classes.  
- **Objectif** :  
   - Tester la capacité du modèle à gérer les **relations non linéaires** dans les données.  
   - Comparer les performances avec des modèles plus robustes comme Random Forest.  

---

### **4. Decision Tree**  
- **Pourquoi ce modèle ?**  
   - Facile à interpréter et à visualiser.  
   - Gère naturellement les **relations non linéaires** et les variables catégorielles.  
- **Objectif** :  
   - Comprendre les critères décisionnels qui mènent à l'attrition.  
   - Fournir un modèle clair pour la communication des résultats à la direction.  

---

## Méthodologie  

1. **Tests et Comparaisons**  
   - Les quatre modèles seront entraînés et testés sur les données fournies.  
   - Les performances seront comparées à l'aide des métriques suivantes :  
     - **Accuracy** : Précision globale des prédictions.  
     - **Recall** : Capacité à identifier correctement les employés qui quittent l'entreprise.  
     - **Precision** : Exactitude des prédictions positives.  
     - **F1-Score** : Compromis entre précision et rappel.  

2. **Sélection du Meilleur Modèle**  
   - A l'issue des comparaisons, le modèle offrant les **meilleures performances** et une bonne capacité d'interprétation sera retenu.  
   - Ce modèle servira de base pour formuler des **recommandations concrètes** à la direction de HumanForYou.  

---

## Conclusion  

Ces quatre modèles ont été sélectionnés pour leur capacité à répondre efficacement aux besoins du projet en matière de **performance prédictive** et d'**interprétabilité**. Après avoir effectué les tests et comparaisons nécessaires, nous retiendrons le **modèle le plus performant** afin de fournir des **résultats fiables** et des recommandations pratiques pour améliorer la rétention des employés.


# Analyse des Facteurs Impactant la Performance et la Rétention des Employés  

---

## Matrice de Corrélation  
En se basant sur la **matrice de corrélation** ci-dessous, on a pu observer les relations entre différentes variables telles que la performance, la durée dans l'entreprise et d'autres facteurs pertinents :  

![image.png](attachment:cae3862a-8170-43d6-afb3-6ec1f1e1d92d.png)

---

## 1. Facteurs influençant la performance des salariés  
L’analyse de la matrice de corrélation a permis d’identifier quatre variables majeures liées à la **performance des employés** :  

- **PercentSalaryHike** (0.77)  
   - Une corrélation positive forte.  
   - Les augmentations de salaire motivent les employés à améliorer leurs performances.  

- **YearsWithCurrManager** (0.77)  
   - Une relation stable avec le manager favorise un environnement de travail productif.  
   - Les employés performants bénéficient souvent d’une meilleure relation managériale sur le long terme.  

- **YearsAtCompany** (0.63)  
   - Une corrélation positive modérée.  
   - Plus un employé reste longtemps dans l’entreprise, plus il améliore sa performance grâce à l'expérience accumulée.  

- **YearsSinceLastPromotion** (0.62)  
   - Une longue attente sans promotion peut influencer négativement la performance.  
   - Une reconnaissance régulière contribue à maintenir l’engagement des salariés.  

---

## 2. Facteurs influençant la durée du contrat (rétention des employés)  
La durée pendant laquelle un employé reste dans l’entreprise est fortement influencée par les facteurs suivants :  

- **YearsWithCurrManager** (0.77)  
   - Une relation solide avec le manager augmente la fidélité à l’entreprise.  

- **YearsAtCompany** (0.63)  
   - Les employés ayant une ancienneté élevée sont plus susceptibles de rester.  

- **YearsSinceLastPromotion** (0.62)  
   - Une absence prolongée de promotion peut provoquer une démotivation, entraînant un départ.  

- **TotalWorkingYears** (0.46)  
   - Les employés ayant plus d’expérience professionnelle totale montrent généralement une meilleure stabilité.  

---

## 3. Pourquoi les employés quittent leur travail ?  
L’analyse met en évidence les principaux facteurs qui poussent un employé à quitter son poste :  

- **Faible reconnaissance**  
   - **YearsSinceLastPromotion** : Une longue période sans promotion démotive les employés qui se sentent négligés.  

- **Manque de progression salariale**  
   - **PercentSalaryHike** : Une faible augmentation salariale diminue la satisfaction et l’engagement.  

- **Relations managériales instables**  
   - **YearsWithCurrManager** : Une relation courte ou conflictuelle avec le manager entraîne souvent des départs précoces.  

- **Absence de progression de carrière**  
   - **YearsAtCompany** et **TotalWorkingYears** : Les employés expérimentés quittent lorsqu’ils ne voient pas d’évolution dans leur rôle.  

---



