# The Hired Hand

**Apprentissage Automatique pour la Prédiction de Changement d'Emploi**

---

## Table des Matières

1. [Description du Projet et du Jeu de Données](#1-description-du-projet-et-du-jeu-de-données)
   - [1.1 Objectif du Projet](#11-objectif-du-projet)
   - [1.2 Solutions Existantes](#12-solutions-existantes)
   - [1.3 Informations sur le Jeu de Données](#13-informations-sur-le-jeu-de-données)
   - [1.4 Hypothèses Initiales](#14-hypothèses-initiales)
2. [Importation des Bibliothèques](#2-importation-des-bibliothèques)
3. [Accès aux Données](#3-accès-aux-données)
4. [Analyse Exploratoire du Jeu de Données](#4-analyse-exploratoire-du-jeu-de-données)
   - [4.1 Analyse des Métadonnées](#41-analyse-des-métadonnées)
   - [4.2 Analyse des Valeurs Manquantes](#42-analyse-des-valeurs-manquantes)
   - [4.3 Distributions et Valeurs Aberrantes](#43-distributions-et-valeurs-aberrantes)
   - [4.4 Étude de la Variable Cible](#44-étude-de-la-variable-cible)
   - [4.5 Corrélations](#45-corrélations)
   - [4.6 Feature Engineering](#46-feature-engineering)
   - [4.7 Synthèse EDA et Vérification des Hypothèses](#47-synthèse-eda-et-vérification-des-hypothèses)
5. [Modélisation](#5-modélisation)
   - [5.1 Préparation des Données](#51-préparation-des-données)
   - [5.2 Modèles de Référence](#52-modèles-de-référence)
   - [5.3 Optimisation](#53-optimisation)
   - [5.4 Évaluation Finale](#54-évaluation-finale)
6. [Analyse Critique](#6-analyse-critique)
   - [6.1 Analyse des Erreurs](#61-analyse-des-erreurs)
   - [6.2 Feature Importance](#62-feature-importance)
   - [6.3 Retour sur les Hypothèses](#63-retour-sur-les-hypothèses)
7. [Conclusion](#7-conclusion)

---

## 1. Description du Projet et du Jeu de Données

### 1.1 Objectif du Projet

Ce projet applique des techniques d'Apprentissage Automatique pour prédire si un candidat cherche activement un nouvel emploi.

**Contexte métier :** Une entreprise de formation en Data Science souhaite identifier parmi ses participants ceux qui cherchent un emploi, afin de :
- Mieux cibler les candidats pour des offres d'emploi
- Comprendre les facteurs qui poussent à chercher un nouvel emploi
- Optimiser les ressources de placement

**Objectifs techniques :**
- Construire un modèle de classification binaire (cherche emploi vs ne cherche pas)
- Identifier les facteurs clés influençant la recherche d'emploi
- Appliquer une méthodologie ML rigoureuse

### 1.2 Solutions Existantes

**Approche Traditionnelle :**
Les départements RH utilisent des filtres manuels (expérience, diplôme, localisation) pour identifier les candidats. Cette approche est subjective et ne capture pas les interactions complexes entre facteurs.

**Solutions ML courantes :**
- **Modèles de référence :** Régression Logistique, KNN
- **Modèles ensemblistes :** Random Forest, XGBoost, Gradient Boosting

**Constats de la littérature :**
- Les méthodes ensemblistes surpassent généralement les modèles simples
- L'ingénierie des caractéristiques impacte significativement les performances
- La gestion du déséquilibre des classes est cruciale

### 1.3 Informations sur le Jeu de Données

**Source :** [HR Analytics: Job Change of Data Scientists](https://www.kaggle.com/datasets/arashnic/hr-analytics-job-change-of-data-scientists)

**Caractéristiques :**
- **Taille :** ~19 000 instances, 14 caractéristiques
- **Type :** Données tabulaires mixtes (numériques et catégorielles)
- **Cible :** `target` (1 = cherche un emploi, 0 = ne cherche pas)

**Variables principales :**
| Variable | Description |
|----------|-------------|
| `city_development_index` | Indice de développement de la ville |
| `experience` | Années d'expérience |
| `company_size` | Taille de l'entreprise actuelle |
| `company_type` | Type d'entreprise |
| `last_new_job` | Années depuis le dernier changement d'emploi |
| `training_hours` | Heures de formation suivies |
| `education_level` | Niveau d'éducation |
| `major_discipline` | Discipline principale |

### 1.4 Hypothèses Initiales

Avant d'explorer les données, voici nos hypothèses sur les facteurs qui influenceront la recherche d'emploi :

**H1 - Expérience professionnelle**
> Les candidats avec plus d'expérience seront moins enclins à chercher un nouvel emploi (stabilité de carrière).

**H2 - Niveau de développement de la ville**
> Les candidats dans des villes moins développées chercheront plus activement (moins d'opportunités locales).

**H3 - Situation professionnelle actuelle**
> Les candidats sans emploi actuel (`company_size` manquant) chercheront logiquement plus un emploi.

**H4 - Mobilité passée**
> Les candidats ayant changé d'emploi récemment (`last_new_job` faible) seront plus mobiles.

**H5 - Formation**
> Les candidats avec un niveau d'éducation élevé (Graduate, Masters) seront plus mobiles sur le marché.

---

➡️ **Ces hypothèses seront confrontées aux résultats en section 6.3**

---

## 2. Importation des Bibliothèques

In [None]:
# Core
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

%matplotlib inline

# Configuration des visualisations
plt.rcParams['figure.figsize'] = (10, 6)
plt.rcParams['font.size'] = 11
sns.set_style('whitegrid')

---

## 3. Accès aux Données

In [None]:
DATA_URL = "https://raw.githubusercontent.com/Angry-Jay/ML_TheHiredHand/refs/heads/main/aug_train.csv"

df = pd.read_csv(DATA_URL)

print(f"Dataset chargé : {df.shape[0]} lignes, {df.shape[1]} colonnes")
df.head()

---

## 4. Analyse Exploratoire du Jeu de Données

### 4.1 Analyse des Métadonnées

In [None]:
# À compléter

### 4.2 Analyse des Valeurs Manquantes

In [None]:
# À compléter

### 4.3 Distributions et Valeurs Aberrantes

In [None]:
# À compléter

### 4.4 Étude de la Variable Cible

In [None]:
# À compléter

### 4.5 Corrélations

In [None]:
# À compléter

### 4.6 Feature Engineering

Création de nouvelles variables pour améliorer la séparabilité des classes.

In [None]:
# À compléter

### 4.7 Synthèse EDA et Vérification des Hypothèses

In [None]:
# À compléter

---

## 5. Modélisation

### 5.1 Préparation des Données

In [None]:
# À compléter

### 5.2 Modèles de Référence

In [None]:
# À compléter

### 5.3 Optimisation

In [None]:
# À compléter

### 5.4 Évaluation Finale

In [None]:
# À compléter

---

## 6. Analyse Critique

### 6.1 Analyse des Erreurs

In [None]:
# À compléter

### 6.2 Feature Importance

In [None]:
# À compléter

### 6.3 Retour sur les Hypothèses

Confrontation des hypothèses initiales (section 1.4) avec les résultats obtenus.

In [None]:
# À compléter

---

## 7. Conclusion

À compléter