# üéì PROJET 15 : Optimiseur d'Annulation d'H√¥tel (Version Interm√©diaire)
## üèÅ Objectif du Projet
D√©velopper un mod√®le pr√©dictif pour estimer la probabilit√© d'annulation d'une r√©servation d'h√¥tel.
L'objectif final est de fournir une recommandation de **limite de surr√©servation** (Overbooking Limit) pour maximiser le taux d'occupation sans risque.

## üìÇ Les Donn√©es
Fichier : `annulation_hotel.csv`
Cible : `Annule` (0 = Non, 1 = Oui)

---
# üìã SESSION 1 : From Raw Data to Clean Insights (45 min)


## üõ†Ô∏è Part 1: The Setup
**Objectif :** Charger les donn√©es et pr√©parer l'environnement.
**Livrables :** DataFrame charg√©, aper√ßu des types et dimensions.

In [None]:
# Votre code ici (Imports : pandas, numpy, matplotlib, seaborn)
# Votre code ici (Chargement du CSV)
# Votre code ici (Info et Head)

## üßπ Part 2: The Sanity Check
**Objectif :** Nettoyer le dataset pour l'analyse.
**Approches recommand√©es :**
- **Valeurs manquantes :** Imputation (M√©diane pour num√©riques, Mode pour cat√©gorielles).
- **Doublons :** Suppression.
**Livrables :** Un dataset propre sans nulls ni doublons.

In [None]:
# Votre code ici (Analyse des manquants)
# Votre code ici (Traitement des manquants)
# Votre code ici (Suppression des doublons)

## üìä Part 3: Exploratory Data Analysis
**Objectif :** Comprendre les facteurs d'annulation.
**Questions cl√©s :**
1. Quel est le taux d'annulation global ? (D√©s√©quilibre de classe ?)
2. Le d√©lai de r√©servation (`Delai_Reservation`) influence-t-il l'annulation ?
3. Les clients "Corporate" annulent-ils moins que les "Online" ?
**Livrables :** Graphiques pertinents (Countplot, Boxplot, Barplot).

In [None]:
# Votre code ici (Analyse de la cible 'Annule')
# Votre code ici (Analyse Delai_Reservation vs Annule)
# Votre code ici (Analyse Segment_Marche vs Annule)

---
# üß™ SESSION 2 : The Art of Feature Engineering (45 min)


### √âtape 2.1 : Encodage des Cat√©gories
**Objectif :** Transformer les variables textuelles en format num√©rique.
**Approche :** One-Hot Encoding pour `Segment_Marche`.

In [None]:
# Votre code ici (pd.get_dummies)

### √âtape 2.2 : Feature Engineering M√©tier (Recipe 6)
**Objectif :** Cr√©er des variables explicatives plus puissantes.
**Suggestions :**
1. **Lead_Time_Category** : Discr√©tiser `Delai_Reservation` (ex: <7 jours, 7-30 jours, >30 jours).
2. **Has_Requests** : Binaire (1 si `Demandes_Speciales` > 0, sinon 0).

In [None]:
# Votre code ici (Cr√©ation de Lead_Time_Category)
# Votre code ici (Cr√©ation de Has_Requests)

---
# ü§ñ SESSION 3 : Building & Trusting Your Model (45 min)


### 3.1 Split Train/Test
**Objectif :** Pr√©parer les donn√©es pour l'entra√Ænement.
**Conseil :** Utilisez `stratify=y` si les classes sont d√©s√©quilibr√©es.

In [None]:
# Votre code ici (train_test_split)

### 3.3 Calibration et Analyse Co√ªt-B√©n√©fice (CAS 3)

**Contexte M√©tier :**
L'objectif n'est pas seulement de classer correctement, mais d'obtenir des **probabilit√©s fiables**
pour prendre des d√©cisions business (ex: combien de chambres sur-r√©server).

**Objectif :** Calibrer le mod√®le pour que `predict_proba` refl√®te les vraies probabilit√©s.

**Approche recommand√©e :**
1. Entra√Æner un `RandomForestClassifier` classique.
2. Appliquer `CalibratedClassifierCV` avec m√©thode 'sigmoid' ou 'isotonic'.
3. √âvaluer avec **ROC-AUC** et **Brier Score**.

**Livrables attendus :**
- Mod√®le calibr√©.
- Scores ROC-AUC et Brier.
- Histogramme des probabilit√©s pr√©dites.

In [None]:
# Votre code ici (Entra√Ænement RandomForest)
# Votre code ici (Calibration avec CalibratedClassifierCV)
# Votre code ici (Pr√©diction des probabilit√©s)
# Votre code ici (√âvaluation AUC et Brier Score)

## üéÅ Part 4: Going Further (Bonus)


### Bonus Task 1: Calculate Optimal Overbooking Limit

**Goal:** Recommend how many extra rooms the hotel can safely sell.

**Why it matters:** Hotels lose money if rooms stay empty, but overbooking too much causes customer complaints and costs.

**Approach:**
1. Get cancellation probabilities for all future bookings: `model.predict_proba()`
2. Calculate expected cancellations: `sum(probabilities) * 0.8` (80% confidence)
3. Recommend overbooking: `int(expected_cancellations)`

**Example:**
```python
# future_probabilities = model.predict_proba(X_test)[:, 1]
# expected_cancellations = future_probabilities.sum() * 0.8
# print(f"Safe to overbook by: {int(expected_cancellations)} rooms")
```

In [None]:
# Votre code ici (Calcul de la limite de surr√©servation)

### Bonus Task 2: Customer Segmentation
**Goal:** Segmenter les clients en "Fiable", "Incertain", "√Ä Risque" selon leur probabilit√© d'annulation.
**Livrable :** Un graphique (Pie chart ou Bar plot) montrant la r√©partition des segments.

In [None]:
# Votre code ici (Segmentation et Visualisation)