In [None]:
#  CRISP-DM 

In [None]:
## I - Business Understanding (BU)

- Compréhension du contexte : système de location de vélos en libre-service.  
- Objectifs métier :  
  1. *Définir les Business Objectives (BO)*  
     - BO1 : Améliorer l’allocation des vélos pour réduire les ruptures en heure de pointe.  
     - BO2 : Optimiser la maintenance et la rotation des vélos en identifiant des plages d’usage similaires.  
     - BO3 : Prévoir la demande horaire pour planifier le staffing et la redistribution.  

  2. *Traduire les BO en Data Science Objectives (DSO)*  
     - DSO1 : *Prédire* la demande horaire (cnt) → Régression.  
     - DSO2 : *Segmenter* les créneaux horaires/jours → Clustering.  
     - DSO3 : *Classifier* les périodes en pic/non-pic → Classification binaire.  


In [None]:
## II - Data Understanding (DU)

- *Data Viz* : histogrammes, heatmaps, boxplots.  
- *Statistiques descriptives* : moyenne, médiane, variance, corrélations.  
- *Valeurs manquantes / aberrantes / anomalies* : détection et traitement.  
- *Segmentation exploratoire* : groupes par heure, jour, saison.  
- *Matrice de corrélation* pour comprendre les dépendances entre variables.  


In [None]:
## III - Data Preparation (DP)

Pour chaque DSO, préparer les données adaptées :

1. *DSO1 – Régression*
   - Création des features temporelles (lags t-1, t-24).
   - Encodages cycliques (heures, mois, jours).  
   - Normalisation et PCA.

2. *DSO2 – Clustering*
   - Réduction dimensionnelle PCA.  
   - Sélection des features pertinentes (heures, météo, cnt).  

3. *DSO3 – Classification*
   - Définition de la cible (is_peak).  
   - Normalisation des features.  


In [None]:
## IV - Modeling

Pour chaque DSO, appliquer les méthodes adaptées :

1. *DSO1 – Régression*
   - Ridge Regression.  
   - RandomForest Regressor.  
   - SARIMAX baseline.  

2. *DSO2 – Clustering*
   - KMeans.  
   - Évaluation avec silhouette score.  

3. *DSO3 – Classification*
   - RandomForestClassifier.  
   - Autres algorithmes possibles : Logistic Regression, Gradient Boosting.  


In [None]:
## V - Test et Évaluation

1. *DSO1 – Régression*
   - Validation croisée (TimeSeriesSplit).  
   - Walk-forward evaluation.  
   - Metrics : RMSE, MAE, R².  

2. *DSO2 – Clustering*
   - Silhouette score.  
   - Analyse des clusters (taille, profil).  

3. *DSO3 – Classification*
   - Classification report (precision, recall, f1).  
   - Matrice de confusion.  


In [None]:
## VI - Déploiement

- Sauvegarde des modèles (joblib).  
- Sauvegarde des données enrichies (CSV).  
- Export des visualisations.  
- Résumé des résultats finaux (results_summary.csv).  
