In [None]:
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# Projet de prédiction du trafic du RER E jusqu'en 2027\n",
    "\n",
    "## Introduction\n",
    "\n",
    "Ce notebook présente notre projet d'analyse et de prédiction du trafic du RER E jusqu'au premier trimestre 2027, incluant l'extension ouest prévue. Le RER E est l'une des lignes les plus importantes du réseau de transport francilien, et son prolongement vers l'ouest représente un changement majeur dans le réseau de transport parisien.\n",
    "\n",
    "### Contexte du projet\n",
    "\n",
    "Le prolongement du RER E vers l'ouest (projet EOLE) est l'un des plus grands projets d'infrastructure de transport en Île-de-France. Cette extension permettra de relier l'est et l'ouest de la région parisienne sans passer par le centre de Paris, ce qui devrait décharger les lignes RER A et B ainsi que plusieurs lignes de métro.\n",
    "\n",
    "Les stations qui feront partie de cette extension sont :\n",
    "- NANTERRE-LA-FOLIE\n",
    "- HOUILLES-CARRIERES-SUR-SEINE\n",
    "- POISSY\n",
    "- VILLENNES-SUR-SEINE\n",
    "- VERNOUILLET-VERNEUIL\n",
    "- LES CLAIRIERES-DE-VERNEUIL\n",
    "- LES MUREAUX\n",
    "- AUBERGENVILLE-ELISABETHVILLE\n",
    "- EPONE-MEZIERES\n",
    "- MANTES-STATION\n",
    "- MANTES-LA-JOLIE\n",
    "\n",
    "### Objectifs du projet\n",
    "\n",
    "1. Prédire le trafic voyageurs sur le RER E jusqu'au premier trimestre 2027\n",
    "2. Évaluer l'impact de l'extension ouest sur la fréquentation globale de la ligne\n",
    "3. Analyser les validations par station en tenant compte du nombre de correspondances\n",
    "4. Identifier les stations qui généreront le plus de trafic propre à la ligne"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 1. Préparation de l'environnement et chargement des données"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Import des bibliothèques nécessaires\n",
    "import pandas as pd\n",
    "import numpy as np\n",
    "import matplotlib.pyplot as plt\n",
    "import seaborn as sns\n",
    "from datetime import datetime\n",
    "import time\n",
    "import warnings\n",
    "\n",
    "# Configuration de l'affichage\n",
    "warnings.filterwarnings('ignore')\n",
    "plt.style.use('ggplot')\n",
    "sns.set(style=\"whitegrid\")\n",
    "%matplotlib inline\n",
    "pd.set_option('display.max_columns', None)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Définition des stations du prolongement ouest du RER E\n",
    "stations_rer_e_ouest = [\n",
    "    \"NANTERRE-LA-FOLIE\",\n",
    "    \"HOUILLES-CARRIERES-SUR-SEINE\",\n",
    "    \"POISSY\",\n",
    "    \"VILLENNES-SUR-SEINE\",\n",
    "    \"VERNOUILLET-VERNEUIL\",\n",
    "    \"LES CLAIRIERES-DE-VERNEUIL\",\n",
    "    \"LES MUREAUX\",\n",
    "    \"AUBERGENVILLE-ELISABETHVILLE\",\n",
    "    \"EPONE-MEZIERES\",\n",
    "    \"MANTES-STATION\",\n",
    "    \"MANTES-LA-JOLIE\"\n",
    "]\n",
    "\n",
    "# Chargement des données des stations du RER E\n",
    "df_lignes = pd.read_csv('final_data/df_lignes_ferrees.csv')\n",
    "rer_e = list(df_lignes[df_lignes['ligne_res'] == 'RER E']['LIBELLE_ARRET'].unique())\n",
    "\n",
    "# Fusion des listes de stations (actuelles + futures)\n",
    "all_stations = list(set(rer_e + stations_rer_e_ouest))\n",
    "\n",
    "# Affichage du nombre de stations\n",
    "print(f\"Nombre de stations actuelles du RER E: {len(rer_e)}\")\n",
    "print(f\"Nombre de stations de l'extension ouest: {len(stations_rer_e_ouest)}\")\n",
    "print(f\"Nombre total de stations prévues en 2027: {len(all_stations)}\")"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 2. Analyse des correspondances par station\n",
    "\n",
    "Pour mieux comprendre l'impact réel de chaque station, nous devons prendre en compte le nombre de correspondances. Une station avec de nombreuses correspondances peut avoir un nombre élevé de validations qui ne sont pas spécifiquement liées au RER E."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Fonction pour calculer le nombre de correspondances par station\n",
    "def calculer_correspondances(df):\n",
    "    \"\"\"\n",
    "    Calcule le nombre de correspondances par station en excluant les tramways\n",
    "    \"\"\"\n",
    "    correspondances = {}\n",
    "    \n",
    "    for station in df['LIBELLE_ARRET'].unique():\n",
    "        # Filtrer les lignes pour cette station\n",
    "        lignes_station = df[df['LIBELLE_ARRET'] == station]['ligne_res'].tolist()\n",
    "        \n",
    "        # Compter uniquement les lignes non-tramway\n",
    "        unique_lines = set()\n",
    "        for ligne in lignes_station:\n",
    "            if ligne[:4] != 'TRAM':\n",
    "                unique_lines.add(ligne)\n",
    "        \n",
    "        correspondances[station] = len(unique_lines)\n",
    "    \n",
    "    return correspondances\n",
    "\n",
    "# Calcul des correspondances pour toutes les stations\n",
    "correspondances = calculer_correspondances(df_lignes)\n",
    "\n",
    "# Pour les stations de l'extension ouest qui n'existent pas encore dans df_lignes_ferrees.csv,\n",
    "# on leur attribue 1 correspondance par défaut\n",
    "for station in stations_rer_e_ouest:\n",
    "    if station not in correspondances:\n",
    "        correspondances[station] = 1\n",
    "\n",
    "# Création d'un DataFrame pour visualiser les correspondances\n",
    "df_correspondances = pd.DataFrame(list(correspondances.items()), columns=['Station', 'Correspondances'])\n",
    "df_correspondances['Extension_Ouest'] = df_correspondances['Station'].isin(stations_rer_e_ouest)\n",
    "\n",
    "# Affichage des 10 stations avec le plus de correspondances\n",
    "df_correspondances.sort_values('Correspondances', ascending=False).head(10)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Visualisation du nombre de correspondances par station\n",
    "plt.figure(figsize=(12, 8))\n",
    "sns.histplot(data=df_correspondances, x='Correspondances', hue='Extension_Ouest', multiple='stack')\n",
    "plt.title('Distribution du nombre de correspondances par station')\n",
    "plt.xlabel('Nombre de correspondances')\n",
    "plt.ylabel('Nombre de stations')\n",
    "plt.legend(['Stations actuelles', 'Extension ouest'])\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3. Chargement des données historiques et prédictions"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Chargement des données historiques\n",
    "historique_df = pd.read_csv('final_data/df_all_data.csv', parse_dates=['JOUR'])\n",
    "\n",
    "# Renommer les colonnes pour correspondre à notre format\n",
    "historique_df = historique_df.rename(columns={\n",
    "    'JOUR': 'ds',\n",
    "    'NB_VALD': 'y'\n",
    "})\n",
    "\n",
    "# Aperçu des données historiques\n",
    "historique_df.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Filtrer pour ne garder que les stations du RER E existantes (hors extension ouest)\n",
    "stations_existantes = set(rer_e) - set(stations_rer_e_ouest)\n",
    "historique_df_rer_e = historique_df[historique_df['LIBELLE_ARRET'].isin(stations_existantes)]\n",
    "\n",
    "# Calculer l'affluence totale par année pour les stations existantes\n",
    "historique_df_rer_e['year'] = historique_df_rer_e['ds'].dt.year\n",
    "historique_df_rer_e['quarter'] = historique_df_rer_e['ds'].dt.quarter\n",
    "yearly_totals = historique_df_rer_e.groupby('year')['y'].sum()\n",
    "\n",
    "# Visualisation des validations annuelles historiques\n",
    "plt.figure(figsize=(12, 6))\n",
    "yearly_totals.plot(kind='bar', color='steelblue')\n",
    "plt.title('Validations annuelles historiques du RER E (stations existantes)')\n",
    "plt.xlabel('Année')\n",
    "plt.ylabel('Nombre de validations')\n",
    "plt.grid(axis='y', linestyle='--', alpha=0.7)\n",
    "plt.xticks(rotation=45)\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Calculer l'affluence pour le 1er trimestre de chaque année (stations existantes)\n",
    "q1_totals = historique_df_rer_e[historique_df_rer_e['quarter'] == 1].groupby('year')['y'].sum()\n",
    "\n",
    "# Visualisation des validations du 1er trimestre par année\n",
    "plt.figure(figsize=(12, 6))\n",
    "q1_totals.plot(kind='bar', color='indianred')\n",
    "plt.title('Validations du 1er trimestre par année (stations existantes)')\n",
    "plt.xlabel('Année')\n",
    "plt.ylabel('Nombre de validations')\n",
    "plt.grid(axis='y', linestyle='--', alpha=0.7)\n",
    "plt.xticks(rotation=45)\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 4. Modèle de prédiction SARIMAX\n",
    "\n",
    "Le modèle SARIMAX (Seasonal AutoRegressive Integrated Moving Average with eXogenous factors) est utilisé pour prédire les validations futures. Il prend en compte la saisonnalité hebdomadaire, les tendances à long terme et des facteurs externes comme les jours fériés et les vacances scolaires."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Explication du modèle SARIMAX\n",
    "def expliquer_sarimax():\n",
    "    \"\"\"Fonction pour expliquer le fonctionnement du modèle SARIMAX utilisé\"\"\"\n",
    "    print(\"Notre modèle SARIMAX utilise les paramètres suivants :\")\n",
    "    print(\"- Ordre (p,d,q) = (2,1,2) : Composante ARIMA non saisonnière\")\n",
    "    print(\"  * p=2 : Ordre autorégressif\")\n",
    "    print(\"  * d=1 : Ordre de différenciation\")\n",
    "    print(\"  * q=2 : Ordre de moyenne mobile\")\n",
    "    print(\"\\n- Ordre saisonnier (P,D,Q,s) = (1,0,1,7) : Composante saisonnière\")\n",
    "    print(\"  * P=1 : Ordre autorégressif saisonnier\")\n",
    "    print(\"  * D=0 : Ordre de différenciation saisonnière\")\n",
    "    print(\"  * Q=1 : Ordre de moyenne mobile saisonnière\")\n",
    "    print(\"  * s=7 : Période saisonnière (hebdomadaire)\")\n",
    "    print(\"\\nVariables exogènes utilisées:\")\n",
    "    print(\"- DAY_OF_WEEK : Jour de la semaine (0-6)\")\n",
    "    print(\"- IS_WEEKEND : Indicateur de weekend (0 ou 1)\")\n",
    "    print(\"- IS_VACANCE : Indicateur de vacances scolaires (0 ou 1)\")\n",
    "    print(\"\\nTraitement des données:\")\n",
    "    print(\"- Transformation logarithmique pour stabiliser la variance\")\n",
    "    print(\"- Normalisation Min-Max pour mettre à l'échelle les données\")\n",
    "    print(\"- Transformation inverse pour les prédictions finales\")\n",
    "\n",
    "# Afficher l'explication\n",
    "expliquer_sarimax()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Chargement des prédictions pour 2027\n",
    "predictions_2027 = pd.read_csv('final_data/prediction_rer_e_2027.csv', parse_dates=['ds'])\n",
    "\n",
    "# Aperçu des prédictions\n",
    "predictions_2027.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 5. Analyse des prédictions pour 2027 avec ajustement des correspondances\n",
    "\n",
    "Pour le premier trimestre 2027, nous ajoutons une correspondance supplémentaire aux stations de l'extension ouest car elles seront desservies par le RER E."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Préparation des correspondances pour 2027\n",
    "# Pour les stations de l'extension ouest, on ajoute 1 correspondance car elles seront desservies par le RER E\n",
    "correspondances_2027 = correspondances.copy()\n",
    "for station in stations_rer_e_ouest:\n",
    "    correspondances_2027[station] += 1\n",
    "\n",
    "# Création d'un DataFrame avec les prédictions ajustées selon les correspondances\n",
    "adjusted_df = predictions_2027.copy()\n",
    "adjusted_df['nb_correspondances'] = adjusted_df['LIBELLE_ARRET'].map(correspondances_2027)\n",
    "adjusted_df['yhat_adjusted'] = adjusted_df.apply(lambda row: row['yhat'] / row['nb_correspondances'], axis=1)\n",
    "\n",
    "# Aperçu du DataFrame ajusté\n",
    "adjusted_df.head()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Calcul des statistiques pour le premier trimestre 2027\n",
    "# Stations existantes\n",
    "pred_brut_existantes = adjusted_df[~adjusted_df['LIBELLE_ARRET'].isin(stations_rer_e_ouest)]['yhat'].sum()\n",
    "pred_ajuste_existantes = adjusted_df[~adjusted_df['LIBELLE_ARRET'].isin(stations_rer_e_ouest)]['yhat_adjusted'].sum()\n",
    "\n",
    "# Extension ouest\n",
    "pred_brut_ouest = adjusted_df[adjusted_df['LIBELLE_ARRET'].isin(stations_rer_e_ouest)]['yhat'].sum()\n",
    "pred_ajuste_ouest = adjusted_df[adjusted_df['LIBELLE_ARRET'].isin(stations_rer_e_ouest)]['yhat_adjusted'].sum()\n",
    "\n",
    "# Total\n",
    "pred_brut_total = adjusted_df['yhat'].sum()\n",
    "pred_ajuste_total = adjusted_df['yhat_adjusted'].sum()\n",
    "\n",
    "# Calculer les pourcentages\n",
    "pourcentage_ouest_brut = (pred_brut_ouest / pred_brut_total) * 100\n",
    "pourcentage_ouest_ajuste = (pred_ajuste_ouest / pred_ajuste_total) * 100\n",
    "\n",
    "# Affichage des résultats\n",
    "print(f\"Prédictions pour le premier trimestre 2027:\")\n",
    "print(f\"\\nStations existantes:\")\n",
    "print(f\"  Validations brutes: {pred_brut_existantes:,.0f}\".replace(',', ' '))\n",
    "print(f\"  Validations ajustées: {pred_ajuste_existantes:,.0f}\".replace(',', ' '))\n",
    "\n",
    "print(f\"\\nStations de l'extension ouest:\")\n",
    "print(f\"  Validations brutes: {pred_brut_ouest:,.0f}\".replace(',', ' '))\n",
    "print(f\"  Validations ajustées: {pred_ajuste_ouest:,.0f}\".replace(',', ' '))\n",
    "\n",
    "print(f\"\\nTotal RER E complet:\")\n",
    "print(f\"  Validations brutes: {pred_brut_total:,.0f}\".replace(',', ' '))\n",
    "print(f\"  Validations ajustées: {pred_ajuste_total:,.0f}\".replace(',', ' '))\n",
    "\n",
    "print(f\"\\nContribution de l'extension ouest:\")\n",
    "print(f\"  En validations brutes: {pourcentage_ouest_brut:.2f}%\")\n",
    "print(f\"  En validations ajustées: {pourcentage_ouest_ajuste:.2f}%\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Visualisation de la contribution des stations existantes vs. extension ouest\n",
    "labels = ['Stations existantes', 'Extension ouest']\n",
    "brut_data = [pred_brut_existantes, pred_brut_ouest]\n",
    "ajuste_data = [pred_ajuste_existantes, pred_ajuste_ouest]\n",
    "\n",
    "# Création de la figure avec deux sous-graphiques\n",
    "fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 7))\n",
    "\n",
    "# Premier graphique (validations brutes)\n",
    "ax1.pie(brut_data, labels=labels, autopct='%1.1f%%', startangle=90, colors=['royalblue', 'crimson'])\n",
    "ax1.set_title('Validations brutes Q1 2027')\n",
    "\n",
    "# Deuxième graphique (validations ajustées)\n",
    "ax2.pie(ajuste_data, labels=labels, autopct='%1.1f%%', startangle=90, colors=['royalblue', 'crimson'])\n",
    "ax2.set_title('Validations ajustées par correspondances Q1 2027')\n",
    "\n",
    "plt.tight_layout()\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 6. Analyse détaillée des stations de l'extension ouest"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Analyse détaillée des stations de l'extension ouest\n",
    "stations_ouest_df = adjusted_df[adjusted_df['LIBELLE_ARRET'].isin(stations_rer_e_ouest)]\n",
    "stations_details = []\n",
    "\n",
    "for station in stations_rer_e_ouest:\n",
    "    station_df = stations_ouest_df[stations_ouest_df['LIBELLE_ARRET'] == station]\n",
    "    if not station_df.empty:\n",
    "        brut = station_df['yhat'].sum()\n",
    "        ajuste = station_df['yhat_adjusted'].sum()\n",
    "        nb_corresp = station_df['nb_correspondances'].iloc[0]\n",
    "        stations_details.append((station, brut, ajuste, nb_corresp))\n",
    "\n",
    "# Trier par validations brutes décroissantes\n",
    "stations_details.sort(key=lambda x: x[1], reverse=True)\n",
    "\n",
    "# Création d'un DataFrame pour l'analyse\n",
    "df_stations_ouest = pd.DataFrame(stations_details, \n",
    "                                columns=['Station', 'Validations_brutes', 'Validations_ajustées', 'Correspondances'])\n",
    "\n",
    "# Affichage du tableau\n",
    "df_stations_ouest"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Visualisation des validations brutes et ajustées pour les stations de l'extension ouest\n",
    "plt.figure(figsize=(14, 8))\n",
    "\n",
    "# Création du barplot\n",
    "x = np.arange(len(df_stations_ouest))\n",
    "width = 0.35\n",
    "\n",
    "plt.bar(x - width/2, df_stations_ouest['Validations_brutes'], width, label='Validations brutes', color='steelblue')\n",
    "plt.bar(x + width/2, df_stations_ouest['Validations_ajustées'], width, label='Validations ajustées', color='indianred')\n",
    "\n",
    "plt.xlabel('Station')\n",
    "plt.ylabel('Nombre de validations')\n",
    "plt.title('Validations prédites pour les stations de l\\'extension ouest (Q1 2027)')\n",
    "plt.xticks(x, df_stations_ouest['Station'], rotation=45, ha='right')\n",
    "plt.legend()\n",
    "plt.grid(axis='y', linestyle='--', alpha=0.7)\n",
    "plt.tight_layout()\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 7. Top des stations avec le plus de validations ajustées\n",
    "\n",
    "Voyons quelles stations génèrent le plus de trafic propre à la ligne RER E, une fois ajustées par le nombre de correspondances."
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Top 10 des stations avec le plus de validations (ajustées)\n",
    "top_stations = adjusted_df.groupby('LIBELLE_ARRET').agg({\n",
    "    'yhat': 'sum',\n",
    "    'yhat_adjusted': 'sum',\n",
    "    'nb_correspondances': 'first'\n",
    "}).sort_values('yhat_adjusted', ascending=False).head(10)\n",
    "\n",
    "# Ajout d'une colonne pour indiquer si la station fait partie de l'extension ouest\n",
    "top_stations['Extension_Ouest'] = top_stations.index.isin(stations_rer_e_ouest)\n",
    "\n",
    "# Affichage du top 10\n",
    "top_stations"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Visualisation du top 10 des stations par validations ajustées\n",
    "plt.figure(figsize=(14, 8))\n",
    "\n",
    "# Création du barplot\n",
    "colors = ['crimson' if ext else 'royalblue' for ext in top_stations['Extension_Ouest']]\n",
    "top_stations['yhat_adjusted'].plot(kind='bar', color=colors)\n",
    "\n",
    "plt.title('Top 10 des stations avec le plus de validations ajustées (Q1 2027)')\n",
    "plt.xlabel('Station')\n",
    "plt.ylabel('Validations ajustées')\n",
    "plt.grid(axis='y', linestyle='--', alpha=0.7)\n",
    "plt.xticks(rotation=45, ha='right')\n",
    "\n",
    "# Ajout d'une légende pour distinguer les stations de l'extension ouest\n",
    "from matplotlib.patches import Patch\n",
    "legend_elements = [Patch(facecolor='royalblue', label='Stations existantes'),\n",
    "                   Patch(facecolor='crimson', label='Extension ouest')]\n",
    "plt.legend(handles=legend_elements)\n",
    "\n",
    "plt.tight_layout()\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 8. Calcul de l'augmentation par rapport au dernier trimestre historique"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Ajuster les données historiques avec les correspondances\n",
    "historique_df_rer_e['nb_correspondances'] = historique_df_rer_e['LIBELLE_ARRET'].map(correspondances)\n",
    "historique_df_rer_e['y_adjusted'] = historique_df_rer_e.apply(lambda row: row['y'] / row['nb_correspondances'], axis=1)\n",
    "\n",
    "# Identifier la dernière année avec des données complètes\n",
    "derniere_annee = q1_totals.index.max()\n",
    "dernier_q1 = q1_totals[derniere_annee]\n",
    "dernier_q1_ajuste = historique_df_rer_e[\n",
    "    (historique_df_rer_e['year'] == derniere_annee) & \n",
    "    (historique_df_rer_e['quarter'] == 1)\n",
    "].groupby('year')['y_adjusted'].sum()[derniere_annee]\n",
    "\n",
    "# Calcul des taux de croissance\n",
    "croissance_brute = ((pred_brut_existantes / dernier_q1) - 1) * 100\n",
    "croissance_ajustee = ((pred_ajuste_existantes / dernier_q1_ajuste) - 1) * 100\n",
    "augmentation_brute = ((pred_brut_total / dernier_q1) - 1) * 100\n",
    "augmentation_ajustee = ((pred_ajuste_total / dernier_q1_ajuste) - 1) * 100\n",
    "\n",
    "# Affichage des résultats\n",
    "print(f\"Croissance par rapport à Q1 {derniere_annee} pour les stations existantes:\")\n",
    "print(f\"  Brut: {croissance_brute:.2f}%\")\n",
    "print(f\"  Ajusté par correspondances: {croissance_ajustee:.2f}%\")\n",
    "\n",
    "print(f\"\\nAugmentation totale attendue (avec extension ouest):\")\n",
    "print(f\"  Brut: {augmentation_brute:.2f}%\")\n",
    "print(f\"  Ajusté par correspondances: {augmentation_ajustee:.2f}%\")\n",
    "\n",
    "print(f\"\\nContribution de l'extension ouest à l'augmentation:\")\n",
    "print(f\"  Brut: {augmentation_brute - croissance_brute:.2f}%\")\n",
    "print(f\"  Ajusté: {augmentation_ajustee - croissance_ajustee:.2f}%\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": [
    "# Visualisation de la décomposition de l'augmentation\n",
    "labels = ['Croissance naturelle', 'Extension ouest']\n",
    "brut_data = [croissance_brute, augmentation_brute - croissance_brute]\n",
    "ajuste_data = [croissance_ajustee, augmentation_ajustee - croissance_ajustee]\n",
    "\n",
    "# Création de la figure avec deux sous-graphiques\n",
    "fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(14, 7))\n",
    "\n",
    "# Premier graphique (validations brutes)\n",
    "ax1.bar(labels, brut_data, color=['royalblue', 'crimson'])\n",
    "ax1.set_title(f'Décomposition de l\\'augmentation brute vs Q1 {derniere_annee}')\n",
    "ax1.set_ylabel('Pourcentage d\\'augmentation (%)')\n",
    "ax1.grid(axis='y', linestyle='--', alpha=0.7)\n",
    "\n",
    "# Deuxième graphique (validations ajustées)\n",
    "ax2.bar(labels, ajuste_data, color=['royalblue', 'crimson'])\n",
    "ax2.set_title(f'Décomposition de l\\'augmentation ajustée vs Q1 {derniere_annee}')\n",
    "ax2.set_ylabel('Pourcentage d\\'augmentation (%)')\n",
    "ax2.grid(axis='y', linestyle='--', alpha=0.7)\n",
    "\n",
    "plt.tight_layout()\n",
    "plt.show()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 9. Conclusion\n",
    "\n",
    "Notre analyse de prédiction du trafic du RER E pour le premier trimestre 2027 a permis de mettre en évidence plusieurs points importants :\n",
    "\n",
    "1. **Impact de l'extension ouest** : L'extension ouest du RER E contribuera significativement à l'augmentation du trafic global de la ligne. Les 11 nouvelles stations représenteront environ X% du trafic total en validations brutes et Y% en validations ajustées par correspondances.\n",
    "\n",
    "2. **Stations à fort trafic** : Les stations qui généreront le plus de trafic propre à la ligne (après ajustement par correspondances) sont principalement [insérer résultats]. Certaines stations de l'extension ouest comme [insérer résultats] se positionneront parmi les plus importantes du réseau.\n",
    "\n",
    "3. **Croissance naturelle vs extension** : La croissance naturelle du trafic sur les stations existantes est estimée à environ Z%, tandis que l'extension ouest ajoutera W% supplémentaires, portant l'augmentation totale à V% par rapport au dernier trimestre historique.\n",
    "\n",
    "4. **Importance des correspondances** : L'analyse par correspondances a permis de distinguer le trafic propre à la ligne du trafic global, offrant une vision plus précise de l'impact réel de chaque station sur le réseau.\n",
    "\n",
    "Cette étude constitue un outil précieux pour la planification des services, l'allocation des ressources et la gestion des flux de voyageurs sur cette ligne majeure du réseau francilien."
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.14.0"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}