In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from statsmodels.tsa.stattools import adfuller
from statsmodels.tsa.api import VAR
from sklearn.metrics import mean_squared_error, r2_score,mean_absolute_percentage_error

## Objectif du projet : 
#### Prédire le nombre de validations par jour pour toutes les gares de SNCF-Transilien entre le 1er janvier 2023 et le 30 juin 2023. 


#### x-train est un jeu de données avec 1 237 971 lignes et 6 colonnes. Il s’agit des données quotidiennes de validations des 448 stations du réseau SNCF-Transilien (comprenant toutes les gares du RER A et du RER B) entre le 1er janvier 2015 et le 31 décembre 2022 (soit 2922 jours).

#### et y-train c'est le nombre de validations par jour pour toutes les gares de SNCF-Transilien entre le 1er janvier 2015 et le 31 décembre 2022 (soit 2922 jours).

In [None]:
#Récupération des données
X = pd.read_csv("Data/train_f_x.csv")
y =  pd.read_csv("Data/y_train_sncf.csv")
final_test_data = pd.read_csv("Data/test_f_x_THurtzP.csv")
df = X
df['y'] = y['y']

In [None]:
df

In [None]:
# Conversion de la colonne 'date' en datetime
X['date'] = pd.to_datetime(X['date'])
# Encodage de la colonne 'station'
X['station'] = X['station'].astype('category').cat.codes
# Préparation des données pour le modèle VAR
X = X.set_index('date')
X = X[['station','job', 'ferie', 'vacances']]
y = y['y']


In [None]:
def check_stationarity(series):
    result = adfuller(series)
    print('ADF Statistic:', result[0])
    print('p-value:', result[1])
    for key, value in result[4].items():
        print(f'Critical Value ({key}): {value}')

In [None]:
check_stationarity(df['y'])

In [None]:
#Création de l'ensemble de test et l'ensemble d'entrainement:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# Ajustement du modèle VAR sur les données d'entraînement
model = VAR(X_train)
model_fitted = model.fit(ic='bic', maxlags = 50)
# Vérification de l'ordre optimal du lag choisi
print(f'Optimal Lag Order: {-model_fitted.k_ar}')

In [None]:
# Nombre de jours à prévoir
n_forecast = len(X_test)

# Les dernières valeurs de l'ensemble d'entraînement nécessaires pour lancer la prévision
forecast_input = X_train.values[-model_fitted.k_ar:]

# Prévision avec le modèle VAR
forecast = model_fitted.forecast(y=forecast_input, steps=n_forecast)

In [None]:
# Calcul de l'erreur quadratique moyenne
mse = mean_squared_error(test['y'], test['y_pred'])
print(f'Mean Squared Error: {mse}')


In [None]:
mape = mean_absolute_percentage_error(y_test,y_pred)
mape