# Conclusion : 

La donnée est maintenant prête à être utilisée.

Contrairement aux données classiques, les séries temporelles évoluent dans le temps. Leur moyenne ou leur variance peuvent changer, on parle alors de **non-stationnarité**. 

Or, la **stationnarité** est essentielle, car elle garantit la stabilité des relations, évite les régressions trompeuses et conditionne la qualité des prévisions, que ce soit pour les modèles économétriques (ARIMA, VAR) ou de **Machine Learning**. 

Sans stationnarité, le modèle apprend surtout la tendance plutôt que la structure réelle du phénomène, ce qui mène à des prévisions peu fiables. Assurer la stationnarité est donc une étape indispensable avant toute modélisation de séries temporelles.

Pour ce faire, nous allons analyser si nos données donc stationnaires ou non dans le fichier suivant.

# Package

In [17]:
import pandas as pd

# Importer les données

In [18]:
df = pd.read_csv("2025-09-MD.csv")

# Supprimer la première ligne
df = df[1:]

# Définir "date" comme index
df = df.rename(columns = {"sasdate" : "date"})
df.index = pd.to_datetime(df["date"])
df = df.drop("date", axis = 1)

In [19]:
print("Nous avons", df.shape[0], "observations et", df.shape[1], "variables.")

Nous avons 800 observations et 126 variables.


In [20]:
# Beginning and the end of the time series
print("date de début : ", df.index[0])
print("date de fin : ", df.index[-1])

# The 
print("la fréquence des données : ", pd.infer_freq(df.index))

date de début :  1959-01-01 00:00:00
date de fin :  2025-08-01 00:00:00
la fréquence des données :  MS


Nous observons que le jeu de données couvre la période allant de 1959 à 2025. Nous constatons également une fréquence trimestrielle.

Passons maintenant à la sélection des variables explicatives (features).

# Sélection des variables

La sélection des variables ici présente a été faite en amont par des experts. Pour plus de détails, référez-vous au travail de Buckmann, M. & Joseph, A. (2022) dans : https://link.springer.com/chapter/10.1007/978-3-030-66891-4_3

In [21]:
col_names = ["UNRATE", 
             # Unemployement
              "TB3MS", # 3-month treasury bill
                "RPI", # Industrial personal income
                "INDPRO", # Industrial production
                "DPCERA3M086SBEA", # Consumption
                "S&P 500", # S&P 500
                "BUSLOANS", # BUSLOANS
                "CPIAUCSL", # CPIAUCSL
                "OILPRICEx", # OILPRICEx
                "M2SL"]

df = df[col_names]

- UNRATE: Civilian unemployment rate, percent of labor force.
- TB3MS: 3-Month Treasury Bill Rate, percent per annum (yield).
- RPI: Real Personal Income, billions of chained 2012 U.S. dollars (SAAR).
- INDPRO: Industrial Production Index, index (2017 = 100).
- DPCERA3M086SBEA: Real Personal Consumption Expenditures, billions of chained 2012 U.S. dollars (SAAR).
- S&P 500: Standard & Poor’s 500 Index, index level (price index, no dividends).
- BUSLOANS: Commercial and Industrial Loans, billions of U.S. dollars.
- CPIAUCSL: Consumer Price Index for All Urban Consumers, index (1982–84 = 100).
- OILPRICEx: Crude Oil, West Texas Intermediate (WTI), U.S. dollars per barrel.
- M2SL: M2 Money Stock, billions of U.S. dollars.

In [22]:
df = df.rename(columns={"S&P 500": "S&P500"})

# 3.NA Gestion

In [23]:
print(f"Nombre de Valeurs manquantes : {df.isna().sum().sum()}")

Nombre de Valeurs manquantes : 0


# 4. Exporter

In [24]:
df.to_csv("df.csv")