#                                              ESG Finance
 Machine Learning
 TP3 

# Objectifs

 - Utiliser Python et les librairies usuelles pour analyser de la donnée numérique
 temporelle type série financière;
 - Utiliser Python et les librairies usuelles pour prédire des cours ou des fluc
tuation de cours d’indices boursiers

# Import des données 

In [120]:
!pip install pandas numpy scikit-learn statsmodels pmdarima matplotlib tensorflow





[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [121]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from sklearn.linear_model import Ridge
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.preprocessing import StandardScaler

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM


In [122]:
# 1) Charger les données
df_spx = pd.read_csv('data/SPX.csv', sep='\t', header=None)  
df_spx=df_spx.rename(columns={0: 'Date', 1: 'Cours'})    # on renomme les colonnes

# 

df_spx = df_spx.sort_values("Date").reset_index(drop=True)
print("Nombre de lignes :",   len(df_spx))  
print(df_spx.head())

Nombre de lignes : 1292
         Date    Cours
0  01/01/1999  1229,23
1  01/01/2010   1115,1
2  01/01/2016  2043,94
3  01/02/2002  1122,19
4  01/02/2008  1395,41


In [123]:
# je convertis les dates en format date et les cours en float
df_spx['Date'] = pd.to_datetime(df_spx['Date'], format='%d/%m/%Y') 
df_spx['Cours'] = pd.to_numeric(df_spx['Cours'].str.replace(',', '.'))


In [124]:
# On suppose que nos données sont quotidiennes (daily).
# On veut prédire le cours à J+5 (5 jours ouvrés plus tard ~ 1 semaine boursière).

df_spx["target"] = df_spx["Cours"].shift(-5)  # pour prédire le cours 5 jours plus tard


In [125]:
df_spx.dtypes

Date      datetime64[ns]
Cours            float64
target           float64
dtype: object

In [126]:
# - Valeur retardée de 1 jour
# - Valeur retardée de 5 jours
# - Moyenne mobile sur 5 jours
# - Variation log sur 1 jour (facultatif)
df_spx["lag1"] = df_spx["Cours"].shift(1)
df_spx["lag5"] = df_spx["Cours"].shift(5)
df_spx["ma5"]  = df_spx["Cours"].rolling(5).mean()


df_spx = df_spx.dropna().reset_index(drop=True) # On supprime les premières lignes qui sont NaN (à cause du shift / rolling)
df_spx.head(2)

Unnamed: 0,Date,Cours,target,lag1,lag5,ma5
0,2013-02-01,1513.17,2803.69,1395.41,1229.23,1437.962
1,2019-02-01,2706.53,1172.92,1513.17,1115.1,1756.248


4) SÉPARATION TEMPORELLE (train < 2012, test >= 2012)

In [127]:
split_date = pd.to_datetime("2012-01-01") # frontière pour séparer les données avant et après 2012:  la date de coupure 
#df_spx["Date"] = pd.to_datetime(df_spx["Date"])

In [128]:
train = df_spx[df_spx["Date"] < split_date] #date est strictement antérieure au 1er janvier 2012.
test  = df_spx[df_spx["Date"] >= split_date] # date est postérieure ou égale au 1er janvier 2012.

In [129]:
# X et y
features = ["Cours", "lag1", "lag5", "ma5" ]
X_train = train[features].values
y_train = train["target"].values

X_test  = test[features].values
y_test  = test["target"].values

print("Taille train:", X_train.shape, "Taille test:", X_test.shape)


Taille train: (879, 4) Taille test: (403, 4)


Normalisation des données

In [131]:
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled  = scaler.transform(X_test)

Nos modeles

In [132]:
# ----- Modèle A : Régression Ridge -----
ridge = Ridge(alpha=1.0)
ridge.fit(X_train_scaled, y_train)
pred_ridge = ridge.predict(X_test_scaled)

In [133]:
# ----- Modèle B : Random Forest -----
rf = RandomForestRegressor(n_estimators=100, max_depth=5, random_state=0)
rf.fit(X_train_scaled, y_train)
pred_rf = rf.predict(X_test_scaled)

In [134]:
# ----- Modèle C : Réseau LSTM -----
# Pour un LSTM, on doit créer des séquences temporelles (time window).
# Exemple : On prend 10 jours d'historique pour prédire J+5.
seq_length = 10

def create_sequences(X, y, seq_len):
    Xs, ys = [], []
    for i in range(len(X) - seq_len):
        Xs.append(X[i : i + seq_len])
        ys.append(y[i + seq_len])
    return np.array(Xs), np.array(ys)

In [135]:
# Construction sur le train
X_seq_train, y_seq_train = create_sequences(X_train_scaled, y_train, seq_length)
# Construction sur le test
X_seq_test, y_seq_test = create_sequences(X_test_scaled, y_test, seq_length)

# Construction et entraînement LSTM
model = Sequential()
model.add(LSTM(64, activation='relu', input_shape=(seq_length, X_train_scaled.shape[1])))
model.add(Dense(1))  # Prédiction d'une valeur numérique (cours)
model.compile(optimizer='adam', loss='mse')

model.fit(X_seq_train, y_seq_train, epochs=10, batch_size=32, validation_split=0.1, verbose=1)

pred_lstm = model.predict(X_seq_test).ravel()

# Attention : y_seq_test a une longueur = (len(test) - seq_length)
# Donc on compare sur cette plage
print("Taille test (LSTM) :", X_seq_test.shape, y_seq_test.shape)

  super().__init__(**kwargs)


Epoch 1/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m10s[0m 82ms/step - loss: 2753376.7500 - val_loss: 2827166.5000
Epoch 2/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 18ms/step - loss: 2423726.0000 - val_loss: 809509.6875
Epoch 3/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 17ms/step - loss: 658961.9375 - val_loss: 478156.1250
Epoch 4/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 18ms/step - loss: 456227.0312 - val_loss: 462934.2500
Epoch 5/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 18ms/step - loss: 445474.2188 - val_loss: 433038.1562
Epoch 6/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 16ms/step - loss: 397789.2812 - val_loss: 427062.9375
Epoch 7/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 23ms/step - loss: 394868.7500 - val_loss: 418495.3438
Epoch 8/10
[1m25/25[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 16ms/step - loss: 

7) ÉVALUATION DES PRÉDICTIONS

In [143]:
# ------------------------------------------------------------------
# 7) ÉVALUATION DES PRÉDICTIONS
# ------------------------------------------------------------------
def evaluate(y_true, y_pred, model_name=""):
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mae  = mean_absolute_error(y_true, y_pred)
    mape = np.mean(np.abs((y_true - y_pred)/y_true)) * 100
    print(f"[{model_name}] RMSE={rmse:.2f}  MAE={mae:.2f}  MAPE={mape:.2f}%")

# Évaluation sur le test set (pour la LSTM, on compare y_seq_test vs pred_lstm)
evaluate(y_test, pred_ridge, "Ridge")  # Comparaison 1:1
evaluate(y_test, pred_rf,    "RandomForest")

# Pour le LSTM, attention à l'alignement des indices:
# y_seq_test correspond à test["target"] à partir de test.index[seq_length:]
y_test_lstm = y_test[seq_length:]
evaluate(y_test_lstm, pred_lstm, "LSTM")

[Ridge] RMSE=615.07  MAE=567.79  MAPE=56.86%
[RandomForest] RMSE=565.83  MAE=484.11  MAPE=48.91%
[LSTM] RMSE=5273.82  MAE=4880.87  MAPE=466.24%
