# RL -- Projet "Trading automatique"

Ce notebook contient du code de base et quelques explications pour vous aider sur ce sujet.

Vous êtes libres de réaliser ce projet avec des scripts Python ou des Jupyter Notebooks, à votre convenance.

Vous devez télécharger les paquets Python suivants :

```sh
pip install gymnasium
pip install pandas
pip install gym-trading-env-continuous
```

Vous utiliserez l'environnement `gym-trading-env-continuous`, qui est un *fork* de [Gym Trading Env](https://gym-trading-env.readthedocs.io/en/latest/index.html). La différence majeure est expliquée dans ce document ; la documentation originelle reste utilisable.

In [2]:
import numpy as np
import pandas as pd
import gymnasium as gym
import gym_trading_env
import importlib
import utils
utils = importlib.reload(utils)
calculate_RSI = utils.calculate_RSI
calculate_MACD = utils.calculate_MACD

## Utilisation des données de simulation

Les données sont dans un format binaire (Pickle) que vous pouvez lire avec Pandas. Vous devez vous assurer que les données sont triées par date.

Des étapes de prétraitement peuvent aider votre apprentissage, par exemple, supprimer les doublons, etc.

In [3]:
def preprocess(df):
    df = df.sort_index()
    df = df.dropna()
    df = df.drop_duplicates()
    return df

df = preprocess(pd.read_pickle('./data/binance-ETHUSD-1h.pkl'))
df.head(5)

Unnamed: 0_level_0,open,high,low,close,volume,date_close
date_open,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-08-18 07:00:00,430.0,435.0,410.0,430.3,487.154463,2020-08-18 08:00:00
2020-08-18 08:00:00,430.27,431.79,430.27,430.8,454.176153,2020-08-18 09:00:00
2020-08-18 09:00:00,430.86,431.13,428.71,429.35,1183.710884,2020-08-18 10:00:00
2020-08-18 10:00:00,429.75,432.69,428.59,431.9,1686.183227,2020-08-18 11:00:00
2020-08-18 11:00:00,432.09,432.89,426.99,427.45,1980.692724,2020-08-18 12:00:00


### Ajout de *features*

Vous pouvez également rajouter de nouvelles données au DataFrame pour créer de nouvelles *features* que l'agent pourra utiliser.
Voir pour cela la [doc](https://gym-trading-env.readthedocs.io/en/latest/features.html).

Chaque nouvelle *feature* doit commencer par `feature_` pour être détectée.

In [4]:
def preprocess_bis(df):
    df = df.sort_index()
    df = df.dropna()
    df = df.drop_duplicates()

    df['feature_close'] = (df['close'] - df['close'].mean()) / df['close'].std()
    df = calculate_RSI(df)
    df = calculate_MACD(df)

    return df

df = preprocess_bis(pd.read_pickle('./data/binance-ETHUSD-1h.pkl'))
df.head(25)

Unnamed: 0_level_0,open,high,low,close,volume,date_close,feature_close,feature_RSI,feature_RSI_overbought,feature_RSI_oversold,feature_fast_line,feature_slow_line,feature_histogram
date_open,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
2020-08-18 07:00:00,430.0,435.0,410.0,430.3,487.154463,2020-08-18 08:00:00,-1.891634,50.0,0,0,0.0,0.0,0.0
2020-08-18 08:00:00,430.27,431.79,430.27,430.8,454.176153,2020-08-18 09:00:00,-1.891128,50.0,0,0,0.007977,0.039886,0.031909
2020-08-18 09:00:00,430.86,431.13,428.71,429.35,1183.710884,2020-08-18 10:00:00,-1.892594,50.0,0,0,-0.002616,-0.044988,-0.042372
2020-08-18 10:00:00,429.75,432.69,428.59,431.9,1686.183227,2020-08-18 11:00:00,-1.890016,50.0,0,0,0.016397,0.092446,0.07605
2020-08-18 11:00:00,432.09,432.89,426.99,427.45,1980.692724,2020-08-18 12:00:00,-1.894514,50.0,0,0,-0.018066,-0.155916,-0.13785
2020-08-18 12:00:00,427.88,431.05,427.38,430.28,2706.373006,2020-08-18 13:00:00,-1.891654,50.0,0,0,-0.039047,-0.122971,-0.083924
2020-08-18 13:00:00,430.49,431.23,421.41,425.49,3938.595749,2020-08-18 14:00:00,-1.896496,50.0,0,0,-0.126811,-0.477865,-0.351055
2020-08-18 14:00:00,425.32,426.39,410.01,421.7,5225.494917,2020-08-18 15:00:00,-1.900326,50.0,0,0,-0.31201,-1.052807,-0.740797
2020-08-18 15:00:00,421.67,424.29,415.0,418.34,1016.172844,2020-08-18 16:00:00,-1.903723,50.0,0,0,-0.601467,-1.759297,-1.157829
2020-08-18 16:00:00,418.55,423.71,415.94,422.93,590.381397,2020-08-18 17:00:00,-1.899083,50.0,0,0,-0.866496,-1.926611,-1.060115


Par défaut, l'agent ne reçoit comme *features* que sa dernière *position* (voir le paragraphe suivant), ce qui ne sera certainement pas suffisant ! À vous d'ajouter les *features* qui seront pertinentes pour que l'agent apprenne la politique optimale...

## Fonctionnement des actions

Une action est une **position**, c'est-à-dire un ratio entre la proportion d'*assets* (exemple : ETH) et la proportion de *fiat* (exemple : USD) dans le portefeuille.
Ainsi, la position `0.5` consiste à avoir exactement 50% d'ETH et 50% d'USD (en vendant l'un ou l'autre pour arriver à ce ratio). `0.1` consiste à avoir 10% d'ETH et 90% d'USD.

Il existe des positions un peu plus complexes :

- `< 0` : une position inférieure à 0 va vendre encore plus d'ETH que le portefeuille n'en contient, pour obtenir des USD. Cela nécessite un emprunt, qui sera remboursé avec un intérêt.
- `> 1` : une position supérieure à 1 va dépenser encore plus d'USD que le portefeuille n'en contient, pour acheter des ETH. Cela nécessite également un emprunt.

Ces positions (qui sont appelées *short* et *margin* en finance) peuvent faire gagner beaucoup à votre agent, mais démultiplient les risques également. Si votre agent fait une bonne affaire, vous pouvez vendre à un prix élevé, racheter quand le prix est plus faible, et rembourser l'emprunt en empochant la différence. En revanche, si votre agent fait une mauvaise affaire, et doit vider son portefeuille pour rembourser l'emprunt, vous perdez automatiquement (`terminated=True`).

### Actions continues

Par rapport à l'environnement `gym-trading-env` d'origine, la version que je vous fournis permet de spécifier directement une position comme action, c'est-à-dire un nombre flottant. Votre agent a donc un contrôle précis sur la position désirée. Cela rajoute de la flexibilité mais rend l'apprentissage beaucoup plus difficile.

Exemple :

In [5]:
env = gym.make(
    "MultiDatasetTradingEnv",
    dataset_dir="data/*.pkl",
    preprocess=preprocess,
    portfolio_initial_value=1_000,
    trading_fees=0.1/100,
    borrow_interest_rate=0.02/100/24,
)

obs, _ = env.reset()
# On veut une position de 88% ETH / 12% USD
obs, reward, terminated, truncated, info = env.step(0.88)
print(obs)
print(info)

[0.88      0.8801069]
{'idx': 1, 'step': 1, 'date': np.datetime64('2023-11-21T14:00:00.000000000'), 'position_index': None, 'position': 0.88, 'real_position': np.float64(0.8801069316475209), 'data_date_close': Timestamp('2023-11-21 15:00:00'), 'data_high': 4339.259765625, 'data_close': 4335.509765625, 'data_low': 4331.02001953125, 'data_open': 4331.02001953125, 'data_volume': 0, 'portfolio_valuation': np.float64(1000.6396486776584), 'portfolio_distribution_asset': np.float64(0.20312949076141482), 'portfolio_distribution_fiat': np.float64(119.96975779511132), 'portfolio_distribution_borrowed_asset': 0, 'portfolio_distribution_borrowed_fiat': 0, 'portfolio_distribution_interest_asset': 0.0, 'portfolio_distribution_interest_fiat': 0.0, 'reward': np.float64(0.000639444189638799)}


Par défaut, l'espace des actions est limité à $[-1, 2]$ pour que votre agent ne puisse emprunter que jusqu'à 100%. Vous pouvez empêcher votre agent de prendre de telles positions, ou limiter le risque, en contrôlant les bornes autorisées des actions.

Par exemple, en clippant l'action dans l'intervalle $[0,1]$, vous empêchez l'agent de faire des emprunts.

À l'inverse, vous pouvez augmenter l'intervalle pour permettre des emprunts plus risqués, mais qui peuvent rapporter plus. À vous de choisir !

Vous pouvez changer les bornes via le paramètre `position_range` du constructeur :

In [6]:
env = gym.make(
    "MultiDatasetTradingEnv",
    dataset_dir="data/*.pkl",
    preprocess=preprocess,
    position_range=(0, 1),  # ICI : (borne min, borne max)
    portfolio_initial_value=1_000,
    trading_fees=0.1/100,
    borrow_interest_rate=0.02/100/24,
)

Vous pouvez aussi modifier l'action en sortie de votre algorithme d'apprentissage, de la manière que vous souhaitez (clipping, interpolation, etc.).

### Actions discrètes

Pour simplifier l'apprentissage, vous pouvez utiliser le *wrapper* `gym_trading_env.wrapper.DiscreteActionsWrapper` que je vous fournis, et qui permet de revenir au fonctionnement d'origine de l'environnement `gym-trading-env`. Vous devrez alors spécifier l'ensemble des positions possibles, puis votre agent choisira une position parmi cette liste à chaque pas de temps.
Par exemple, si la liste des positions est `[0, 0.5, 1]` et que l'action choisie est `1`, cela veut dire qu'on veut la position qui correspond au 2e élément de la liste, soit `0.5` (50%/50%).

Vous pouvez rajouter autant d'actions que vous voulez, par exemple `[0, 0.25, 0.5, 1]` ou encore tous les 0.1 entre 0 et 1, etc. Plus il y a d'actions possibles, plus votre agent aura de choix (flexibilité), donc plus son comportement pourra être complexe, mais cela rajoute de la difficulté durant l'entraînement.

N'oubliez pas que vous pouvez autoriser les positions avec emprunt en ajoutant des nombres inférieurs à 0 ou supérieurs à 1 à la liste autorisée.

Exemple :

In [7]:
from gym_trading_env.wrapper import DiscreteActionsWrapper

# Vous pouvez aussi appeler le wrapper `env` pour faire plus simple
# Ici, je fais explicitement la distinction entre `wrapper` et `env`
wrapper = DiscreteActionsWrapper(env, positions=[0, 0.25, 0.5, 0.75, 1])
obs, _ = wrapper.reset()
# On veut une position de 25% ETH / 75% USD ; cela correspond à la position
# d'index 2 dans la liste ci-dessus
obs, reward, terminated, truncated, info = wrapper.step(2)
print(obs)
print(info)

[0.5       0.5009982]
{'idx': 1, 'step': 1, 'date': np.datetime64('2023-11-21T14:00:00.000000000'), 'position_index': 2, 'position': 0.5, 'real_position': np.float64(0.5009982032463417), 'data_date_close': Timestamp('2023-11-21 15:00:00'), 'data_high': 2009.699951171875, 'data_close': 2007.5999755859375, 'data_low': 1999.300048828125, 'data_open': 1999.699951171875, 'data_volume': 36358, 'portfolio_valuation': np.float64(1001.9077043121149), 'portfolio_distribution_asset': np.float64(0.2500268807447741), 'portfolio_distribution_fiat': np.float64(499.9537446330784), 'portfolio_distribution_borrowed_asset': 0, 'portfolio_distribution_borrowed_fiat': 0, 'portfolio_distribution_interest_asset': 0.0, 'portfolio_distribution_interest_fiat': 0.0, 'reward': np.float64(0.001905886955196408)}


Notez que, quand les actions continues sont utilisées, la variable `position_index` du dictionnaire `info` n'est pas disponible (c'est logique).

## Changement de la fonction de récompense

Vous pouvez changer la fonction de récompense pour améliorer l'apprentissage de l'agent.
Dans tous les cas, vous serez évalué(e)s sur la valuation du portefeuille à la fin de l'épisode (voir [ci-dessous](#évaluation)), mais cette simple mesure n'est peut-être pas la meilleure fonction de récompense.
D'autres fonctions peuvent encourager l'agent à mieux apprendre, en explorant diverses possibilités, etc.

In [8]:
def reward_function(history):
    return history['portfolio_valuation', -1]

env = gym.make(
    "MultiDatasetTradingEnv",
    dataset_dir="data/*.pkl",
    preprocess=preprocess_bis,
    portfolio_initial_value=1_000,
    trading_fees=0.1/100,
    borrow_interest_rate=0.02/100/24,
    # On spécifie la fonction de récompense
    reward_function=reward_function,
    position_range=(0, 1)
)

## Déroulément d'un épisode

Un épisode se déroule jusqu'à ce que :

- l'agent atteigne la fin des données d'entraînement (nous n'avons plus de nouvelle donnée) => `truncated=True`

- la valeur du portefeuille atteint 0 (l'agent a perdu tout l'argent) => `terminated=True`

Vous devrez probablement entraîner l'agent sur plusieurs épisodes avant que son comportement ne converge.

Pour éviter de sur-apprendre (*overfit*), vous devrez utiliser plusieurs jeux de données via [MultiDatasetTradingEnv](https://gym-trading-env.readthedocs.io/en/latest/multi_datasets.html).

Dans ce cas, chaque épisode utilisera un jeu de données différent (en bouclant si vous demandez plus d'épisodes qu'il n'y a de jeux de données). Vous pouvez accéder au nom du jeu de données de l'épisode en cours via `env.name`.

In [9]:
nb_episodes = 9
for episode in range(1, nb_episodes + 1):
    obs, _ = env.reset()
    print(f'Episode n˚{episode} -- Jeu de donnée {env.name}')
    done = False

    while not done:
        action = env.action_space.sample() # action_space().sample à remplacer par un algo d'apprentissage
        obs, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated

    if terminated:
        print('Argent perdu')
    elif truncated:
        print('Épisode terminé')

env.save_for_render

Episode n˚1 -- Jeu de donnée binance-ETHUSD-1h.pkl
Market Return : 904.05%   |   Portfolio Return : -100.00%   |   
Épisode terminé
Episode n˚2 -- Jeu de donnée yfinance-CAC40-1h.pkl
Market Return : 10.54%   |   Portfolio Return : -74.26%   |   
Épisode terminé
Episode n˚3 -- Jeu de donnée yfinance-GOLDUSD-1h.pkl
Market Return : 103.26%   |   Portfolio Return : -97.24%   |   
Épisode terminé
Episode n˚4 -- Jeu de donnée binance-BTCUSD-1h.pkl
Market Return : 677.81%   |   Portfolio Return : -100.00%   |   
Épisode terminé
Episode n˚5 -- Jeu de donnée yfinance-S&P500-1h.pkl
Market Return : 44.45%   |   Portfolio Return : -61.09%   |   
Épisode terminé
Episode n˚6 -- Jeu de donnée yfinance-EURUSD-1h.pkl
Market Return :  5.27%   |   Portfolio Return : -98.37%   |   
Épisode terminé
Episode n˚7 -- Jeu de donnée yfinance-STOXX50-1h.pkl
Market Return : 27.70%   |   Portfolio Return : -73.87%   |   
Épisode terminé
Episode n˚8 -- Jeu de donnée binance-DOGEEUR-1h.pkl
Market Return : 163.91%   |

<bound method TradingEnv.save_for_render of <gym_trading_env.environments.MultiDatasetTradingEnv object at 0x00000286E0F6C7D0>>

## Évaluation

Afin de disposer d'un critère simple pour comparer les différentes solutions, nous utiliserons la valeur du portefeuille (`portfolio_valuation`).
C'est assez simple : on veut que l'agent ait gagné le plus d'argent à la fin de la simulation.

Vous pouvez ajouter ce critère à la liste des métriques affichées à la fin de chaque épisode, pour que ce soit plus visible :

In [10]:
def metric_portfolio_valuation(history):
    return round(history['portfolio_valuation', -1], 2)

env.add_metric('Portfolio Valuation', metric_portfolio_valuation)

done = False
obs, _ = env.reset()

while not done:
    action = env.action_space.sample()
    obs, reward, terminated, truncated, _ = env.step(action)
    done = terminated or truncated

Market Return : 677.81%   |   Portfolio Return : -100.00%   |   Portfolio Valuation : 0.0   |   


Puisque l'environnement peut se dérouler sur plusieurs épisodes (1 par jeu de données), vous devrez calculer la **moyenne des `portfolio_valuation`** sur l'ensemble des jeux de données possibles.

⚠️ Pour que ce soit honnête, vous **devez initialiser l'environnement avec les contraintes** imposées dans le sujet :

- une valeur initiale du portefeuille de `1000` ;
- des frais de 0.1% par transaction ;
- un taux d'intérêt de 0.02% par jour soit 0.02/100/24 par heure.

Sinon, il est beaucoup plus simple d'augmenter la valeur finale...

```py
env = gym.make(
    "MultiDatasetTradingEnv",
    dataset_dir="data/*.pkl",
    preprocess=preprocess,
    # LIGNES SUIVANTES :
    # Valeur initiale du portefeuille
    portfolio_initial_value=1_000,
    # Frais de transactions
    trading_fees=0.1/100,
    # Intérêts sur les prêts
    borrow_interest_rate=0.02/100/24,
)
```

Vous pouvez également accéder à la métrique de `portfolio_valuation` à la fin d'une simulation, si vous voulez par exemple l'ajouter à votre *run* WandB :

In [11]:
portfolio_valuation = env.historical_info['portfolio_valuation', -1]
# Si on avait WandB :
# run.summary['portfolio_valuation'] = portfolio_valuation
# On simule ça par un simple print...
print(portfolio_valuation)

0.001382438418119124


Ou bien, pour récupérer les métriques calculées par l'environnement (cela peut être utile pour les ajouter à WandB) :

In [12]:
metrics = env.get_metrics()
print(metrics)
portfolio_valuation = metrics['Portfolio Valuation']
print(portfolio_valuation)

{'Market Return': '677.81%', 'Portfolio Return': '-100.00%', 'Portfolio Valuation': np.float64(0.0)}
0.0


In [None]:
from gym_trading_env.renderer import Renderer
env.unwrapped.save_for_render(dir="render_logs")
renderer = Renderer(render_logs_dir="render_logs")
renderer.run()

 * Serving Flask app 'gym_trading_env.renderer'
 * Debug mode: off


 * Running on http://127.0.0.1:5000
Press CTRL+C to quit
127.0.0.1 - - [17/Dec/2025 16:37:23] "GET / HTTP/1.1" 200 -
127.0.0.1 - - [17/Dec/2025 16:41:00] "GET / HTTP/1.1" 200 -
127.0.0.1 - - [17/Dec/2025 16:43:00] "GET /favicon.ico HTTP/1.1" 404 -
127.0.0.1 - - [17/Dec/2025 16:43:02] "GET /update_data/yfinance-EURUSD-1h.pkl_2025-12-17_16-30-05.pkl HTTP/1.1" 200 -
127.0.0.1 - - [17/Dec/2025 16:43:02] "GET /metrics HTTP/1.1" 200 -
127.0.0.1 - - [17/Dec/2025 16:46:06] "GET /update_data/binance-BTCUSD-1h.pkl_2025-12-17_16-36-30.pkl HTTP/1.1" 200 -
127.0.0.1 - - [17/Dec/2025 16:46:08] "GET /metrics HTTP/1.1" 200 -


## Conseils

À part les quelques contraintes présentées dans ce fichier (et rappelées sur la page du projet), vous êtes assez libres !

Votre algorithme de RL peut être arbitrairement simple ou complexe. Je liste ici quelques conseils ou pistes, que vous pouvez explorer :

- *Features* : Par défaut, votre agent n'utilise que le prix de l'*asset* (`close`) comme *feature* pour la prise de décision. Vous pouvez ajouter les *features* que vous voulez. En particulier, des métriques spécifiques à la finance peuvent être intéressantes, par exemple pour déterminer le risque que le prix change brutalement (à la hausse ou à la baisse)...

- Algorithme : Vous pouvez utiliser des algorithmes existants, ou en inventer un nouveau. N'hésitez pas à ré-utiliser tout ce que vous avez appris en *Machine Learning* et *Deep Learning*. Typiquement, les données financières sont des données temporelles : certains réseaux de neurones sont plus appropriés que d'autres pour ce genre de tâche...

- Configuration de l'environnement : L'environnement est très extensible ! Vous pouvez par exemple ajouter des *features* dynamiques (pas seulement calculées lors du prétraitement). La [documentation](https://gym-trading-env.readthedocs.io/en/latest/index.html) est très claire et très complète.

Vous pouvez vous inspirer de travaux existants trouvés sur l'Internet à condition de **citer votre source**. Utiliser le travail de quelqu'un d'autre sans le citer sera considéré comme du plagiat.