# MINI-PROGET : APPRENTISSAGE PAR RENFORCEMENT ET ANALYSE COMPARATIVE D’ALGORITHMES

## Membre du groupe
- Denilson NZOGNENG
- Johanu GANDONOU

1.  But  
- Mettre en place une expérimentation d’apprentissage par renforcement; 
- Choisir un contexte réel en utilisant l’algorithme Deep Q-Network (DQN);  
- Faire une analyse comparative du DQN avec l’apprentissage supervisé (RN classique ou autre). 

## 2.  Étude de cas

### 2.2 Décrivez le contexte de votre domaine d'application du DQN et justifier le pourquoi du DQN

#### Contexte : Trading Algorithmique sur le NASDAQ-100

Le **NASDAQ-100** est un indice boursier composé des 100 plus grandes entreprises non-financières cotées au NASDAQ, incluant des géants technologiques comme Apple, Microsoft, Amazon, Tesla et Google. Le trading sur cet indice représente un environnement dynamique, complexe et hautement volatil où les décisions d'achat, de vente ou de conservation d'actifs doivent être prises en temps réel en fonction de multiples facteurs de marché.

Notre application consiste à développer un **agent de trading autonome** capable de :
- Analyser l'évolution des prix et des indicateurs techniques du NASDAQ-100
- Prendre des décisions optimales (Acheter, Vendre, Conserver) pour maximiser le profit
- S'adapter aux conditions de marché changeantes (tendances haussières, baissières, volatilité)
- Gérer le risque en évitant les pertes importantes

#### Justification du choix du DQN

Le **Deep Q-Network (DQN)** est particulièrement adapté au trading algorithmique pour plusieurs raisons fondamentales :

##### 2.2.1. **Prise de décision séquentielle dans un environnement incertain**
Le trading est un problème de décision séquentielle où chaque action (achat, vente) influence l'état futur du portefeuille et les opportunités futures. Le DQN excelle dans ce type d'environnement car il apprend à maximiser les récompenses cumulées à long terme (profit total) plutôt que de se concentrer uniquement sur des gains immédiats.

##### 2.2.2. **Espace d'états complexe et continu**
L'état du marché est représenté par de nombreuses variables continues :
- Prix d'ouverture, de clôture, haut, bas (OHLC)
- Indicateurs techniques (RSI, MACD, Bandes de Bollinger, moyennes mobiles)
- Volume de transactions
- Volatilité historique
- Positions actuelles du portefeuille

Les réseaux de neurones profonds du DQN peuvent traiter cet espace d'états multi-dimensionnel et extraire des patterns complexes que les méthodes traditionnelles (Q-Learning tabulaire) ne peuvent pas gérer.

##### 2.2.3. **Apprentissage sans modèle explicite du marché**
Les marchés financiers sont non-stationnaires et imprévisibles. Le DQN n'a pas besoin d'un modèle mathématique explicite du marché (qui serait imprécis et difficile à construire). Il apprend directement de l'interaction avec l'environnement, ce qui le rend robuste aux changements de dynamique du marché.

##### 2.2.4. **Gestion de la mémoire de répétition (Experience Replay)**
Le DQN utilise une mémoire de répétition pour stocker les expériences passées (état, action, récompense, état suivant) et les réutilise aléatoirement pour l'entraînement. Cette technique :
- Brise les corrélations temporelles entre les échantillons successifs (crucial en trading où les données sont séquentielles)
- Permet un apprentissage plus stable et efficace
- Évite le sur-apprentissage sur des patterns récents

##### 2.2.5. **Stabilisation avec le réseau cible (Target Network)**
Le trading présente une forte variance dans les récompenses (profits/pertes). Le DQN utilise un réseau cible fixe temporairement pour calculer les valeurs Q futures, ce qui stabilise l'apprentissage et évite les oscillations dans la politique de trading.

##### 2.2.6. **Avantages par rapport à l'apprentissage supervisé classique**
Contrairement aux approches supervisées qui prédisent simplement les prix futurs :
- Le DQN optimise directement la stratégie de trading (politique d'action)
- Il intègre naturellement le compromis exploration/exploitation
- Il apprend à gérer le risque à travers le système de récompenses
- Il considère l'impact des actions passées sur les opportunités futures

##### 2.2.7. **Adaptabilité aux différents régimes de marché**
Le marché passe par différentes phases (bull market, bear market, consolidation). Le DQN peut apprendre des stratégies différentes pour chaque régime sans programmation explicite de règles, ce qui le rend plus flexible que les stratégies de trading algorithmique traditionnelles basées sur des règles fixes.

#### Conclusion

Le DQN est donc particulièrement justifié pour le trading du NASDAQ-100 car il combine la capacité des réseaux de neurones à traiter des données complexes et multi-dimensionnelles avec les principes de l'apprentissage par renforcement qui sont naturellement adaptés aux problèmes de décision séquentielle sous incertitude. Cette approche permet de développer un agent de trading qui apprend de manière autonome à optimiser ses décisions pour maximiser le profit à long terme tout en s'adaptant aux dynamiques changeantes du marché.

### 2.3 Architecture de l'agent-apprenant DQN pour le trading du NASDAQ-100

#### 2.3.1. Espace d'États (State Space)

L'état `s_t` capture l'information du marché et du portefeuille sur une **fenêtre glissante de 10 pas de temps** :

**Features par timestep (18 au total)** :
- **Prix OHLCV** (5) : Open, High, Low, Close, Volume normalisés
- **Indicateurs techniques** (10) : SMA_10, SMA_30, EMA_12, RSI_14, MACD, MACD_Signal, MACD_Hist, BB_Upper, BB_Lower, ATR_14
- **Portefeuille** (3) : Cash, Shares_Held, Portfolio_Value normalisés

**Dimension totale** : `10 timesteps × 18 features = 180 dimensions`


#### 2.3.2. Espace d'Actions (Action Space)

3 actions discrètes :
- **HOLD (0)** : Conserver la position
- **BUY (1)** : Acheter avec 100% du cash disponible
- **SELL (2)** : Vendre 100% des actions détenues


#### 2.3.3. Fonction de Récompense

```python
r_total = r_profit + r_transaction + r_risk + r_bonus

où :
- r_profit = (Portfolio_Value_t - Portfolio_Value_{t-1}) / Portfolio_Value_{t-1} × 100
- r_transaction = -0.001 si BUY/SELL, 0 si HOLD
- r_risk = -0.01 × Drawdown
- r_bonus = +1.0 si Portfolio_Value > 1.1 × Initial_Value
```

La récompense guide l'agent à maximiser le profit tout en minimisant les transactions excessives et le risque.


#### 2.3.4. Architecture du Réseau de Neurones (Q-Network)

```
INPUT (180) → BatchNorm → Dense(128, ReLU, Dropout=0.2) 
           → Dense(64, ReLU, Dropout=0.2) 
           → Dense(32, ReLU) 
           → OUTPUT(3) : [Q(HOLD), Q(BUY), Q(SELL)]
```

**Spécifications** :
- Optimiseur : Adam (lr=0.001)
- Loss : Mean Squared Error (MSE)
- Total : ~25,000 paramètres
- **Target Network** : Copie du Q-Network, mise à jour tous les 10 épisodes


#### 2.3.5. Entrées et Sorties

**Entrée** : Vecteur (batch_size, 180) normalisé

**Sortie** : 3 Q-values (batch_size, 3)
```python
Exemple : Q(s) = [0.45, 0.82, 0.23] → Action = argmax = BUY (1)
```

**Politique ε-greedy** :
- Probabilité ε : action aléatoire (exploration)
- Probabilité 1-ε : action optimale (exploitation)
- ε décroît de 1.0 à 0.01


Cette architecture permet à l'agent d'apprendre une stratégie de trading optimale en maximisant les profits à long terme.