# Analyse de Stocks avec Modèles LSTM

## Problématique

Ce projet vise à analyser 100 actions américaines du S&P 500 en utilisant des modèles LSTM (Long Short-Term Memory) pour prédire les mouvements de prix et comparer deux approches :

1. **Modèle Global** : Un seul modèle LSTM entraîné sur toutes les actions
2. **Modèles par Secteur** : Un modèle LSTM par secteur (11 modèles au total)

L'objectif est de comparer la performance ajustée au risque entre ces deux approches.



## Recherche et Justifications

### 1. Choix de l'Univers d'Investissement

**100 Actions Américaines du S&P 500**

- **Diversification sectorielle maximale** : 11 secteurs différents représentés (GICS)
- **~9-10 actions par secteur** en moyenne
- **Grandes capitalisations** : Liquidité élevée et données complètes
- **Représentativité du marché** : Couverture d'environ 80% de la capitalisation boursière US

### 2. Architecture des Modèles

**Modèle LSTM avec architecture séquentielle :**
- LSTM(64) → Dropout(0.2) → LSTM(32) → Dropout(0.2) → Dense(32) → Dropout(0.2) → Dense(1)
- Classification binaire : Hausse (1) ou Baisse (0)
- Fenêtre temporelle : 20 jours de données pour prédire le jour suivant

### 3. Méthode : Rolling Window

**Pourquoi Rolling Window plutôt qu'Extending Window ?**

- **Rolling Window** : Fenêtre de taille fixe qui glisse dans le temps (plus réaliste)
- **Extending Window** : Utilise toutes les données jusqu'à un point (peut créer du look-ahead bias)
- **Configuration** : 252 jours d'entraînement (~1 an), 63 jours de test (~3 mois)

### 4. Métriques de Performance

**Métriques calculées :**
- **Précision** : Pourcentage de prédictions correctes
- **Rendement stratégie** : Performance cumulée du modèle
- **Rendement Buy & Hold** : Performance d'achat et conservation
- **Performance relative** : Surperformance vs Buy & Hold

**Métriques ajustées au risque :**
- **Sharpe Ratio** : Rendement ajusté à la volatilité
- **Sortino Ratio** : Rendement ajusté au risque de baisse uniquement
- **Maximum Drawdown** : Perte maximale observée
- **Volatilité annualisée** : Mesure du risque



## Structure du Projet

```
projet_dauphine_python/
├── main.py                 # Point d'entrée principal
├── src/
│   ├── __init__.py
│   ├── fetch_data.py       # Téléchargement des données
│   ├── data_processing.py   # Traitement et préparation des données
│   └── strategy.py         # Modèles LSTM et stratégies
├── outs/                    # Tous les fichiers de sortie
│   ├── stock_analysis.db
│   ├── results_sector.csv
│   ├── results_global.csv
│   └── graphique_*.png
└── notebook/
    └── analyse_stocks_lstm.ipynb  # Ce notebook
```



In [None]:
# Import des modules
import sys
sys.path.append('..')

from src.fetch_data import STOCKS
import pandas as pd

# Afficher la liste des actions
print(f"Nombre total d'actions : {len(STOCKS)}")
print("\nRépartition par secteur :")
df_stocks = pd.DataFrame(STOCKS)
print(df_stocks['sector'].value_counts().sort_index())



## Hypothèses de Recherche

### Hypothèse 1 : Modèles par Secteur > Modèle Global

**Justification :**
- Les secteurs ont des dynamiques différentes (ex: Technologie vs Utilitaires)
- Un modèle spécialisé par secteur peut mieux capturer les patterns spécifiques
- Moins de bruit dans les données d'entraînement

### Hypothèse 2 : Modèle Global > Modèles par Secteur

**Justification :**
- Plus de données d'entraînement = meilleure généralisation
- Capture les patterns communs à tous les secteurs
- Moins de risque de surapprentissage

### Hypothèse 3 : Performance ajustée au risque

**Objectif :**
- Identifier quel modèle offre le meilleur ratio rendement/risque
- Utiliser le Sharpe Ratio comme métrique principale
- Analyser la volatilité et le maximum drawdown



## Résultats et Analyses

### Exécution de l'analyse

Pour lancer l'analyse complète, exécutez :

```bash
python main.py
```

### Fichiers générés

Tous les fichiers de sortie sont sauvegardés dans le dossier `outs/` :

- **stock_analysis.db** : Base de données SQLite avec tous les résultats
- **results_sector.csv** : Résultats détaillés du modèle par secteur
- **results_global.csv** : Résultats détaillés du modèle global
- **graphique_1_comparaison_performances.png** : Comparaison des performances moyennes
- **graphique_2_distribution_sharpe.png** : Distribution des Sharpe Ratios
- **graphique_3_top10_performances.png** : Top 10 actions par performance
- **graphique_4_performance_vs_risque.png** : Scatter plot Performance vs Sharpe Ratio
- **graphique_5_metriques_risque.png** : Comparaison des métriques ajustées au risque

