# MarketSense

**MarketSense** simule le rôle d’un **Data Engineer Analytics** spécialisé en IA. L’objectif est de créer un **dashboard d’aide à la décision** pour des investisseurs intraday et long terme. Le projet comprend des **pipelines de traitement des données**, un modèle **GRU** pour prédire les marchés financiers, et une application **Streamlit** pour la visualisation.

Le code est conçu avec des **classes Python** et suit une approche orientée objet pour maintenir une bonne scalabilité et modularité.

---

## 🌐 Architecture du projet

```
├── Documentation.ipynb
├── GCP_key.json
├── Google Cloud console.html
├── Graph
│   ├── __pycache__
│   │   └── graph.cpython-310.pyc
│   └── graph.py
├── IA_research.ipynb
├── Model
│   ├── GRU_Agent.keras
│   ├── GruAgent.py
│   └── __pycache__
│       └── GruAgent.cpython-310.pyc
├── Pipeline
│   ├── core
│   │   ├── __pycache__
│   │   │   └── main_pipeline.cpython-310.pyc
│   │   └── main_pipeline.py
│   ├── market_data
│   │   ├── PipeMarketData.py
│   │   └── __pycache__
│   │       └── PipeMarketData.cpython-310.pyc
│   ├── news_data
│   │   ├── PipeNewsData.py
│   │   └── __pycache__
│   │       └── PipeNewsData.cpython-310.pyc
│   ├── sentiment_data
│   │   ├── PipeSentimentData.py
│   │   └── __pycache__
│   │       └── PipeSentimentData.cpython-310.pyc
│   ├── storage
│   │   ├── StorageData.py
│   │   └── __pycache__
│   │       └── StorageData.cpython-310.pyc
│   └── wallet_data
│       ├── PipeWalletData.py
│       └── __pycache__
│           └── PipeWalletData.cpython-310.pyc
├── README.md
├── __pycache__
│   ├── GruAgent.cpython-310.pyc
│   └── graph.cpython-310.pyc
└── main.py
```

---

## 🔄 Pipelines

Les pipelines suivent des **bonnes pratiques d’entreprise** pour le traitement des données, garantissant **scalabilité** et **efficacité**.

- **Extraction** des données, **transformation**, et **stockage** dans **BigQuery** ou **Cloud Storage**.
- Les données sont uniformisées pour un usage en **heure européenne**.
- L’alimentation des données peut être automatisée pour être **continue** en entreprise.

---

## 📊 Données financières – `market_data`

Les données proviennent de **Yahoo Finance** via l’API Python `yfinance`.

- **Features ajoutées :**
  - `SMA_50` : Moyenne mobile sur 50 périodes.
  - `Volume_Spike` : Détection de pics d’activité (volume supérieur à deux écarts-types).

⚠️ Pour du **temps réel**, une API payante est nécessaire.

---

## 🧠 Sentiment de marché – `sentiment_data`

Les données de sentiment proviennent de l'**API CNN Business**.  
Cet indicateur mesure la **peur ou la confiance** des investisseurs. Il reflète souvent un **effet boule de neige** dans le comportement des marchés.

---

## 📰 Infos économiques – `news_data`

Les informations économiques sont extraites d’un **flux RSS** en temps réel.

Ces données sont ensuite transformées et stockées dans **BigQuery**, permettant de récupérer facilement les 5 dernières actualités économiques.

---

## 💼 Données de portefeuille – `wallet_data`

Les investisseurs peuvent fournir un **fichier CSV** de leurs positions (exemple avec `Wallet.csv`). Ce fichier est stocké dans un **Bucket Google Cloud Storage**.

Le pipeline :
- Calcule le **prix moyen d’achat** par actif.
- Calcule la **variation actuelle** du portefeuille (% de gain/perte).

---

## 🧠 GRU Agent – `GruAgent.py`

Après des expérimentations dans le notebook `IA_research.ipynb`, un modèle performant a été sauvegardé (`GRU_Agent.keras`).

- **Pourquoi GRU ?**
  - Plus rapide et moins gourmand que le LSTM.
  - Excellente performance en temps réel pour les prédictions financières à haute fréquence.

Les **GRU** sont des variantes des RNN, largement utilisés dans le **Deep Learning** pour la prévision des séries temporelles.

---

## 📈 Visualisation – `graph.py` & `Streamlit`

Les visualisations des données sont réalisées via **Streamlit**. Le fichier `graph.py` contient des classes pour simplifier la construction des graphiques et la gestion de l'affichage.

💡 Ce type de dashboard pourrait facilement être reproduit avec des outils comme **Power BI** ou **Tableau**, largement utilisés en entreprise pour la visualisation des données.

---

## 🚀 Main – `main.py`

Le fichier `main.py` est le **point d’entrée** de l’application **Streamlit**.  
Il orchestre :

- La **mise à jour automatique** des données (chaque heure entre 13h30 et 21h30, horaires de la bourse US).
- L'exécution des **pipelines de traitement des données**.
- L'affichage interactif du **dashboard**.

---

## 🏗️ Stockage des données et gestion sur GCP

1. **BigQuery** :  
   BigQuery est utilisé pour le **stockage des données transformées**. Cela inclut les données de **sentiment**, **actualités**, et les résultats des prédictions du modèle. La gestion de la base de données est facilitée grâce à BigQuery pour un stockage et une requêtabilité rapide et scalable.

2. **Google Cloud Storage (Buckets)** :  
   Les données du portefeuille des utilisateurs sont stockées sous forme de **fichiers CSV** dans des **Buckets Google Cloud Storage**. Ce stockage est utilisé pour la gestion des fichiers volumineux (comme les fichiers CSV) et est directement accessible via des pipelines pour les transformer avant de les stocker dans BigQuery ou d'autres bases de données.