### Sujet du TP : **Analyse et enrichissement d'une base de données sur les ventes de produits agricoles**

#### Contexte :  
Un service de suivi des ventes agricoles souhaite enrichir et analyser sa base de données. Les données brutes sont initialement stockées dans une base relationnelle (PostgreSQL), mais pour des analyses complexes et des projections sur les produits populaires, MongoDB est utilisé pour stocker des agrégats et des données semi-structurées. L’objectif est de créer un pipeline ETL pour migrer, transformer et analyser ces donnéesL.  

---

### Objectifs:  
- Réviser les requêtes SQL sur une base relationnelle (jointures, agrégations, sous-requêtes).  
- Découvrir MongoDB pour manipuler des données semi-structurées.  
- Mettre en place un pipeline ETL intégrant PostgreSQL et MongoDB avec Python.  
- Appliquer des outils analytiques ou de machine learning pour enrichir les données.  

---

### Scénario :  

1. **Base relationnelle (PostgreSQL)** :
   - Table `produits` : id_produit, nom, catégorie, prix_unitaire.  
   - Table `ventes` : id_vente, id_produit, quantité, date_vente, region_vente.  
   - Table `regions` : id_region, nom_region, population.  

2. **Base NoSQL (MongoDB)** :
   - Collection `agrégats_ventes` :
     - Enregistrements agrégés par région et catégorie de produit (ex. : ventes totales par mois).  
   - Collection `prévisions_popularité` :
     - Contient des prédictions sur la popularité future des produits (basées sur des analyses de tendance).  

3. **Pipeline ETL** :  
   - **Extraction** : Collecter les données depuis PostgreSQL.  
   - **Transformation** : Enrichir les données avec des agrégats et des prédictions (pandas, scikit-learn).  
   - **Chargement** : Migrer les données transformées dans MongoDB.  

4. **Requêtes SQL pour révision** :  
   - Calculer les ventes totales par région et par mois.  
   - Identifier les produits les plus vendus dans chaque catégorie.  
   - Trouver les régions avec les ventes les plus faibles.  

5. **Analyses dans MongoDB** :  
   - Stocker les agrégats mensuels de ventes par région et catégorie.  
   - Enregistrer les projections de popularité des produits pour les trois prochains mois.  

6. **Machine Learning (à discuter)** :  
   - Implémenter un modèle pour prédire les ventes des produits en fonction de la saison et de la région.  

---

### Activités du TP :  

1. **Préparation des bases de données** :  
   - Création des tables et insertion de données dans PostgreSQL.  
   - Configuration de MongoDB et création des collections nécessaires.  

2. **Pipeline ETL** :  
   - Extraction des données de PostgreSQL avec SQLAlchemy ou psycopg2.  
   - Transformation des données pour calculer des agrégats (ventes totales, tendances).  
   - Chargement des données transformées dans MongoDB avec `pymongo`.  

3. **Requêtes SQL** :  
   - Effectuer des analyses comme :  
     - Quels produits génèrent le plus de revenus dans chaque région ?  
     - Quelles catégories sont les plus populaires par région ?  
     - Historique des ventes par mois pour un produit donné.  

4. **Manipulation dans MongoDB** :  
   - Insérer les données agrégées depuis PostgreSQL.  
   - Requêtes pour récupérer rapidement les ventes mensuelles par région ou catégorie.  

5. **Machine Learning (optionnel)** :  
   - Utiliser un modèle simple de régression (linéaire) pour prédire les ventes.  
   - Enregistrer les prévisions dans MongoDB sous forme de documents JSON.  

6. **Analyse et visualisation** :  
   - Générer des graphiques montrant les tendances des ventes et les prévisions.  

---