#  Script de requêtes et de la migration d'une base de données SQL vers NoSQL

### _________________________________________________________________________________________________________________________________________________________________________________#
### Auteurs : BANGAGNE Abdoul Rafio - DJERIOU Nourhelhouda - BELARBI Mohamed
### BUT 3 EMS FA - Science des données - Exploration et modélisation statistique
### IUT Paris Rives de seine 
### _________________________________________________________________________________________________________________________________________________________________________________ #

Ce code est organisé en deux grandes parties. La première concerne la migration des données de la base SQL vers NoSQL, incluant l’extraction des données, la combinaison des tables, leur transformation en dictionnaires adaptés au format NoSQL, et leur insertion dans la nouvelle base. La seconde partie se concentre sur l’exploitation de la base NoSQL à travers diverses requêtes, permettant de consulter, analyser et s'assurer  du succès de la migration.

# Partie I : La migration

In [None]:
# Installation de  module
pip install pymongo

In [2]:
# Importation des bibliothèques 
import pymongo
import sqlite3
import pandas

In [5]:
# Connection à la base de données sqlite
conn = sqlite3.connect("ClassicModel (1).sqlite")

In [21]:
# Récupération des données de la base sqlite

# Les clients
customers = pandas.read_sql_query(
    "SELECT * FROM Customers;", 
    conn
)

# Les employees
employees = pandas.read_sql_query(
    "SELECT * FROM Employees;", 
    conn
)

# Offices
offices = pandas.read_sql_query(
    "SELECT * FROM Offices;", 
    conn
)
# OrderDetails
orderdetail = pandas.read_sql_query(
    "SELECT * FROM OrderDetails;", 
    conn
)
# Order
order = pandas.read_sql_query(
    "SELECT * FROM Orders;", 
    conn
)
# Payments
payment = pandas.read_sql_query(
    "SELECT * FROM Payments;", 
    conn
)
# Les produits
products = pandas.read_sql_query(
    "SELECT * FROM Products;", 
    conn
)

In [76]:
# Transformation des données en dictionnaire, combinaison des tables

liste = [orderdetail.query('orderNumber == @id').drop(columns=["orderNumber"]).to_dict(orient = "records") for id in order.orderNumber]
commande = order.assign(order = liste) # Combiner les tables order et orderDetail


empoye = [offices.query('officeCode == @id').drop(columns=["officeCode"]).to_dict(orient = "records") for id in employees.officeCode]
employer = employees.assign(employees = empoye) # combiner les tables offices et employer

client = [payment.query('customerNumber == @id').drop(columns=["customerNumber"]).to_dict(orient = "records") for id in customers.customerNumber]
customer = customers.assign(customers = client) # combiner les tables customers et payment


product = products.to_dict(orient = "records")

[{'productCode': 'S10_1678',
  'productName': '1969 Harley Davidson Ultimate Chopper',
  'productLine': 'Motorcycles',
  'productScale': '4200.0',
  'productVendor': 'Min Lin Diecast',
  'productDescription': 'This replica features working kickstand, front suspension, gear-shift lever, footbrake lever, drive chain, wheels and steering. All parts are particularly delicate due to their precise scale and require special care and attention.',
  'quantityInStock': 7933,
  'buyPrice': 48.81,
  'MSRP': 95.7},
 {'productCode': 'S10_1949',
  'productName': '1952 Alpine Renault 1300',
  'productLine': 'Classic Cars',
  'productScale': '4200.0',
  'productVendor': 'Classic Metal Creations',
  'productDescription': 'Turnable front wheels; steering function; detailed interior; detailed engine; opening hood; opening trunk; opening doors; and detailed chassis.',
  'quantityInStock': 7305,
  'buyPrice': 98.58,
  'MSRP': 214.3},
 {'productCode': 'S10_2016',
  'productName': '1996 Moto Guzzi 1100i',
  '

In [77]:
# Connexion Mogo db
client = pymongo.MongoClient("mongodb+srv://user0123:bEx18293VWhUXXbo@cluster0.35dh9.mongodb.net/")
db = client.SAE

# Insertion des données 
db.Orders.insert_many(commande.to_dict(orient = "records"))
db.Employees.insert_many(employer.to_dict(orient = "records"))
db.Customers.insert_many(customer.to_dict(orient = "records"))
db.Products.insert_many(product)

InsertManyResult([ObjectId('675da9008234e73c10c96406'), ObjectId('675da9008234e73c10c96407'), ObjectId('675da9008234e73c10c96408'), ObjectId('675da9008234e73c10c96409'), ObjectId('675da9008234e73c10c9640a'), ObjectId('675da9008234e73c10c9640b'), ObjectId('675da9008234e73c10c9640c'), ObjectId('675da9008234e73c10c9640d'), ObjectId('675da9008234e73c10c9640e'), ObjectId('675da9008234e73c10c9640f'), ObjectId('675da9008234e73c10c96410'), ObjectId('675da9008234e73c10c96411'), ObjectId('675da9008234e73c10c96412'), ObjectId('675da9008234e73c10c96413'), ObjectId('675da9008234e73c10c96414'), ObjectId('675da9008234e73c10c96415'), ObjectId('675da9008234e73c10c96416'), ObjectId('675da9008234e73c10c96417'), ObjectId('675da9008234e73c10c96418'), ObjectId('675da9008234e73c10c96419'), ObjectId('675da9008234e73c10c9641a'), ObjectId('675da9008234e73c10c9641b'), ObjectId('675da9008234e73c10c9641c'), ObjectId('675da9008234e73c10c9641d'), ObjectId('675da9008234e73c10c9641e'), ObjectId('675da9008234e73c10c964

# Partie II :  Les requêtes

### 1) Trouver les clients n'ayant jamais effectué de commande

In [200]:
# Trouver les clients n'ayant jamais effectué de commande
c = db.Customers.aggregate([
    {
        "$lookup": {  # Jointure entre customers et orders
            "from": "Orders",
            "localField": "customerNumber",
            "foreignField": "customerNumber",
            "as": "customerOrders"
        }
    },
    {
        "$match": {  # Filtrer ceux qui n'ont pas de commandes
            "customerOrders": { "$size": 0 }
        }
    },
    {
        "$project": {  # afficher les champs dont on a besoin
            "_id": 0,
            "customerNumber": 1,
            "customerName": 1,

        }
    }
])

# Convertir le résultat en DataFrame avec pandas
import pandas as pd
df = pd.DataFrame(list(c))
df

Unnamed: 0,customerNumber,customerName
0,125,Havel & Zbyszek Co
1,168,American Souvenirs Inc
2,169,Porto Imports Co.
3,206,"Asian Shopping Network, Co"
4,223,Natürlich Autos
5,237,ANG Resellers
6,247,Messner Shopping Network
7,273,"Franken Gifts, Co"
8,293,BG&E Collectables
9,303,Schuyler Imports


### 2) Pour chaque employé, le nombre de clients, le nombre de commandes et le montant total de celles-ci ;


In [226]:
pipeline = [
    # 1. Jointure entre Employees et Customers
    {
        "$lookup": {
            "from": "Customers",
            "localField": "employeeNumber",
            "foreignField": "salesRepEmployeeNumber",
            "as": "clients"
        }
    },
    # 2. Calcul des montants totaux des paiements pour chaque employé
    {
        "$addFields": {
            "totalPayments": {
                "$sum": {
                    "$map": {
                        "input": "$clients",
                        "as": "client",
                        "in": {
                            "$sum": {
                                "$map": {
                                    "input": "$$client.customers",  # Parcourt les paiements du client
                                    "as": "payment",
                                    "in": "$$payment.amount" # Récupère le montant ou 0
                                }
                            }
                        }
                    }
                }
            },
            "distinctClients": {
                "$setUnion": {"$map": {"input": "$clients", "as": "client", "in": "$$client.customerNumber"}}
            }
        }
    },
    # 3. Jointure entre Customers et Orders
    {
        "$lookup": {
            "from": "Orders",
            "localField": "clients.customerNumber",
            "foreignField": "customerNumber",
            "as": "commandes"
        }
    },
    # 4. Filtrer les commandes valides (éliminer les nulles)
    {
        "$addFields": {
            "commandes": {
                "$filter": {
                    "input": "$commandes",
                    "as": "commande",
                    "cond": {"$ne": ["$$commande", None]}  # Exclure les commandes nulles
                }
            }
        }
    },
    # 5. Regroupement par employé
    {
        "$group": {
            "_id": {
                "employeeNumber": "$employeeNumber",
                "firstName": "$firstName",
                "lastName": "$lastName"
            },
            "Nombre_de_Client": {"$sum": {"$size": "$distinctClients"}},  # Nombre de clients distincts
            "Nombre_de_Commandes": {"$sum": {"$size": "$commandes"}},  # Nombre de commandes valides
            "Montant_Total_Paiements": {"$sum": "$totalPayments"}  # Somme des paiements
        }
    },
    # 6. Projection finale
    {
        "$project": {
            "_id": 0,
            "employeeNumber": "$_id.employeeNumber",
            "firstName": "$_id.firstName",
            "lastName": "$_id.lastName",
            "Nombre_de_Client": 1,
            "Nombre_de_Commandes": 1,
            "Montant_Total_Paiements": 1
        }
    }
]

# Exécuter la requête
resultats = list(db.Employees.aggregate(pipeline))

# Convertir les résultats en DataFrame
df_q2 = pd.DataFrame(resultats)
df_q2

Unnamed: 0,Nombre_de_Client,Nombre_de_Commandes,Montant_Total_Paiements,employeeNumber,firstName,lastName
0,8,22,647431.29,1323,George,Vanauf
1,0,0,0.0,1143,Anthony,Bow
2,7,17,516702.22,1286,Foon Yue,Tseng
3,9,25,795706.43,1504,Barry,Jones
4,5,19,532756.59,1612,Peter,Marsh
5,0,0,0.0,1619,Tom,King
6,0,0,0.0,1625,Yoshimi,Kato
7,6,12,412172.79,1702,Martin,Gerard
8,0,0,0.0,1088,William,Patterson
9,0,0,0.0,1102,Gerard,Bondur


### 3) Idem pour chaque bureau (nombre de clients, nombre de commandes et montant total), avec en plus le nombre de clients d’un pays différent, s’il y en a ;


In [249]:
pipeline = [
    # 1. Jointure entre Employees et Customers
    {
        "$lookup": {
            "from": "Customers",
            "localField": "employeeNumber",
            "foreignField": "salesRepEmployeeNumber",
            "as": "clients"
        }
    },
    # 2. Jointure entre Customers et Orders
    {
        "$lookup": {
            "from": "Orders",
            "localField": "clients.customerNumber",
            "foreignField": "customerNumber",
            "as": "commandes"
        }
    },
    # 3. Ajout des champs calculés nécessaires
    {
        "$addFields": {
            "distinctClients": {
                "$setUnion": {
                    "$map": {"input": "$clients", "as": "client", "in": "$$client.customerNumber"}
                }
            },
            "distinctOrders": {
                "$setUnion": {
                    "$map": {"input": "$commandes", "as": "order", "in": "$$order.orderNumber"}
                }
            },
            "totalAmount": {
                "$sum": {
                    "$map": {
                        "input": "$clients",
                        "as": "client",
                        "in": {
                            "$sum": {
                                "$map": {
                                    "input": "$$client.customers",
                                    "as": "payment",
                                    "in": "$$payment.amount"
                                }
                            }
                        }
                    }
                }
            },
            # Correction de la logique pour les clients étrangers
            "foreignClientNumbers": {
                "$setUnion": {
                    "$map": {
                        "input": "$clients",
                        "as": "client",
                        "in": {
                            "$cond": {
                                "if": {
                                    "$ne": ["$$client.country", "$employees.country"]
                                },
                                "then": "$$client.customerNumber",
                                "else": None
                            }
                        }
                    }
                }
            }
        }
    },
    # 4. Regroupement par bureau
    {
        "$group": {
            "_id": {
                "officeCode": "$officeCode",
                "city": {"$arrayElemAt": ["$employees.city", 0]},
                "officeCountry": {"$arrayElemAt": ["$employees.country", 0]}
            },
            "Nombre_de_Client": {"$sum": {"$size": "$distinctClients"}},
            "Nombre_de_Commandes": {"$sum": {"$size": "$distinctOrders"}},
            "Montant_Total_Commandes": {"$sum": "$totalAmount"},
            "CustomerFromdifferentCountry": {"$sum": {"$size": "$foreignClientNumbers"}}
        }
    },
    # 5. Ajout explicite des champs city et officeCountry
    {
        "$addFields": {
            "officeCode": "$_id.officeCode",
            "city": "$_id.city",
            "officeCountry": "$_id.officeCountry"
        }
    },
    # 6. Projection finale
    {
        "$project": {
            "_id": 0,
            "officeCode": 1,
            "city": 1,
            "officeCountry": 1,
            "Nombre_de_Client": 1,
            "Nombre_de_Commandes": 1,
            "Montant_Total_Commandes": 1,
            "CustomerFromdifferentCountry": 1
        }
    }
]

# Exécuter la requête
resultats = list(db.Employees.aggregate(pipeline))

# Conversion en DataFrame pour une meilleure visualisation
df_q3 = pd.DataFrame(resultats)
df_q3


Unnamed: 0,Nombre_de_Client,Nombre_de_Commandes,Montant_Total_Commandes,CustomerFromdifferentCountry,officeCode,city,officeCountry
0,12,32,933290.48,12,2.0,Boston,USA
1,5,16,492317.02,5,5.0,Tokyo,Japan
2,12,48,1485621.61,12,1.0,San Francisco,USA
3,15,39,1164133.51,15,3.0,NYC,USA
4,29,106,3039289.33,29,4.0,Paris,France
5,17,47,1563365.99,17,7.0,London,UK
6,10,38,1099399.49,10,6.0,Sydney,Australia


### 4) Pour chaque produit, donner le nombre de commandes, la quantité totale commandée, et le nombre de clients différents ;


In [261]:
pipeline_q4 = [
    # Jointure Products -> OrderDetails
    {
        "$lookup": {
            "from": "Orders",
            "localField": "productCode",
            "foreignField": "order.productCode",  # Lier via 'productCode' dans 'order' dans la collection Orders
            "as": "orderDetails"
        }
    },
    # Développer les détails des commandes pour accéder aux informations des commandes
    { "$unwind": { "path": "$orderDetails", "preserveNullAndEmptyArrays": True } },
    # Ajouter un champ avec la somme des quantités commandées
    {
        "$addFields": {
            "Totalordered": {
                "$sum": {
                    "$map": {
                        "input": "$orderDetails.order",  # Accès aux détails de la commande
                        "as": "detail",  # Nom de la variable pour chaque élément du tableau
                        "in": "$$detail.quantityOrdered"  # Accès à la quantité commandée
                    }
                }
            }
        }
    },
    # Calcul des statistiques par produit
    {
        "$group": {
            "_id": {
                "productCode": "$productCode",
                "productName": "$productName"
            },
            # Nombre de commandes distinctes
            "numberoforders": { "$addToSet": "$orderDetails.orderNumber" },
            # Quantité totale commandée
            "totalQuantityordered": { "$sum": "$Totalordered" },
            # Nombre de clients distincts
            "numberofDistinctCustomers": { "$addToSet": "$orderDetails.customerNumber" }
        }
    },
    # Calcul final pour nombre d'éléments distincts
    {
        "$project": {
            "_id": 0,
            "productCode": "$_id.productCode",
            "productName": "$_id.productName",
            "numberoforders": { "$size": "$numberoforders" },
            "totalQuantityordered": 1,
            "numberofDistinctCustomers": { "$size": "$numberofDistinctCustomers" }
        }
    },
    # Tri des résultats par code produit
    {
        "$sort": { "productCode": 1 }
    }
]

# Exécution du pipeline
result_q4 = list(db.Products.aggregate(pipeline_q4))

# Convertir les résultats en DataFrame
df_q4 = pd.DataFrame(result_q4)
df_q4


Unnamed: 0,totalQuantityordered,productCode,productName,numberoforders,numberofDistinctCustomers
0,21792,S10_1678,1969 Harley Davidson Ultimate Chopper,28,26
1,20740,S10_1949,1952 Alpine Renault 1300,28,27
2,21616,S10_2016,1996 Moto Guzzi 1100i,28,26
3,22354,S10_4698,2003 Harley-Davidson Eagle Drag Bike,28,25
4,22876,S10_4757,1972 Alfa Romeo GTA,28,27
...,...,...,...,...,...
105,23652,S700_3505,The Titanic,27,22
106,24126,S700_3962,The Queen Mary,27,24
107,28076,S700_4002,American Airlines: MD-11S,28,26
108,24494,S72_1253,Boeing X-32A JSF,28,27


### 5). Donner le nombre de commande pour chaque pays du client, ainsi que le montant total des commandes et le montant total payé : on veut conserver les clients n’ayant jamais commandé dans le résultat final ;


In [177]:
pipeline_q5 = [
    # 1. Jointure Customers -> Orders
    {
        "$lookup": {
            "from": "Orders",
            "localField": "customerNumber",
            "foreignField": "customerNumber",
            "as": "orders"
        }
    },
    # 2. Développer les commandes pour accéder aux détails des commandes
    {
        "$unwind": {
            "path": "$orders",
            "preserveNullAndEmptyArrays": True
        }
    },
    # 3. Calculer le montant total des commandes
    {
        "$addFields": {
            "MontantCommande": {
                "$sum": {
                    "$map": {
                        "input": "$orders.order",  # Accès aux détails de la commande
                        "as": "detail",
                        "in": {
                            "$multiply": ["$$detail.quantityOrdered", "$$detail.priceEach"]
                        }
                    }
                }
            }
        }
    },
    # 4. Calculer le montant total payé à partir de la collection imbriquée 'payments'
    {
        "$unwind": {
            "path": "$customers",
            "preserveNullAndEmptyArrays": True
        }
    },
    {
        "$addFields": {
            "MontantPayé": {
                "$sum": "$customers.amount"  # Somme des montants dans le tableau 'customers'
            }
        }
    },
    # 5. Regrouper les données par pays
    {
        "$group": {
            "_id": "$country",  # Regrouper par pays
            "nombreCommandes": { "$addToSet": "$orders.orderNumber" },  # Commandes distinctes
            "MontantTotalCommandes": { "$sum": "$MontantCommande" },  # Somme des montants des commandes
            "MontantsTotalPayés": { "$sum": "$MontantPayé" }  # Somme des montants payés
        }
    },
    # 6. Calculer la taille de l'ensemble des commandes distinctes
    {
        "$project": {
            "_id": 0,
            "country": "$_id",
            "nombreCommandes": { "$size": "$nombreCommandes" },
            "MontantTotalCommandes": 1,
            "MontantsTotalPayés": 1
        }
    },
    # 7. Trier les résultats par pays
    {
        "$sort": { "country": 1 }
    }
]

# Exécution du pipeline
result_q5 = list(db.Customers.aggregate(pipeline_q5))
df_q5 = pd.DataFrame(result_q5)
df_q5


Unnamed: 0,MontantTotalCommandes,MontantsTotalPayés,country,nombreCommandes
0,2182269.38,2352253.84,Australia,19
1,606187.59,487494.02,Austria,7
2,283705.44,333442.11,Belgium,7
3,448157.12,421283.0,Canada,7
4,781357.5,796334.75,Denmark,7
5,988745.73,988745.73,Finland,9
6,3160296.75,3324693.52,France,37
7,576293.44,576293.44,Germany,7
8,48784.36,97568.72,Hong Kong,2
9,115512.86,115512.86,Ireland,2


### 6) On veut la table de contigence du nombre de commande entre la ligne de produits et le pays du client ;



In [263]:
pipeline_q6 = [
    # Jointure Products -> Orders
    {
        "$lookup": {
            "from": "Orders",
            "localField": "productCode",
            "foreignField": "order.productCode",  # Lier via 'productCode' dans 'order' dans la collection Orders
            "as": "orderDetails"
        }
    },
    # Développer les détails des commandes pour accéder aux informations des commandes
    { "$unwind": { "path": "$orderDetails", "preserveNullAndEmptyArrays": True } },
    
    # Jointure Orders -> Customers
    {
        "$lookup": {
            "from": "Customers",
            "localField": "orderDetails.customerNumber",
            "foreignField": "customerNumber",  # Lier via 'customerNumber' dans la collection Customers
            "as": "customerDetails"
        }
    },
    # Développer les détails des clients
    { "$unwind": { "path": "$customerDetails", "preserveNullAndEmptyArrays": True } },
    
    # Groupement pour calculer le nombre distinct de commandes (orderNumber) par productLine et pays
    {
        "$group": {
            "_id": {
                "productLine": "$productLine",  # Ligne de produit
                "country": "$customerDetails.country"  # Pays du client
            },
            "distinctOrders": { "$addToSet": "$orderDetails.orderNumber" }  # Ajouter chaque orderNumber distinct
        }
    },
    # Projet de la table de contingence en calculant la taille de distinctOrders
    {
        "$project": {
            "_id": 0,
            "productLine": "$_id.productLine",
            "country": "$_id.country",
            "numberOfOrders": { "$size": "$distinctOrders" }  # Compter le nombre d'éléments distincts dans distinctOrders
        }
    },
    # Tri des résultats
    {
        "$sort": { "productLine": 1, "country": 1 }
    }
]

# Exécution du pipeline
result_q6 = list(db.Products.aggregate(pipeline_q6))

# Convertir les résultats en DataFrame
df_q6 = pd.DataFrame(result_q6)
df_q6

Unnamed: 0,productLine,numberOfOrders,country
0,Classic Cars,0,
1,Classic Cars,12,Australia
2,Classic Cars,5,Austria
3,Classic Cars,2,Belgium
4,Classic Cars,6,Canada
...,...,...,...
122,Vintage Cars,4,Singapore
123,Vintage Cars,22,Spain
124,Vintage Cars,4,Sweden
125,Vintage Cars,10,UK



### 7) On veut la même table croisant la ligne de produits et le pays du client, mais avec le montant total payé dans chaque cellule ;


In [267]:
pipeline_q7 = [
    # Jointure Products -> Orders
    {
        "$lookup": {
            "from": "Orders",
            "localField": "productCode",
            "foreignField": "order.productCode",  # Lier via 'productCode' dans 'order' dans la collection Orders
            "as": "orderDetails"
        }
    },
    # Développer les détails des commandes pour accéder aux informations des commandes
    { "$unwind": { "path": "$orderDetails", "preserveNullAndEmptyArrays": True } },
    
    # Jointure Orders -> Customers pour obtenir les détails du client
    {
        "$lookup": {
            "from": "Customers",
            "localField": "orderDetails.customerNumber",
            "foreignField": "customerNumber",  # Lier via 'customerNumber' dans la collection Customers
            "as": "customerDetails"
        }
    },
    # Développer les détails des clients
    { "$unwind": { "path": "$customerDetails", "preserveNullAndEmptyArrays": True } },
    
    # Développer le tableau 'customers' pour accéder aux paiements (amount)
    { "$unwind": { "path": "$customerDetails.customers", "preserveNullAndEmptyArrays": True } },
    
    # Groupement pour calculer le montant total payé par productLine et pays
    {
        "$group": {
            "_id": {
                "productLine": "$productLine",  # Ligne de produit
                "country": "$customerDetails.country"  # Pays du client
            },
            # Calcul du montant total payé (somme de 'amount' dans le tableau 'customers')
            "totalPaid": { "$sum": "$customerDetails.customers.amount" }
        }
    },
    # Projet de la table de contingence avec le montant total payé
    {
        "$project": {
            "_id": 0,
            "productLine": "$_id.productLine",
            "country": "$_id.country",
            "totalPaid": 1  # Le montant total payé pour chaque combinaison
        }
    },
    # Tri des résultats
    {
        "$sort": { "productLine": 1, "country": 1 }
    }
]

# Exécution du pipeline
result_q7 = list(db.Products.aggregate(pipeline_q7))

# Convertir les résultats en DataFrame
df_q7 = pd.DataFrame(result_q7)
df_q7


Unnamed: 0,totalPaid,productLine,country
0,0.00,Classic Cars,
1,15009591.94,Classic Cars,Australia
2,3768838.84,Classic Cars,Austria
3,333761.74,Classic Cars,Belgium
4,1549848.02,Classic Cars,Canada
...,...,...,...
122,3882454.56,Vintage Cars,Singapore
123,79756981.32,Vintage Cars,Spain
124,2754188.32,Vintage Cars,Sweden
125,9346325.56,Vintage Cars,UK



### 8) Donner les 10 produits pour lesquels la marge moyenne est la plus importante (cf buyPrice et priceEach) ;



In [279]:
pipeline_q8 = [
    # Jointure entre Orders et Products sur productCode
    {
        "$lookup": {
            "from": "Products",  # Collection Products
            "localField": "order.productCode",  # Champ dans Orders (tableau 'order')
            "foreignField": "productCode",  # Champ dans Products
            "as": "productDetails"  # Le tableau résultant avec les informations de Products
        }
    },
    # Développer le tableau 'order' pour accéder à chaque ligne de commande dans 'Orders'
    {
        "$unwind": "$order"  # Démanteler le tableau 'order' dans Orders
    },
    # Développer le tableau 'productDetails' pour avoir un accès direct à 'buyPrice' et 'productName'
    {
        "$unwind": "$productDetails"  # Démanteler le tableau 'productDetails' pour chaque produit
    },
    # Ajouter un champ 'marge' calculée comme la différence entre 'priceEach' et 'buyPrice'
    {
        "$addFields": {
            "marge": {
                "$subtract": ["$order.priceEach", "$productDetails.buyPrice"]  # Calcul de la marge
            }
        }
    },
    # Regrouper par 'productCode' et calculer la marge moyenne
    {
        "$group": {
            "_id": "$order.productCode",  # Regrouper par code produit
            "productName": { "$first": "$productDetails.productName" },  # Récupérer le nom du produit
            "averageMargin": { "$avg": "$marge" },  # Calcul de la marge moyenne
        }
    },
    # Trier par marge décroissante
    {
        "$sort": { "averageMargin": -1 }
    },
    # Limiter à 10 produits avec la marge la plus élevée
    {
        "$limit": 10
    },
    # Projection finale : afficher le code produit, le nom du produit et la marge moyenne
    {
        "$project": {
            "_id": 0,  # Ne pas afficher l'ID
            "productCode": "$_id",  # Afficher le code produit
            "productName": 1,  # Afficher le nom du produit
            "averageMargin": 1  # Afficher la marge moyenne
        }
    }
]

# Exécution du pipeline sur la collection Orders
result_q8 = list(db.Orders.aggregate(pipeline_q8))

# Convertir le résultat en DataFrame pour une présentation plus lisible
df_q8 = pd.DataFrame(result_q8)
df_q8


Unnamed: 0,productName,averageMargin,productCode
0,1952 Alpine Renault 1300,138.301085,S10_1949
1,1969 Harley Davidson Ultimate Chopper,135.086947,S10_4698
2,1972 Alfa Romeo GTA,118.701145,S12_1108
3,1917 Grand Touring Sedan,106.169676,S18_1749
4,1968 Ford Mustang,105.996356,S12_1099
5,1969 Corvair Monza,100.849142,S18_3232
6,1932 Model A Ford J-Coupe,100.841516,S18_2795
7,1972 Alfa Romeo GTA,99.354033,S12_3891
8,1969 Corvair Monza,93.760606,S18_2238
9,1969 Harley Davidson Ultimate Chopper,93.485487,S12_2823



### 9). Lister les produits (avec le nom et le code du client) qui ont été vendus à perte :
###     - Si un produit a été dans cette situation plusieurs fois, il doit apparaître plusieurs fois,
###     - Une vente à perte arrive quand le prix de vente est inférieur au prix d’achat ;



In [294]:
pipeline_q9 = [
    # Jointure entre Orders et Products sur productCode
    {
        "$lookup": {
            "from": "Products",  # Collection Products
            "localField": "order.productCode",  # Champ dans Orders (tableau 'order')
            "foreignField": "productCode",  # Champ dans Products
            "as": "productDetails"  # Tableau résultant avec les informations de Products
        }
    },
    # Jointure entre Orders et Customers pour obtenir le nom du client
    {
        "$lookup": {
            "from": "Customers",  # Collection Customers
            "localField": "customerNumber",  # Champ dans Orders (customerNumber)
            "foreignField": "customerNumber",  # Champ dans Customers
            "as": "customerDetails"  # Tableau résultant avec les informations de Customers
        }
    },
    # Démanteler le tableau 'order' pour accéder aux informations de chaque produit dans chaque commande
    {
        "$unwind": "$order"  # Décomposer le tableau 'order' pour avoir une ligne par produit commandé
    },
    # Démanteler le tableau 'productDetails' pour pouvoir accéder aux informations du produit
    {
        "$unwind": "$productDetails"  # Décomposer 'productDetails' pour accéder aux champs de la collection Products
    },
    # Démanteler le tableau 'customerDetails' pour obtenir le nom du client
    {
        "$unwind": "$customerDetails"  # Décomposer 'customerDetails' pour accéder au nom du client
    },
    # Filtrer les produits vendus à perte
    {
        "$match": {
            "$expr": {
                "$lt": ["$order.priceEach", "$productDetails.buyPrice"]  # priceEach < buyPrice
            }
        }
    },
    # Regrouper par productCode et customerName pour ne garder que des produits distincts pour chaque client
    {
        "$group": {
            "_id": {
                "productCode": "$order.productCode",  # Regrouper par code produit
                "customerName": "$customerDetails.customerName",  # Regrouper par nom du client
            },
            "productName": { "$first": "$productDetails.productName" },  # Garder le nom du produit
            "priceEach": { "$first": "$order.priceEach" },  # Garder le prix de vente
            "buyPrice": { "$first": "$productDetails.buyPrice" }  # Garder le prix d'achat
        }
    },
    # Projeter uniquement les champs nécessaires
    {
        "$project": {
            "_id": 0,  # Ne pas afficher l'ID
            "productCode": "$_id.productCode",  # Code produit
            "productName": 1,  # Nom produit
            "customerName": "$_id.customerName",  # Nom du client
            "priceEach": 1,  # Prix de vente
            "buyPrice": 1  # Prix d'achat
        }
    },
    # Optionnel : Tri par productCode et customerName pour faciliter la lecture
    {
        "$sort": {
            "customerName": 1,  # Trier par nom de client
            "productCode": 1  # Trier par code produit
        }
    }
]

# Exécution du pipeline sur la collection Orders
result_q9 = list(db.Orders.aggregate(pipeline_q9))

# Convertir le résultat en DataFrame pour une présentation plus lisible
df_q9 = pd.DataFrame(result_q9)

# Afficher les résultats
df_q9


Unnamed: 0,productName,priceEach,buyPrice,productCode,customerName
0,1965 Aston Martin DB5,50.25,65.96,S18_2248,"AV Stores, Co."
1,1928 Mercedes-Benz SSK,64.69,72.56,S18_2325,"AV Stores, Co."
2,1937 Lincoln Berline,52.67,60.62,S18_2795,"AV Stores, Co."
3,1937 Lincoln Berline,39.80,60.62,S18_3136,"AV Stores, Co."
4,2001 Ferrari Enzo,91.76,95.59,S18_3259,"AV Stores, Co."
...,...,...,...,...,...
1114,1972 Alfa Romeo GTA,74.45,85.68,S700_2610,giftsbymail.co.uk
1115,1972 Alfa Romeo GTA,75.20,85.68,S700_3167,giftsbymail.co.uk
1116,1972 Alfa Romeo GTA,62.19,85.68,S700_4002,giftsbymail.co.uk
1117,1972 Alfa Romeo GTA,43.70,85.68,S72_1253,giftsbymail.co.uk



### 10) (bonus) Lister les clients pour lesquels le montant total payé est inférieur aux montants totals des achats ;

In [299]:
pipeline_q10 = [
    # Jointure entre Orders et Customers pour obtenir le montant total payé par chaque client
    {
        "$lookup": {
            "from": "Customers",  # Collection Customers
            "localField": "customerNumber",  # Champ dans Orders
            "foreignField": "customerNumber",  # Champ dans Customers
            "as": "customerDetails"  # Résultat de la jointure dans le tableau 'customerDetails'
        }
    },
    # Décomposer le tableau 'customerDetails' pour accéder aux informations du client
    {
        "$unwind": "$customerDetails"  # Unwind pour accéder à chaque client
    },
    # Calculer le montant total payé pour chaque client (somme de l'attribut 'amount' dans 'customers')
    {
        "$addFields": {
            "totalPaid": {
                "$sum": "$customerDetails.customers.amount"  # Somme de l'attribut 'amount' des paiements
            }
        }
    },
    # Calculer le montant total des achats pour chaque client (quantité * prix de vente)
    {
        "$addFields": {
            "totalPurchases": {
                "$sum": {
                    "$map": {
                        "input": "$order",  # Accès aux commandes
                        "as": "orderDetail",  # Alias pour chaque détail de commande
                        "in": {
                            "$multiply": ["$$orderDetail.quantityOrdered", "$$orderDetail.priceEach"]  # Calcul du montant de chaque commande
                        }
                    }
                }
            }
        }
    },
    # Filtrer les clients où le montant total payé est inférieur aux achats totaux
    {
        "$match": {
            "$expr": {
                "$lt": ["$totalPurchases", "$totalPaid"]  # Montant payé inférieur aux achats
            }
        }
    },
    # Regrouper les résultats par customerNumber et customerName pour éliminer les doublons
    {
        "$group": {
            "_id": "$customerDetails.customerNumber",  # Regrouper par code client
            "customerName": { "$first": "$customerDetails.customerName" },  # Garder le nom du client
            "totalPaid": { "$sum": "$totalPaid" },  # Somme totale des paiements
            "totalPurchases": { "$sum": "$totalPurchases" }  # Somme totale des achats
        }
    },
    # Projeter uniquement les champs nécessaires après le regroupement
    {
        "$project": {
            "_id": 0,  # Ne pas afficher l'ID
            "customerName": 1,  # Nom du client
            "customerNumber": "$_id",  # Code du client
            "totalPaid": 1,  # Montant total payé
            "totalPurchases": 1  # Montant total des achats
        }
    },
    # Trier par nom du client (ordre alphabétique croissant)
    {
        "$sort": {
            "customerName": 1  # 1 pour tri croissant, -1 pour tri décroissant
        }
    }
]

# Exécution de la requête pour obtenir les clients dont le montant payé est inférieur aux achats
result_q10 = list(db.Orders.aggregate(pipeline_q10))

# Convertir le résultat en DataFrame pour une présentation plus lisible
df_q10 = pd.DataFrame(result_q10)

# Afficher les 20 premiers résultats pour vérifier
df_q10


Unnamed: 0,customerName,totalPaid,totalPurchases,customerNumber
0,"AV Stores, Co.",473423.43,157807.81,187
1,Alpha Cognac,211465.32,70488.44,242
2,Amica Models & Co.,188234.52,94117.26,249
3,"Anna's Decorations, Ltd",615984.52,153996.13,276
4,Atelier graphique,72539.88,24179.96,103
...,...,...,...,...
92,"Vida Sport, Ltd",235427.12,117713.56,298
93,Vitachrome Inc.,264123.78,88041.26,181
94,"Volvo Model Replicas, Co",303019.52,75754.88,144
95,West Coast Collectables Co.,92169.28,46084.64,475
