In [1]:
pip install pymongo pandas

Defaulting to user installation because normal site-packages is not writeable
Collecting pymongo
  Downloading pymongo-4.10.1-cp311-cp311-win_amd64.whl.metadata (22 kB)
Collecting dnspython<3.0.0,>=1.16.0 (from pymongo)
  Downloading dnspython-2.7.0-py3-none-any.whl.metadata (5.8 kB)
Downloading pymongo-4.10.1-cp311-cp311-win_amd64.whl (876 kB)
   ---------------------------------------- 0.0/876.5 kB ? eta -:--:--
   -- ------------------------------------- 61.4/876.5 kB 1.7 MB/s eta 0:00:01
   -------------------- ------------------- 450.6/876.5 kB 5.6 MB/s eta 0:00:01
   ---------------------------------------  870.4/876.5 kB 7.9 MB/s eta 0:00:01
   ---------------------------------------- 876.5/876.5 kB 6.9 MB/s eta 0:00:00
Downloading dnspython-2.7.0-py3-none-any.whl (313 kB)
   ---------------------------------------- 0.0/313.6 kB ? eta -:--:--
   ---------------------------------------- 313.6/313.6 kB 9.8 MB/s eta 0:00:00
Installing collected packages: dnspython, pymongo
Successf

In [41]:
import sqlite3
import pandas as pd

# Connexion à la base SQLite
conn = sqlite3.connect("ClassicModel.sqlite")

# Requête 1 : Lister les clients n’ayant jamais effectué une commande
query1 = """
SELECT c.customerNumber, c.customerName
FROM Customers c
LEFT JOIN Orders o ON c.customerNumber = o.customerNumber
WHERE o.orderNumber IS NULL;
"""
customers_no_orders = pd.read_sql_query(query1, conn)

# Requête 2 : Pour chaque employé, le nombre de clients, le nombre de commandes et le montant total
query2 = """
SELECT e.employeeNumber, e.firstName, e.lastName,
       COUNT(DISTINCT c.customerNumber) AS numberOfCustomers,
       COUNT(DISTINCT o.orderNumber) AS numberOfOrders,
       SUM(od.quantityOrdered * od.priceEach) AS totalOrderAmount
FROM Employees e
LEFT JOIN Customers c ON e.employeeNumber = c.salesRepEmployeeNumber
LEFT JOIN Orders o ON c.customerNumber = o.customerNumber
LEFT JOIN OrderDetails od ON o.orderNumber = od.orderNumber
GROUP BY e.employeeNumber;
"""
employee_summary = pd.read_sql_query(query2, conn)

# Requête 3 : Statistiques par bureau
query3 = """
SELECT o.officeCode, o.city, o.country AS officeCountry,
       COUNT(DISTINCT c.customerNumber) AS numberOfCustomers,
       COUNT(DISTINCT od.orderNumber) AS numberOfOrders,
       SUM(od.quantityOrdered * od.priceEach) AS totalOrderAmount,
       COUNT(DISTINCT CASE WHEN c.country != o.country THEN c.customerNumber END) AS customersFromDifferentCountry
FROM Offices o
LEFT JOIN Employees e ON o.officeCode = e.officeCode
LEFT JOIN Customers c ON e.employeeNumber = c.salesRepEmployeeNumber
LEFT JOIN Orders ord ON c.customerNumber = ord.customerNumber
LEFT JOIN OrderDetails od ON ord.orderNumber = od.orderNumber
GROUP BY o.officeCode;
"""
office_summary = pd.read_sql_query(query3, conn)

# Requête 4 : Statistiques par produit
query4 = """
SELECT p.productCode, p.productName,
       COUNT(DISTINCT od.orderNumber) AS numberOfOrders,
       SUM(od.quantityOrdered) AS totalQuantityOrdered,
       COUNT(DISTINCT o.customerNumber) AS numberOfCustomers
FROM Products p
LEFT JOIN OrderDetails od ON p.productCode = od.productCode
LEFT JOIN Orders o ON od.orderNumber = o.orderNumber
GROUP BY p.productCode;
"""
product_summary = pd.read_sql_query(query4, conn)

# Requête 5 : Statistiques par pays
query5 = """
SELECT c.country, 
       COUNT(DISTINCT o.orderNumber) AS numberOfOrders,
       SUM(od.quantityOrdered * od.priceEach) AS totalOrderAmount,
       SUM(p.amount) AS totalPaidAmount
FROM Customers c
LEFT JOIN Orders o ON c.customerNumber = o.customerNumber
LEFT JOIN OrderDetails od ON o.orderNumber = od.orderNumber
LEFT JOIN Payments p ON c.customerNumber = p.customerNumber
GROUP BY c.country;
"""
country_summary = pd.read_sql_query(query5, conn)

# Requête 6 : Table de contingence des commandes (par ligne de produit et pays du client)
query6 = """
SELECT p.productLine, c.country,
       COUNT(DISTINCT o.orderNumber) AS numberOfOrders
FROM Products p
LEFT JOIN OrderDetails od ON p.productCode = od.productCode
LEFT JOIN Orders o ON od.orderNumber = o.orderNumber
LEFT JOIN Customers c ON o.customerNumber = c.customerNumber
GROUP BY p.productLine, c.country;
"""
contingency_table_orders = pd.read_sql_query(query6, conn)

# Requête 7 : Table croisée produits/pays avec montant payé
query7 = """
SELECT p.productLine, c.country,
       SUM(od.quantityOrdered * od.priceEach) AS totalPaidAmount
FROM Products p
LEFT JOIN OrderDetails od ON p.productCode = od.productCode
LEFT JOIN Orders o ON od.orderNumber = o.orderNumber
LEFT JOIN Customers c ON o.customerNumber = c.customerNumber
GROUP BY p.productLine, c.country;
"""
contingency_table_paid = pd.read_sql_query(query7, conn)

# Requête 8 : Produits avec la marge moyenne la plus importante
query8 = """
SELECT p.productCode, p.productName,
       AVG(od.priceEach - p.buyPrice) AS averageMargin
FROM Products p
LEFT JOIN OrderDetails od ON p.productCode = od.productCode
GROUP BY p.productCode
ORDER BY averageMargin DESC
LIMIT 10;
"""
top_margin_products = pd.read_sql_query(query8, conn)

# Requête 9 : Produits vendus à perte
query9 = """
SELECT p.productCode, p.productName, c.customerName, o.customerNumber, od.priceEach, p.buyPrice
FROM Products p
LEFT JOIN OrderDetails od ON p.productCode = od.productCode
LEFT JOIN Orders o ON od.orderNumber = o.orderNumber
LEFT JOIN Customers c ON o.customerNumber = c.customerNumber
WHERE od.priceEach < p.buyPrice;
"""
loss_products = pd.read_sql_query(query9, conn)

# Affichage des résultats
print("Clients sans commande :", customers_no_orders.head(), sep="\n")
print("Résumé des employés :", employee_summary.head(), sep="\n")
print("Résumé des bureaux :", office_summary.head(), sep="\n")
print("Résumé des produits :", product_summary.head(), sep="\n")
print("Résumé par pays :", country_summary.head(), sep="\n")
print("Table de contingence des commandes :", contingency_table_orders.head(), sep="\n")
print("Table croisée produits/pays avec montant payé :", contingency_table_paid.head(), sep="\n")
print("Produits avec marge moyenne la plus importante :", top_margin_products.head(), sep="\n")
print("Produits vendus à perte :", loss_products.head(), sep="\n")


Clients sans commande :
   customerNumber                customerName
0             125          Havel & Zbyszek Co
1             168      American Souvenirs Inc
2             169           Porto Imports Co.
3             206  Asian Shopping Network, Co
4             223             Natürlich Autos
Résumé des employés :
   employeeNumber firstName   lastName  numberOfCustomers  numberOfOrders  \
0            1002     Diane     Murphy                  0               0   
1            1056      Mary  Patterson                  0               0   
2            1076      Jeff   Firrelli                  0               0   
3            1088   William  Patterson                  0               0   
4            1102    Gerard     Bondur                  0               0   

   totalOrderAmount  
0               NaN  
1               NaN  
2               NaN  
3               NaN  
4               NaN  
Résumé des bureaux :
  officeCode           city officeCountry  numberOfCustomers  

In [21]:
import sqlite3
import pandas as pd
import pymongo

# Connexion à MongoDB
URI = "mongodb+srv://mehdi_mongo:5r4las9CeOAQTKMC@cluster-but-sd.q4e4b.mongodb.net/?retryWrites=true&w=majority&appName=cluster-but-sd"
client = pymongo.MongoClient(URI)
db = client.classicmodel  # Nom de la base MongoDB

# Connexion à SQLite
conn = sqlite3.connect("ClassicModel.sqlite")

In [161]:
# Étape 1 : Supprimer les collections existantes (optionnel)
db.customers.drop()  # Supprime la collection customers existante

# Étape 2 : Récupérer les données depuis SQLite

# Récupérer les informations des clients
customers = pd.read_sql_query("SELECT * FROM Customers", conn)

# Récupérer les commandes avec les détails des produits
orders = pd.read_sql_query("""
    SELECT o.customerNumber, o.orderNumber, o.orderDate, o.status, o.comments,
           od.productCode, od.quantityOrdered, od.priceEach
    FROM Orders o
    INNER JOIN OrderDetails od ON o.orderNumber = od.orderNumber
""", conn)

# Récupérer les paiements des clients
payments = pd.read_sql_query("SELECT * FROM Payments", conn)

# Étape 3 : Transformer les données

# Ajouter les commandes à chaque client
customer_orders = []
for customer_id in customers["customerNumber"]:
    orders_for_customer = orders[orders["customerNumber"] == customer_id]
    if orders_for_customer.empty:
        print(f"Aucune commande pour le client {customer_id}")
    customer_orders.append(
        orders_for_customer.drop(columns=["customerNumber"]).to_dict(orient="records")
    )
customers = customers.assign(orders=customer_orders)

# Ajouter les paiements à chaque client
customer_payments = []
for customer_id in customers["customerNumber"]:
    payments_for_customer = payments[payments["customerNumber"] == customer_id]
    if payments_for_customer.empty:
        print(f"Aucun paiement pour le client {customer_id}")
    customer_payments.append(
        payments_for_customer.drop(columns=["customerNumber"]).to_dict(orient="records")
    )
customers = customers.assign(payments=customer_payments)

# Étape 4 : Insérer dans MongoDB

# Convertir les clients en dictionnaires et insérer dans MongoDB
db.customers.insert_many(customers.to_dict(orient="records"))

# Vérification des données insérées
print(f"Nombre de documents insérés dans 'customers': {db.customers.count_documents({})}")

# Validation : Afficher un exemple de client avec ses commandes et paiements
example_customer = db.customers.find_one({}, {"_id": 0, "customerName": 1, "orders": 1, "payments": 1})
print("Exemple de client avec commandes et paiements :")
print(example_customer)


Aucune commande pour le client 125
Aucune commande pour le client 168
Aucune commande pour le client 169
Aucune commande pour le client 206
Aucune commande pour le client 223
Aucune commande pour le client 237
Aucune commande pour le client 247
Aucune commande pour le client 273
Aucune commande pour le client 293
Aucune commande pour le client 303
Aucune commande pour le client 307
Aucune commande pour le client 335
Aucune commande pour le client 348
Aucune commande pour le client 356
Aucune commande pour le client 361
Aucune commande pour le client 369
Aucune commande pour le client 376
Aucune commande pour le client 409
Aucune commande pour le client 443
Aucune commande pour le client 459
Aucune commande pour le client 465
Aucune commande pour le client 477
Aucune commande pour le client 480
Aucune commande pour le client 481
Aucun paiement pour le client 125
Aucun paiement pour le client 168
Aucun paiement pour le client 169
Aucun paiement pour le client 206
Aucun paiement pour le c

In [113]:
# Vérifier le nombre total de clients dans SQLite
cursor = conn.cursor()
cursor.execute("SELECT COUNT(*) FROM Customers;")
result = cursor.fetchone()  # Récupère le résultat
print(f"Nombre total de clients dans SQLite : {result[0]}")



Nombre total de clients dans SQLite : 122


In [115]:
unique_customers = len(db.customers.distinct("customerNumber"))
print(f"Nombre de clients uniques dans MongoDB : {unique_customers}")


Nombre de clients uniques dans MongoDB : 122


In [117]:
total_customers = db.customers.count_documents({})
print(f"Nombre total de documents dans MongoDB : {total_customers}")


Nombre total de documents dans MongoDB : 122


In [75]:
# Récupération des produits depuis SQLite
products = pd.read_sql_query(
    """
    SELECT * FROM Products
    """,
    conn
)

# Vérification des données
print(products.head())  # Afficher les 5 premiers produits pour vérifier les données

# Conversion du DataFrame en dictionnaires et insertion dans MongoDB
db.products.insert_many(products.to_dict(orient="records"))

# Vérification du nombre de documents insérés
print(f"Nombre de produits insérés : {db.products.count_documents({})}")


  productCode                            productName   productLine  \
0    S10_1678  1969 Harley Davidson Ultimate Chopper   Motorcycles   
1    S10_1949               1952 Alpine Renault 1300  Classic Cars   
2    S10_2016                  1996 Moto Guzzi 1100i   Motorcycles   
3    S10_4698   2003 Harley-Davidson Eagle Drag Bike   Motorcycles   
4    S10_4757                    1972 Alfa Romeo GTA  Classic Cars   

  productScale             productVendor  \
0       4200.0           Min Lin Diecast   
1       4200.0   Classic Metal Creations   
2       4200.0  Highway 66 Mini Classics   
3       4200.0         Red Start Diecast   
4       4200.0   Motor City Art Classics   

                                  productDescription  quantityInStock  \
0  This replica features working kickstand, front...             7933   
1  Turnable front wheels; steering function; deta...             7305   
2  Official Moto Guzzi logos and insignias, saddl...             6625   
3  Model features, off

In [77]:
# Récupération des employés depuis SQLite
employees = pd.read_sql_query(
    """
    SELECT * FROM Employees
    """,
    conn
)

# Récupération des bureaux depuis SQLite
offices = pd.read_sql_query(
    """
    SELECT * FROM Offices
    """,
    conn
)

# Ajout des informations des bureaux à chaque employé
employee_offices = [
    offices.query('officeCode == @code')  # Trouver le bureau correspondant
        .drop(columns=["officeCode"])  # Supprimer la colonne redondante
        .to_dict(orient="records")[0]  # Convertir en dictionnaire unique
    for code in employees.officeCode
]

# Ajouter les informations des bureaux dans les employés
employees = employees.assign(office=employee_offices)

# Vérification des données
print(employees.head())  # Afficher les 5 premiers employés avec leurs bureaux

# Insertion dans MongoDB
db.employees.insert_many(employees.to_dict(orient="records"))

# Vérification du nombre d'employés insérés
print(f"Nombre d'employés insérés : {db.employees.count_documents({})}")


   employeeNumber   lastName firstName extension  \
0            1002     Murphy     Diane     x5800   
1            1056  Patterson      Mary     x4611   
2            1076   Firrelli      Jeff     x9273   
3            1088  Patterson   William     x4871   
4            1102     Bondur    Gerard     x5408   

                             email officeCode reportsTo  \
0     dmurphy@classicmodelcars.com        1.0      NULL   
1   mpatterso@classicmodelcars.com        1.0      1002   
2   jfirrelli@classicmodelcars.com        1.0      1002   
3  wpatterson@classicmodelcars.com        6.0      1056   
4   athompson@classicmodelcars.com        4.0      1056   

                      jobTitle  \
0                    President   
1                     VP Sales   
2                 VP Marketing   
3  Sales Manager (JAPAN, APAC)   
4          Sale Manager (EMEA)   

                                              office  
0  {'city': 'San Francisco', 'phone': '+1 650 219...  
1  {'city': 'San 

In [165]:
# Récupérer un exemple de document de la collection customer
example_customer = db.customers.find_one({}, {"_id": 0})  # Supprime l'ID pour simplifier l'affichage
print("Structure d'un client exemple :")
print(example_customer)



Structure d'un client exemple :
{'customerNumber': 103, 'customerName': 'Atelier graphique', 'contactLastName': 'Schmitt', 'contactFirstName': 'Carine', 'phone': '40.32.2555', 'addressLine1': '54, rue Royale', 'addressLine2': 'NULL', 'city': 'Nantes', 'state': 'NULL', 'postalCode': '44000', 'country': 'France', 'salesRepEmployeeNumber': 1370, 'creditLimit': 21000.0, 'orders': [{'orderNumber': 10123, 'orderDate': '2003/5/20 0:00:00', 'status': 'Shipped', 'comments': 'NULL', 'productCode': 'S18_1589', 'quantityOrdered': 26, 'priceEach': 118.22}, {'orderNumber': 10123, 'orderDate': '2003/5/20 0:00:00', 'status': 'Shipped', 'comments': 'NULL', 'productCode': 'S18_2870', 'quantityOrdered': 46, 'priceEach': 112.2}, {'orderNumber': 10123, 'orderDate': '2003/5/20 0:00:00', 'status': 'Shipped', 'comments': 'NULL', 'productCode': 'S18_3685', 'quantityOrdered': 34, 'priceEach': 156.82}, {'orderNumber': 10123, 'orderDate': '2003/5/20 0:00:00', 'status': 'Shipped', 'comments': 'NULL', 'productCode'

In [213]:
# Récupérer un exemple de document de la collection employees
example_employees = db.employees.find_one({}, {"_id": 0})  # Supprime l'ID pour simplifier l'affichage
print("Structure d'un employe exemple :")
print(example_employees)

Structure d'un employe exemple :
{'employeeNumber': 1002, 'lastName': 'Murphy', 'firstName': 'Diane', 'extension': 'x5800', 'email': 'dmurphy@classicmodelcars.com', 'officeCode': '1.0', 'reportsTo': 'NULL', 'jobTitle': 'President', 'office': {'city': 'San Francisco', 'phone': '+1 650 219 4782', 'addressLine1': '100 Market Street', 'addressLine2': 'Suite 300', 'state': 'CA', 'country': 'USA', 'postalCode': '94080', 'territory': None}}


In [217]:
# Récupérer un exemple de document de la collection produit
example_products = db.products.find_one({}, {"_id": 0})  # Supprime l'ID pour simplifier l'affichage
print("Structure d'un produit exemple :")
print(example_products)

Structure d'un produit exemple :
{'productCode': 'S10_1678', 'productName': '1969 Harley Davidson Ultimate Chopper', 'productLine': 'Motorcycles', 'productScale': '4200.0', 'productVendor': 'Min Lin Diecast', 'productDescription': 'This replica features working kickstand, front suspension, gear-shift lever, footbrake lever, drive chain, wheels and steering. All parts are particularly delicate due to their precise scale and require special care and attention.', 'quantityInStock': 7933, 'buyPrice': 48.81, 'MSRP': 95.7}


In [125]:
# Requete 1
# Agrégation MongoDB pour lister les clients sans commande
customers_without_orders = db.customers.aggregate([
    {"$match": {"orders": {"$size": 0}}},
    {"$project": {"_id": 0, "customerNumber": 1, "customerName": 1}},
    {"$sort": {"customerNumber": 1}}
])

# Convertir le résultat en DataFrame pandas
customers_without_orders_df = pd.DataFrame(list(customers_without_orders))

# Afficher le résultat
customers_without_orders_df



Unnamed: 0,customerNumber,customerName
0,125,Havel & Zbyszek Co
1,168,American Souvenirs Inc
2,169,Porto Imports Co.
3,206,"Asian Shopping Network, Co"
4,223,Natürlich Autos
5,237,ANG Resellers
6,247,Messner Shopping Network
7,273,"Franken Gifts, Co"
8,293,BG&E Collectables
9,303,Schuyler Imports


In [127]:
# Requete 2
# Agrégation pour calculer les statistiques par employé
employees_stats = db.employees.aggregate([
    # Lier les employés à leurs clients via salesRepEmployeeNumber
    {"$lookup": {
        "from": "customers",
        "localField": "employeeNumber",
        "foreignField": "salesRepEmployeeNumber",
        "as": "customers"
    }},
    # Déplier les clients (mais garder les employés sans clients)
    {"$unwind": {"path": "$customers", "preserveNullAndEmptyArrays": True}},
    # Déplier les commandes des clients (mais garder les clients sans commandes)
    {"$unwind": {"path": "$customers.orders", "preserveNullAndEmptyArrays": True}},
    # Grouper par employé
    {"$group": {
        "_id": "$employeeNumber",
        "firstName": {"$first": "$firstName"},
        "lastName": {"$first": "$lastName"},
        "numberOfCustomers": {"$addToSet": "$customers.customerNumber"},  # Clients uniques
        "orderSet": {"$addToSet": "$customers.orders.orderNumber"},  # Commandes uniques
        "totalOrderAmount": {"$sum": {"$multiply": [
            {"$ifNull": ["$customers.orders.quantityOrdered", 0]},
            {"$ifNull": ["$customers.orders.priceEach", 0]}
        ]}}
    }},
    # Calculer le nombre de clients uniques et de commandes
    {"$addFields": {
        "numberOfCustomers": {"$size": "$numberOfCustomers"},
        "numberOfOrders": {"$size": "$orderSet"}
    }},
    # Supprimer le champ intermédiaire `orderSet`
    {"$project": {
        "orderSet": 0
    }},
    # Trier par employeeNumber
    {"$sort": {"_id": 1}}
])

# Convertir en DataFrame pandas
employees_stats_df = pd.DataFrame(list(employees_stats))

# Renommer les colonnes 
employees_stats_df.rename(columns={
    "_id": "employeeNumber",
    "firstName": "firstName",
    "lastName": "lastName",
    "numberOfCustomers": "numberOfCustomers",
    "numberOfOrders": "numberOfOrders",
    "totalOrderAmount": "totalOrderAmount"
}, inplace=True)

# Afficher les résultats
employees_stats_df.head(25)


Unnamed: 0,employeeNumber,firstName,lastName,numberOfCustomers,totalOrderAmount,numberOfOrders
0,1002,Diane,Murphy,0,0.0,0
1,1056,Mary,Patterson,0,0.0,0
2,1076,Jeff,Firrelli,0,0.0,0
3,1088,William,Patterson,0,0.0,0
4,1102,Gerard,Bondur,0,0.0,0
5,1143,Anthony,Bow,0,0.0,0
6,1165,Leslie,Jennings,6,1210228.57,34
7,1166,Leslie,Thompson,6,378064.72,14
8,1188,Julie,Firrelli,6,422257.44,14
9,1216,Steve,Patterson,6,565516.73,18


In [129]:
# Requete 3
office_stats = db.customers.aggregate([
    # Lier les clients à leurs employés via salesRepEmployeeNumber
    {"$lookup": {
        "from": "employees",
        "localField": "salesRepEmployeeNumber",
        "foreignField": "employeeNumber",
        "as": "employee"
    }},
    {"$unwind": {"path": "$employee", "preserveNullAndEmptyArrays": True}},
    # Grouper par bureau
    {"$group": {
        "_id": "$employee.officeCode",
        "city": {"$first": "$employee.office.city"},
        "officeCountry": {"$first": "$employee.office.country"},
        "numberOfCustomers": {"$addToSet": "$customerNumber"},  # Ensemble des clients uniques
        "uniqueOrders": {"$addToSet": "$orders.orderNumber"},  # Ensemble des commandes uniques
        "totalOrderAmount": {"$sum": {"$reduce": {  # Réduction sur les détails des commandes
            "input": "$orders",
            "initialValue": 0,
            "in": {"$add": [
                "$$value",
                {"$multiply": [
                    {"$ifNull": ["$$this.quantityOrdered", 0]},
                    {"$ifNull": ["$$this.priceEach", 0]}
                ]}
            ]}
        }}},
        "customersFromDifferentCountry": {"$addToSet": {
            "$cond": [{"$ne": ["$country", "$employee.office.country"]}, "$customerNumber", None]
        }}
    }},
    # Calcul des tailles des ensembles
    {"$addFields": {
        "numberOfCustomers": {"$size": "$numberOfCustomers"},
        "numberOfOrders": {"$size": "$uniqueOrders"},
        "customersFromDifferentCountry": {"$size": {"$setDifference": ["$customersFromDifferentCountry", [None]]}}
    }},
    # Supprimer les champs inutiles
    {"$project": {
        "uniqueOrders": 0
    }},
    # Trier par officeCode
    {"$sort": {"_id": 1}}
])

# Convertir les résultats en DataFrame pandas
office_stats_df = pd.DataFrame(list(office_stats))

# Renommer les colonnes si nécessaire
office_stats_df.rename(columns={
    "_id": "officeCode"
}, inplace=True)

# Afficher les résultats
office_stats_df


Unnamed: 0,officeCode,city,officeCountry,numberOfCustomers,totalOrderAmount,customersFromDifferentCountry,numberOfOrders
0,,,,22,0.0,22,1
1,1.0,San Francisco,USA,12,1588293.29,0,12
2,2.0,Boston,USA,12,987774.17,0,12
3,3.0,NYC,USA,15,1275993.95,3,15
4,4.0,Paris,France,29,3404055.56,17,29
5,5.0,Tokyo,Japan,5,503957.58,3,5
6,6.0,Sydney,Australia,10,1281705.83,5,10
7,7.0,London,UK,17,1604168.8,12,17


In [31]:
# Requete 4
# Pipeline d'agrégation MongoDB
stats_produit = [
    {"$unwind": "$orders"},  # Décompose chaque commande d'un client
    {
        "$group": {
            "_id": "$orders.productCode",  # Regroupe par code produit
            "numberOfOrders": {"$sum": 1},  # Compte le nombre de commandes
            "totalQuantityOrdered": {"$sum": "$orders.quantityOrdered"},  # Quantité totale commandée
            "customers": {"$addToSet": "$customerNumber"}  # Liste unique des clients
        }
    },
    {
        "$project": {
            "_id": 0,
            "productCode": "$_id",
            "numberOfOrders": 1,
            "totalQuantityOrdered": 1,
            "numberOfCustomers": {"$size": "$customers"}  # Nombre de clients uniques
        }
    },
    {"$sort": {"productCode": 1}}  # Tri par code produit
]

# Exécution de l'agrégation
result = list(db.customers.aggregate(stats_produit ))


df_products = pd.DataFrame(result)
df_products






Unnamed: 0,numberOfOrders,totalQuantityOrdered,productCode,numberOfCustomers
0,28,1026,S10_1678,26
1,28,961,S10_1949,27
2,28,999,S10_2016,26
3,28,985,S10_4698,25
4,28,1000,S10_4757,27
...,...,...,...,...
104,27,952,S700_3505,22
105,27,883,S700_3962,24
106,28,1073,S700_4002,26
107,28,960,S72_1253,27


In [29]:
# Requete 5
commande_pays = [
    # Étape 1 : Calculer le montant total des commandes pour chaque client
    {
        "$addFields": {
            "orderAmount": {
                "$sum": {
                    "$map": {
                        "input": "$orders",
                        "as": "order",
                        "in": {
                            "$multiply": ["$$order.quantityOrdered", "$$order.priceEach"]
                        }
                    }
                }
            },
            "uniqueOrders": {"$setUnion": "$orders.orderNumber"}  # Ensemble des commandes uniques
        }
    },
    # Étape 2 : Grouper par pays
    {
        "$group": {
            "_id": "$country",
            "numberOfOrders": {"$sum": {"$size": {"$ifNull": ["$uniqueOrders", []]}}},  # Nombre de commandes uniques
            "totalOrderAmount": {"$sum": "$orderAmount"},  # Montant total des commandes
            "totalPaidAmount": {"$sum": {"$sum": "$payments.amount"}},  # Montant total payé
        }
    },
    # Étape 3 : Ajouter des valeurs par défaut pour les pays sans commandes ou paiements
    {
        "$project": {
            "_id": 0,
            "country": "$_id",
            "numberOfOrders": {"$cond": [{"$gt": ["$numberOfOrders", 0]}, "$numberOfOrders", 0]},
            "totalOrderAmount": {"$cond": [{"$gt": ["$totalOrderAmount", 0]}, "$totalOrderAmount", 0]},
            "totalPaidAmount": {"$cond": [{"$gt": ["$totalPaidAmount", 0]}, "$totalPaidAmount", 0]},
        }
    },
    # Étape 4 : Trier par pays
    {"$sort": {"country": 1}}
]

# Exécution de l'agrégation
result = list(db.customers.aggregate(commande_pays))


df_countries = pd.DataFrame(result)
df_countries


Unnamed: 0,country,numberOfOrders,totalOrderAmount,totalPaidAmount
0,Australia,19,630623.1,566642.9
1,Austria,7,202062.53,134939.48
2,Belgium,7,108412.62,100000.67
3,Canada,7,224078.56,190385.59
4,Denmark,7,245637.15,219624.28
5,Finland,9,329581.91,329581.91
6,France,37,1110916.56,1017384.7
7,Germany,7,220472.09,220472.09
8,Hong Kong,2,48784.36,48784.36
9,Ireland,2,57756.43,57756.43


In [27]:
# Requete 6
table1 = [
    # Étape 1 : Désagréger les commandes pour accéder aux détails des produits
    {"$unwind": "$orders"},
    # Étape 2 : Jointure avec la collection products pour obtenir le productLine
    {
        "$lookup": {
            "from": "products",
            "localField": "orders.productCode",
            "foreignField": "productCode",
            "as": "productDetails"
        }
    },
    # Étape 3 : Désagréger les produits associés pour obtenir leur ligne de produit
    {"$unwind": "$productDetails"},
    # Étape 4 : Grouper par productLine et country pour compter les commandes uniques
    {
        "$group": {
            "_id": {"productLine": "$productDetails.productLine", "country": "$country", "orderNumber": "$orders.orderNumber"}
        }
    },
    # Étape 5 : Regrouper à nouveau pour le comptage final par productLine et country
    {
        "$group": {
            "_id": {"productLine": "$_id.productLine", "country": "$_id.country"},
            "numberOfOrders": {"$sum": 1}
        }
    },
    # Étape 6 : Restructurer les résultats
    {
        "$project": {
            "_id": 0,
            "productLine": "$_id.productLine",
            "country": "$_id.country",
            "numberOfOrders": 1
        }
    },
    # Étape 7 : Trier par productLine et country
    {"$sort": {"productLine": 1, "country": 1}}
]

# Exécution de l'agrégation
result = list(db.customers.aggregate(table1))

df = pd.DataFrame(result)

df


Unnamed: 0,numberOfOrders,productLine,country
0,12,Classic Cars,Australia
1,5,Classic Cars,Austria
2,2,Classic Cars,Belgium
3,6,Classic Cars,Canada
4,5,Classic Cars,Denmark
...,...,...,...
121,4,Vintage Cars,Singapore
122,22,Vintage Cars,Spain
123,4,Vintage Cars,Sweden
124,10,Vintage Cars,UK


In [205]:
# Requete 7
table2 = [
    # Étape 1 : Désagréger les commandes pour accéder aux détails
    {"$unwind": "$orders"},
    # Étape 2 : Jointure avec la collection products pour obtenir le productLine
    {
        "$lookup": {
            "from": "products",
            "localField": "orders.productCode",
            "foreignField": "productCode",
            "as": "productDetails"
        }
    },
    # Étape 3 : Désagréger les produits associés pour obtenir leur ligne de produit
    {"$unwind": "$productDetails"},
    # Étape 4 : Calculer le montant payé pour chaque détail
    {
        "$addFields": {
            "orderPaidAmount": {
                "$multiply": ["$orders.quantityOrdered", "$orders.priceEach"]
            }
        }
    },
    # Étape 5 : Grouper par productLine et country pour calculer le montant total payé
    {
        "$group": {
            "_id": {"productLine": "$productDetails.productLine", "country": "$country"},
            "totalPaidAmount": {"$sum": "$orderPaidAmount"}
        }
    },
    # Étape 6 : Restructurer les résultats
    {
        "$project": {
            "_id": 0,
            "productLine": "$_id.productLine",
            "country": "$_id.country",
            "totalPaidAmount": 1
        }
    },
    # Étape 7 : Trier par productLine et country
    {"$sort": {"productLine": 1, "country": 1}}
]

# Exécution de l'agrégation
result = list(db.customers.aggregate(table2))

df = pd.DataFrame(result)

df


Unnamed: 0,totalPaidAmount,productLine,country
0,193085.54,Classic Cars,Australia
1,101459.47,Classic Cars,Austria
2,20136.96,Classic Cars,Belgium
3,61623.22,Classic Cars,Canada
4,157182.48,Classic Cars,Denmark
...,...,...,...
121,34960.46,Vintage Cars,Singapore
122,229514.51,Vintage Cars,Spain
123,33804.46,Vintage Cars,Sweden
124,123798.74,Vintage Cars,UK


In [207]:
# Requete 8
top10_marge = [
    # Étape 1 : Calculer la marge pour chaque produit
    {
        "$addFields": {
            "averageMargin": {
                "$subtract": ["$MSRP", "$buyPrice"]
            }
        }
    },
    # Étape 2 : Sélectionner les colonnes pertinentes
    {
        "$project": {
            "_id": 0,
            "productCode": 1,
            "productName": 1,
            "averageMargin": 1
        }
    },
    # Étape 3 : Trier par marge moyenne décroissante
    {"$sort": {"averageMargin": -1}},
    # Étape 4 : Limiter aux 10 produits avec la plus grande marge
    {"$limit": 10}
]

# Exécution de l'agrégation
result = list(db.products.aggregate(top10_marge))

# Convertir en DataFrame pour affichage ou export
df = pd.DataFrame(result)

df


Unnamed: 0,productCode,productName,averageMargin
0,S10_1949,1952 Alpine Renault 1300,115.72
1,S12_1108,2001 Ferrari Enzo,112.21
2,S10_4698,2003 Harley-Davidson Eagle Drag Bike,102.64
3,S12_1099,1968 Ford Mustang,99.23
4,S18_2795,1928 Mercedes-Benz SSK,96.19
5,S18_3232,1992 Ferrari 360 Spider red,91.44
6,S12_3891,1969 Ford Falcon,89.97
7,S12_2823,2002 Suzuki XREO,84.35
8,S18_1749,1917 Grand Touring Sedan,83.3
9,S18_1662,1980s Black Hawk Helicopter,80.42


In [25]:
# Requete 9
produit_perte = [
    # Étape 1 : Désagréger les commandes pour accéder aux détails
    {"$unwind": "$orders"},
    # Étape 2 : Jointure avec la collection products pour récupérer le buyPrice
    {
        "$lookup": {
            "from": "products",
            "localField": "orders.productCode",
            "foreignField": "productCode",
            "as": "productDetails"
        }
    },
    # Étape 3 : Désagréger les produits associés pour accéder à buyPrice
    {"$unwind": "$productDetails"},
    # Étape 4 : Filtrer les produits vendus à perte (priceEach < buyPrice)
    {
        "$match": {
            "$expr": {
                "$lt": ["$orders.priceEach", "$productDetails.buyPrice"]
            }
        }
    },
    # Étape 5 : Projeter les colonnes nécessaires
    {
        "$project": {
            "_id": 0,
            "productCode": "$orders.productCode",
            "productName": "$productDetails.productName",
            "customerName": "$customerName",
            "customerNumber": "$customerNumber",
            "priceEach": "$orders.priceEach",
            "buyPrice": "$productDetails.buyPrice"
        }
    },
    # Étape 6 : Trier par productCode, customerNumber
    {"$sort": {"productCode": 1, "customerNumber": 1}}
]

# Exécution de l'agrégation
result = list(db.customers.aggregate(produit_perte))

# Convertir en DataFrame pour affichage ou export
df = pd.DataFrame(result)

df


Unnamed: 0,productCode,productName,customerName,customerNumber,priceEach,buyPrice
0,S10_1678,1969 Harley Davidson Ultimate Chopper,La Rochelle Gifts,119,34.91,48.81
1,S10_2016,1996 Moto Guzzi 1100i,Souveniers And Things Co.,282,51.15,68.99
2,S10_2016,1996 Moto Guzzi 1100i,"Tokyo Collectables, Ltd",398,68.92,68.99
3,S10_2016,1996 Moto Guzzi 1100i,FunGiftIdeas.com,462,44.51,68.99
4,S10_4698,2003 Harley-Davidson Eagle Drag Bike,"Tokyo Collectables, Ltd",398,76.67,91.02
...,...,...,...,...,...,...
74,S24_4048,1992 Porsche Cayenne Turbo Silver,Mini Gifts Distributors Ltd.,124,50.32,69.78
75,S24_4258,1936 Chrysler Airflow,"Corrida Auto Replicas, Ltd",458,50.31,57.46
76,S32_1374,1997 BMW F650 ST,Land of Toys Inc.,131,63.91,66.92
77,S32_4485,1974 Ducati 350 Mk3 Desmo,Mini Gifts Distributors Ltd.,124,48.98,56.13
