In [1]:
# Installer les bibliothèques nécessaires pour la manipulation des données et la connexion MongoDB
!pip install pandas pymongo



In [2]:
# Importation des modules SQLite pour accéder aux données relationnelles, Pandas pour la manipulation des données, et pymongo pour MongoDB
import sqlite3
import pandas as pd
import numpy as np
import pymongo

In [3]:
URI = "mongodb+srv://mongo_user:MNShlVlx1wshyOx8@cluster-but-sd.pdnbc.mongodb.net/?retryWrites=true&w=majority&appName=cluster-but-sd"
client = pymongo.MongoClient(URI)
db = client.sae

In [4]:
##########   Requetes MongoDB (10 questions + bonus)

# Connexion à SQLite pour récupérer les données
conn = sqlite3.connect(r"C:\Users\mbena\OneDrive\Bureau\python TP\ClassicModel.sqlite")

# Requêtes SQL pour extraire les données
orders_query = """SELECT * FROM Orders;"""
orderdetails_query = """SELECT * FROM OrderDetails;"""
products_query = """SELECT * FROM Products;"""
customers_query = """SELECT * FROM Customers;"""
employees_query = """SELECT * FROM Employees;"""
offices_query = """SELECT * FROM Offices;"""
payments_query = """SELECT * FROM Payments;"""

In [5]:
# Charger les données dans des DataFrames
orders_df = pd.read_sql_query(orders_query, conn)
orderdetails_df = pd.read_sql_query(orderdetails_query, conn)
products_df = pd.read_sql_query(products_query, conn)
customers_df = pd.read_sql_query(customers_query, conn)
employees_df = pd.read_sql_query(employees_query, conn)
offices_df = pd.read_sql_query(offices_query, conn)
payments_df = pd.read_sql_query(payments_query, conn)

In [6]:
# 1. Lister les clients n’ayant jamais effectué une commande, triés par CustomerNumber
request1 = """
SELECT c.customerNumber, c.customerName
FROM Customers c
LEFT JOIN Orders o ON c.customerNumber = o.customerNumber
WHERE o.customerNumber IS NULL
ORDER BY c.customerNumber;
"""
customers_without_orders_df = pd.read_sql_query(request1, conn)
print("Clients sans commandes triés par CustomerNumber :")
print(customers_without_orders_df)


Clients sans commandes triés par CustomerNumber :
    customerNumber                    customerName
0              125              Havel & Zbyszek Co
1              168          American Souvenirs Inc
2              169               Porto Imports Co.
3              206      Asian Shopping Network, Co
4              223                 Natürlich Autos
5              237                   ANG Resellers
6              247        Messner Shopping Network
7              273               Franken Gifts, Co
8              293               BG&E Collectables
9              303                Schuyler Imports
10             307                Der Hund Imports
11             335       Cramer Spezialitäten, Ltd
12             348           Asian Treasures, Inc.
13             356            SAR Distributors, Co
14             361                 Kommission Auto
15             369          Lisboa Souveniers, Inc
16             376           Precious Collectables
17             409  Stuttgart Co

In [7]:
# 2. Pour chaque employé, le nombre de clients, le nombre de commandes, et le montant total de celles-ci
request2 = """
SELECT e.employeeNumber, e.firstName, e.lastName,
       COUNT(DISTINCT c.customerNumber) AS numClients,
       COUNT(DISTINCT o.orderNumber) AS numOrders,
       SUM(COALESCE(od.quantityOrdered * od.priceEach, 0)) AS totalAmount
FROM Employees e
LEFT JOIN Customers c ON e.employeeNumber = c.salesRepEmployeeNumber
LEFT JOIN Orders o ON c.customerNumber = o.customerNumber
LEFT JOIN OrderDetails od ON o.orderNumber = od.orderNumber
GROUP BY e.employeeNumber
ORDER BY e.employeeNumber;
"""
employees_stats_df = pd.read_sql_query(request2, conn)
print("Statistiques par employé :")
print(employees_stats_df)


Statistiques par employé :
    employeeNumber firstName   lastName  numClients  numOrders  totalAmount
0             1002     Diane     Murphy           0          0         0.00
1             1056      Mary  Patterson           0          0         0.00
2             1076      Jeff   Firrelli           0          0         0.00
3             1088   William  Patterson           0          0         0.00
4             1102    Gerard     Bondur           0          0         0.00
5             1143   Anthony        Bow           0          0         0.00
6             1165    Leslie   Jennings           6         34   1210228.57
7             1166    Leslie   Thompson           6         14    378064.72
8             1188     Julie   Firrelli           6         14    422257.44
9             1216     Steve  Patterson           6         18    565516.73
10            1286  Foon Yue      Tseng           7         17    550395.19
11            1323    George     Vanauf           8         2

In [8]:
# 3. Pour chaque bureau, les statistiques avec clients internationaux
request3 = """
SELECT 
    o.officeCode AS officeCode,
    o.city AS city,
    o.country AS country,
    -- Nombre unique de clients associés au bureau
    COUNT(DISTINCT c.customerNumber) AS numberOfCustomers,
    -- Nombre unique de commandes passées par ces clients
    COUNT(DISTINCT od.orderNumber) AS numberOfOrders,
    -- Montant total des commandes
    SUM(od2.quantityOrdered * od2.priceEach) AS totalOrderAmount,
    -- Nombre de clients internationaux (pays différent du bureau)
    COUNT(DISTINCT CASE WHEN c.country != o.country THEN c.customerNumber END) AS internationalClients
FROM Offices o
LEFT JOIN Employees e 
    ON o.officeCode = e.officeCode
LEFT JOIN Customers c 
    ON e.employeeNumber = c.salesRepEmployeeNumber
LEFT JOIN Orders od 
    ON c.customerNumber = od.customerNumber
LEFT JOIN OrderDetails od2 
    ON od.orderNumber = od2.orderNumber
GROUP BY o.officeCode, o.city, o.country
ORDER BY o.officeCode;


"""
office_stats_df = pd.read_sql_query(request3, conn)
print("Statistiques par bureau :")
print(office_stats_df)

#erreur numclients numOrders et totalAmount

Statistiques par bureau :
  officeCode           city    country  numberOfCustomers  numberOfOrders  \
0        1.0  San Francisco        USA                 12              48   
1        2.0         Boston        USA                 12              32   
2        3.0            NYC        USA                 15              39   
3        4.0          Paris     France                 29             106   
4        5.0          Tokyo      Japan                  5              16   
5        6.0         Sydney  Australia                 10              38   
6        7.0         London         UK                 17              47   

   totalOrderAmount  internationalClients  
0        1588293.29                     0  
1         987774.17                     0  
2        1275993.95                     3  
3        3404055.56                    17  
4         503957.58                     3  
5        1281705.83                     5  
6        1604168.80                    12  


In [9]:
# Requête SQL corrigée
request3 = """
SELECT 
    o.officeCode AS officeCode,
    o.city AS city,
    o.country AS officeCountry,
    COUNT(DISTINCT c.customerNumber) AS numberOfCustomers,
    COUNT(DISTINCT od.orderNumber) AS numberOfOrders,
    SUM(od2_sub.totalAmount) AS totalOrderAmount,
    COUNT(DISTINCT CASE WHEN c.country != o.country THEN c.customerNumber END) AS customersFromDifferentCountry
FROM Offices o
LEFT JOIN Employees e 
    ON o.officeCode = e.officeCode
LEFT JOIN Customers c 
    ON e.employeeNumber = c.salesRepEmployeeNumber
LEFT JOIN Orders od 
    ON c.customerNumber = od.customerNumber
LEFT JOIN (
    SELECT 
        od.orderNumber,
        SUM(od.quantityOrdered * od.priceEach) AS totalAmount
    FROM OrderDetails od
    GROUP BY od.orderNumber
) AS od2_sub
    ON od.orderNumber = od2_sub.orderNumber
GROUP BY o.officeCode, o.city, o.country
ORDER BY o.officeCode;
"""

# Exécution de la requête et récupération des résultats
office_stats_df = pd.read_sql_query(request3, conn)

# Affichage des résultats
print("Statistiques par bureau :")
print(office_stats_df)

#erreur totalOrderAmount !!

Statistiques par bureau :
  officeCode           city officeCountry  numberOfCustomers  numberOfOrders  \
0        1.0  San Francisco           USA                 12              48   
1        2.0         Boston           USA                 12              32   
2        3.0            NYC           USA                 15              39   
3        4.0          Paris        France                 29             106   
4        5.0          Tokyo         Japan                  5              16   
5        6.0         Sydney     Australia                 10              38   
6        7.0         London            UK                 17              47   

   totalOrderAmount  customersFromDifferentCountry  
0        1588293.29                              0  
1         987774.17                              0  
2        1275993.95                              3  
3        3404055.56                             17  
4         503957.58                              3  
5        128170

In [10]:
# 4. Pour chaque produit, statistiques des commandes
request4 = """
SELECT p.productCode, p.productName,
       COUNT(DISTINCT od.orderNumber) AS numberOfOrders,
       SUM(od.quantityOrdered) AS totalQuantityOrdered,
       COUNT(DISTINCT o.customerNumber) AS numberOfDistinctCustomers
FROM Products p
LEFT JOIN OrderDetails od ON p.productCode = od.productCode
LEFT JOIN Orders o ON od.orderNumber = o.orderNumber
GROUP BY p.productCode
ORDER BY p.productCode;
"""
product_stats_df = pd.read_sql_query(request4, conn)
print("Statistiques par produit :")
print(product_stats_df)

Statistiques par produit :
    productCode                            productName  numberOfOrders  \
0      S10_1678  1969 Harley Davidson Ultimate Chopper              28   
1      S10_1949               1952 Alpine Renault 1300              28   
2      S10_2016                  1996 Moto Guzzi 1100i              28   
3      S10_4698   2003 Harley-Davidson Eagle Drag Bike              28   
4      S10_4757                    1972 Alfa Romeo GTA              28   
..          ...                                    ...             ...   
105   S700_3505                            The Titanic              27   
106   S700_3962                         The Queen Mary              27   
107   S700_4002              American Airlines: MD-11S              28   
108    S72_1253                       Boeing X-32A JSF              28   
109    S72_3212                             Pont Yacht              27   

     totalQuantityOrdered  numberOfDistinctCustomers  
0                  1026.0    

In [11]:
# Requête SQL corrigée
request5 = """
SELECT c.country,
       COUNT(DISTINCT o.orderNumber) AS numberOfOrders,  -- Compter uniquement les commandes distinctes
       SUM(od.quantityOrdered * od.priceEach) AS totalOrderAmount,
       SUM(pay.amount) AS totalPaidAmount
FROM Customers c
LEFT JOIN Orders o ON c.customerNumber = o.customerNumber
LEFT JOIN OrderDetails od ON o.orderNumber = od.orderNumber
LEFT JOIN Payments pay ON c.customerNumber = pay.customerNumber
GROUP BY c.country
ORDER BY c.country;
"""

# Exécution de la requête
country_stats_df = pd.read_sql_query(request5, conn)

# Affichage des résultats
print("Statistiques par pays :")
print(country_stats_df)

"""
problèmes rencontrés : 
Points vérifiés et ajustements
Alias pour cohérence :

Les colonnes ont été renommées (officeCountry, numberOfCustomers, etc.) pour correspondre aux noms des colonnes dans votre tableau.
Agrégation correcte :

COUNT(DISTINCT od.orderNumber) est utilisé pour compter uniquement les commandes uniques.
SUM(COALESCE(od.quantityOrdered * od.priceEach, 0)) pour éviter les NULL dans les montants totaux.
Critères pour clients internationaux :

La condition c.country != o.country a été vérifiée et encapsulée dans COUNT(DISTINCT CASE WHEN ...) pour obtenir un décompte unique des clients d'un autre pays.
Tests complémentaires nécessaires :

Vérifiez la cohérence des données dans vos tables (valeurs de country, jointures correctes).
"""


Statistiques par pays :
         country  numberOfOrders  totalOrderAmount  totalPaidAmount
0      Australia              19        2182269.38     2.482541e+07
1        Austria               7         606187.59     4.090982e+06
2        Belgium               7         283705.44     1.931535e+06
3         Canada               7         448157.12     4.487022e+06
4        Denmark               7         781357.50     7.001114e+06
5        Finland               9         988745.73     1.009620e+07
6         France              37        3160296.75     3.141444e+07
7        Germany               7         576293.44     4.971661e+06
8      Hong Kong               2          48784.36     7.805498e+05
9        Ireland               2         115512.86     9.241029e+05
10        Israel               0               NaN              NaN
11         Italy              10         945208.16     1.324310e+07
12         Japan               6         496898.36     4.837611e+06
13   Netherlands        

"\nproblèmes rencontrés : \nPoints vérifiés et ajustements\nAlias pour cohérence :\n\nLes colonnes ont été renommées (officeCountry, numberOfCustomers, etc.) pour correspondre aux noms des colonnes dans votre tableau.\nAgrégation correcte :\n\nCOUNT(DISTINCT od.orderNumber) est utilisé pour compter uniquement les commandes uniques.\nSUM(COALESCE(od.quantityOrdered * od.priceEach, 0)) pour éviter les NULL dans les montants totaux.\nCritères pour clients internationaux :\n\nLa condition c.country != o.country a été vérifiée et encapsulée dans COUNT(DISTINCT CASE WHEN ...) pour obtenir un décompte unique des clients d'un autre pays.\nTests complémentaires nécessaires :\n\nVérifiez la cohérence des données dans vos tables (valeurs de country, jointures correctes).\n"

In [12]:
# 6. Table de contingence des commandes par ligne de produit et pays
request6 = """
SELECT 
    p.productLine, 
    c.country, 
    COUNT(DISTINCT od.orderNumber) AS numberOfOrders
FROM Products p
LEFT JOIN OrderDetails od ON p.productCode = od.productCode
LEFT JOIN Orders o ON od.orderNumber = o.orderNumber
LEFT JOIN Customers c ON o.customerNumber = c.customerNumber
GROUP BY p.productLine, c.country
ORDER BY p.productLine, c.country;
"""

contingency_table_orders_df = pd.read_sql_query(request6, conn)
print("Table de contingence (commandes) :")
print(contingency_table_orders_df)


Table de contingence (commandes) :
      productLine    country  numberOfOrders
0    Classic Cars       None               0
1    Classic Cars  Australia              12
2    Classic Cars    Austria               5
3    Classic Cars    Belgium               2
4    Classic Cars     Canada               6
..            ...        ...             ...
122  Vintage Cars  Singapore               4
123  Vintage Cars      Spain              22
124  Vintage Cars     Sweden               4
125  Vintage Cars         UK              10
126  Vintage Cars        USA              67

[127 rows x 3 columns]


In [13]:
# 7. Table de contingence avec montant total payé
request7 = """
SELECT 
    p.productLine, 
    c.country, 
    SUM(COALESCE(od.quantityOrdered, 0) * COALESCE(od.priceEach, 0)) AS totalPaidAmount
FROM Products p
LEFT JOIN OrderDetails od ON p.productCode = od.productCode
LEFT JOIN Orders o ON od.orderNumber = o.orderNumber
LEFT JOIN Customers c ON o.customerNumber = c.customerNumber
GROUP BY p.productLine, c.country
ORDER BY p.productLine, c.country;
"""

# Exécution de la requête et récupération des résultats dans un DataFrame
contingency_table_amount_df = pd.read_sql_query(request7, conn)

# Affichage de la table de contingence avec le montant total payé
print("Table de contingence (montants) :")
print(contingency_table_amount_df)

Table de contingence (montants) :
      productLine    country  totalPaidAmount
0    Classic Cars       None             0.00
1    Classic Cars  Australia        193085.54
2    Classic Cars    Austria        101459.47
3    Classic Cars    Belgium         20136.96
4    Classic Cars     Canada         61623.22
..            ...        ...              ...
122  Vintage Cars  Singapore         34960.46
123  Vintage Cars      Spain        229514.51
124  Vintage Cars     Sweden         33804.46
125  Vintage Cars         UK        123798.74
126  Vintage Cars        USA        757755.90

[127 rows x 3 columns]


In [14]:
# 8. Les 10 produits avec la marge moyenne la plus importante
request8 = """
SELECT p.productCode, p.productName,
       AVG(od.priceEach - p.buyPrice) AS averageMargin
FROM Products p
JOIN OrderDetails od ON p.productCode = od.productCode
GROUP BY p.productCode
ORDER BY averageMargin DESC
LIMIT 10;
"""
top_margin_products_df = pd.read_sql_query(request8, conn)
print("Top 10 produits par marge moyenne :")
print(top_margin_products_df)

Top 10 produits par marge moyenne :
  productCode                           productName  averageMargin
0    S10_1949              1952 Alpine Renault 1300      99.006429
1    S10_4698  2003 Harley-Davidson Eagle Drag Bike      95.235000
2    S18_3232           1992 Ferrari 360 Spider red      83.334906
3    S12_2823                      2002 Suzuki XREO      83.201429
4    S18_2795                1928 Mercedes-Benz SSK      82.696786
5    S12_1108                     2001 Ferrari Enzo      81.043704
6    S12_3891                      1969 Ford Falcon      77.335926
7    S18_3685        1948 Porsche Type 356 Roadster      72.636800
8    S18_2870          1999 Indy 500 Monte Carlo SS      71.794400
9    S18_1749              1917 Grand Touring Sedan      70.432800


In [15]:
# 9. Lister les produits vendus à perte
request9 = """
SELECT 
    p.productCode, 
    p.productName, 
    c.customerName, 
    o.customerNumber, 
    od.priceEach, 
    p.buyPrice,
    od.quantityOrdered,  -- Inclure la quantité vendue
    (od.quantityOrdered * od.priceEach) AS totalSaleAmount,  -- Calcul du total de la vente
    (od.quantityOrdered * p.buyPrice) AS totalPurchaseAmount  -- Calcul du total d'achat
FROM Products p
JOIN OrderDetails od ON p.productCode = od.productCode
JOIN Orders o ON od.orderNumber = o.orderNumber
JOIN Customers c ON o.customerNumber = c.customerNumber
WHERE od.priceEach < p.buyPrice
ORDER BY p.productCode, o.customerNumber;


"""
products_sold_at_loss_df = pd.read_sql_query(request9, conn)
print("Produits vendus à perte :")
print(products_sold_at_loss_df)

Produits vendus à perte :
   productCode                            productName  \
0     S10_1678  1969 Harley Davidson Ultimate Chopper   
1     S10_2016                  1996 Moto Guzzi 1100i   
2     S10_2016                  1996 Moto Guzzi 1100i   
3     S10_2016                  1996 Moto Guzzi 1100i   
4     S10_4698   2003 Harley-Davidson Eagle Drag Bike   
..         ...                                    ...   
74    S24_4048      1992 Porsche Cayenne Turbo Silver   
75    S24_4258                  1936 Chrysler Airflow   
76    S32_1374                       1997 BMW F650 ST   
77    S32_4485              1974 Ducati 350 Mk3 Desmo   
78    S50_1392       Diamond T620 Semi-Skirted Tanker   

                    customerName  customerNumber  priceEach  buyPrice  \
0              La Rochelle Gifts             119      34.91     48.81   
1      Souveniers And Things Co.             282      51.15     68.99   
2        Tokyo Collectables, Ltd             398      68.92     68.99 

In [16]:
# 10. (Bonus) Clients avec paiements supérieurs aux achats
request10 = """
SELECT c.customerNumber, c.customerName,
       SUM(pay.amount) AS totalPaid,
       SUM(od.quantityOrdered * od.priceEach) AS totalOrders
FROM Customers c
LEFT JOIN Payments pay ON c.customerNumber = pay.customerNumber
LEFT JOIN Orders o ON c.customerNumber = o.customerNumber
LEFT JOIN OrderDetails od ON o.orderNumber = od.orderNumber
GROUP BY c.customerNumber
HAVING totalPaid > totalOrders
ORDER BY c.customerName;
"""
overpaying_clients_df = pd.read_sql_query(request10, conn)
print("Clients ayant payé plus que leurs achats :")
print(overpaying_clients_df)

# Fermeture de la connexion
conn.close()

Clients ayant payé plus que leurs achats :
    customerNumber                 customerName   totalPaid  totalOrders
0              187               AV Stores, Co.  8048198.31    473423.43
1              242                 Alpha Cognac  1409768.80    211465.32
2              249           Amica Models & Co.  2447048.76    188234.52
3              276      Anna's Decorations, Ltd  7083821.98    615984.52
4              103            Atelier graphique   169259.72     72539.88
..             ...                          ...         ...          ...
93             298              Vida Sport, Ltd  3649120.36    235427.12
94             181              Vitachrome Inc.  2201031.50    264123.78
95             144     Volvo Model Replicas, Co  1439342.72    151509.76
96             475  West Coast Collectables Co.   599100.32     92169.28
97             240            giftsbymail.co.uk  2034261.84    156481.68

[98 rows x 4 columns]
