In [1]:
# Installer les bibliothèques nécessaires pour la manipulation des données et la connexion MongoDB
!pip install pandas pymongo



In [2]:
# Importation des modules SQLite pour accéder aux données relationnelles, Pandas pour la manipulation des données, et pymongo pour MongoDB
import sqlite3
import pandas as pd
import numpy as np
import pymongo

URI = "mongodb+srv://mongo_user:MNShlVlx1wshyOx8@cluster-but-sd.pdnbc.mongodb.net/?retryWrites=true&w=majority&appName=cluster-but-sd"
client = pymongo.MongoClient(URI)
db = client.sae


# -------------------- Manipulation pour éviter les doublons après compilage ---------------------------
# Nom de la collection "gymnases" où seront stockées les données des gymnases après migration
collection_name = "gymnases"
# Création ou récupération de la collection "gymnases" dans la base de données MongoDB
collection = db[collection_name]
# Suppression des documents de la collection "gymnases" pour garantir que l'importation soit propre et évite les doublons
result = collection.delete_many({})
# Affichage du nombre de documents supprimés dans "gymnases" pour confirmer que la collection a été nettoyée
print(f"{result.deleted_count} documents ont été supprimés de la collection '{collection_name}'.")

# Vérification du nombre de documents restants dans "gymnases" pour s'assurer que la collection est bien vide
remaining_documents = collection.count_documents({})
print(f"Il reste {remaining_documents} documents dans la collection '{collection_name}'.")

# --------------------------- Initialisation de la collection sportifs_df ---------------------------
# Nom de la collection "sportifs_df" pour stocker les données relatives aux sportifs après migration
collection_name2 = "sportifs_df"
# Création ou récupération de la collection "sportifs_df" dans MongoDB
collection = db[collection_name2]

# Suppression des documents dans la collection "sportifs_df" pour éviter les doublons après la migration
result = collection.delete_many({})
# Affichage du nombre de documents supprimés pour vérifier la suppression correcte
print(f"{result.deleted_count} documents ont été supprimés de la collection '{collection_name2}'.")

# Vérification du nombre de documents restants dans "sportifs_df" pour garantir la collection est vide
remaining_documents = collection.count_documents({})
print(f"Il reste {remaining_documents} documents dans la collection '{collection_name2}'.")

# Création de la connexion à la base de données SQLite, "Gymnase2000.sqlite" pour accéder aux données relationnelles
conn = sqlite3.connect("Gymnase2000.sqlite")

28 documents ont été supprimés de la collection 'gymnases'.
Il reste 0 documents dans la collection 'gymnases'.
150 documents ont été supprimés de la collection 'sportifs_df'.
Il reste 0 documents dans la collection 'sportifs_df'.


In [3]:
# Chargement des données des gymnases depuis SQLite en utilisant une requête SQL sur la table "Gymnases"
gymnases_df = pd.read_sql_query(
    """SELECT *
    FROM Gymnases;
    """,
    conn
)

# Chargement des données des séances depuis SQLite et jointure avec les sports en utilisant une "id" spécifique pour enrichir les informations
seances_df = pd.read_sql_query(
    """
    SELECT * 
    FROM Seances 
    INNER JOIN Sports 
    USING (IdSport);
    """,
    conn
)

In [4]:
# Filtrage des séances pour un gymnase spécifique (IdGymnase = 6) afin d'examiner les données d'un cas particulier
id_gymnase = 6
gym6_sessions = seances_df.query('IdGymnase == @id_gymnase')
# Affichage des séances associées au gymnase avec Id = 6 pour confirmation des données
print(gym6_sessions)

    IdGymnase  IdSport  IdSportifEntraineur      Jour  Horaire  Duree Libelle
28          6        5                    6  vendredi     19.0     60  Hockey
29          6        5                    7     jeudi     17.0     90  Hockey


In [5]:
# Transformation des données de séances en format adapté pour MongoDB en supprimant les colonnes inutiles
gym6_sessions_list = gym6_sessions.drop(columns=["IdGymnase", "IdSport"]).to_dict(orient="records")
# Affichage des données transformées pour visualisation avant insertion dans MongoDB
print(gym6_sessions_list)

[{'IdSportifEntraineur': 6, 'Jour': 'vendredi', 'Horaire': 19.0, 'Duree': 60, 'Libelle': 'Hockey'}, {'IdSportifEntraineur': 7, 'Jour': 'jeudi', 'Horaire': 17.0, 'Duree': 90, 'Libelle': 'Hockey'}]


In [6]:
# Génération d'une liste de séances pour chaque gymnase, en associant des séances spécifiques à chaque IdGymnase
sessions_data = [
    seances_df[seances_df['IdGymnase'] == gym_id].drop(columns=["IdGymnase", "IdSport"]).to_dict(orient="records")
    for gym_id in gymnases_df.IdGymnase
]
# Ajout des séances (sessions) dans le DataFrame gymnases_df pour préparer l'insertion en structure MongoDB
gymnases_df = gymnases_df.assign(Sessions=sessions_data)
# Affichage des premières lignes de gymnases_df pour vérifier l'intégration des sessions dans les gymnases
gymnases_df.head()

Unnamed: 0,IdGymnase,NomGymnase,Adresse,Ville,Surface,Sessions
0,1,PAUL ELUARD,2 rue des pépines,STAINS,200,"[{'IdSportifEntraineur': 149, 'Jour': 'Samedi'..."
1,2,ARAGON,Place du Chartres,MONTMORENCY,450,"[{'IdSportifEntraineur': 57, 'Jour': 'dimanche..."
2,3,SAINT EXUPERY,47 bvd des brumes,PIERREFITTE,400,"[{'IdSportifEntraineur': 149, 'Jour': 'Mercred..."
3,4,PAUL ELUARD,Allée J.B. Lulli,SARCELLES,500,"[{'IdSportifEntraineur': 149, 'Jour': 'Vendred..."
4,5,BRASSENS,153 square Loliot,SARCELLES,620,"[{'IdSportifEntraineur': 57, 'Jour': 'lundi', ..."


In [7]:
# Insertion des données des gymnases dans la collection MongoDB "gymnases" en format document
db.gymnases.insert_many(
    gymnases_df.to_dict(orient = "records")
)

InsertManyResult([ObjectId('6740ef58bc880f85915961e3'), ObjectId('6740ef58bc880f85915961e4'), ObjectId('6740ef58bc880f85915961e5'), ObjectId('6740ef58bc880f85915961e6'), ObjectId('6740ef58bc880f85915961e7'), ObjectId('6740ef58bc880f85915961e8'), ObjectId('6740ef58bc880f85915961e9'), ObjectId('6740ef58bc880f85915961ea'), ObjectId('6740ef58bc880f85915961eb'), ObjectId('6740ef58bc880f85915961ec'), ObjectId('6740ef58bc880f85915961ed'), ObjectId('6740ef58bc880f85915961ee'), ObjectId('6740ef58bc880f85915961ef'), ObjectId('6740ef58bc880f85915961f0'), ObjectId('6740ef58bc880f85915961f1'), ObjectId('6740ef58bc880f85915961f2'), ObjectId('6740ef58bc880f85915961f3'), ObjectId('6740ef58bc880f85915961f4'), ObjectId('6740ef58bc880f85915961f5'), ObjectId('6740ef58bc880f85915961f6'), ObjectId('6740ef58bc880f85915961f7'), ObjectId('6740ef58bc880f85915961f8'), ObjectId('6740ef58bc880f85915961f9'), ObjectId('6740ef58bc880f85915961fa'), ObjectId('6740ef58bc880f85915961fb'), ObjectId('6740ef58bc880f85915961

In [8]:
# Comptage des documents insérés dans MongoDB pour valider le succès de l'insertion
print("Nombre de documents dans la collection gymnases:", db.gymnases.count_documents({}))

Nombre de documents dans la collection gymnases: 28


In [9]:
# Affichage des documents insérés dans MongoDB pour une vérification de l'intégrité des données
print(list(db.gymnases.find()))

[{'_id': ObjectId('6740ef58bc880f85915961e3'), 'IdGymnase': 1, 'NomGymnase': 'PAUL ELUARD', 'Adresse': '2 rue des pépines', 'Ville': 'STAINS', 'Surface': 200, 'Sessions': [{'IdSportifEntraineur': 149, 'Jour': 'Samedi', 'Horaire': 9.0, 'Duree': 60, 'Libelle': 'Basket ball'}, {'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'Horaire': 9.0, 'Duree': 60, 'Libelle': 'Hand ball'}, {'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'Horaire': 10.0, 'Duree': 60, 'Libelle': 'Hand ball'}, {'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'Horaire': 11.3, 'Duree': 60, 'Libelle': 'Hand ball'}, {'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'Horaire': 14.0, 'Duree': 90, 'Libelle': 'Hand ball'}, {'IdSportifEntraineur': 1, 'Jour': 'lundi', 'Horaire': 17.3, 'Duree': 120, 'Libelle': 'Hand ball'}, {'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'Horaire': 19.3, 'Duree': 120, 'Libelle': 'Hand ball'}, {'IdSportifEntraineur': 2, 'Jour': 'Dimanche', 'Horaire': 17.3, 'Duree': 120, 'Libelle': 'Hand ball'}, {'IdSportifEntraineur': 2, 

In [10]:
# Agrégation des données dans MongoDB pour inclure les informations de séances avec les entraîneurs, en utilisant $lookup pour jointure
pd.DataFrame(list(db.gymnases.aggregate([
    { "$limit": 1 },
    { "$unwind": "$Sessions" },
    { "$lookup": {
       "from": "Sportifs",
       "localField": "Sessions.IdSportifEntraineur",
       "foreignField": "IdSportif",
       "as": "Entraineur"
     }}
])))

Unnamed: 0,_id,IdGymnase,NomGymnase,Adresse,Ville,Surface,Sessions,Entraineur
0,6740ef58bc880f85915961e3,1,PAUL ELUARD,2 rue des pépines,STAINS,200,"{'IdSportifEntraineur': 149, 'Jour': 'Samedi',...",[]
1,6740ef58bc880f85915961e3,1,PAUL ELUARD,2 rue des pépines,STAINS,200,"{'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'H...",[]
2,6740ef58bc880f85915961e3,1,PAUL ELUARD,2 rue des pépines,STAINS,200,"{'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'H...",[]
3,6740ef58bc880f85915961e3,1,PAUL ELUARD,2 rue des pépines,STAINS,200,"{'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'H...",[]
4,6740ef58bc880f85915961e3,1,PAUL ELUARD,2 rue des pépines,STAINS,200,"{'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'H...",[]
5,6740ef58bc880f85915961e3,1,PAUL ELUARD,2 rue des pépines,STAINS,200,"{'IdSportifEntraineur': 1, 'Jour': 'lundi', 'H...",[]
6,6740ef58bc880f85915961e3,1,PAUL ELUARD,2 rue des pépines,STAINS,200,"{'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'H...",[]
7,6740ef58bc880f85915961e3,1,PAUL ELUARD,2 rue des pépines,STAINS,200,"{'IdSportifEntraineur': 2, 'Jour': 'Dimanche',...",[]
8,6740ef58bc880f85915961e3,1,PAUL ELUARD,2 rue des pépines,STAINS,200,"{'IdSportifEntraineur': 2, 'Jour': 'Dimanche',...",[]
9,6740ef58bc880f85915961e3,1,PAUL ELUARD,2 rue des pépines,STAINS,200,"{'IdSportifEntraineur': 2, 'Jour': 'mardi', 'H...",[]


In [11]:
# Extraction de données pour les sportifs et leurs activités (arbitrer, entrainer, jouer) à partir de SQLite
querys = {
    "sportifs": """
        SELECT * FROM Sportifs;
    """,
    "arbitrer": """
        SELECT s.IdSportif, sp.Libelle AS Sport
        FROM Arbitrer s
        INNER JOIN Sports sp ON s.IdSport = sp.IdSport;
    """,
    "entrainer": """
        SELECT s.IdSportifEntraineur AS IdSportif, sp.Libelle AS Sport
        FROM Entrainer s
        INNER JOIN Sports sp ON s.IdSport = sp.IdSport;
    """,
    "jouer": """
        SELECT s.IdSportif, sp.Libelle AS Sport
        FROM Jouer s
        INNER JOIN Sports sp ON s.IdSport = sp.IdSport;
    """
}
# Chargement des données de chaque requête dans des DataFrames pour faciliter le traitement ultérieur
dataframes = {name: pd.read_sql_query(query, conn) for name, query in querys.items()}

In [12]:
# Groupement des sports par catégorie d'activité pour chaque sportif, en créant des listes de sports pour "arbitrer"
arbitrer_grouped = dataframes["arbitrer"].groupby('IdSportif').agg({"Sport": lambda x: list(x)}).reset_index()
# Groupement des sports pour "entrainer" par sportif
entrainer_grouped = dataframes["entrainer"].groupby('IdSportif').agg({"Sport": lambda x: list(x)}).reset_index()
# Groupement des sports pour "jouer" par sportif
jouer_grouped = dataframes["jouer"].groupby('IdSportif').agg({"Sport": lambda x: list(x)}).reset_index()

In [13]:
# Fusion des données groupées dans le DataFrame "sportifs_df" pour inclure toutes les activités sportives
sportifs_df = dataframes["sportifs"]
sportifs_df = sportifs_df.merge(arbitrer_grouped, on='IdSportif', how='left').rename(columns={"Sport": "Arbitrer"})
sportifs_df = sportifs_df.merge(entrainer_grouped, on='IdSportif', how='left').rename(columns={"Sport": "Entrainer"})
sportifs_df = sportifs_df.merge(jouer_grouped, on='IdSportif', how='left').rename(columns={"Sport": "Jouer"})

In [14]:
# Remplacement des valeurs nulles par des listes vides pour uniformiser les données
sportifs_df['Arbitrer'] = sportifs_df['Arbitrer'].apply(lambda x: x if isinstance(x, list) else [])
sportifs_df['Entrainer'] = sportifs_df['Entrainer'].apply(lambda x: x if isinstance(x, list) else [])
sportifs_df['Jouer'] = sportifs_df['Jouer'].apply(lambda x: x if isinstance(x, list) else [])

In [15]:
# Insertion des données des sportifs dans MongoDB pour la collection "sportifs_df" dans un format documenté
db.sportifs_df.insert_many(sportifs_df.to_dict(orient='records'))

# Comptage des documents insérés dans la collection "sportifs_df" pour confirmation de l'insertion
print(db.sportifs_df.count_documents({}))

150


In [16]:
# Agrégation dans MongoDB pour obtenir les séances de gymnases avec entraîneurs, incluant nom et prénom
resultat_df = pd.DataFrame(list(db.gymnases.aggregate([
    { "$limit": 1 },
    { "$unwind": "$Sessions" },
    { "$lookup": {
        "from": "sportifs",
        "localField": "Sessions.IdSportifEntraineur",
        "foreignField": "IdSportif",
        "as": "Entraineur"
     }},
    { "$project": { 
        "Sessions": 1, 
        "Entraineur.Nom": 1, 
        "Entraineur.Prenom": 1 
    }}
])))
# Affichage du DataFrame résultat pour vérifier l'agrégation des données
print(resultat_df)

                         _id  \
0   6740ef58bc880f85915961e3   
1   6740ef58bc880f85915961e3   
2   6740ef58bc880f85915961e3   
3   6740ef58bc880f85915961e3   
4   6740ef58bc880f85915961e3   
5   6740ef58bc880f85915961e3   
6   6740ef58bc880f85915961e3   
7   6740ef58bc880f85915961e3   
8   6740ef58bc880f85915961e3   
9   6740ef58bc880f85915961e3   
10  6740ef58bc880f85915961e3   
11  6740ef58bc880f85915961e3   
12  6740ef58bc880f85915961e3   
13  6740ef58bc880f85915961e3   
14  6740ef58bc880f85915961e3   
15  6740ef58bc880f85915961e3   
16  6740ef58bc880f85915961e3   
17  6740ef58bc880f85915961e3   
18  6740ef58bc880f85915961e3   
19  6740ef58bc880f85915961e3   

                                             Sessions Entraineur  
0   {'IdSportifEntraineur': 149, 'Jour': 'Samedi',...         []  
1   {'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'H...         []  
2   {'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'H...         []  
3   {'IdSportifEntraineur': 1, 'Jour': 'Lundi', 'H...      

In [18]:
##########----------------------------------------------------------------------------------------------------------
##########   TRAVAIL SUR LE JEU DE DONNEES "ClassicModel"

# On ouvre la base de données pour récupérer les données "ClassicModel.sqlite"
conn = sqlite3.connect(r"C:\Users\mbena\OneDrive\Bureau\python TP\ClassicModel.sqlite")

# On récupère toutes les tables nécessaires
orders_query = """SELECT * FROM Orders;"""
orderdetails_query = """SELECT * FROM OrderDetails;"""
products_query = """SELECT * FROM Products;"""
customers_query = """SELECT * FROM Customers;"""
employees_query = """SELECT * FROM Employees;"""
offices_query = """SELECT * FROM Offices;"""
payments_query = """SELECT * FROM Payments;"""

# Chargement des données dans des DataFrames
orders_df = pd.read_sql_query(orders_query, conn)
orderdetails_df = pd.read_sql_query(orderdetails_query, conn)
products_df = pd.read_sql_query(products_query, conn)
customers_df = pd.read_sql_query(customers_query, conn)
employees_df = pd.read_sql_query(employees_query, conn)
offices_df = pd.read_sql_query(offices_query, conn)
payments_df = pd.read_sql_query(payments_query, conn)

# Fin de la connexion SQLite
conn.close()

In [19]:
# Fonction d'optimisation des données avant l'insertion dans MongoDB
# coup de propre
def clean_data(data_list):
    """Convertit les types pandas/numpy en types standards Python pour MongoDB."""
    clean_list = []
    for item in data_list:
        clean_item = {}
        for key, value in item.items():
            if isinstance(value, (np.int64, np.int32)):
                clean_item[key] = int(value)
            elif isinstance(value, (np.float64, np.float32)):
                clean_item[key] = float(value)
            elif isinstance(value, pd.Timestamp):
                clean_item[key] = value.to_pydatetime()
            elif value is None:
                clean_item[key] = None  # Explicitement, on ajoute None pour les valeurs manquantes
            else:
                clean_item[key] = value
        clean_list.append(clean_item)
    return clean_list

In [20]:
# On fusionne les tables des commandes et leurs détails
orders_details_df = pd.merge(orderdetails_df, products_df, on='productCode', how='inner')
orders_full_df = pd.merge(orders_df, orders_details_df, on='orderNumber', how='inner')

# Les clients avec leurs paiements
customers_with_payments = pd.merge(customers_df, payments_df, on='customerNumber', how='left')

In [21]:
# Création de la collection "Orders" où l'on remplirera les informations de la liste vide au début
orders_mongo = []
for order_number, order_group in orders_full_df.groupby('orderNumber'):
    # Les données principales de la commande
    order_data = orders_df[orders_df['orderNumber'] == order_number].iloc[0]
    # Infos sur le client associé
    customer_data = customers_with_payments[customers_with_payments['customerNumber'] == order_data['customerNumber']].iloc[0]

    # On assemble le doc client
    customer_doc = {
        "customerNumber": int(customer_data['customerNumber']),
        "customerName": customer_data['customerName'],
        "contactLastName": customer_data['contactLastName'],
        "contactFirstName": customer_data['contactFirstName'],
        "phone": customer_data['phone'],
        "addressLine1": customer_data['addressLine1'],
        "addressLine2": customer_data.get('addressLine2', None),
        "city": customer_data['city'],
        "state": customer_data.get('state', None),
        "postalCode": customer_data['postalCode'],
        "country": customer_data['country'],
        "salesRepEmployeeNumber": customer_data['salesRepEmployeeNumber'],
        "creditLimit": customer_data['creditLimit'],
        "payments": [
            {
                "checkNumber": payment['checkNumber'],
                "paymentDate": payment['paymentDate'],
                "amount": payment['amount']
            }
            for _, payment in payments_df[payments_df['customerNumber'] == customer_data['customerNumber']].iterrows()
        ]
    }

    # Détails des produits de la commande
    order_details = [
        {
            "orderLineNumber": int(detail['orderLineNumber']),
            "productCode": detail['productCode'],
            "productName": detail['productName'],
            "productLine": detail['productLine'],
            "quantityOrdered": int(detail['quantityOrdered']),
            "priceEach": float(detail['priceEach'])
        }
        for _, detail in order_group.iterrows()
    ]

    # Document final pour cette commande
    order_doc = {
        "orderNumber": int(order_data['orderNumber']),
        "orderDate": order_data['orderDate'],
        "requiredDate": order_data['requiredDate'],
        "shippedDate": order_data['shippedDate'],
        "status": order_data['status'],
        "comments": order_data.get('comments', None),
        "Customer": customer_doc,
        "OrderDetails": order_details
    }
    orders_mongo.append(order_doc)

In [22]:
# Fonction d'insertion par lots pour MongoDB
def batch_insert(collection, data, batch_size=1000):
    """Insère les documents dans MongoDB par lots pour améliorer les performances."""
    for i in range(0, len(data), batch_size):
        collection.insert_many(data[i:i+batch_size])
        
# Insertion des commandes dans MongoDB par lots
batch_insert(db.Orders, orders_mongo)

In [23]:
# Fusionne les tables "Employees" et "Offices" directement dans le document "Employee"
employees_with_offices = pd.merge(employees_df, offices_df, on='officeCode', how='left')

In [24]:
# Collection Employees avec bureau
employees_mongo = []
for _, employee_data in employees_with_offices.iterrows():
    office_doc = {
        "officeCode": employee_data['officeCode'],
        "city": employee_data['city'],
        "phone": employee_data['phone'],
        "addressLine1": employee_data['addressLine1'],
        "addressLine2": employee_data.get('addressLine2', None),
        "state": employee_data.get('state', None),
        "country": employee_data['country'],
        "postalCode": employee_data['postalCode'],
        "territory": employee_data['territory']
    }
    
    employee_doc = {
        "employeeNumber": int(employee_data['employeeNumber']),
        "lastName": employee_data['lastName'],
        "firstName": employee_data['firstName'],
        "extension": employee_data['extension'],
        "email": employee_data['email'],
        "jobTitle": employee_data['jobTitle'],
        "reportsTo": employee_data['reportsTo'],
        "office": office_doc  # Intégrer l'office dans employee directement
    }
    employees_mongo.append(employee_doc)

# Insertion des employés dans MongoDB par lots
batch_insert(db.Employees, employees_mongo)

# Affichage du nombre de documents dans les collections
print(f"Nombre de documents dans la collection Orders: {db.Orders.count_documents({})}")
print(f"Nombre de documents dans la collection Employees: {db.Employees.count_documents({})}")

Nombre de documents dans la collection Orders: 326
Nombre de documents dans la collection Employees: 23


In [None]:
"""
Pour effectuer la migration de notre base SQLite vers MongoDB, on a décidé d’adopter une approche 
qui respecte à la fois la logique des relations de données et les avantages d’une base NoSQL comme
MongoDB. Notre but principal était d’organiser les données de manière à ce qu’elles soient faciles
à lire, cohérentes et adaptées aux performances de MongoDB.

Pour la collection Orders, on a regroupé toutes les informations importantes liées à une commande
en un seul document. Par exemple, chaque commande contient un sous-document OrderDetails, où on
retrouve les produits commandés, leurs quantités et leur prix. On a aussi inclus les informations 
du client (Customer) dans le même document. Ces informations contiennent tout : le nom du client,
son adresse, ses coordonnées et même les paiements qu’il a effectués. Pourquoi ce choix ?
Parce qu’une commande est souvent consultée avec tous ces détails en même temps. En regroupant tout
dans un seul document, on évite d’avoir à faire plusieurs requêtes ou jointures, ce qui est 
coûteux en MongoDB.

Pour la collection Employees, c’est pareil, on a tout rassemblé dans un seul document par employé.
En plus des informations personnelles de l’employé (nom, poste, email), on a aussi ajouté un
sous-document office pour le bureau auquel il est rattaché. Ce sous-document contient les détails
du bureau comme la ville, l’adresse ou encore le numéro de téléphone. Pourquoi l’avoir fait comme ça ?
Simplement parce qu’un employé est toujours lié à un seul bureau. Ça nous permet d’avoir toutes
les infos nécessaires sur l’employé sans devoir aller chercher ailleurs.

Un autre point important, c’est le nettoyage des données. Les types de données utilisés dans SQLite,
comme NULL, ou les formats spécifiques de numpy et pandas, ne passent pas directement dans MongoDB.
Du coup, on a créé une fonction clean_data qui convertit tout ça en types standards Python (int,
float, None, etc.). Ça évite les erreurs au moment de l’insertion dans MongoDB et garantit que
tout est propre.Avant d’envoyer les données dans MongoDB, on a aussi fait quelques fusions nécessaires.
Par exemple, pour la collection Orders, on a fusionné les tables Orders, OrderDetails et Products.
De cette manière, chaque commande contient directement les détails des produits associés. 
Idem pour la collection Employees, où on a fusionné les tables Employees et Offices pour inclure 
les infos des bureaux dans les documents des employés.

Pour finir, on a utilisé une méthode d’insertion par lots (batch insert). Ça consiste à insérer
les données dans MongoDB par groupes de 1000 documents. Pourquoi ? Parce que ça accélère le 
processus tout en réduisant la charge sur la mémoire et le réseau.

En résumé, notre stratégie a été de simplifier l’accès aux données en regroupant tout ce qui 
est logique de regrouper dans un même document en s'appuyant du modèle1 du fichier requete_Seance2.py
depuis GitHub. MongoDB est optimisé pour ce genre de structure imbriquée, et ça colle bien avec 
la façon dont on voudra consulter ces données plus tard.
Résultat : 326 et 23 documents dont :

- Nombre de documents dans la collection OrderDetails: 2996
- Nombre de documents dans la collection Products: 110
- Nombre de documents dans la collection Customers: 122
- Nombre de documents dans la collection Offices: 7
- Nombre de documents dans la collection Payments: 273

"""