# Alimenter une base de données

## Partie 0 : Veille sur la data

- Types de données: (description)<br>
    - Deux types de données (fichiers) :<br>
        1) Données structurées : tableaux avec des éléments vides possibles, au format excel
        2) Données non structurées : formes variables au format json ou bson
    - Types de données (variables) :
        1) Données numériques
        2) Données catégorielles
        3) Données temporelles
        4) Autres données sous forme de texte
- Formats de données : exemples
    - CSV, Excel
    - Json, Bson
    - Base de données
- Ou la trouver ?
    - Base de données d'une entreprise (sous forme de db ou de fichiers)
    - API
    - Webscrapping
- Bonne pratiques : Comment la stocker ?
    - Dans des datalakes, DBs
    - Protection des données
    - Sauvegardes régulières
    - Qualité / Cohérence des données

## Partie 1 : Importation de données vers une base de données sql

Travail en groupe Outils : Python, SQLAlchemy, BD (PostgreSQL ou MySQL).

- Introduction à SQLAlchemy
- C’est quoi un connecteur de base de données ?
- Import de données avec python (CSV vers BDD SQL) : Créer un programme Python permettant de : 
    - Créer la base de données et les champs nécessaires; 
    - Lire le fichier CSV; 
    - Importer les données dans la base de données.
- Import de données avec python (JSON vers BDD SQL) :Créer un programme Python permettant de : 
    - Créer la base de données et les champs nécessaires; 
    - Lire le fichier JSON; 
    - Importer les données dans la base de données.


### CSV VERS BDD SQL

In [1]:
from sqlalchemy import create_engine, text, inspect
from dotenv import load_dotenv
import os
import pandas as pd
import json

In [2]:
load_dotenv()

user = os.getenv("DB_USER")
password = os.getenv("DB_PASSWORD")
host = os.getenv("DB_HOST")
dbname_csv = os.getenv("DB_NAME_CSV")
dbname_json = os.getenv("DB_NAME_JSON")

user_mongodb = os.getenv("MONGODB_USER")
password_mongodb = os.getenv("MONGODB_PASSWORD")

Un connecteur de base de données est un logiciel ou une bibliothèque qui permet à une application de se connecter à une base de données, d'exécuter des requêtes, et de récupérer ou manipuler les données.

In [3]:
# Create an engine and connect to MySQL
engine = create_engine(f'mysql+pymysql://{user}:{password}@{host}/', echo=False)
conn = engine.connect()
#conn.close()

In [4]:
# Create database if not exists
conn.execute(text(f"CREATE DATABASE IF NOT EXISTS {dbname_csv}"))
print(conn.execute(text("SHOW DATABASES")).fetchall())
conn.close()

[('analyse_retour_clients',), ('brief_books',), ('friendsepisode',), ('information_schema',), ('mysql',), ('performance_schema',), ('sakila',), ('sys',), ('ventes_entreprise',), ('ventes_entreprise_csv',), ('ventes_entreprise_json',), ('world',)]


In [5]:
engine = create_engine(f'mysql+pymysql://{user}:{password}@{host}/{dbname_csv}', echo=False)
conn = engine.connect()

In [6]:
df_clients = pd.read_csv('./data/data-csv/clients.csv', delimiter=';')
print(df_clients.info())
print(df_clients.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 336488 entries, 0 to 336487
Data columns (total 3 columns):
 #   Column     Non-Null Count   Dtype 
---  ------     --------------   ----- 
 0   client_id  336488 non-null  object
 1   sex        336488 non-null  object
 2   birth      336488 non-null  int64 
dtypes: int64(1), object(2)
memory usage: 7.7+ MB
None
  client_id sex  birth
0    c_4450   f   1977
1     c_277   f   2000
2    c_4270   f   1979
3    c_4597   m   1963
4    c_1242   f   1980


In [7]:
df_produits = pd.read_csv('./data/data-csv/produits_sous-categorie.csv', delimiter=';')
print(df_produits.info())
print(df_produits.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 336488 entries, 0 to 336487
Data columns (total 5 columns):
 #   Column          Non-Null Count   Dtype 
---  ------          --------------   ----- 
 0   product_id      336488 non-null  object
 1   category        336488 non-null  object
 2   sub_category    336488 non-null  object
 3   price           336488 non-null  object
 4   stock_quantity  336488 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 12.8+ MB
None
  product_id     category        sub_category  price  stock_quantity
0     0_1483    Vêtements            T-shirts   4,99              48
1      2_226      Montres  Montres connectées  65,75              63
2      1_374  Accessoires         Sacs à main  10,71              97
3     0_2186    Vêtements            T-shirts    4,2              57
4     0_1351    Vêtements            T-shirts   8,99              59


In [8]:
df_ventes = pd.read_csv('./data/data-csv/ventes.csv', delimiter=';')
print(df_ventes.info())
print(df_ventes.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 336488 entries, 0 to 336487
Data columns (total 5 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   product_id     336488 non-null  object
 1   date           336488 non-null  object
 2   session_id     336488 non-null  object
 3   client_id      336488 non-null  object
 4   quantity_sold  336488 non-null  int64 
dtypes: int64(1), object(4)
memory usage: 12.8+ MB
None
  product_id              date session_id client_id  quantity_sold
0     0_1483  10/04/2021 18:37    s_18746    c_4450              5
1      2_226  03/02/2022 01:55   s_159142     c_277              6
2      1_374  23/09/2021 15:13    s_94290    c_4270              3
3     0_2186  17/10/2021 03:27   s_105936    c_4597              8
4     0_1351  17/07/2021 20:34    s_63642    c_1242              2


In [9]:
dataframes = {
    'ventes': df_ventes,
    'produits_sous_categorie': df_produits,
    'clients': df_clients
}

for table_name, df in dataframes.items():
    df.to_sql(table_name, con=engine, if_exists='replace', index=False)
    print(f"Données insérées avec succès dans la table '{table_name}'.")
    
    # Afficher le contenu de la table pour vérification (limite de 5 lignes)
    query = text(f"SELECT * FROM {table_name} LIMIT 3")
    result = pd.read_sql_query(query, engine)
    print(f"\nAperçu du contenu de la table '{table_name}' :")
    print(result)
    print()

Données insérées avec succès dans la table 'ventes'.

Aperçu du contenu de la table 'ventes' :
  product_id              date session_id client_id  quantity_sold
0     0_1483  10/04/2021 18:37    s_18746    c_4450              5
1      2_226  03/02/2022 01:55   s_159142     c_277              6
2      1_374  23/09/2021 15:13    s_94290    c_4270              3

Données insérées avec succès dans la table 'produits_sous_categorie'.

Aperçu du contenu de la table 'produits_sous_categorie' :
  product_id     category        sub_category  price  stock_quantity
0     0_1483    Vêtements            T-shirts   4,99              48
1      2_226      Montres  Montres connectées  65,75              63
2      1_374  Accessoires         Sacs à main  10,71              97

Données insérées avec succès dans la table 'clients'.

Aperçu du contenu de la table 'clients' :
  client_id sex  birth
0    c_4450   f   1977
1     c_277   f   2000
2    c_4270   f   1979



In [10]:
conn.close()

### JSON VERS BDD SQL

In [11]:
engine = create_engine(f'mysql+pymysql://{user}:{password}@{host}/', echo=False)
conn = engine.connect()

conn.execute(text(f"CREATE DATABASE IF NOT EXISTS {dbname_json}"))
print(conn.execute(text("SHOW DATABASES")).fetchall())
conn.close()

engine = create_engine(f'mysql+pymysql://{user}:{password}@{host}/{dbname_json}', echo=False)
conn = engine.connect()

[('analyse_retour_clients',), ('brief_books',), ('friendsepisode',), ('information_schema',), ('mysql',), ('performance_schema',), ('sakila',), ('sys',), ('ventes_entreprise',), ('ventes_entreprise_csv',), ('ventes_entreprise_json',), ('world',)]


In [12]:
files_and_tables = [
    {'file': './data/data-json/produits_sous-categorie.json', 'table': 'produits_sous_categorie'},
    {'file': './data/data-json/ventes.json', 'table': 'ventes'},
    {'file': './data/data-json/clients.json', 'table': 'clients'}
]

for item in files_and_tables:
    with open(item['file'], 'r', encoding='utf-8') as file:
        data = json.load(file)
        
    df = pd.DataFrame(data)
        
    df.fillna('N/A', inplace=True)
        
    print(df.head())
 
    df.to_sql(item['table'], con=engine, if_exists='replace', index=False)

  product_id     category        sub_category  price stock_quantity
0     0_1483    Vêtements            T-shirts   4,99             48
1      2_226      Montres  Montres connectées  65,75             63
2      1_374  Accessoires         Sacs à main  10,71             97
3     0_2186    Vêtements            T-shirts    4,2             57
4     0_1351    Vêtements            T-shirts   8,99             59
  product_id              date session_id client_id quantity_sold
0     0_1483  10/04/2021 18:37    s_18746    c_4450             5
1      2_226  03/02/2022 01:55   s_159142     c_277             6
2      1_374  23/09/2021 15:13    s_94290    c_4270             3
3     0_2186  17/10/2021 03:27   s_105936    c_4597             8
4     0_1351  17/07/2021 20:34    s_63642    c_1242             2
  client_id sex birth
0    c_4450   f  1977
1     c_277   f  2000
2    c_4270   f  1979
3    c_4597   m  1963
4    c_1242   f  1980


In [13]:
tables = inspect(engine).get_table_names()

print("Liste des tables dans la base de données :")
for table in tables:
    print(table)

Liste des tables dans la base de données :
clients
produits
produits_sous_categorie
ventes


## Partie 2 : Importation de données vers une base de données NOSQL

In [14]:
import json
from pymongo import MongoClient

### Connexion à la base de données

In [15]:
uri = f"mongodb+srv://{user_mongodb}:{password_mongodb}@cluster0.nrhtm.mongodb.net"
print(uri)
client = MongoClient(uri)
print(client)

mongodb+srv://admin:Mohamedi1234@cluster0.nrhtm.mongodb.net
MongoClient(host=['cluster0-shard-00-02.nrhtm.mongodb.net:27017', 'cluster0-shard-00-00.nrhtm.mongodb.net:27017', 'cluster0-shard-00-01.nrhtm.mongodb.net:27017'], document_class=dict, tz_aware=False, connect=True, authsource='admin', replicaset='atlas-q7tpmw-shard-0', tls=True)


### Création de la base de données MongoDB

In [16]:
db = client['ventes_entreprise_json']

# Afficher la liste des collections dans la base de données
collections = db.list_collection_names()
print("Liste des collections dans la base de données 'ventes_entreprise_json' :")
for collection in collections:
    print(collection)

Liste des collections dans la base de données 'ventes_entreprise_json' :


### Insertion des données dans la db

In [17]:
files_and_collections = [
    {'file': './data/data-json/produits_sous-categorie.json', 'collection': 'produits_sous_categorie'},
    {'file': './data/data-json/ventes.json', 'collection': 'ventes'},
    {'file': './data/data-json/clients.json', 'collection': 'clients'}
]

def create_collection_and_insert_data(file_path, collection_name):
    try:
        if collection_name in db.list_collection_names():
            print(f"La collection '{collection_name}' existe déjà. Les données ne seront pas insérées.")
            return

        with open(file_path, 'r', encoding='utf-8') as file:
            data = json.load(file)
        
        collection = db[collection_name]
        
        print(f"Insertion de la collection '{collection_name}' dans la database.")
        if isinstance(data, list):
            collection.insert_many(data)
        else:
            collection.insert_one(data)

        print(f"Données insérées avec succès dans la collection '{collection_name}'.")
    
    except Exception as e:
        print(f"Erreur lors de l'importation du fichier {file_path} dans la collection '{collection_name}': {e}")


for item in files_and_collections:
    create_collection_and_insert_data(item['file'], item['collection'])

Insertion de la collection 'produits_sous_categorie' dans la database.
Données insérées avec succès dans la collection 'produits_sous_categorie'.
Insertion de la collection 'ventes' dans la database.
Données insérées avec succès dans la collection 'ventes'.
Insertion de la collection 'clients' dans la database.
Données insérées avec succès dans la collection 'clients'.


### Affichage des données

In [18]:
#files_and_collections = [
#    {'file': './data/data-json/produits_sous-categorie.json', 'collection': 'produits_sous_categorie'},
#    {'file': './data/data-json/ventes.json', 'collection': 'ventes'},
#    {'file': './data/data-json/clients.json', 'collection': 'clients'}
#]

for item in files_and_collections:
    collection_name = item['collection']
    collection = db[collection_name]
    
    print(f"\nLes trois premiers documents de la collection '{collection_name}':")
    for doc in collection.find().limit(3):
        print(doc)


Les trois premiers documents de la collection 'produits_sous_categorie':
{'_id': ObjectId('671b5390f28c430437eecb23'), 'product_id': '0_1483', 'category': 'Vêtements', 'sub_category': 'T-shirts', 'price': '4,99', 'stock_quantity': '48'}
{'_id': ObjectId('671b5390f28c430437eecb24'), 'product_id': '2_226', 'category': 'Montres', 'sub_category': 'Montres connectées', 'price': '65,75', 'stock_quantity': '63'}
{'_id': ObjectId('671b5390f28c430437eecb25'), 'product_id': '1_374', 'category': 'Accessoires', 'sub_category': 'Sacs à main', 'price': '10,71', 'stock_quantity': '97'}

Les trois premiers documents de la collection 'ventes':
{'_id': ObjectId('671b53e2f28c430437f3ed8b'), 'product_id': '0_1483', 'date': '10/04/2021 18:37', 'session_id': 's_18746', 'client_id': 'c_4450', 'quantity_sold': '5'}
{'_id': ObjectId('671b53e2f28c430437f3ed8c'), 'product_id': '2_226', 'date': '03/02/2022 01:55', 'session_id': 's_159142', 'client_id': 'c_277', 'quantity_sold': '6'}
{'_id': ObjectId('671b53e2f28

In [19]:
conn.close()

## Partie 3 : Requêter base de données SQL et NOSQL

### MySQL

In [20]:
engine = create_engine(f'mysql+pymysql://{user}:{password}@{host}/{dbname_csv}', echo=False)
conn = engine.connect()
print(conn.execute(text("SHOW TABLES")).fetchall())

[('clients',), ('produits_sous_categorie',), ('ventes',)]


#### Requête 1 : TOP 5 des catégories vendues

In [21]:
query = """
SELECT ps.category AS categorie, 
       SUM(v.quantity_sold) AS total_ventes
FROM ventes v
JOIN produits_sous_categorie ps ON v.product_id = ps.product_id
GROUP BY ps.category
ORDER BY total_ventes DESC
LIMIT 5;
"""
df_top_five_categories = pd.read_sql_query(text(query), engine)
df_top_five_categories

Unnamed: 0,categorie,total_ventes
0,Vêtements,347248002.0
1,Accessoires,298312512.0
2,Montres,23118515.0


#### Requête 2 : Prix moyen pondéré par sous-catégorie

In [22]:
query = """
SELECT clients.sex AS sexe,
       SUM(ventes.quantity_sold) AS total_ventes
FROM ventes
JOIN clients ON ventes.client_id = clients.client_id
GROUP BY clients.sex
ORDER BY total_ventes DESC;
"""
df_sales_by_gender = pd.read_sql_query(text(query), engine)
df_sales_by_gender

Unnamed: 0,sexe,total_ventes
0,m,1061415000.0
1,f,168345400.0


#### Requête 3 : Répartition des ventes par sexe

In [23]:
query = """
SELECT YEAR(STR_TO_DATE(ventes.date, '%d/%m/%Y %H:%i')) AS annee,
       COUNT(*) AS nombre_ventes
FROM ventes 
GROUP BY annee
ORDER BY annee DESC;
"""
df_sales_by_year = pd.read_sql_query(text(query), engine)
df_sales_by_year

Unnamed: 0,annee,nombre_ventes
0,2022,58833
1,2021,277655


In [24]:
conn.close()

### MongoDB

In [25]:
uri = f"mongodb+srv://{user_mongodb}:{password_mongodb}@cluster0.nrhtm.mongodb.net/"
client = MongoClient(uri)

In [26]:
db = client['ventes_entreprise_json']

#### Requête 1 : TOP 10 des produits venudes

In [27]:
top_five_products = db.ventes.find({}, {"_id": 0, "product_id": 1, "quantity_sold": 1}).sort("quantity_sold", -1).limit(10)
df_top_five_products = pd.DataFrame(top_five_products)
print(df_top_five_products)

  product_id quantity_sold
0     0_2003             9
1     0_1082             9
2      0_416             9
3     0_1420             9
4      0_336             9


#### Requête 2 : Répartition des ventes par sexe

In [28]:
sales_with_gender = db.ventes.aggregate([
    {"$lookup": {
        "from": "clients",
        "localField": "client_id",
        "foreignField": "client_id",
        "as": "client_info"
    }},
    {"$unwind": "$client_info"},
    {"$project": {"client_id": 1, "quantity_sold": 1, "client_info.sex": 1}}
])

df_sales_with_gender = pd.DataFrame(list(sales_with_gender))
df_sales_by_gender = df_sales_with_gender.groupby("client_info.sex")["quantity_sold"].sum().reset_index()
print(df_sales_by_gender)

ExecutionTimeout: Executor error during getMore :: caused by :: operation exceeded time limit, full error: {'ok': 0.0, 'errmsg': 'Executor error during getMore :: caused by :: operation exceeded time limit', 'code': 50, 'codeName': 'MaxTimeMSExpired', '$clusterTime': {'clusterTime': Timestamp(1729845087, 11), 'signature': {'hash': b'\x80\xdbk\xc1\xe1&\xe6\xd6\x05\x7fq\x00\x96\x17\xe5\x98!0D\xf9', 'keyId': 7381924419515449348}}, 'operationTime': Timestamp(1729845087, 11)}