Dans ce projet, nous voudrions analyser quelques KPIs indiquant la santé d’un fabricant de produits de consomma-
tion publique sur le marché le concernant. Notre jeu de données vient d’un API distant installé sur le port 1353 à
l’adresse http://******/, et servant uniquement deux routes: logProduits et logAccordsVente.
La structure des valeurs retournées par ces routes sont des informations datées concernant les identifiants du
produit:
• enregistrement d’un produit .../logProduits/<int:logID>/ retourne cinq valeurs qui sont, respec-
tivement: logID le numéro d’identification unique de la ligne de log; prodID le numéro d’identification
du produit concerné; catID le numéro d’identification de la catégorie du produit concerné; fabID le
numéro d’identification du fabricant du produit concerné; et dateID le numéro d’identification de la date
d’enregistrement de la ligne de log.
• enregistrement d’un accord de vente .../logAccordsVente/<int:logID>/ retourne six valeurs qui sont,
respectivement: logID le numéro d’identification unique de la ligne de log; prodID le numéro d’identification
du produit concerné; catID le numéro d’identification de la catégorie du produit concerné; fabID le numéro
d’identification du fabricant du produit concerné; magID le numéro d’identification du magasin avec qui le
fabricant du produit a passé un accord de vente concernant ce produit; et dateID le numéro d’identification
de la date d’enregistrement de la ligne de log.

## L’énoncé du projet
Il s’agit de construire un tableau de bord (dashbord) contenant des indicateurs de performance (Key Performance
Indicators) en relation avec les indices de leadership du marché d’un fabricant, classés par catégorie de produits
qu’il fabrique. Ces indicateurs sont à étudier depuis le 1er Janvier 2022 et a pour durée un an environ.
L’objectif principal de ce tableau de bord est, prenant en argument un identifiant de fabricant fabID, afficher
l’ensemble des scores de santé de ses produits, classé par toutes les catégories dans lesquelles ce fabricant est
acteur sur le marché. En particulier, ce tableau de bord doit répondre aux questions suivantes:

#### Question 1.1 (nombre de concurrents). Pour la catégorie d’identifiant 5, combien y a t il d’acteurs sur le marché ayant un produit de cette catégorie?

In [21]:
import sqlite3

con = sqlite3.connect("./db/analytics.db")
cur = con.cursor()
# logId, dateId, prodId, catId, fabId
cur.execute('''
    CREATE TABLE IF NOT EXISTS products (
        logID INTEGER PRIMARY KEY AUTOINCREMENT,
        dateID INTEGER,
        prodID INTEGER,
        catID INTEGER,
        fabID INTEGER
    )
''')
con.commit()

# logId, dateId, prodId, catId, fabId, magId

cur.execute('''
    CREATE TABLE IF NOT EXISTS categories (
        logID INTEGER PRIMARY KEY AUTOINCREMENT,
        dateID INTEGER,
        prodID INTEGER,
        catID INTEGER,
        fabID INTEGER,
        magID INTEGER
    )            
''')
con.commit()

cur.execute("SELECT COUNT(*) FROM products")
count = cur.fetchone()[0]

if count == 0:
    print("Database is empty")

    with open('../data/pointsDeVente-tous', 'r') as data_file:
        for line in data_file:
            parts = line.strip().split()
            if len(parts) == 4:
                dateID, prodID, catID, fabID = map(int, parts)
                cur.execute("INSERT INTO products (dateID, prodID, catID, fabID) VALUES (?, ?, ?, ?)",
                            (dateID, prodID, catID, fabID))
                con.commit()

cur.execute("SELECT COUNT(*) FROM categories")
count = cur.fetchone()[0]

if count == 0:
    print("Database is empty")

    with open('../data/pointsDeVente-tous', 'r') as data_file:
        for line in data_file:
            parts = line.strip().split()
            if len(parts) == 5:
                dateID, prodID, catID, fabID, magID = map(int, parts)
                cur.execute("INSERT INTO categories (dateID, prodID, catID, fabID, magID) VALUES (?, ?, ?, ?, ?)",
                            (dateID, prodID, catID, fabID, magID))
                con.commit()

con.close()
print("Done")


Done


In [23]:
import sqlite3
import datetime
con = sqlite3.connect("./db/analytics.db")
cur = con.cursor()
catId = 5


#### Question 1.1 (nombre de concurrents). Pour la catégorie d’identifiant 5, combien y a t il d’acteurs sur le marché ayant un produit de cette catégorie?

In [5]:
reuslt = cur.execute("SELECT * FROM products WHERE catID = ? GROUP BY fabId  ORDER BY fabId", (catId,)).fetchall()
total = len (reuslt)
print ('Total acotrs ', total)

Total acotrs  809


#### Pour la catégorie d’identifiant 5, quel est en moyenne le nombre de produits qu’un fabricant offre sur le marché?

In [30]:
reuslt = cur.execute("SELECT fabId, COUNT(*) FROM products WHERE catID = ? GROUP BY fabId  ORDER BY fabId", (catId,)).fetchall()
print ('Total acotrs ', reuslt)
print ('Average products ', sum([x[1] for x in reuslt]) / len(reuslt))

Total acotrs  [(1, 2), (2, 4), (3, 2), (4, 2), (5, 1), (8, 1), (11, 2), (12, 1), (13, 1), (14, 2), (15, 3), (18, 1), (19, 3), (21, 1), (22, 1), (23, 2), (25, 1), (26, 1), (28, 2), (29, 3), (30, 1), (31, 3), (32, 2), (34, 4), (35, 1), (36, 2), (38, 1), (39, 2), (41, 3), (42, 1), (43, 1), (44, 1), (45, 1), (47, 2), (48, 1), (50, 2), (51, 1), (52, 2), (53, 2), (54, 1), (55, 3), (56, 1), (57, 3), (58, 2), (59, 2), (60, 1), (61, 1), (62, 1), (64, 3), (65, 2), (66, 4), (67, 1), (68, 3), (69, 1), (70, 1), (73, 3), (75, 2), (76, 2), (77, 1), (78, 1), (79, 3), (81, 2), (82, 1), (83, 1), (85, 1), (87, 3), (88, 2), (89, 1), (90, 1), (92, 1), (93, 2), (94, 1), (96, 1), (97, 5), (98, 1), (99, 1), (101, 1), (102, 2), (104, 2), (105, 3), (106, 1), (107, 2), (108, 2), (111, 1), (113, 1), (114, 4), (115, 2), (116, 3), (117, 2), (122, 2), (123, 1), (124, 3), (125, 2), (126, 2), (128, 2), (129, 1), (131, 2), (132, 1), (133, 1), (134, 1), (135, 2), (136, 1), (138, 1), (140, 1), (141, 1), (142, 2), (144, 1

#### Quels sont le top 10 des magasins parmi les magID enregistrés dans la base? N.B.: il faut définir formellement la notion d’être dans le top 10.

In [15]:
reuslt = cur.execute("SELECT magID, COUNT(*) FROM categories GROUP BY magID ORDER BY COUNT(*) DESC LIMIT 10").fetchall()
print ('Top 10 magasins ', reuslt)


Top 10 magasins  [(61, 437), (65, 436), (69, 425), (68, 418), (60, 414), (67, 411), (63, 406), (51, 406), (66, 405), (64, 405)]



#### Pour le fabricant d’identifiant 1664, et parmi le top 10 des magasins vendant les produits de la catégorie d’identifiant 5, quel est en moyenne la part du nombre de produits qu’offre le fabricant 1664 dans l’ensemble des produits de catégorie 5 en vente dans ces magasins?


In [16]:
shops = reuslt # add 1664

reuslt = cur.execute("SELECT magID, COUNT(*) FROM categories WHERE fabID = 1664 GROUP BY magID ORDER BY COUNT(*) DESC LIMIT 10").fetchall()
shops.extend(reuslt)
print ('Top 10 magasins and 1664 ', shops)

print ('Average of the top 10 shops and 1664 ', sum([x[1] for x in shops]) / len(shops))

Top 10 magasins and 1664  [(61, 437), (65, 436), (69, 425), (68, 418), (60, 414), (67, 411), (63, 406), (51, 406), (66, 405), (64, 405)]
Average of the top 10 shops and 1664  416.3


#### Pour la catégorie d’identifiant 5, combien y a-t-il d’acteurs sur le marché ayant un produit de cette catégorie en Janvier, en Février, et en Mars?

In [17]:
catId = 5
start_date = 20220101
end_date = 20220331

result = cur.execute("SELECT DISTINCT fabID FROM products WHERE catID = ? AND dateID BETWEEN ? AND ?",
                     (catId, start_date, end_date)).fetchall()

total = len(result)
print('Total actors in January, February, and March:', total)


Total actors in January, February, and March: 809


#### Idem avec des valeurs prises pendant les soldes d’hiver (Janvier).

In [18]:
start_date = 20220101
end_date = 20220131

result = cur.execute("SELECT DISTINCT fabID FROM products WHERE catID = ? AND dateID BETWEEN ? AND ?",
                     (catId, start_date, end_date)).fetchall()

total = len(result)
print('Total actors in January:', total)

Total actors in January: 801



#### Idem avec des valeurs prises pendant les soldes d’hiver (Janvier) et celles d’été (Juillet).

In [19]:
start_date_winter = 20220101
end_date_winter = 20220131
start_date_summer = 20220701
end_date_summer = 20220731

result_winter = cur.execute("SELECT DISTINCT fabID FROM products WHERE catID = ? AND dateID BETWEEN ? AND ?",
                            (catId, start_date_winter, end_date_winter)).fetchall()

result_summer = cur.execute("SELECT DISTINCT fabID FROM products WHERE catID = ? AND dateID BETWEEN ? AND ?",
                            (catId, start_date_summer, end_date_summer)).fetchall()

total_winter = len(result_winter)
total_summer = len(result_summer)
print('Total actors in January and July (Winter and Summer sales combined):', total_winter + total_summer)

Total actors in January and July (Winter and Summer sales combined): 801



#### Idem pour la question 1.4., avec des valeurs prises une fois tous les mois du 1er Janvier 2022 jusqu’au jour du jour.
Define the start date as January 1, 2022

In [20]:
start_date = 20220101
current_date = int(datetime.datetime.now().strftime('%Y%m%d'))


distinct_fabids = []


current_month = int(datetime.datetime.now().strftime('%Y%m')) # https://stackoverflow.com/questions/32490629/getting-todays-date-in-yyyy-mm-dd-in-python
while start_date <= current_date:
    result = cur.execute("SELECT DISTINCT fabID FROM products WHERE catID = ? AND dateID BETWEEN ? AND ?",
                         (catId, start_date, start_date + 31)).fetchall()
    
    distinct_fabids.extend([fabid[0] for fabid in result])


    start_date = int((datetime.datetime.strptime(str(start_date), '%Y%m%d') + datetime.timedelta(days=32)).strftime('%Y%m%d'))

total_actors = len(set(distinct_fabids))

print('Total actors for each month from January 2022 until today:', total_actors)

Total actors for each month from January 2022 until today: 809
