Fonction pour charger la base de donnée à partir d'un fichier csv

In [21]:
import pandas as pd
from datetime import datetime
from collections import defaultdict

fichier = './csv/reporting_web_session_gmv.csv'
## chargement de la db
def load_file(f):
    try: 
        df_load = pd.read_csv(f, sep=';')
        if (df_load.empty):
            print("le fichier est vide\n")
            return
        else:
            print("le fichier est bien chargé\n")
            return df_load
    except FileNotFoundError:
        print("erreur lors du chargement du fichier\n")
        return

Resultat :
le fichier est bien chargé

Fonction pour verifier la complétude de chacune des colonnes 
la fonction affiche un pourcentage de complétude pour chaque colonne.

In [22]:
## Complétude des données (par colonne)
def completness(df): 
    for column in df.columns:
        N_case = len(df[column])
        N_case_empty = df[column].isnull().sum()
        percent_completeness = (1 - (N_case_empty / N_case)) * 100
        print(f"Le pourcentage de complétude pour la colonne '{column}' vaut {percent_completeness:.2f}%")

Le pourcentage de complétude pour la colonne 'date_day' vaut 100.00%
Le pourcentage de complétude pour la colonne 'current_num_week_WW_format' vaut 100.00%
Le pourcentage de complétude pour la colonne 'country_code' vaut 100.00%
Le pourcentage de complétude pour la colonne 'country_name' vaut 100.00%
Le pourcentage de complétude pour la colonne 'region_name' vaut 100.00%
Le pourcentage de complétude pour la colonne 'platform' vaut 100.00%
Le pourcentage de complétude pour la colonne 'number_of_sessions' vaut 44.83%
Le pourcentage de complétude pour la colonne 'number_of_session_with_product_purchased' vaut 44.83%
Le pourcentage de complétude pour la colonne 'number_of_transaction_sales' vaut 59.30%
Le pourcentage de complétude pour la colonne 'number_of_order_sales' vaut 59.30%
Le pourcentage de complétude pour la colonne 'total_quantity_gmv' vaut 59.30%
Le pourcentage de complétude pour la colonne 'sale_amount_gmv_in_euros' vaut 59.30%
Le pourcentage de complétude pour la colonne 'cancel_amount_gmv_in_euros' vaut 59.30%
Le pourcentage de complétude pour la colonne 'return_amount_gmv_in_euros' vaut 59.30%
Le pourcentage de complétude pour la colonne 'net_amount_gmv_in_euros' vaut 59.30%
Le pourcentage de complétude pour la colonne 'consent_total_quantity_gmv' vaut 59.30%
Le pourcentage de complétude pour la colonne 'consent_number_of_transaction_sales' vaut 59.30%
Le pourcentage de complétude pour la colonne 'consent_number_of_order_sales' vaut 59.30%
Le pourcentage de complétude pour la colonne 'consent_sale_amount_gmv_in_euros' vaut 59.30%
Le pourcentage de complétude pour la colonne 'consent_cancel_amount_gmv_in_euros' vaut 59.30%
Le pourcentage de complétude pour la colonne 'consent_return_amount_gmv_in_euros' vaut 59.30%
Le pourcentage de complétude pour la colonne 'consent_net_amount_gmv_in_euros' vaut 59.30%
Le pourcentage de complétude pour la colonne 'created_at' vaut 100.00%
Le pourcentage de complétude pour la colonne 'updated_at' vaut 100.00%

Fonction pour vérifier l'unicité des données dans la table
la fonction affiche le pourcentage de doublon

In [23]:
def unicity(df):
    N_doublon = df.duplicated().sum()
    N_lignes = len(df)
    percent_doublon = (N_doublon / N_lignes) * 100
    
    print(f"Le pourcentage de doublon pour la table vaut {percent_doublon:.2f}%")

Resultat :
Le pourcentage de doublon pour la table vaut 0.00%

Fonction pour vérifier si il y a bien le jour inscrit dans chacune des lignes de la table
la fonction affiche s'il manque des jours dans la colonne ou non et retourne Vrai ou Faux

In [24]:
def check_value(value):
    unique_dates = set()
    try:
        date = datetime.strptime(value, "%d/%m/%Y")
        unique_dates.add(date.strftime("%d/%m/%Y"))
    except ValueError:
        print("Date invalide")

    return unique_dates



def timeliness(df):
    dates_by_month = defaultdict(set)
    for value in df["date_day"]:
        valid_dates = check_value(value)
        for date in valid_dates:
            date = datetime.strptime(date, "%d/%m/%Y")
            dates_by_month[(date.year, date.month)].add(date.day)

    for (year, month), days in sorted(dates_by_month.items()):
        N_days = 31
        if (month in [4,6,9,11]):
            N_days = 30
        elif (month == 2):
            N_days = 28
        percent = (len(days) / N_days) * 100
        print(N_days, (year,month), days)
        print(f"le pourcentage de jour où les données ont été inscrites en {month, year} vaut {percent}")

Resultat :
31 (2023, 1) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (1, 2023) vaut 100.0%
28 (2023, 2) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28}
le pourcentage de jour où les données ont été inscrites en (2, 2023) vaut 100.0%
31 (2023, 3) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (3, 2023) vaut 100.0%
30 (2023, 4) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30}
le pourcentage de jour où les données ont été inscrites en (4, 2023) vaut 100.0%
31 (2023, 5) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (5, 2023) vaut 100.0%
30 (2023, 6) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30}
le pourcentage de jour où les données ont été inscrites en (6, 2023) vaut 100.0%
31 (2023, 7) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (7, 2023) vaut 100.0%
31 (2023, 8) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (8, 2023) vaut 100.0%
30 (2023, 9) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30}
le pourcentage de jour où les données ont été inscrites en (9, 2023) vaut 100.0%
31 (2023, 10) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (10, 2023) vaut 100.0%
30 (2023, 11) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30}
le pourcentage de jour où les données ont été inscrites en (11, 2023) vaut 100.0%
31 (2023, 12) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (12, 2023) vaut 100.0%
31 (2024, 1) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (1, 2024) vaut 100.0%
28 (2024, 2) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29}
le pourcentage de jour où les données ont été inscrites en (2, 2024) vaut 103.57142857142858%
31 (2024, 3) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (3, 2024) vaut 100.0%
30 (2024, 4) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30}
le pourcentage de jour où les données ont été inscrites en (4, 2024) vaut 100.0%
31 (2024, 5) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (5, 2024) vaut 100.0%
30 (2024, 6) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30}
le pourcentage de jour où les données ont été inscrites en (6, 2024) vaut 100.0%
31 (2024, 7) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (7, 2024) vaut 100.0%
31 (2024, 8) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (8, 2024) vaut 100.0%
30 (2024, 9) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30}
le pourcentage de jour où les données ont été inscrites en (9, 2024) vaut 100.0%
31 (2024, 10) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (10, 2024) vaut 100.0%
30 (2024, 11) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30}
le pourcentage de jour où les données ont été inscrites en (11, 2024) vaut 100.0%
31 (2024, 12) {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31}
le pourcentage de jour où les données ont été inscrites en (12, 2024) vaut 100.0%
31 (2025, 1) {1, 2, 3, 4, 5, 6}
le pourcentage de jour où les données ont été inscrites en (1, 2025) vaut 19.35483870967742%


In [None]:
def result():
    df = load_file(fichier)
    completeness_per_country_r = completeness(df)
    uniqueness_per_country_r = uniqueness(df)
    timeliness_per_country_r = timeliness(df)
    results_data = []
    for key, values in completeness_per_country_r.items():
        results_data.append({
            "nom_de_la_table": "reporting",
            "result_type": "completeness",
            "percentage": values["completeness_percentage"],
            "commentaire": "Taux de complétude des données"
        })
        results_data.append({
            "nom_de_la_table": "reporting",
            "result_type": "uniqueness",
            "percentage": uniqueness_per_country_r,
            "commentaire": "Taux d'unicité des données"
        })
    # Ajouter les résultats de timeliness
    for key, values in timeliness_per_country_r.items():
        print(values)
        results_data.append({
            "nom_de_la_table": "reporting",
            "result_type": "timeliness",
            "percentage": values["timeliness_percentage"],
            "commentaire": "Taux de ponctualité des données"
        })

    results_df = pd.DataFrame(results_data)

        # Exporter vers un fichier Excel
    results_df.to_excel("resultats_tot.xlsx", index=False)

    print("Fichier Excel créé : resultats_par_pays.xlsx")

Fonction utilitaire pour manipuler les fonctions grâce à un menu
il suffit de rentrer les valeurs (1, 2 ou 3)

In [25]:
def menu():
    df = load_file(fichier)
    switch = {
        1: lambda: completness(df),
        2: lambda: unicity(df),
        3: lambda: timeliness(df),
    }
    try:
        choix = int(input("complétude tapez 1,\n unicité tapez 2,\n timeliness tapez 3\n"))
    except ValueError:
        print("erreur lors de la saisie du nombre")
        return
    action = switch.get(choix, lambda: print("Option invalide."))
    action() 

menu()

le fichier est bien chargé

toutes les cases de dat_day ont été remplies
