# 1. Objet

Ce notebook a pour objet de traiter les fichiers bruts mis en entrée dans le répertoire `data`. Il s'agit des fichiers : 
- d'historiques de vente
- de référentiel client

Etant donné la simplicité des traitements faits sur le référentiel client, ils sont fait directement dans ce fichier.

# 2. Setup et imports

In [1]:
from pathlib import Path
import sys
import datetime
import pandas as pd
idx = pd.IndexSlice
project_root = str(Path(sys.path[0]).parents[0].absolute())
project_root
if project_root not in sys.path:
    sys.path.append(project_root)
data_path = Path('..') / 'data'
persist_path = Path('..') / 'persist'
from IPython.display import display, HTML
display(HTML("<style>.container { width:90%; }</style>"))

Définition du client Dask

In [2]:
from dask.distributed import Client
import dask.dataframe as dd
client = Client() # n_workers=1, threads_per_worker=4, processes=False, memory_limit='2GB'
client

Perhaps you already have a cluster running?
Hosting the HTTP server on port 37215 instead


0,1
Client  Scheduler: tcp://127.0.0.1:37007  Dashboard: http://127.0.0.1:37215/status,Cluster  Workers: 4  Cores: 8  Memory: 33.56 GB


2. Définition de la liste des succursales

In [3]:
orgacom_list = [
    '1ALO',
    '1BFC',
    '1CAP',
    '1CTR',
    '1EXP',
    '1LRO',
    '1LXF',
    '1NCH',
    '1OUE',
    '1PAC',
    '1PNO',
    '1PSU',
    '1RAA',
    '1SOU',
    '2BRE',
    '2CAE',
    '2CTR',
    '2EST',
    '2IDF',
    '2IFC',
    '2MPY',
    '2NOR',
    '2RAA',
    '2SES',
    '2SOU',
]

# 3. Données pour contrôle

On récupère des données agrégées issues directement de la LISTCUBE dans PBI, afin de contrôler à la volée que l'extraction et le chargement des données à une maille fine se sont bien passés.

1. Définition des champs qui serviront à faire le contrôle

In [4]:
fields_to_compare = ['weight', 'brutrevenue', 'margin']

2. Définition des mois à contrôler

In [5]:
months = [
    '201707',
    '201708',
    '201709',
    '201710',
    '201711',
    '201712',
    '201801',
    '201802',
    '201803',
    '201804',
    '201805',
    '201806',
    '201807',
    '201808',
    '201809',
    '201810',
    '201811',
    '201812',
    '201901',
    '201902',
    '201903',
    '201904',
    '201905',
    '201906',
    '201907',
    '201908',
    '201909',
    '201910',
    '201911',
    '201912',
    '202001',
    '202002',
    '202003',
    '202004',
    '202005',
    '202006',
    '202007',
    '202008',
    '202009',
    '202010',
    '202011',
    '202012',
    '202101',
]

3. Chargement des données

In [6]:
ctrle = pd.read_csv(
    data_path / 'detrompeur_data.csv',
    encoding='latin1',
    sep=';',
    names=['orgacom', 'month', 'year', 'currency', 'weight_unit', 'weight_unit2', 'weight', 'weight2', 'brutrevenue', 'netrevenue', 'net2revenue', 'margin'],
    skiprows=[0],
    dtype={
        'orgacom': pd.CategoricalDtype(orgacom_list),
        'month': pd.CategoricalDtype(months),
        'year': 'object',
        'weight': 'float',
    },
    decimal=',',
    thousands=' ',
).loc[lambda x: x.month.isin(months)].set_index(['orgacom', 'month']).sort_index()
ctrle

Unnamed: 0_level_0,Unnamed: 1_level_0,year,currency,weight_unit,weight_unit2,weight,weight2,brutrevenue,netrevenue,net2revenue,margin
orgacom,month,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1ALO,201707,2017,EUR,KG,,3144714.984,0.0,10426960.20,10024879.18,9742979.65,1666902.18
1ALO,201708,2017,EUR,KG,,3329429.530,0.0,10984996.41,10579208.70,10294519.29,1817023.14
1ALO,201709,2017,EUR,KG,,4543058.400,0.0,14679332.61,14122353.46,13743135.09,2374842.11
1ALO,201710,2017,EUR,KG,,4406942.653,0.0,14542930.00,13948005.52,13567019.14,2298395.93
1ALO,201711,2017,EUR,KG,,4670216.793,0.0,15618497.28,15023089.41,14630158.70,2468127.12
...,...,...,...,...,...,...,...,...,...,...,...
2SOU,202009,2020,EUR,KG,,2019045.566,0.0,3888583.36,3694176.69,3558897.59,817271.63
2SOU,202010,2020,EUR,KG,,1729008.134,0.0,3352393.38,3187072.99,3065034.48,697716.19
2SOU,202011,2020,EUR,KG,,1552341.359,0.0,2850131.34,2705915.02,2590223.99,523473.96
2SOU,202012,2020,EUR,KG,,1508480.846,0.0,2728676.03,2594373.68,2484134.90,487176.95


# 4. Historiques de vente


Constitution d'un DataFrame par Succursale

Dans cette partie, on va constituer un DataFrame par succursale qu'on va persister sur le disque.

1. Définition du format du csv

In [7]:
init_fields = {'orgacom': pd.CategoricalDtype(orgacom_list),
          'month': pd.CategoricalDtype(months),
          'week': 'category',
          'date': 'object',
          'pricetype_init': 'object',
          'pricetype_applied': 'object',
          'mercu_init': 'object', 
          'mercu_applied': 'object',
          'client': 'object',
          'doctype': 'object',
          'origin': pd.CategoricalDtype(['TV', 'VR', 'EDI', 'WEB', '#', 'SCHR', 'TELE',
                                         'MUEN', 'FRN', 'DFUE'], ordered=True),
          'salesgroup': 'object',
          'material': 'object',
          'brutrevenue': 'float',
          'brutrevcur': 'object', 
          'netrevenue': 'float', 
          'netrevcur': 'object',
          'weight': 'float',
          'weightunit': 'object',
          'margin': 'float', 
          'margincur': 'object', 
          'marginperkg': 'float',
         }

2. Paramètres pour l'interprétation du csv

In [8]:
read_csv_kwargs = dict(
    sep=";",
    header=None,
    names=list(init_fields.keys()),      
    dtype=init_fields, 
    parse_dates=['date'],    
)

3. Définition des fichiers bruts

Ces fichiers doivent être dans le répertoire `data`.

In [9]:
raw_data_filenames = [
    'export_total.csv',  # premier export, qui a foiré sur l'année 2020 en gros
    'export_complementaire.csv',  # première moitié de 2020 - interrompu ensuite
    'export_complementaire_3.csv',  # export de la seconde moitié de 2020
    'export_total_16_17_dec_2019.csv',  # 16 et 17 décembre 2019, qui manquaient
    'export_total_29-01_09_2020.csv',
    'export_total_22-24_09_2020.csv',
    'export_total_22_08_2020.csv',
    'export_total_14-17_09_2020.csv',
    'export_total_10-13_09_2020.csv',
    'export_total_06-09_09_2020.csv',
    'export_total_02-05_09_2020.csv',    
#     'EXTRACT_LIGNES_VENTES_V3.csv',  # NE PAS PRENDRE ! Juste pour vérifier que mon outil de contrôle identifiait bien les écarts liés à l'absence de soum (spoiler alert: c'est bon!)
]
raw_data_paths = [data_path / filename for filename in raw_data_filenames]

4. Lecture des csv, et enregistrement sur le disque

In [None]:
ddf = dd.read_csv(
    raw_data_paths,
    **read_csv_kwargs,
)
ddf.to_parquet(persist_path / 'raw_data.parquet')

5. Contrôle de la conformité des données

In [None]:
grouped = ddf.loc[:, ['orgacom', 'month', *fields_to_compare]].groupby(['orgacom', 'month']).sum().compute()
grouped

In [None]:
delta = (
    grouped
    .merge(
        ctrle.loc[:, fields_to_compare],
        suffixes=(None, '_ctrle'),
        left_index=True,
        right_index=True,
        indicator=False,
        how='outer'
    )
    .fillna(0)
    .assign(
        **{indicator + '_delta': lambda x, i=indicator: (x[i] - x[i + '_ctrle']) / (x[i + '_ctrle'])
           for indicator in fields_to_compare
          }
    )
    .drop([*[indicator for indicator in fields_to_compare], *[indicator + '_ctrle' for indicator in fields_to_compare]], axis=1)
    .unstack('orgacom')
    .swaplevel(axis=1)
    .sort_index(axis=1)
)
with pd.option_context('display.max_columns', None, 'display.float_format', lambda x: f'{x:.2%}'):
    display(delta.style.bar(align='mid', axis=None))

In [None]:
delta.to_pickle(persist_path / 'current_delta.pkl')

6. Itération - ANCIENNE VERSION, PLUS NECESSAIRE.

In [None]:
# delta_list = []

# for cpt0, orgacom in enumerate(orgacom_list):
#     print(f'---------------------------------------------------')
#     print(f'--------       Succursale {orgacom} - {cpt0 + 1}/{len(orgacom_list)}       --------')
#     print(f'---------------------------------------------------\n')
#     df_list = []
#     for cpt, raw_data_filename in enumerate(raw_data_filenames):
#         print(f'Traitement du fichier {cpt + 1}/{len(raw_data_filenames)} - {raw_data_filename}')
#         print(f'          --------------------           ')
#         iterator = pd.read_csv(data_path / raw_data_filename, **iterator_kwargs)
#         print(f"{datetime.datetime.now()} - Début de l'itération")
#         for cpt2, content in enumerate(iterator):
#             print(f'{datetime.datetime.now()} - Run {cpt2 + 1}')
#             df_list.append(content.loc[lambda x: x.orgacom == orgacom])
#     print(f'{datetime.datetime.now()} - Fin du traitement des fichiers pour la succursale {orgacom} !')
#     print(f'          --------------------           ')    
#     print(f'{datetime.datetime.now()} - Concaténation pour la succursale {orgacom}')
#     oc_df = pd.concat(df_list, axis=0)
#     oc_df = oc_df.reset_index(drop=True)

#     print(f'{datetime.datetime.now()} - Enregistrement sur disque pour la succursale {orgacom}\n')
#     filename = f'data_{orgacom}.pkl'    
#     oc_df.to_pickle(persist_path / 'rawbyoc' / filename)
    
#     print(f'{datetime.datetime.now()} - Contrôle de la conformité des données pour la succursale {orgacom}')
#     reference = ctrle.loc[idx[orgacom, months], fields_to_compare]
#     to_check = oc_df.groupby(['orgacom', 'month'], observed=True)[fields_to_compare].sum()
#     aligned = reference.align(to_check, fill_value=0.)
#     delta_list.append((aligned[0] - aligned[1]) / aligned[0])

#     del(oc_df)

# print('Traitement terminé !')
    
# delta = pd.concat(delta_list).unstack('orgacom').swaplevel(axis=1).sort_index(axis=1)
# del(delta_list)
# with pd.option_context('display.float_format', lambda x: f'{x:.2%}', 'display.max_columns', None):
#     display(delta)
# delta.to_pickle(persist_path / 'current_delta.pkl')


# 4. Référentiel client

1. Définition des entêtes des fichiers à intégrer

In [None]:
field_names = [
    'client',
    'V',
    'groupecompte',
    'nom',
    'postalcode',
    'seg1',
    'seg2',
    'seg3',
    'seg4',
    'cat',
    'sscat',
    'saiso',
    'surcat',
    'ecom',
    'sectact',
    'canal',
    'orgacom',
    'grpclt1',
    'grpclt2',
    'grpclt3',
    'grpclt4',
    'grpclt5',
    'agence',
    'condexp',
    'pricetype',
    'relationtype',
    'pilcom',
    'hier4',
    'hier3',
    'hier2',
    'hier1',
    'adrnr',
    'city',
    'SIRET',
    'hier4_l',
    'SIREN',
    'street',
    'V2',
    'hier3_l',
    'hier2_l',
    'hier1_l',
    'mandant_deletion_indicator',
    'sales_org_deletion_indicator',    
]

2. Définition des formats initiaux (i.e. l'interprétation "brute" du fichier)

In [None]:
initial_dtypes = {
    'client': 'object',
    'V': 'object',
    'groupecompte': 'object',
    'nom': 'object',
    'postalcode': 'object',
    'seg1': 'object',
    'seg2': 'object',
    'seg3': 'object',
    'seg4': 'object',
    'cat': 'object',
    'sscat': 'object',
    #'saiso': 'bool', # défini dans le converter du read_csv
    'surcat': 'object',
    #'ecom': 'bool', # défini dans le converter du read_csv
    'sectact': 'object',
    'canal': 'object', 
    'orgacom': 'object', 
    'grpclt1': 'object',
    'grpclt2': 'object',
    'grpclt3': 'object',
    'grpclt4': 'object',
    'grpclt5': 'object',
    'agence': 'object', 
    'condexp': 'object', 
    'pricetype': 'object', 
    'relationtype': 'object',
    'pilcom': 'object',
    'hier4': 'object',
    'hier3': 'object',
    'hier2': 'object',
    'hier1': 'object',
    'adrnr': 'object',
    'city': 'object',
    'SIRET': 'object',
    'hier4_l': 'object',
    'SIREN': 'object',
    'street': 'object',
    'V2': 'object',
    'hier3_l': 'object',
    'hier2_l': 'object',
    'hier1_l': 'object',
#     'mandant_deletion_indicator': 'bool',  # défini dans le converter du read_csv
#     'sales_org_deletion_indicator': 'bool',  # défini dans le converter du read_csv 
}

3. Définition des formats "cibles" du DataFrame. On fait en 2 temps pour la gestion des données `Categorical` (on concatène d'abord les dataframes pour que la converions en `Categorical` "voie" l'ensemble des valeurs).

In [None]:
target_dtypes = {
    'client': 'object',
    'V': 'category',
    'groupecompte': 'category',
    'nom': 'object',
    'postalcode': 'category',
    'seg1': 'category',
    'seg2': 'category',
    'seg3': 'category',
    'seg4': 'category',
    'cat': 'category',
    'sscat': 'category',
    #              'saiso': 'bool',
    'surcat': 'category',
    #              'ecom': 'bool', 
    'sectact': 'category',
    'canal': 'category', 
    'orgacom': 'category', 
    'grpclt1': 'category',
    'grpclt2': 'category',
    'grpclt3': 'category',
    'grpclt4': 'category',
    'grpclt5': 'category',
    'agence': 'category', 
    'condexp': 'category', 
    'pricetype': 'category', 
    'relationtype': 'category',
    'pilcom': 'category',
    'hier4': 'object',
    'hier3': 'object',
    'hier2': 'object',
    'hier1': 'object',
    'adrnr': 'object',
    'city': 'object',
    'SIRET': 'object',
    'hier4_l': 'object',
    'SIREN': 'object',
    'street': 'object',
    'V2': 'object',
    'hier3_l': 'object',
    'hier2_l': 'object',
    'hier1_l': 'object',
#     'mandant_deletion_indicator': 'bool',  # défini dans le converter du read_csv
#     'sales_org_deletion_indicator': 'bool',  # défini dans le converter du read_csv     
            }

4. Définition des arguments du read_csv

In [None]:
csv_kwargs = dict(
    sep=';',
    encoding='latin1',
    skiprows=[0], # skip header row
    names=field_names,
    dtype=initial_dtypes,
    converters={
        'saiso': lambda x: True if x == 'YES' else False, 
        'ecom': lambda x: True if x == 'X' else False,
        'mandant_deletion_indicator': lambda x: True if x == 'X' else False,
        'sales_org_deletion_indicator': lambda x: True if x == 'X' else False,
    },
)

5. Lecture, concaténation des dataframes, et définition des catégories

In [None]:
filenames = [
    'ref_clt_1PPF.csv',
    'ref_clt_2PES.csv',
]
df_list = [
    pd.read_csv(
        data_path / 'clt' / filename,
        **csv_kwargs,
    ) for filename in filenames
]
df_clt = pd.concat(df_list, axis=0)
df_clt = df_clt.astype(target_dtypes)

6. Nettoyages divers

In [None]:
# remove emppty client codes
df_clt = df_clt.loc[~df_clt.client.isna()]

# zero pad numeric clients codes
num_clt_mask = df_clt['client'].str.isnumeric()
df_clt.loc[num_clt_mask, 'client'] = df_clt.loc[num_clt_mask, 'client'].str.zfill(10)

#remove duplicated clients
print(f'Clients count before cleansing : {df_clt.client.count()}')
print(f"Duplicated clients before cleansing: {sum(df_clt.loc[:, ['client', 'orgacom']].duplicated(keep=False))}")
df_clt = df_clt.loc[~(df_clt.loc[:, ['client', 'orgacom']].duplicated(keep=False) & df_clt.sectact.isna())]
print(f"Clients count after cleansing : {df_clt.client.count()}")
print(f"Duplicated clients after cleansing: {sum(df_clt.loc[:, ['client', 'orgacom']].duplicated(keep=False))}")

# set the index
df_clt.set_index(['orgacom', 'client'], inplace=True, drop=True)

In [None]:
if sum(df_clt.index.duplicated()):
    raise RuntimeError('Something went wrong on the client dataframe! Some indices are duplicated!')

7. Persistage sur le disque

In [None]:
df_clt.to_pickle(persist_path / 'clt.pkl')