In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import xgboost as xgb
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import ElasticNet
from sklearn.neighbors import KNeighborsRegressor
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import TimeSeriesSplit
from sklearn.model_selection import RepeatedKFold
from sklearn.metrics import mean_squared_error
from openpyxl import Workbook
import string
import shap
import random
import warnings
warnings.filterwarnings("ignore")
from scipy.stats import bernoulli
from tqdm import trange

## Importation des données et prétraitement

In [None]:
df = pd.read_parquet()#ECRIRE L'EMPLACEMENT DES DONNEES ICI
df.fillna(method ='pad',inplace = True)
df.drop(['location_index','customer_index'], inplace=True, axis=1)
min_max_scalers = [] #List of scalers for rescalling purposes
l_df=[]#list of the whole dataframe grouped per product
l_df_without_lags=[]#we remove lags
l_df_without_lags_scaled=[]#we remove lags and rescale
number=[]
products=pd.unique(df['product_index'])
#Décompositions en liste de DataFrames par produits
for index in range(len(products)):
    df_temp=df[df['product_index']==products[index]].sort_values(by="time_index")
    l_df.append(df_temp)
    number.append(df_temp.shape)
    #Selection des variables étudiées
    df_temp_without_lags=pd.DataFrame({
        'time_index' : df_temp['time_index'],
        'apparenttemperaturemax':df_temp['apparenttemperaturemax_minus_1'],
        'cos_iso_month':df_temp['cos_iso_month'],
        'cos_iso_week':df_temp['cos_iso_week'],
        'cos_iso_week_of_month':df_temp['cos_iso_week_of_month'],
        'days_before_next_holiday':df_temp['days_before_next_holiday'],
        'forecasted_volumes' :df_temp['forecasted_volumes'],
        'holiday_day_of_week':df_temp['holiday_day_of_week'],
        'holidays_count_in_week':df_temp['holidays_count_in_week'],
        'iso_month':df_temp['iso_month'],
        'iso_week':df_temp['iso_week'],
        'promo_mean_horizon_14':df_temp['promo_mean_horizon_14'],
        'iso_week_of_month':df_temp['iso_week_of_month'],
        'mat_net_weight_value_kg':df_temp['mat_net_weight_value_kg'],
        'ordered_volumes':df_temp['ordered_volumes'],
        'precipintensity':df_temp['precipintensity_minus_1'],
        'promo_uplift_coefficient':df_temp['promo_uplift_coefficient']
    })
    l_df_without_lags.append(df_temp_without_lags)
    df_temp_without_lags_rescaled=df_temp_without_lags.copy(deep=True)
    min_max_scaler = MinMaxScaler()
    min_max_scalers.append(min_max_scaler)
    df_temp_without_lags_rescaled[['forecasted_volumes','ordered_volumes','apparenttemperaturemax','precipintensity']]=min_max_scalers[-1].fit_transform(df_temp_without_lags[['forecasted_volumes','ordered_volumes','apparenttemperaturemax','precipintensity']])
    l_df_without_lags_scaled.append(df_temp_without_lags_rescaled)

#Index permettant de lier numéro d'un produit et ordre dans la liste
Product_index = {}
for i in range(len(l_df)):
    Product_index[str(l_df[i]['product_index'].values[0])] = i
#Selection d'un produit dans la liste
def indice_to_df(indice, scaled = True):
    if scaled:
        return l_df_without_lags_scaled[indice].set_index("time_index").drop(["forecasted_volumes", "mat_net_weight_value_kg"], axis=1)[:"20220201"]
    return l_df_without_lags[indice].set_index("time_index").drop(["forecasted_volumes", "mat_net_weight_value_kg"], axis=1)[:"20220201"]
# Convertit une liste de numréos de produits en une liste d'indices
def list_to_list(L):
    T = []
    for i in L:
        T.append(Product_index[str(i)])
    return T
#Division en train-test    
def train_test_split(Data, ratio_train_test = 0.8, n_test = None):
    if n_test == None:
        n_test = int(len(Data)*(1-ratio_train_test))
    if(n_test < len(Data)):
        return Data[:len(Data) - n_test], Data[len(Data) - n_test:]
    print('nombre de données test trop grand')
    return None, Data
#Permet d'introduire un décalage dans les données avec un nom approprié
def lagNom(S, n):
    nom = S.name
    l = []
    for i in range(n):
        t = S.shift(7*(i+1), 'D') 
        t.name = nom + str(-(i+1))
        l.append(t)
    return pd.concat(l, axis = 1)
#Fonction transformant une variable catégorielle en variables binaires
def toCat(S):
    nom = S.name
    S_u = pd.unique(S)
    l = []
    for value in S_u:
        t = (S == value).astype(int)
        t.name = nom + "=" + str(value)
        l.append(t)
    return pd.concat(l, axis=1)
#Fonction de préprocessing pour faire des prévisions de données à horizon 1
# Permet de transformer les données pourfaire de l'apprentissage supervisé
def preprocess_(Data, Out = 17, In = 0, Exo = True, Cat = True):
    # Introductions de lags sur la variable à prédire
    Y = Data.pop('ordered_volumes')
    if In > 0:
        Y_lag = lagNom(Y, In)
    # Transformation des variables catégorielles en variables binaires
    if Cat:
        C = [Data]
        C.append(toCat(Data.pop('iso_month')))
        C.append(toCat(Data.pop('iso_week')))
        C.append(toCat(Data.pop('iso_week_of_month')))
        Data = pd.concat(C, axis = 1)
    # Introductions de lags sur les variables exogènes
    if Exo:
        temp_lag = lagNom(Data['apparenttemperaturemax'], 3)
        precip_lag = lagNom(Data['precipintensity'], 1)
        promo_lag = lagNom(Data['promo_uplift_coefficient'], 4)
        promo_mean_lag = lagNom(Data['promo_mean_horizon_14'],1)
        Data = pd.concat([Y, Data, temp_lag, precip_lag, promo_lag, promo_mean_lag, Y_lag], axis = 1).dropna()
    else:
        Data = pd.concat([Y, Y_lag], axis = 1).dropna()
    
    return train_test_split(Data, n_test = Out)

def rmse(Y_pred, Y_test):
    return np.sqrt(mean_squared_error(Y_pred, Y_test))

# Fonction de prétraitement des données permettant un apprentissage sur l'ensemble des séries
# Renvoie les données nécessaires pour un apprentissage supervisé
# - La variable i_test indique la série utilisée pour le test
# - La variable Exo permet de choisir ou non d'inclure les variables exogènes
# - La variable Cat permet de transformer les variables catégorielles en variables binaires
# - La variable filtre permet de supprimer des variables inintéressantes
def preprocess_list(Indices, i_test, Exo = True, Cat = False, Index = False, Filtre = None):
    L_X, L_Y = [],[]
    condition = True
    for indice in Indices:
        if len(l_df_without_lags_scaled[indice])>200:
            train, test = preprocess_(indice_to_df(indice), Out = 14, In = 60, Exo = Exo, Cat = Cat)
            X_temp = train.iloc[:,1:].reset_index().drop(["time_index"], axis=1)
            if Index:
                  X_temp["product_index"] = l_df[indice]['product_index'].values[0]
            L_X.append(X_temp)
            L_Y.append(train.iloc[:,0].reset_index().drop(["time_index"], axis=1))
            if indice == i_test:
                condition = False
                X_test = test.iloc[:,1:]
                if Index:
                    X_test["product_index"] = l_df[indice]['product_index'].values[0]
                Y_test = test.iloc[:,0]
    X_train = pd.concat(L_X)
    if Index:
        C = [X_train]
        C.append(toCat(X_train.pop("product_index")))
        X_train = pd.concat(C, axis = 1)
    Y_train = pd.concat(L_Y)
    if Filtre != None:
        for c in Filtre:
            X_train.drop([c], axis=1)
            X_test.drop([c], axis=1)
    return X_train, Y_train, X_test, Y_test

def preprocess_test(i, Exo = True, Cat = False):
    train, test = preprocess_(indice_to_df(i), Out = 14, In = 60, Exo = Exo, Cat = Cat)
    return test.iloc[:,1:], test.iloc[:,0]

On notera que l'on travail avec des données normalisées, pour ne pas normaliser les données il faut modifier la condition $\textit{scaled}$ de la fonction indice_to_df.

## Modèles

In [None]:
def get_a_model(methode):
    if methode == "lin":
        model = ElasticNet(max_iter= 5000)
        cv = TimeSeriesSplit(n_splits=5)
        grid = {
            'alpha': np.logspace(-2,1,100),
            'l1_ratio': np.linspace(0.1, 1, 10)
        }
        return GridSearchCV(model, grid, scoring='neg_mean_absolute_error', cv=cv, n_jobs=-1)
    if methode =="xgb":
        estimator = xgb.XGBRegressor(colsample_bytree = 0.7)
        param_grid = {
            'max_depth': [3,4,5],
            'learning_rate': [0.01, 0.3, 0.1],
            'gamma': [0.2, 0.6, 1],
            'reg_lambda': [0, 0.1, 1, 10, 100]
        }
        cv = TimeSeriesSplit(n_splits=7)
        return GridSearchCV(estimator = xgb.XGBRegressor(colsample_bytree = 0.7), param_grid = param_grid, cv = cv)
    if methode == "knn":
        model = KNeighborsRegressor()
        cv = TimeSeriesSplit(n_splits=5)
        grid = {
            'n_neighbors' : [2,3,5,7,11,17,23],
            'weights' : ['uniform', 'distance']
        }
        return GridSearchCV(model, grid, cv = cv)
    return None

## Fonctions pour le Shapley de Coalitions

In [None]:
def XtoB(X, methode = "moyenne"):
    if methode == "moyenne":
        return X.mean()
    elif methode == "zero":
        return np.zeros(X.shape)
#Transforme une liste de coalitions d'ordre supérieur à 1 en une liste de coalition de tout ordre (non nul)
def CtoC(L, n):
    Out = L
    Coaled = []
    for l in L:
        Coaled += l
    for i in range(n):
        if i not in Coaled:
            Out.append([i])
    return Out

#Transforme une liste d'indice I en un vecteur approchant une observation X, relativement à une partition C,
# une coalition C[k] et une référence B
def ChoixVar(X, B, C, I, k):        
    X_ = np.zeros(len(X))
    for i in range(len(I)):
        for j in C[i]:
            X_[j] = X[j]*I[i] + B[j]*(1-I[i])
    X__ = np.copy(X_)
    for j in C[k]:
        X_[j] = X[j]
        X__[j] = B[j]
    return X_, X__
#Calcul des Shapleys, retourne une liste de Shapleys pour une fonction de coût f, une observation X,
#une référence B et une partition C
#Q et M sont des paramètres de complexité
def Compute(Q, M, f, X, B = np.zeros(200), C = []):
    n = len(X)
    Coalitions = CtoC(C, n)
    nc = len(Coalitions)
    S = np.zeros(nc)
    #Première boucle: estimation de l'intégrale
    for q in trange(Q//2):
        E = np.zeros(nc)
        #Deuxième boucle: estimation de l'espérance par méthode de Monte-Carlo
        for m in range(M):
            # Echantillonage
            I = bernoulli.rvs(q/Q, size = nc)
            Ineg = 1-I
            for k in range(nc):
                X_, X__ = ChoixVar(X, B, Coalitions, I, k)
                hk = float(f(X_.reshape(1, -1)) - f(X__.reshape(1, -1)))
                # On utilise un même échantillonage pour p = q et p = 1-q pour réduire le temps de calcul
                X_neg, X__neg = ChoixVar(X, B, Coalitions, Ineg, k)
                hk_neg = float(f(X_neg.reshape(1, -1)) - f(X__neg.reshape(1, -1)))
                E[k] = E[k] + hk + hk_neg
        for k in range(nc):
            S[k] = S[k] + E[k]
    # Nom des coalitions
    I = []
    try:
        Cnames = list(X.index)
        for l in Coalitions:
            I.append(str([Cnames[m] for m in l]))
    except AttributeError:
        for l in Coalitions:
            I.append(str([m for m in l]))
    Shapley = pd.Series(S/(Q*M), index = I)
    return Shapley

## Exemple de réalisation de prédictions à horizon 1

In [None]:
#Définition d'un cluster de produits
Cluster1 = [70181, 70208, 60887, 70212, 70214, 70215, 70731, 60257, 69776, 60262, 66589, 67452, 62850, 67849, 69496, 65652, 63837, 60890, 66594, 60741, 63701, 62458, 70197, 69728, 63921, 65649, 70199, 62461, 63922]
# Formatage de la liste
C1 = list_to_list(Cluster1)
# Préparation des données
Xtrain, Ytrain, Xtest, Ytest = preprocess_list(C1, C1[0])
# application d'un modèle
reg = get_a_model("xgb")
reg.fit(Xtrain, Ytrain)

Yhat = reg.best_estimator_.predict(Xtest)
# Résultat
Data = pd.DataFrame({"Yhat":Yhat[1:], "Ytest":Ytest.values[:-1]}, index =Ytest.index[:-1])
Data.plot()
rmse(Yhat[1:],Ytest.values[:-1])

## Exemple de réalisation de prédictions à horizon >1

In [None]:
#ne convient qu'aux modèles univariés, mais pourait être adapté pour inclure les variables connues à l'avance
def predHorizon(Data, f, h = 14):
    A = [Data.values[i][0] for i in range(len(Data.values)-60,len(Data.values))]
    for i in range(h):
        Y = f(A[i:])
        A.append(Y)
    return A

X_train, Y_train, X_test, Y_test = preprocess_list(C1, C1[0], Exo = False)
S_train, S_test = preprocess_(indice_to_df(C1[0]), Out = 14, In = 60, Exo = False, Cat = False)
regUniv = get_a_model("xgb")
regUniv.fit(X_train, Y_train)
def freg(S):
    return regUniv.best_estimator_.predict(np.array(S).reshape(1,-1))[0]
Pred = predHorizon(S_train, freg)[-14:]


In [None]:
Data = pd.DataFrame({"Yhat":Pred, "Ytest":Ytest.values}, index =Ytest.index)
Data.plot()
rmse(Pred, Y_test)

## Mesure d'importances

In [None]:
#Mesure d'importance de XGBoost
Coefs = abs(pd.DataFrame(reg.best_estimator_.feature_importances_))
Index = []
for i in range(10):
    if Coefs.max()[0] >0:
        Index.append(int(Coefs.idxmax()))
        Coefs[0][Index[i]] = 0
Xtrain.columns[Index]

In [None]:
#Bibliothèque SHAP
explainer = shap.Explainer(reg.best_estimator_.predict, Xtrain)
shap_values = explainer(Xtest)
shap.plots.bar(shap_values, max_display=8)

In [None]:
#Shapley de coalitions
Coalitions = [[0,13,14,15],[1,2,3,7,8,10],[5,6],[9,11,16,17,18,19,20, 21], [22,23,24, 25],list(range(21+5,21+49)), [21+49, 21+50, 21+51, 21+52, 21+53, 21+54], list(range(21+55, 21+61))]

Compute(20, 10, reg.best_estimator_.predict, Xtest.iloc[2], Xtrain.mean(), Coalitions)

### Exemple d'application

In [None]:
Filtre = ['ordered_volumes-55', 'ordered_volumes-56', 'ordered_volumes-57', 'ordered_volumes-58', 'ordered_volumes-59', 'ordered_volumes-60', 'promo_uplift_coefficient', 'apparenttemperaturemax', 'apparenttemperaturemax-1', 'apparenttemperaturemax-2', 'apparenttemperaturemax-3', 'ordered_volumes-22', 'ordered_volumes-23', 'ordered_volumes-24', 'ordered_volumes-25', 'ordered_volumes-26', 'ordered_volumes-27', 'ordered_volumes-28', 'ordered_volumes-29', 'ordered_volumes-30', 'ordered_volumes-31', 'ordered_volumes-32', 'ordered_volumes-33', 'ordered_volumes-34']
Xtrain, Ytrain, Xtest, Ytest = preprocess_list(C1, C1[0], Filtre = Filtre)

regFiltre = get_a_model("xgb")
regFiltre.fit(Xtrain, Ytrain)
Yhat = reg.best_estimator_.predict(Xtest)
# Résultat
Data = pd.DataFrame({"Yhat":Yhat[1:], "Ytest":Ytest.values[:-1]}, index =Ytest.index[:-1])
Data.plot()
rmse(Yhat[1:],Ytest.values[:-1])