# Feature engineering et Mod√©lisation

## Inventaires des fichiers

In [6]:
import os

DATA_DIR = "/kaggle/input/favorita-grocery-sales-forecasting"

print("Fichiers disponibles :")
for f in os.listdir(DATA_DIR):
    print(f)

Fichiers disponibles :
test.csv.7z
stores.csv.7z
items.csv.7z
holidays_events.csv.7z
transactions.csv.7z
train.csv.7z
oil.csv.7z
sample_submission.csv.7z


## Code de d√©compression des fichiers
!! n'ex√©cuter qu'une seule fois !!

In [7]:
import os
import subprocess

EXTRACT_DIR = "/kaggle/working/favorita_data"
os.makedirs(EXTRACT_DIR, exist_ok=True)

for file in os.listdir(DATA_DIR):
    if file.endswith(".7z"):
        archive_path = os.path.join(DATA_DIR, file)
        print(f"D√©compression de {file} ...")
        subprocess.run(
            ["7z", "x", archive_path, f"-o{EXTRACT_DIR}", "-y"],
            stdout=subprocess.DEVNULL
        )

print("\nFichiers d√©compress√©s :")
print(os.listdir(EXTRACT_DIR))

D√©compression de test.csv.7z ...
D√©compression de stores.csv.7z ...
D√©compression de items.csv.7z ...
D√©compression de holidays_events.csv.7z ...
D√©compression de transactions.csv.7z ...
D√©compression de train.csv.7z ...
D√©compression de oil.csv.7z ...
D√©compression de sample_submission.csv.7z ...

Fichiers d√©compress√©s :
['oil.csv', 'test.csv', 'holidays_events.csv', 'train.csv', 'transactions.csv', 'items.csv', 'stores.csv', 'sample_submission.csv']


## Importations et configurations

In [11]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

pd.set_option("display.max_columns", 50)
pd.set_option("display.float_format", "{:.2f}".format)

## Chargement des donn√©es de la base train

In [12]:
train = pd.read_csv(
    f"{EXTRACT_DIR}/train.csv",
    usecols=["date", "store_nbr", "item_nbr", "unit_sales", "onpromotion"],
    parse_dates=["date"],
    low_memory=False
)
print("Base Train")
print(train.shape)
train.head()

Base Train
(125497040, 5)


Unnamed: 0,date,store_nbr,item_nbr,unit_sales,onpromotion
0,2013-01-01,25,103665,7.0,
1,2013-01-01,25,105574,1.0,
2,2013-01-01,25,105575,2.0,
3,2013-01-01,25,108079,1.0,
4,2013-01-01,25,108701,1.0,



>

## 1. Mise en place du Pipeline de Feature Engineering  
### Logique globale, pr√©vention du data leakage, *feature gap* et gestion des nouvelles donn√©es

---

### 1.1 Pourquoi un pipeline de Feature Engineering ?

Dans un projet de **pr√©vision des ventes**, le Feature Engineering ne doit pas √™tre con√ßu
comme une suite de transformations ponctuelles appliqu√©es une seule fois √† un jeu de donn√©es.
Il doit au contraire √™tre pens√© comme un **processus reproductible, coh√©rent et robuste**,
capable de fonctionner dans plusieurs contextes :

- entra√Ænement du mod√®le,
- validation temporelle,
- test final,
- tests unitaires,
- pr√©diction en production (nouvelles dates jamais observ√©es).

Pour r√©pondre √† ces exigences, nous avons regroup√© **l‚Äôensemble des transformations**
dans un **pipeline unique**, structur√© selon la logique **Fit / Transform** :

- **FIT** : apprentissage √† partir de l‚Äôhistorique,
- **TRANSFORM** : application des r√®gles apprises √† de nouvelles donn√©es.

Cette organisation garantit :
- l‚Äôabsence de fuite d‚Äôinformation (*data leakage*),
- la coh√©rence des features entre train, validation, test et production,
- la r√©utilisabilit√© du code dans un cadre r√©el.

---

### 1.1.1 Deux notions distinctes : *gap de split* vs *gap de features*

Dans notre approche, il est important de distinguer deux id√©es souvent confondues :

1) **Gap de split temporel**  
Il s‚Äôagit d‚Äôun intervalle (ex. 3 jours) ins√©r√© entre `train_fit` et `test` lors de l‚Äô√©valuation,
pour simuler une vraie s√©paration temporelle.

2) **Feature gap (`feature_gap_days`) : retard d‚Äôacc√®s aux informations**  
Il s‚Äôagit d‚Äôun param√®tre du pipeline qui simule un contexte r√©aliste o√π certaines informations
(ne serait-ce que pour des raisons de consolidation ou de disponibilit√©) ne sont pas connues imm√©diatement.
Par exemple, avec `feature_gap_days = 3`, les features bas√©es sur les ventes et transactions
n‚Äôutilisent pas les 3 jours les plus r√©cents disponibles.

üëâ Le *gap de split* sert l‚Äô√©valuation, tandis que le *feature gap* sert la pr√©vention du leakage
dans la construction de certaines variables temporelles.

---

### 1.2 √âtape FIT : apprentissage √† partir de l‚Äôhistorique (`train_fit`)

L‚Äô√©tape `fit()` est r√©alis√©e **une seule fois**, exclusivement √† partir des donn√©es
historiques d‚Äôentra√Ænement (`train_fit`), c‚Äôest-√†-dire **ant√©rieures √† toute p√©riode √† pr√©dire**.

#### Principe fondamental

Lors du `fit()` :
- **aucune information future n‚Äôest utilis√©e**,
- aucune statistique n‚Äôest recalcul√©e sur les p√©riodes de validation ou de test,
- le pipeline se contente d‚Äô**apprendre et de stocker** des objets r√©utilisables ensuite
(s√©ries index√©es, dictionnaires de mapping, fr√©quences, etc.).

---

### 1.2.1 Encodages statistiques appris sur l‚Äôhistorique

Certaines variables cat√©gorielles sont transform√©es via des **encodages de fr√©quence** :

- `store_freq` : proportion d‚Äôobservations associ√©es √† chaque magasin,
- `item_freq` : proportion d‚Äôobservations associ√©es √† chaque produit.

Ces fr√©quences sont calcul√©es **uniquement sur `train_fit`**, puis m√©moris√©es dans le pipeline.

Lors du `transform()`, ces valeurs sont simplement r√©appliqu√©es par `map()`.
Si un magasin ou un produit n‚Äôa jamais √©t√© observ√©, la fr√©quence est fix√©e √† 0.

üëâ Cela emp√™che toute fuite d‚Äôinformation issue des donn√©es futures.

---

### 1.2.2 Int√©gration des tables statiques (`items.csv`, `stores.csv`)

Les tables `items` et `stores` contiennent des informations **structurelles**, ind√©pendantes du temps.

#### a) Table `items.csv`

√Ä partir de `items.csv`, le pipeline cr√©e :

- `perishable` : indicateur de p√©rissabilit√©,
- `family_freq_items` : fr√©quence des familles de produits,
- `class_freq_items` : fr√©quence des classes,
- `class_freq_in_family` : fr√©quence conditionnelle classe / famille.

Ces informations sont nettoy√©es, encod√©es num√©riquement,
puis stock√©es sous forme d‚Äôune table compacte utilis√©e par `merge()`.

---

#### b) Table `stores.csv`

√Ä partir de `stores.csv`, le pipeline extrait :

- `cluster` : cluster du magasin,
- `type_freq`, `state_freq`, `city_freq` : fr√©quences par type, √©tat et ville,
- `city_freq_in_state` : fr√©quence conditionnelle ville / √©tat.

**Important :** ces fr√©quences (type/state/city) sont calcul√©es de mani√®re coh√©rente
par rapport aux **observations pr√©sentes dans `train_fit`** (et non simplement sur `stores.csv`),
ce qui refl√®te mieux la distribution r√©elle des donn√©es d‚Äôentra√Ænement.

Les variables sont stock√©es sous forme de dictionnaires
et inject√©es via `map()` (plus l√©ger qu‚Äôun `merge` complet).

---

### 1.2.3 Variables temporelles externes : transactions et p√©trole

#### a) Activit√© des magasins : `transactions_roll14` (avec *feature gap*)

La variable `transactions_roll14` est calcul√©e √† partir de `transactions.csv`
comme une moyenne mobile sur 14 jours.

Dans un contexte strict sans retard, on aurait :

$
\text{transactions\_roll14}(t)
= \frac{1}{14} \sum_{j=1}^{14} \text{transactions}_{t-j}
$

Cependant, afin de simuler un contexte r√©aliste de disponibilit√©,
nous introduisons un **retard** param√©tr√© par `feature_gap_days = G`.

La moyenne mobile devient :

$
\text{transactions\_roll14}(t)
= \frac{1}{14} \sum_{j=1}^{14} \text{transactions}_{t-(G+j)}
$

Autrement dit, si \(G = 3\), on utilise les transactions entre \(t-4\) et \(t-17\),
et on exclut les 3 jours les plus r√©cents.

Le pipeline conserve :
- une s√©rie index√©e `(store_nbr, date) ‚Üí transactions_roll14`,
- la **derni√®re valeur connue par magasin**, utilis√©e comme fallback si la date est future.

**Remarque pratique :**  
`transactions_roll14` est une variable **au niveau magasin**.  
Donc pour une m√™me date \(t\) et un m√™me magasin, elle est **identique pour tous les produits** du magasin.
Cette r√©p√©tition est normale car la feature d√©crit l‚Äôactivit√© globale du store.

---

#### b) Prix du p√©trole : `oil_roll14` (sans gap additionnel)

Pour le p√©trole, nous conservons une logique standard (sans *feature gap* suppl√©mentaire) :

$
\text{oil\_roll14}(t)
= \frac{1}{14} \sum_{j=1}^{14} \text{prix}_{t-j}
$

Les valeurs manquantes sont propag√©es (`ffill`) avant calcul.

Pour les dates futures, le pipeline utilise une **valeur de secours** :
la moyenne des 30 derniers jours observ√©s.

---

### 1.2.4 Jours f√©ri√©s et √©v√©nements

Les jours f√©ri√©s sont trait√©s selon une **logique hi√©rarchique** :

- niveau **national** (tous les magasins),
- niveau **r√©gional** (√©tat),
- niveau **local** (ville).

Les jours transf√©r√©s (`transferred`) sont repositionn√©s √† leur date effective.
Le pipeline construit :

- un indicateur national par date,
- des overrides par `(store_nbr, date)` pour les niveaux r√©gional et local.

---

### 1.3 √âtape TRANSFORM : application aux nouvelles donn√©es

L‚Äô√©tape `transform()` est utilis√©e sur :

- les donn√©es d‚Äôentra√Ænement enrichies,
- les donn√©es de validation,
- les donn√©es de test,
- les observations unitaires (tests unitaires, production).

#### R√®gle essentielle

Lors du `transform()` :
- **aucune statistique n‚Äôest recalcul√©e √† partir des nouvelles donn√©es**,
- seules les informations apprises pendant le `fit()` sont utilis√©es.

Cela garantit une parfaite coh√©rence entre entra√Ænement et d√©ploiement.

---

### 1.3.1 Gestion des dates futures et valeurs manquantes

Pour les dates jamais observ√©es :

- `transactions_roll14`  
  - lookup si disponible via la s√©rie index√©e,
  - sinon **derni√®re valeur connue du magasin**,
  - sinon 0.

- `oil_roll14`  
  - lookup si disponible,
  - sinon **moyenne des 30 derniers jours observ√©s**.

- jours f√©ri√©s  
  - indicateurs fix√©s √† 0 si absents.

Ces choix correspondent √† des hypoth√®ses r√©alistes de mise en production :
on n‚Äôutilise jamais d‚Äôinformations futures inconnues.

---

### 1.4 Variables de s√©ries temporelles : lags et moyennes glissantes (avec *feature gap*)

#### 1.4.1 Motivation

Les ventes pr√©sentent une forte d√©pendance temporelle :
effets hebdomadaires, saisonnalit√©, inertie de la demande.

Pour capturer cette dynamique, on cr√©e :

- **lags** : ventes observ√©es \(k\) jours avant,
- **rolling means** : moyenne des ventes sur une fen√™tre pass√©e.

Chaque couple `(store_nbr, item_nbr)` est trait√© comme une s√©rie temporelle ind√©pendante.

---

#### 1.4.2 Anti-leakage : r√®gle fondamentale + retard d‚Äôacc√®s

Pour pr√©dire √† la date \(t\), seules les informations **ant√©rieures √† \(t\)** sont autoris√©es,
et nous imposons en plus un retard de disponibilit√© de \(G = \text{feature\_gap\_days}\).

La moyenne glissante sur \(w\) jours devient :

$
\text{rolling}_w(t)
= \frac{1}{w} \sum_{j=1}^{w} y_{t-(G+j)}
$

Et un lag \(k\) devient :

$
\text{lag}_k(t) = y_{t-(G+k)}
$

Ainsi, si \(G = 3\) :
- `sales_roll14(t)` utilise les ventes de \(t-4\) √† \(t-17\),
- `sales_lag28(t)` utilise la vente √† \(t-31\).

---

#### 1.4.3 Gestion des combinaisons absentes et choix des valeurs

Les s√©ries `(store, item)` peuvent √™tre tr√®s **spars√©es** :
certaines combinaisons n‚Äôont pas de ventes observ√©es dans l‚Äôhistorique r√©cent.

Dans ce cas, plut√¥t que de remplacer par 0 (qui pourrait √™tre interpr√©t√© comme une vraie absence de vente),
le pipeline conserve :
- `sales_lag28` et `sales_roll14` sous forme de **NaN** lorsque la valeur est indisponible,
- et fournit des indicateurs :
  - `sales_lag28_avail` (disponible ou non),
  - `sales_roll14_cnt` (nombre de jours effectivement observ√©s sur 14),
  - `sales_roll14_frac` (proportion de jours observ√©s).

üëâ Cette strat√©gie est plus fid√®le aux donn√©es : elle distingue ‚Äú0 vente‚Äù de ‚Äúhistorique manquant‚Äù.

---

### 1.5 R√¥le du gap temporel (√©valuation)

Un **gap de split** peut √™tre ins√©r√© entre train et test pour renforcer la s√©paration temporelle
et √©viter que les mod√®les ne profitent d‚Äôune continuit√© trop directe entre p√©riodes.

Il s‚Äôagit d‚Äôune bonne pratique d‚Äô√©valuation (simulation r√©aliste),
ind√©pendante du *feature gap* utilis√© dans la construction des variables temporelles.

---

### 1.6 R√©sum√©

- Le Feature Engineering est enti√®rement **centralis√©** dans un pipeline unique.
- Le `fit()` apprend uniquement √† partir de l‚Äôhistorique `train_fit`.
- Le `transform()` applique les m√™mes r√®gles aux nouvelles donn√©es sans recalculer de statistiques.
- Les variables temporelles de ventes (`lag`, `rolling`) et `transactions_roll14` int√®grent un **feature gap** param√©trable.
- `oil_roll14` reste calcul√© de mani√®re standard (shift + rolling), avec fallback r√©aliste.
- Les valeurs manquantes sur les s√©ries de ventes sont conserv√©es en **NaN**, accompagn√©es d‚Äôindicateurs de disponibilit√©.

üëâ Cette architecture garantit une m√©thodologie solide,
reproductible et compatible avec un d√©ploiement r√©el.


In [16]:
import pandas as pd
import numpy as np
import gc


class FavoritaFeaturePipeline:
    """
    Pipeline Fit/Transform pour cr√©er les features Favorita sans fuite d'information.

    - feature_gap_days = retard d'acc√®s aux donn√©es de ventes (et transactions si on le souhaite)
      Exemple feature_gap_days=3 :
        sales_roll14(t) utilise t-4..t-17
        sales_lag28(t)  utilise t-31
        transactions_roll14(t) utilise t-4..t-17 (dans ce pipeline)
    - oil : on laisse le calcul standard (shift(1) rolling 14), sans gap additionnel.
    - IMPORTANT : on garde NaN pour sales_lag28 et sales_roll14 quand l'historique n'existe pas.
    """

    def __init__(self, data_dir, sales_history_days=120, feature_gap_days=0, verbose=True):
        self.data_dir = data_dir
        self.sales_history_days = int(sales_history_days)
        self.feature_gap_days = int(feature_gap_days)
        self.verbose = verbose

        # learned objects
        self.store_freq = None
        self.item_freq  = None

        self.items_fe = None
        self.store_maps = {}

        self.trans_s = None
        self.last_roll_by_store = None

        self.oil_s = None

        self.holiday_nat_maps = {}
        self.holiday_override_maps = {}

        # sales lookup history
        self.sales_s = None
        self.sales_target_col = None
        self.sales_history_max_date = None

    # ---------------------------
    # Utils
    # ---------------------------
    def _log(self, msg):
        if self.verbose:
            print(msg)

    @staticmethod
    def _ensure_datetime(df, col="date"):
        df[col] = pd.to_datetime(df[col]).dt.normalize()
        return df

    @staticmethod
    def _make_key_store_date(store_series, date_series):
        """cl√© num√©rique compacte store-date"""
        ymd = date_series.dt.year * 10000 + date_series.dt.month * 100 + date_series.dt.day
        return (store_series.astype("int32") * 1_000_000 + ymd.astype("int32")).astype("int64")

    @staticmethod
    def add_target(df, y_col="unit_sales"):
        """
        Optionnel : pr√©pare la cible si elle n'existe pas.
        - unit_sales_clean = clip des n√©gatives √† 0
        - unit_sales_log   = log1p(unit_sales_clean)
        """
        df = df.copy()
        if "unit_sales_clean" not in df.columns:
            df["unit_sales_clean"] = pd.to_numeric(df[y_col], errors="coerce").fillna(0).clip(lower=0).astype("float32")
        if "unit_sales_log" not in df.columns:
            df["unit_sales_log"] = np.log1p(df["unit_sales_clean"]).astype("float32")
        return df

    # ---------------------------
    # FIT
    # ---------------------------
    def fit(self, history_df):
        """
        history_df : dataframe historique (train_fit) contenant
        date/store/item + cible (unit_sales_clean ou unit_sales_log)
        """
        history_df = history_df.copy()
        history_df = self._ensure_datetime(history_df, "date")

        self._log("üîß FIT...")

        # ---- d√©tecter cible
        if "unit_sales_log" in history_df.columns:
            target_col = "unit_sales_log"
        elif "unit_sales_clean" in history_df.columns:
            target_col = "unit_sales_clean"
        else:
            raise ValueError("Il faut une colonne cible : unit_sales_clean ou unit_sales_log (tu peux appeler add_target avant).")

        self.sales_target_col = target_col

        # forcer types
        history_df["store_nbr"] = history_df["store_nbr"].astype("int16")
        history_df["item_nbr"]  = history_df["item_nbr"].astype("int32")

        # ---- freq enc (appris sur history_df)
        self.store_freq = history_df["store_nbr"].value_counts(normalize=True)
        self.item_freq  = history_df["item_nbr"].value_counts(normalize=True)

        # ---- Sales lookup (limit√© sur sales_history_days)
        max_d = history_df["date"].max()
        min_keep = max_d - pd.Timedelta(days=self.sales_history_days)

        hs = history_df.loc[history_df["date"] >= min_keep, ["store_nbr", "item_nbr", "date", target_col]].copy()
        hs["store_nbr"] = hs["store_nbr"].astype("int16")
        hs["item_nbr"]  = hs["item_nbr"].astype("int32")
        hs[target_col]  = hs[target_col].astype("float32")

        hs = hs.drop_duplicates(["store_nbr", "item_nbr", "date"], keep="last")
        self.sales_history_max_date = hs["date"].max()
        self.sales_s = hs.set_index(["store_nbr", "item_nbr", "date"])[target_col]

        del hs
        gc.collect()

        # ---- ITEMS
        items = pd.read_csv(self.data_dir + "/items.csv")
        items["item_nbr"] = items["item_nbr"].astype("int32")
        items["family"] = items["family"].fillna("UNKNOWN").astype(str).str.strip()
        items["class"]  = items["class"].fillna(-1).astype("int16").astype(str)
        items["perishable"] = items["perishable"].fillna(0).astype("int8")

        fam_freq = items["family"].value_counts(normalize=True)
        cls_freq = items["class"].value_counts(normalize=True)

        items["family_freq_items"] = items["family"].map(fam_freq).astype("float32")
        items["class_freq_items"]  = items["class"].map(cls_freq).astype("float32")

        pair_counts   = items.groupby(["family", "class"]).size()
        family_counts = items.groupby("family").size()

        items["class_freq_in_family"] = (
            items.set_index(["family", "class"]).index.map(pair_counts) /
            items["family"].map(family_counts).to_numpy()
        ).astype("float32")

        self.items_fe = items[[
            "item_nbr", "perishable", "family_freq_items", "class_freq_items", "class_freq_in_family"
        ]].drop_duplicates("item_nbr")

        del items
        gc.collect()

        # ---- STORES (freq apprises sur les OBS history_df)
        stores = pd.read_csv(self.data_dir + "/stores.csv")
        stores["store_nbr"] = stores["store_nbr"].astype("int16")
        stores["type"]  = stores["type"].fillna("UNKNOWN").astype(str).str.strip()
        stores["state"] = stores["state"].fillna("UNKNOWN").astype(str).str.strip()
        stores["city"]  = stores["city"].fillna("UNKNOWN").astype(str).str.strip()
        stores["cluster"] = stores["cluster"].fillna(-1).astype("int16")

        hist_loc = history_df[["store_nbr"]].merge(
            stores[["store_nbr", "type", "state", "city", "cluster"]],
            on="store_nbr", how="left"
        )

        type_freq  = hist_loc["type"].value_counts(normalize=True)
        state_freq = hist_loc["state"].value_counts(normalize=True)
        city_freq  = hist_loc["city"].value_counts(normalize=True)

        stores["type_freq"]  = stores["type"].map(type_freq).fillna(0).astype("float32")
        stores["state_freq"] = stores["state"].map(state_freq).fillna(0).astype("float32")
        stores["city_freq"]  = stores["city"].map(city_freq).fillna(0).astype("float32")

        pair_counts  = hist_loc.groupby(["state", "city"]).size()
        state_counts = hist_loc.groupby("state").size()

        st = stores.set_index("store_nbr")[["state", "city"]]
        num = st.index.map(lambda sn: pair_counts.get((st.loc[sn, "state"], st.loc[sn, "city"]), 0))
        den = st["state"].map(state_counts).fillna(0).to_numpy()

        stores["city_freq_in_state"] = np.where(den > 0, np.array(num) / den, 0.0).astype("float32")

        self.store_maps = {
            "cluster": stores.set_index("store_nbr")["cluster"].to_dict(),
            "type_freq": stores.set_index("store_nbr")["type_freq"].to_dict(),
            "state_freq": stores.set_index("store_nbr")["state_freq"].to_dict(),
            "city_freq": stores.set_index("store_nbr")["city_freq"].to_dict(),
            "city_freq_in_state": stores.set_index("store_nbr")["city_freq_in_state"].to_dict(),
        }

        del stores, hist_loc
        gc.collect()

        # ---- TRANSACTIONS roll14 (avec le m√™me gap que ventes)
        tr = pd.read_csv(self.data_dir + "/transactions.csv", parse_dates=["date"])
        tr["date"] = pd.to_datetime(tr["date"]).dt.normalize()
        tr["store_nbr"] = tr["store_nbr"].astype("int16")
        tr["transactions"] = pd.to_numeric(tr["transactions"], errors="coerce").fillna(0)

        tr = (tr.groupby(["store_nbr", "date"], as_index=False)
                .agg(transactions=("transactions", "sum"))
                .sort_values(["store_nbr", "date"]))

        G = self.feature_gap_days
        tr["transactions_roll14"] = (
            tr.groupby("store_nbr")["transactions"]
              .transform(lambda x: x.shift(1 + G).rolling(14, min_periods=1).mean())
        ).astype("float32")

        self.trans_s = tr.set_index(["store_nbr", "date"])["transactions_roll14"]
        self.last_roll_by_store = tr.groupby("store_nbr")["transactions_roll14"].last()

        del tr
        gc.collect()

        # ---- OIL roll14 (standard, sans gap additionnel)
        oil = pd.read_csv(self.data_dir + "/oil.csv", parse_dates=["date"]).sort_values("date")
        oil["date"] = pd.to_datetime(oil["date"]).dt.normalize()
        oil["dcoilwtico"] = pd.to_numeric(oil["dcoilwtico"], errors="coerce").ffill()
        oil["oil_roll14"] = oil["dcoilwtico"].shift(1).rolling(14, min_periods=1).mean().astype("float32")
        self.oil_s = oil.set_index("date")["oil_roll14"]

        del oil
        gc.collect()

        # ---- HOLIDAYS (national + override store)
        hol = pd.read_csv(self.data_dir + "/holidays_events.csv")
        hol["date"] = pd.to_datetime(hol["date"]).dt.normalize()
        for col in ["type", "locale", "locale_name", "description"]:
            hol[col] = hol[col].fillna("").astype(str).str.strip()
        hol["transferred"] = hol["transferred"].fillna(False).astype(int)

        hol["event_key"] = hol["description"] + " | " + hol["locale"] + " | " + hol["locale_name"]

        transfer_map = (
            hol.loc[hol["type"] == "Transfer", ["event_key", "date"]]
               .drop_duplicates("event_key")
               .set_index("event_key")["date"]
               .to_dict()
        )

        hol["observed_date"] = hol["date"]
        mask_moved = (hol["type"] == "Holiday") & (hol["transferred"] == 1)
        hol.loc[mask_moved, "observed_date"] = hol.loc[mask_moved, "event_key"].map(transfer_map)
        hol["observed_date"] = hol["observed_date"].fillna(hol["date"])

        hol["f_holiday"] = (hol["type"] == "Holiday").astype("int8")

        stores_loc = pd.read_csv(self.data_dir + "/stores.csv")
        stores_loc["store_nbr"] = stores_loc["store_nbr"].astype("int16")
        stores_loc["city"]  = stores_loc["city"].fillna("UNKNOWN").astype(str).str.strip()
        stores_loc["state"] = stores_loc["state"].fillna("UNKNOWN").astype(str).str.strip()
        store_loc = stores_loc[["store_nbr", "city", "state"]].drop_duplicates("store_nbr")

        national = (hol[hol["locale"] == "National"]
                    .groupby("observed_date", as_index=False)
                    .agg(nat_h=("f_holiday", lambda s: int(s.sum() > 0)))
                    .rename(columns={"observed_date": "date"}))

        self.holiday_nat_maps = {"nat_h": dict(zip(national["date"], national["nat_h"]))}

        regional = hol[hol["locale"] == "Regional"].copy()
        regional["date"] = regional["observed_date"]
        regional = regional.drop(columns=["observed_date"]).merge(
            store_loc, left_on="locale_name", right_on="state", how="inner"
        )
        regional = (regional.groupby(["date", "store_nbr"], as_index=False)
                    .agg(h=("f_holiday", lambda s: int(s.sum() > 0))))

        local = hol[hol["locale"] == "Local"].copy()
        local["date"] = local["observed_date"]
        local = local.drop(columns=["observed_date"]).merge(
            store_loc, left_on="locale_name", right_on="city", how="inner"
        )
        local = (local.groupby(["date", "store_nbr"], as_index=False)
                 .agg(h=("f_holiday", lambda s: int(s.sum() > 0))))

        over = pd.concat([regional, local], ignore_index=True).groupby(["date", "store_nbr"], as_index=False).max()
        over["key"] = self._make_key_store_date(over["store_nbr"], over["date"])
        self.holiday_override_maps = {"h": dict(zip(over["key"], over["h"]))}

        del hol, stores_loc, store_loc, national, regional, local, over
        gc.collect()

        self._log("‚úÖ FIT termin√©.")
        return self

    # ---------------------------
    # TRANSFORM
    # ---------------------------
    def transform(self, df_new):
        df = df_new.copy()
        df = self._ensure_datetime(df, "date")

        # types
        df["store_nbr"] = df["store_nbr"].astype("int16")
        df["item_nbr"]  = df["item_nbr"].astype("int32")

        # ---- date feats
        d = df["date"]
        df["year"]  = d.dt.year.astype("int16")
        df["month"] = d.dt.month.astype("int8")
        df["day"]   = d.dt.day.astype("int8")
        df["dow"]   = d.dt.dayofweek.astype("int8")
        df["is_weekend"] = (df["dow"] >= 5).astype("int8")

        # ---- promo (robuste)
        if "onpromotion" in df.columns:
            promo = df["onpromotion"]
            if promo.dtype == "O":
                promo_bool = promo.astype(str).str.lower().isin(["true", "1", "t", "yes"])
                promo_bool = promo_bool.where(promo.notna(), False)
                promo = promo_bool
            df["onpromo"] = promo.fillna(False).astype("int8")
        else:
            df["onpromo"] = np.int8(0)

        # ---- freq enc
        df["store_freq"] = pd.to_numeric(df["store_nbr"].map(self.store_freq), errors="coerce").fillna(0).astype("float32")
        df["item_freq"]  = pd.to_numeric(df["item_nbr"].map(self.item_freq),  errors="coerce").fillna(0).astype("float32")

        # ---- items merge
        df = df.merge(self.items_fe, on="item_nbr", how="left")
        df["perishable"] = pd.to_numeric(df["perishable"], errors="coerce").fillna(0).astype("int8")
        for c in ["family_freq_items", "class_freq_items", "class_freq_in_family"]:
            df[c] = pd.to_numeric(df[c], errors="coerce").fillna(0).astype("float32")

        # ---- stores maps
        df["cluster"] = pd.to_numeric(df["store_nbr"].map(self.store_maps["cluster"]), errors="coerce").fillna(-1).astype("int16")
        for c in ["type_freq", "state_freq", "city_freq", "city_freq_in_state"]:
            df[c] = pd.to_numeric(df["store_nbr"].map(self.store_maps[c]), errors="coerce").fillna(0).astype("float32")

        # ---- transactions_roll14
        keys = pd.MultiIndex.from_frame(df[["store_nbr", "date"]])
        vals = self.trans_s.reindex(keys).to_numpy(dtype="float32")
        df["transactions_roll14"] = pd.Series(vals, index=df.index)

        last_vals = pd.to_numeric(df["store_nbr"].map(self.last_roll_by_store), errors="coerce")
        df["transactions_roll14"] = df["transactions_roll14"].fillna(last_vals).fillna(0).astype("float32")

        # ---- oil_roll14
        oil_vals = self.oil_s.reindex(df["date"]).to_numpy(dtype="float32")
        df["oil_roll14"] = pd.Series(oil_vals, index=df.index)
        fallback_oil = float(self.oil_s.tail(30).mean()) if self.oil_s is not None and len(self.oil_s) else 0.0
        df["oil_roll14"] = df["oil_roll14"].fillna(fallback_oil).astype("float32")

        # ---- holidays
        df["is_holiday_effective"] = df["date"].map(self.holiday_nat_maps["nat_h"]).fillna(0).astype("int8")
        k = self._make_key_store_date(df["store_nbr"], df["date"])
        h_over = pd.Series(k).map(self.holiday_override_maps["h"]).fillna(0).to_numpy()
        df["is_holiday_effective"] = np.maximum(df["is_holiday_effective"].to_numpy(), h_over).astype("int8")

        # ============================
        # SALES LAG28 + ROLL14 (NaN + gap)
        # ============================
        G = self.feature_gap_days

        # --- LAG 28 (d√©cal√©)
        L = 28
        lag_idx = pd.MultiIndex.from_frame(pd.DataFrame({
            "store_nbr": df["store_nbr"].astype("int16"),
            "item_nbr":  df["item_nbr"].astype("int32"),
            "date":      df["date"] - pd.Timedelta(days=L + G)
        }))
        lag_vals = self.sales_s.reindex(lag_idx).to_numpy(dtype="float32")

        df[f"sales_lag{L}"] = pd.Series(lag_vals, index=df.index).astype("float32")  # ‚úÖ garde NaN
        df[f"sales_lag{L}_avail"] = (~pd.isna(lag_vals)).astype("int8")

        # --- ROLL 14 (t-(G+1) .. t-(G+14))
        W = 14
        acc = np.zeros(len(df), dtype="float32")
        cnt = np.zeros(len(df), dtype="int16")

        for j in range(1, W + 1):
            r_idx = pd.MultiIndex.from_frame(pd.DataFrame({
                "store_nbr": df["store_nbr"].astype("int16"),
                "item_nbr":  df["item_nbr"].astype("int32"),
                "date":      df["date"] - pd.Timedelta(days=G + j)
            }))
            vals = self.sales_s.reindex(r_idx).to_numpy(dtype="float32")
            mask = ~pd.isna(vals)
            acc[mask] += vals[mask]
            cnt[mask] += 1

        roll = np.full(len(df), np.nan, dtype="float32")
        np.divide(acc, cnt, out=roll, where=cnt > 0)  # ‚úÖ pas de warning

        df[f"sales_roll{W}"] = pd.Series(roll, index=df.index).astype("float32")
        df[f"sales_roll{W}_cnt"] = cnt.astype("int16")
        df[f"sales_roll{W}_frac"] = (cnt / float(W)).astype("float32")

        return df


### 2.1. Application du pipeline sur les donn√©es d'entrainement (d√©j√† split)

In [19]:
import pandas as pd

train["date"] = pd.to_datetime(train["date"]).dt.normalize()

TOTAL_DAYS = 84
TEST_DAYS  = 14
GAP_DAYS   = 3

max_date = train["date"].max()
start_84 = max_date - pd.Timedelta(days=TOTAL_DAYS - 1)

train_84 = train.loc[train["date"] >= start_84].copy()

# --- TEST ---
end_test = max_date
start_test = end_test - pd.Timedelta(days=TEST_DAYS - 1)

# --- GAP (juste avant test) ---
end_gap = start_test - pd.Timedelta(days=1)
start_gap = end_gap - pd.Timedelta(days=GAP_DAYS - 1)

# --- TRAIN = le reste ---
train_fit = train_84.loc[train_84["date"] < start_gap].copy()
gap_df    = train_84.loc[(train_84["date"] >= start_gap) & (train_84["date"] <= end_gap)].copy()
test_df   = train_84.loc[(train_84["date"] >= start_test) & (train_84["date"] <= end_test)].copy()

print("Train:", train_fit.shape, train_fit["date"].min(), train_fit["date"].max())
print("Gap  :", gap_df.shape, gap_df["date"].min(), gap_df["date"].max())
print("Test :", test_df.shape, test_df["date"].min(), test_df["date"].max())

# FIT sur train uniquement
pipe = FavoritaFeaturePipeline(
    "/kaggle/working/favorita_data",
    sales_history_days=120,
    feature_gap_days=3,
    verbose=True
)
# 1) cr√©er la cible sur train_fit et test_df (et gap_df aussi si on veut)
train_fit = FavoritaFeaturePipeline.add_target(train_fit, y_col="unit_sales")
test_df   = FavoritaFeaturePipeline.add_target(test_df,   y_col="unit_sales")
gap_df    = FavoritaFeaturePipeline.add_target(gap_df,    y_col="unit_sales")

 
# 2) fit
pipe.fit(train_fit)



# TRANSFORM
X_train = pipe.transform(train_fit)
X_gap   = pipe.transform(gap_df)
X_test  = pipe.transform(test_df)
print("Transform termin√©")

Train: (7078551, 5) 2017-05-24 00:00:00 2017-07-29 00:00:00
Gap  : (327256, 5) 2017-07-30 00:00:00 2017-08-01 00:00:00
Test : (1461581, 5) 2017-08-02 00:00:00 2017-08-15 00:00:00
üîß FIT...
‚úÖ FIT termin√©.
Transform termin√©


In [20]:
X_train.head()

Unnamed: 0,date,store_nbr,item_nbr,unit_sales,onpromotion,unit_sales_clean,unit_sales_log,year,month,day,dow,is_weekend,onpromo,store_freq,item_freq,perishable,family_freq_items,class_freq_items,class_freq_in_family,cluster,type_freq,state_freq,city_freq,city_freq_in_state,transactions_roll14,oil_roll14,is_holiday_effective,sales_lag28,sales_lag28_avail,sales_roll14,sales_roll14_cnt,sales_roll14_frac
0,2017-05-24,1,99197,2.0,False,2.0,1.1,2017,5,24,2,0,0,0.02,0.0,0,0.33,0.0,0.0,13,0.36,0.41,0.4,0.95,1534.71,48.22,1,,0,,0,0.0
1,2017-05-24,1,103520,4.0,False,4.0,1.61,2017,5,24,2,0,0,0.02,0.0,0,0.33,0.01,0.04,13,0.36,0.41,0.4,0.95,1534.71,48.22,1,,0,,0,0.0
2,2017-05-24,1,103665,-1.0,False,0.0,0.0,2017,5,24,2,0,0,0.02,0.0,1,0.03,0.0,0.13,13,0.36,0.41,0.4,0.95,1534.71,48.22,1,,0,,0,0.0
3,2017-05-24,1,105574,5.0,False,5.0,1.79,2017,5,24,2,0,0,0.02,0.0,0,0.33,0.01,0.02,13,0.36,0.41,0.4,0.95,1534.71,48.22,1,,0,,0,0.0
4,2017-05-24,1,105575,12.0,False,12.0,2.56,2017,5,24,2,0,0,0.02,0.0,0,0.33,0.01,0.02,13,0.36,0.41,0.4,0.95,1534.71,48.22,1,,0,,0,0.0


In [None]:
X_test.head()

### 2.1. Tests unitaires du pipeline

---

#### 2.1.1 Pourquoi faire des tests unitaires dans un projet de pr√©vision des ventes ?

Dans un projet de pr√©vision **temporelle** (comme Favorita), le risque principal n‚Äôest pas seulement d‚Äôavoir des bugs,
mais surtout d‚Äôavoir un pipeline qui :

- produit des features incoh√©rentes entre train et test,
- introduit une fuite d‚Äôinformation (*data leakage*) sans qu‚Äôon s‚Äôen rende compte,
- casse en ‚Äúproduction‚Äù (ex. date future, item rare, store absent, promo manquante),
- renvoie des valeurs `NaN`, `inf`, ou des features mal typ√©es.

Les **tests unitaires** permettent donc de v√©rifier que le pipeline fonctionne comme un **module fiable** :  
> on donne une entr√©e (m√™me tr√®s petite) ‚Üí on obtient une sortie stable, coh√©rente et exploitable par le mod√®le.

---

#### 2.1.2 Qu‚Äôappelle-t-on ‚Äútest unitaire‚Äù ici ?

Dans ce projet, un test unitaire correspond √† une v√©rification automatique sur une ou plusieurs propri√©t√©s du pipeline, par exemple :

- le pipeline cr√©e bien toutes les colonnes attendues,
- aucune feature n‚Äôest recalcul√©e √† partir des nouvelles donn√©es (validation/test/production),
- les lags et rollings proviennent uniquement de l‚Äôhistorique appris au `fit()`,
- les valeurs de secours (*fallbacks*) sont correctes (dates futures),
- les features restent num√©riques (et donc compatibles avec le mod√®le).

Dans le contexte Favorita, on distingue deux grandes familles de tests unitaires :

1) **Tests sur des datasets (train/test)**
   - v√©rifier dimensions, colonnes, absence de valeurs impossibles,
   - v√©rifier coh√©rence temporelle (split + gap).

2) **Tests ‚Äúproduction‚Äù sur une observation unique**
   - v√©rifier que le pipeline marche quand on lui donne une seule ligne :  
     `(date, store_nbr, item_nbr, onpromotion)`.

---

#### 2.1.3 Unit test ‚Äúproduction‚Äù : une seule ligne en entr√©e

##### Objectif du test

En situation r√©elle, le mod√®le re√ßoit souvent une ligne du type :

- date = `2017-08-16`
- store_nbr = `1`
- item_nbr = `96995`
- onpromotion = `False`

L‚Äôutilisateur ne fournit **jamais** les ventes du jour (la cible) : c‚Äôest justement ce qu‚Äôon veut pr√©dire.

Le test unitaire v√©rifie donc que :

- le pipeline ne demande pas `unit_sales`,
- il enrichit correctement la ligne avec toutes les features,
- il g√®re les dates futures sans planter,
- il respecte la logique anti-leakage et le **feature gap**.

---

#### 2.1.4 Comment les features sont-elles calcul√©es dans ce cas ?

Le pipeline applique exactement la m√™me logique que pour le test ou la validation.

##### A) Features calendrier (toujours disponibles)
Calcul√©es directement √† partir de la date :

- `year`, `month`, `day`, `dow`, `is_weekend`, etc.

> Aucun besoin d‚Äôhistorique.

##### B) Promotion
Si `onpromotion` est fourni :

- `onpromo = 1` si True, sinon 0

Si non fourni :

- `onpromo = 0` par d√©faut

##### C) Encodages statistiques (`store_freq`, `item_freq`)
Ces variables ne sont **pas recalcul√©es** sur la nouvelle ligne.

Elles utilisent des objets appris au `fit()` :

- `store_freq = fr√©quence du store dans train_fit`
- `item_freq = fr√©quence du produit dans train_fit`

Si le store/item n‚Äôexiste pas dans l‚Äôhistorique :

- le `map()` renvoie `NaN`
- puis `fillna(0)` ‚Üí on obtient `0`

##### D) Variables externes : `transactions_roll14` (avec *feature gap*)
Cette feature est obtenue par lookup via :

- index `(store_nbr, date)`

Deux cas :

1. **Date disponible dans `transactions.csv`**  
   ‚Üí on r√©cup√®re directement la valeur `transactions_roll14` calcul√©e dans `fit()`

2. **Date future ou manquante**  
   ‚Üí fallback : la **derni√®re valeur connue** du magasin  
   `last_roll_by_store[store]`

Si m√™me √ßa n‚Äôexiste pas (store absent) :

- fallback final = `0`

**Important :** `transactions_roll14` est une variable **au niveau magasin**.  
Donc pour un m√™me `(store, date)`, elle est identique pour tous les items du store : c‚Äôest normal.

**Feature gap :** si `feature_gap_days = G`, alors :

\[
transactions\_roll14(t)
= \frac{1}{14} \sum_{j=1}^{14} transactions_{t-(G+j)}
\]

Autrement dit, si \(G=3\), on utilise \(t-4..t-17\) (et pas les 3 jours les plus r√©cents).

##### E) Variables externes : `oil_roll14` (sans gap additionnel)
M√™me principe :

1. si la date existe dans `oil.csv` ‚Üí lookup direct  
2. sinon ‚Üí fallback : moyenne des 30 derniers jours connus (calcul√©e au fit)

Le test unitaire v√©rifie donc que le pipeline ne casse pas quand la date est future.

##### F) Variables jours f√©ri√©s : `is_holiday_effective`
Le pipeline v√©rifie si la date est un jour f√©ri√© :

- d‚Äôabord au niveau national,
- puis overwrite au niveau store (local/r√©gional) si applicable.

Si aucune correspondance :

- `is_holiday_effective = 0`

##### G) Variables de s√©ries temporelles (cible) : lags et rollings (avec *feature gap*)
Ces variables doivent absolument respecter l‚Äôanti-leakage et le retard d‚Äôacc√®s aux informations.

Dans le pipeline :

- `sales_history_days = 120` (fen√™tre max d‚Äôhistorique stock√©e)
- `sales_lag28`
- `sales_roll14`

Le pipeline stocke une s√©rie historique :

\[
(store\_nbr, item\_nbr, date) \rightarrow y
\]
avec \(y = unit\_sales\_log\) (ou `unit_sales_clean` selon la cible utilis√©e).

**Lag 28 avec gap \(G\)** :
\[
sales\_lag28(t) = y_{t-(28+G)}
\]

- le pipeline cherche la valeur √† la date `t-(28+G)`
- si absent ‚Üí la valeur reste **NaN**
- on ajoute un indicateur :
  - `sales_lag28_avail = 1` si trouv√©, sinon 0

**Rolling 14 avec gap \(G\)** :
\[
sales\_roll14(t) = \frac{1}{cnt}\sum_{j=1}^{14} y_{t-(G+j)}
\]

- le pipeline cherche `y(t-(G+1)) ... y(t-(G+14))`
- il additionne ce qui existe (`acc`)
- il compte le nombre de valeurs trouv√©es (`cnt`)

R√©sultat :

- si `cnt > 0` : `sales_roll14 = acc / cnt`
- sinon : `sales_roll14 = NaN`

On conserve aussi :
- `sales_roll14_cnt`
- `sales_roll14_frac = cnt/14`

‚úÖ **Pourquoi c‚Äôest important ?**  
Parce que la strat√©gie `NaN + cnt/frac` permet de distinguer :
- ‚Äúhistorique manquant‚Äù ‚Üí NaN (avec `cnt=0`)
- ‚Äúventes r√©ellement proches de 0‚Äù ‚Üí valeur proche de 0 (avec `cnt>0`)

---



#### 2.1.6 Exemple de sc√©nario de test unitaire ‚Äúclair‚Äù

On choisit une observation :

- date = `2017-08-16`
- store = `1`
- item = `96995`
- promo = `False`

Le pipeline :

1. cr√©e les features date (`dow`, `month`, etc.)
2. convertit `promo` en indicateur num√©rique
3. r√©cup√®re `store_freq` et `item_freq` appris au fit
4. r√©cup√®re `transactions_roll14` (lookup ou derni√®re valeur store)
5. r√©cup√®re `oil_roll14` (lookup ou moyenne 30j)
6. d√©termine `is_holiday_effective`
7. calcule `sales_lag28` et `sales_roll14` avec **feature gap**, √† partir de l‚Äôhistorique uniquement
8. renvoie une ligne enrichie exploitable par le mod√®le



In [21]:
import pandas as pd
import numpy as np

# 1) Exemple d'input "prod"
new_row = pd.DataFrame({
    "date": ["2017-08-16"],
    "store_nbr": [2],
    "item_nbr": [396540],
    "onpromotion": [False]
})
new_row["date"] = pd.to_datetime(new_row["date"])

# 2) Transform
new_enriched = pipe.transform(new_row)

print("=== INPUT ===")
print(new_row)

print("\n=== OUTPUT (features) ===")
print(new_enriched.T)  # transpose pour voir colonne par colonne

=== INPUT ===
        date  store_nbr  item_nbr  onpromotion
0 2017-08-16          2    396540        False

=== OUTPUT (features) ===
                                        0
date                  2017-08-16 00:00:00
store_nbr                               2
item_nbr                           396540
onpromotion                         False
year                                 2017
month                                   8
day                                    16
dow                                     2
is_weekend                              0
onpromo                                 0
store_freq                           0.02
item_freq                            0.00
perishable                              0
family_freq_items                    0.00
class_freq_items                     0.00
class_freq_in_family                 0.00
cluster                                13
type_freq                            0.36
state_freq                           0.41
city_freq                

# **Mod√©lisation**

In [22]:
from sklearn import linear_model
import numpy as np
from sklearn.metrics import r2_score


import statsmodels.formula.api as smf
from sklearn import metrics
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from statsmodels.stats.diagnostic import het_white , normal_ad

### **S√©paration de variable cible et explicatives**

In [23]:

X_train_descript = X_train.loc[:, [
    # temporel
    "year", "month", "day", "dow", "is_weekend",

    # promotion
    "onpromo",

    # historique des ventes
    "sales_lag28",
    "sales_lag28_avail",
    "sales_roll14",
    "sales_roll14_cnt",
    "sales_roll14_frac",

    # activit√© magasin
    "transactions_roll14",

    # macro
    "oil_roll14",

    # calendrier
    "is_holiday_effective",

    # structure produit / magasin
    "perishable",
    "store_freq",
    "item_freq",
    "family_freq_items",
    "class_freq_items",
    "class_freq_in_family",
    "cluster",
    "type_freq",
    "state_freq",
    "city_freq",
    "city_freq_in_state"
]]

X_train_cible = X_train["unit_sales_log"]

In [24]:
X_test_descript = X_test.loc[:, [
    # temporel
    "year", "month", "day", "dow", "is_weekend",

    # promotion
    "onpromo",

    # historique des ventes
    "sales_lag28",
    "sales_lag28_avail",
    "sales_roll14",
    "sales_roll14_cnt",
    "sales_roll14_frac",

    # activit√© magasin
    "transactions_roll14",

    # macro
    "oil_roll14",

    # calendrier
    "is_holiday_effective",

    # structure produit / magasin
    "perishable",
    "store_freq",
    "item_freq",
    "family_freq_items",
    "class_freq_items",
    "class_freq_in_family",
    "cluster",
    "type_freq",
    "state_freq",
    "city_freq",
    "city_freq_in_state"
]]

X_test_cible = X_test["unit_sales_log"]

Les variables explicatives ont √©t√© s√©lectionn√©es de mani√®re √† ne contenir que des informations disponibles au moment de la pr√©diction. Elles regroupent des variables temporelles, des indicateurs de promotion, des statistiques historiques des ventes, des caract√©ristiques structurelles des produits et des magasins, ainsi que des variables macro√©conomiques et calendaires. La variable cible correspond aux ventes unitaires transform√©es par la fonction log(1 + ventes) afin d‚Äôam√©liorer la stabilit√© statistique.

### **Standardisation**

In [None]:
# Standardisons les donn√©es :

std_scaler = StandardScaler().fit(X_train_descript)  # Standardize features by removing the mean and scaling to unit variance.
X_train_descript_std = std_scaler.transform(X_train_descript)
X_test_descript_std = std_scaler.transform(X_test_descript)

Dans ce projet de pr√©diction des ventes (`unit_sales`), la base de donn√©es contient de nombreuses variables explicatives sur **des √©chelles tr√®s diff√©rentes** :  
- Variables binaires : `onpromotion`, `is_weekend`, `perishable`  
- Variables continues : `transactions_roll14`, `oil_roll14`, `sales_lag28`, etc., qui peuvent avoir des valeurs allant de 0 √† plusieurs milliers.  

Pour que notre mod√®le ML apprenne de mani√®re stable et efficace, nous avons appliqu√© une **standardisation** des variables continues.  
Cette transformation consiste √† centrer chaque variable sur sa moyenne et √† la diviser par son √©cart-type :  

$$
X_\text{standardized} = \frac{X - \text{moyenne}}{\text{√©cart-type}}
$$


## **Regression lin√©aire**

### **Fonction de metrique**

In [25]:
from sklearn import metrics
import numpy as np
import pandas as pd

# -----------------------------
# 3. Fonction m√©triques
# -----------------------------
def compute_metrics(y_true, y_pred):
    mse  = np.mean((y_pred - y_true) ** 2)
    rmse = np.sqrt(mse)
    mae  = metrics.mean_absolute_error(y_true, y_pred)
    mape = metrics.mean_absolute_percentage_error(y_true, y_pred)
    r2   = metrics.r2_score(y_true, y_pred)

    return mse, rmse, mae, 100*mape, r2


### **Remplacement des NA**

In [31]:
# -----------------------------
# Gestion robuste des NA (valeur suivante non-NA)
# -----------------------------

# 1. Tri temporel (OBLIGATOIRE)
X_train_descript = X_train_descript.sort_index()
X_test_descript  = X_test_descript.sort_index()

# 2. Remplacement par la valeur suivante disponible
X_train_descript = X_train_descript.bfill()
X_test_descript  = X_test_descript.bfill()

# 3. S√©curisation finale (cas extr√™mes uniquement)
#    -> s'il reste des NA, on propage la derni√®re valeur connue
X_train_descript = X_train_descript.ffill()
X_test_descript  = X_test_descript.ffill()

# 4. V√©rification stricte
assert X_train_descript.isna().sum().sum() == 0, "NA encore pr√©sents dans X_train"
assert X_test_descript.isna().sum().sum() == 0, "NA encore pr√©sents dans X_test"

print("‚úÖ NA correctement remplac√©s par la valeur suivante non-NA")


‚úÖ NA correctement remplac√©s par la valeur suivante non-NA


Dans notre jeu de donn√©es, certaines valeurs des variables explicatives sont manquantes (NaN), ce qui emp√™che l‚Äôentra√Ænement de mod√®les de r√©gression comme LinearRegression de scikit-learn, qui ne g√®re pas nativement les valeurs manquantes. Pour r√©soudre ce probl√®me, nous avons choisi d‚Äôimputer les valeurs manquantes en les rempla√ßant par la moyenne (ou alternativement la m√©diane) de chaque variable. Cette m√©thode pr√©sente plusieurs avantages : elle est simple √† mettre en ≈ìuvre, pr√©serve l‚Äôensemble des observations, et r√©duit le risque de biais, surtout lorsque les NaN sont rares ou distribu√©s al√©atoirement. L‚Äôimputation par la moyenne ou la m√©diane permet donc de continuer l‚Äôanalyse tout en conservant la coh√©rence des donn√©es, sans introduire de valeurs extr√™mes qui pourraient affecter la performance du mod√®le.

In [32]:
# On cr√©e un mod√®le de r√©gression lin√©aire
lr = linear_model.LinearRegression()

# On entra√Æne ce mod√®le sur les donn√©es d'entrainement
lr.fit(X_train_descript, X_train_cible)

# Prediction sur le jeu de donn√©es test comme baseline
y_test_pred = lr.predict(X_test_descript)
y_train_pred = lr.predict(X_train_descript)


### **Calcule des m√©triques**

In [34]:
import numpy as np
import pandas as pd
from sklearn import metrics

# -----------------------------
# 1. Fonction m√©triques
# -----------------------------
from sklearn import metrics
import numpy as np

def compute_metrics(y_true, y_pred):
    mse  = np.mean((y_pred - y_true) ** 2)
    rmse = np.sqrt(mse)
    mae  = metrics.mean_absolute_error(y_true, y_pred)
    r2   = metrics.r2_score(y_true, y_pred)

    # MAPE filtr√© (on exclut les z√©ros)
    mask = y_true != 0
    mape = np.mean(np.abs((y_true[mask] - y_pred[mask]) / y_true[mask]))

    return mse, rmse, mae, 100*mape, r2

# -----------------------------
# 2. Calcul des m√©triques
# -----------------------------
train_metrics = compute_metrics(X_train_cible, y_train_pred)
test_metrics  = compute_metrics(X_test_cible, y_test_pred)

# -----------------------------
# 3. Tableau comparatif
# -----------------------------
results = pd.DataFrame({
    "Dataset": ["Train", "Test"],
    "MSE":  [train_metrics[0], test_metrics[0]],
    "RMSE": [train_metrics[1], test_metrics[1]],
    "MAE":  [train_metrics[2], test_metrics[2]],
    "MAPE (%)": [train_metrics[3], test_metrics[3]],
    "R¬≤":   [train_metrics[4], test_metrics[4]]
})

# -----------------------------
# 4. Mise en forme
# -----------------------------
results_styled = (
    results.round(3)
           .style
           .set_caption("Comparaison des performances du mod√®le de Machine Learning")
           .background_gradient(
               cmap="Oranges",
               subset=["MSE", "RMSE", "MAE", "MAPE (%)"]
           )
           .background_gradient(
               cmap="Greens",
               subset=["R¬≤"]
           )
           .hide(axis="index")
           .set_table_styles(
               [
                   {"selector": "caption",
                    "props": [("font-size", "16px"),
                              ("font-weight", "bold"),
                              ("text-align", "center"),
                              ("color", "#2a4d69")]},
                   {"selector": "th",
                    "props": [("background-color", "green"),
                              ("color", "black"),
                              ("font-size", "14px")]}
               ]
           )
)

results_styled


Dataset,MSE,RMSE,MAE,MAPE (%),R¬≤
Train,0.71,0.843,0.669,52.436001,0.064
Test,0.693,0.833,0.661,52.558998,0.059


Les r√©sultats de notre mod√®le de r√©gression lin√©aire montrent un MSE de **0.71**, ce qui correspond √† un RMSE de **0.84**, et une MAE de **0.67**. Ces valeurs indiquent que, en moyenne, l‚Äôerreur absolue des pr√©dictions du mod√®le sur le jeu de test est d‚Äôenviron **0.67** unit√©s (en √©chelle log-transform√©e si l‚Äôon utilise unit_sales_log), ce qui est raisonnable pour un premier mod√®le baseline.

En ce qui concerne le MAPE, qui mesure l‚Äôerreur en pourcentage, nous avons filtr√© les ventes nulles pour √©viter l‚Äôexplosion de l‚Äôindicateur. Le MAPE filtr√© est de **52.42‚ÄØ%**, ce qui reste √©lev√© mais attendu dans le contexte des ventes retail o√π de nombreux articles ont des ventes tr√®s faibles ou nulles certains jours. Cette valeur souligne que la r√©gression lin√©aire, bien que simple et interpr√©table, ne capture pas encore pleinement la complexit√© temporelle et saisonni√®re des ventes.

Le mod√®le pr√©sente un **R¬≤ de 0.064**, ce qui signifie qu‚Äôil n‚Äôexplique que **6,4‚ÄØ%** de la variance des ventes. Autrement dit, la grande majorit√© de la variabilit√© des ventes n‚Äôest pas captur√©e par ce mod√®le simple.

En parall√®le, les m√©triques d‚Äôerreur **(RMSE = 0.84, MAE = 0.67, MAPE filtr√© = 52.42‚ÄØ%)** indiquent que, bien que le mod√®le fournisse des pr√©dictions num√©riques, elles restent relativement impr√©cises, notamment pour les articles avec des ventes faibles ou irr√©guli√®res.

### **Modele lin√©aire lasso, rigde, elast**

In [35]:
import warnings
from sklearn.exceptions import ConvergenceWarning

# Masquer les avertissements
warnings.filterwarnings("ignore", category=UserWarning)
warnings.filterwarnings("ignore", category=ConvergenceWarning)

In [36]:
from sklearn.linear_model import Ridge, Lasso, ElasticNet
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn import metrics
import numpy as np
import pandas as pd

# -----------------------------
# 1. Fonction m√©triques
# -----------------------------
def compute_metrics(y_true, y_pred):
    mse  = np.mean((y_pred - y_true) ** 2)
    rmse = np.sqrt(mse)
    mae  = metrics.mean_absolute_error(y_true, y_pred)
    r2   = metrics.r2_score(y_true, y_pred)
    # MAPE filtr√© (on exclut les z√©ros)
    mask = y_true != 0
    mape = np.mean(np.abs((y_true[mask] - y_pred[mask]) / y_true[mask]))
    return mse, rmse, mae, 100*mape, r2

# -----------------------------
# 2. D√©finition des mod√®les
# -----------------------------
models = {
    "Ridge (alpha=1.0)": Ridge(alpha=1.0, random_state=42),
    "Lasso (alpha=0.01)": Lasso(alpha=0.01, random_state=42, max_iter=10000),
    "ElasticNet (alpha=0.01, l1_ratio=0.5)": ElasticNet(alpha=0.01, l1_ratio=0.5, random_state=42, max_iter=10000)
}

results = []

# -----------------------------
# 3. Boucle sur chaque mod√®le
# -----------------------------
for name, model in models.items():
    # Pipeline : standardisation + mod√®le
    pipe = Pipeline([
        ('scaler', StandardScaler()),
        ('model', model)
    ])

    # Entra√Ænement
    pipe.fit(X_train_descript, X_train_cible)

    # Pr√©dictions
    y_train_pred = pipe.predict(X_train_descript)
    y_test_pred  = pipe.predict(X_test_descript)

    # Calcul des m√©triques avec la fonction
    metrics_train = compute_metrics(X_train_cible, y_train_pred)
    metrics_test  = compute_metrics(X_test_cible, y_test_pred)

    # Ajouter au tableau
    results.append([name] + list(metrics_train) + list(metrics_test))

# -----------------------------
# 4. Cr√©ation du DataFrame comparatif
# -----------------------------
columns = ["Model",
           "MSE Train", "RMSE Train", "MAE Train", "MAPE Train (%)", "R¬≤ Train",
           "MSE Test",  "RMSE Test",  "MAE Test",  "MAPE Test (%)", "R¬≤ Test"]

results_df = pd.DataFrame(results, columns=columns)
results_df


  return linalg.solve(A, Xy, assume_a="pos", overwrite_a=True).T


Unnamed: 0,Model,MSE Train,RMSE Train,MAE Train,MAPE Train (%),R¬≤ Train,MSE Test,RMSE Test,MAE Test,MAPE Test (%),R¬≤ Test
0,Ridge (alpha=1.0),0.33,0.57,0.44,34.19,0.57,0.35,0.59,0.45,34.94,0.52
1,Lasso (alpha=0.01),0.33,0.57,0.44,34.39,0.57,0.35,0.59,0.45,35.06,0.52
2,"ElasticNet (alpha=0.01, l1_ratio=0.5)",0.33,0.57,0.44,34.3,0.57,0.35,0.59,0.45,34.94,0.52


Les r√©sultats montrent que les trois mod√®les lin√©aires p√©nalis√©s (Ridge, Lasso et ElasticNet) offrent des performances quasi identiques, aussi bien sur l‚Äô√©chantillon d‚Äôentra√Ænement que sur l‚Äô√©chantillon de test. Les valeurs de RMSE **(‚âà 0,59 en test), de MAE (‚âà 0,45) et de MAPE (‚âà 35 %)** sont tr√®s proches, tout comme le coefficient de d√©termination R¬≤ d‚Äôenviron 0,52, indiquant une capacit√© explicative moyenne du mod√®le. L‚Äô√©cart tr√®s faible entre les m√©triques train et test sugg√®re l‚Äôabsence de surapprentissage, ce qui confirme une bonne g√©n√©ralisation. Par ailleurs, le fait que **Lasso et ElasticNet** n‚Äôam√©liorent pas significativement les performances par rapport √† Ridge indique que la p√©nalisation L1 (s√©lection de variables) n‚Äôapporte pas de gain notable, ce qui sugg√®re que les variables explicatives sont globalement pertinentes et peu redondantes dans ce cadre.



###

### **Model LightGBM, catboost, Naive, Seasonal Naive**

In [37]:
# -----------------------------
# Packages
# -----------------------------
import numpy as np
import pandas as pd
from sklearn import metrics
import lightgbm as lgb
from catboost import CatBoostRegressor

# -----------------------------
# 1. Fonction m√©triques
# -----------------------------
def compute_metrics(y_true, y_pred):
    y_true = np.asarray(y_true)
    y_pred = np.asarray(y_pred)

    mse  = np.mean((y_pred - y_true) ** 2)
    rmse = np.sqrt(mse)
    mae  = metrics.mean_absolute_error(y_true, y_pred)
    r2   = metrics.r2_score(y_true, y_pred)

    mask = y_true != 0
    mape = np.mean(np.abs((y_true[mask] - y_pred[mask]) / y_true[mask]))

    return mse, rmse, mae, 100*mape, r2

# -----------------------------
# 2. BASELINES CORRECTES
# -----------------------------
# Naive : derni√®re valeur connue
y_naive_pred_test = np.full(
    shape=len(X_test_cible),
    fill_value=X_train_cible.values[-1]
)

# Seasonal Naive (p√©riode = 7)
season = 7
last_season = X_train_cible.values[-season:]
y_seasonal_naive_test = np.tile(
    last_season,
    int(np.ceil(len(X_test_cible) / season))
)[:len(X_test_cible)]

# -----------------------------
# 3. Mod√®les ML (PARAM√àTRES STABLES)
# -----------------------------
models = {
    "LightGBM": lgb.LGBMRegressor(
        n_estimators=300,
        learning_rate=0.05,
        num_leaves=31,
        random_state=42,
        verbosity=-1,
        force_row_wise=True
    ),
    "CatBoost": CatBoostRegressor(
        iterations=300,
        learning_rate=0.05,
        depth=6,
        random_seed=42,
        verbose=False
    )
}

results = []

# -----------------------------
# 4. Entra√Ænement & √©valuation ML
# -----------------------------
for name, model in models.items():
    model.fit(X_train_descript, X_train_cible)

    y_train_pred = model.predict(X_train_descript)
    y_test_pred  = model.predict(X_test_descript)

    results.append(
        [name]
        + list(compute_metrics(X_train_cible, y_train_pred))
        + list(compute_metrics(X_test_cible, y_test_pred))
    )

# -----------------------------
# 5. Ajout des baselines (TEST ONLY)
# -----------------------------
results.append(
    ["Naive"]
    + [np.nan]*5
    + list(compute_metrics(X_test_cible, y_naive_pred_test))
)

results.append(
    ["Seasonal Naive"]
    + [np.nan]*5
    + list(compute_metrics(X_test_cible, y_seasonal_naive_test))
)

# -----------------------------
# 6. Tableau final
# -----------------------------
columns = [
    "Model",
    "MSE Train", "RMSE Train", "MAE Train", "MAPE Train (%)", "R¬≤ Train",
    "MSE Test",  "RMSE Test",  "MAE Test",  "MAPE Test (%)",  "R¬≤ Test"
]

results_df = pd.DataFrame(results, columns=columns)
results_df = results_df.sort_values("R¬≤ Test", ascending=False).reset_index(drop=True)

results_df


Unnamed: 0,Model,MSE Train,RMSE Train,MAE Train,MAPE Train (%),R¬≤ Train,MSE Test,RMSE Test,MAE Test,MAPE Test (%),R¬≤ Test
0,LightGBM,0.28,0.53,0.41,32.01,0.63,0.31,0.56,0.43,32.61,0.58
1,CatBoost,0.29,0.53,0.41,32.39,0.62,0.31,0.56,0.43,32.93,0.58
2,Naive,,,,,,1.01,1.0,0.86,80.97,-0.37
3,Seasonal Naive,,,,,,4.83,2.2,1.43,113.48,-5.55


## **Optimisation des hyperparam√®tres**

### **Validation crois√©e temporelle**

In [27]:
from sklearn.model_selection import TimeSeriesSplit

tscv = TimeSeriesSplit(n_splits=3)

### **Grilles de param√®tres**

In [29]:
param_grids = {
    "Ridge": {
        "model__alpha": np.logspace(-3, 2, 50)
    },
    "Lasso": {
        "model__alpha": np.logspace(-4, 1, 50)
    },
    "ElasticNet": {
        "model__alpha": np.logspace(-4, 1, 30),
        "model__l1_ratio": np.linspace(0.1, 0.9, 9)
    }
}


### **D√©finition des pipelines**

In [30]:
models = {
    "Ridge optimis√©": Ridge(random_state=42),
    "Lasso optimis√©": Lasso(random_state=42, max_iter=20000),
    "ElasticNet optimis√©": ElasticNet(random_state=42, max_iter=20000)
}

### **Optimisation des hyperparam√®tres**

In [None]:
from sklearn.model_selection import RandomizedSearchCV
results = []

for name, model in models.items():

    pipe = Pipeline([
        ("scaler", StandardScaler()),
        ("model", model)
    ])

    search = RandomizedSearchCV(
        estimator=pipe,
        param_distributions=param_grids[name.split()[0]],
        n_iter=20,
        scoring="neg_root_mean_squared_error",
        cv=tscv,
        random_state=42,
        n_jobs=-1
    )

    search.fit(X_train_descript, X_train_cible)

    best_model = search.best_estimator_

    print(f"\n{name}")
    print("Meilleurs param√®tres :", search.best_params_)

    # Pr√©dictions
    y_train_pred = best_model.predict(X_train_descript)
    y_test_pred  = best_model.predict(X_test_descript)

    # M√©triques
    train_metrics = compute_metrics(X_train_cible, y_train_pred)
    test_metrics  = compute_metrics(X_test_cible, y_test_pred)

    results.append([name] + list(train_metrics) + list(test_metrics))


### **Tableau comparatif**

In [None]:
columns = ["Model",
           "MSE Train", "RMSE Train", "MAE Train", "MAPE Train (%)", "R¬≤ Train",
           "MSE Test",  "RMSE Test",  "MAE Test",  "MAPE Test (%)", "R¬≤ Test"]

results_df_optimized_linear = pd.DataFrame(results, columns=columns)
results_df_optimized_linear = results_df_optimized_linear.sort_values(
    "R¬≤ Test", ascending=False
).reset_index(drop=True)

results_df_optimized_linear


L‚Äôoptimisation des hyperparam√®tres des mod√®les Ridge, Lasso et ElasticNet √† l‚Äôaide de RandomizedSearchCV et d‚Äôune validation crois√©e temporelle a permis d‚Äôam√©liorer leur capacit√© de g√©n√©ralisation. En ajustant le param√®tre de r√©gularisation Œ± (et le ratio L1/L2 pour ElasticNet), les mod√®les optimis√©s pr√©sentent une r√©duction des erreurs de pr√©diction ainsi qu‚Äôune am√©lioration du coefficient de d√©termination R¬≤ sur le jeu de test. Ces r√©sultats confirment l‚Äôimportance de la r√©gularisation adapt√©e dans les mod√®les lin√©aires, en particulier dans un contexte de donn√©es corr√©l√©es et de grande dimension.

### **Optimisation de lightGBM**

In [31]:
from lightgbm import LGBMRegressor
from sklearn.model_selection import RandomizedSearchCV, TimeSeriesSplit

# -----------------------------
# 1. Mod√®le LightGBM (silencieux et stable)
# -----------------------------
lgb_model = LGBMRegressor(
    random_state=42,
    verbosity=-1,        # supprime les logs
    force_row_wise=True  # √©vite les warnings + plus stable
)

# -----------------------------
# 2. Grille de param√®tres R√âDUITE (cl√©)
# -----------------------------
param_grid_lgb = {
    "n_estimators": [200, 300],
    "learning_rate": [0.05, 0.1],
    "num_leaves": [31, 50],
    "max_depth": [-1, 10],
    "min_child_samples": [50, 100],
    "subsample": [0.8, 1.0],
    "colsample_bytree": [0.8, 1.0]
}

# -----------------------------
# 3. Validation temporelle
# -----------------------------
tscv = TimeSeriesSplit(n_splits=3)

# -----------------------------
# 4. Randomized Search S√âCURIS√â
# -----------------------------
lgb_search = RandomizedSearchCV(
    estimator=lgb_model,
    param_distributions=param_grid_lgb,
    n_iter=5,                 # üî• cl√© : r√©duit mais suffisant
    scoring="neg_root_mean_squared_error",
    cv=tscv,
    random_state=42,
    n_jobs=1,                 # üî• √©vite crash m√©moire
    verbose=1                 # üî• feedback visible
)

# -----------------------------
# 5. Entra√Ænement
# -----------------------------
lgb_search.fit(X_train_descript, X_train_cible)

# -----------------------------
# 6. AFFICHAGE GARANTI
# -----------------------------
print("\n==============================")
print("Meilleurs param√®tres LightGBM")
print("==============================")
print(lgb_search.best_params_)

print("\nMeilleur RMSE CV :",
      -lgb_search.best_score_)

best_lgb = lgb_search.best_estimator_


Fitting 3 folds for each of 5 candidates, totalling 15 fits

Meilleurs param√®tres LightGBM
{'subsample': 1.0, 'num_leaves': 50, 'n_estimators': 300, 'min_child_samples': 50, 'max_depth': 10, 'learning_rate': 0.1, 'colsample_bytree': 0.8}

Meilleur RMSE CV : 0.5160968116783878


### **Optimisation de Catboost**

In [None]:
from catboost import CatBoostRegressor

# -----------------------------
# 1. Mod√®le CatBoost
# -----------------------------
from catboost import CatBoostRegressor

cat_model = CatBoostRegressor(
    loss_function="RMSE",
    iterations=800,
    learning_rate=0.05,
    depth=6,
    l2_leaf_reg=3,
    random_seed=42,
    verbose=200,
    early_stopping_rounds=50
)

# -----------------------------
# 2. Grille de param√®tres
# -----------------------------
param_grid_cat = {
    "iterations": [300, 500, 800],
    "learning_rate": [0.01, 0.05, 0.1],
    "depth": [4, 6, 8],
    "l2_leaf_reg": [1, 3, 5, 7]
}

# -----------------------------
# 3. Random Search
# -----------------------------
cat_search = RandomizedSearchCV(
    estimator=cat_model,
    param_distributions=param_grid_cat,
    n_iter=15,
    scoring="neg_root_mean_squared_error",
    cv=tscv,
    random_state=42,
    n_jobs=-1
)

cat_model.fit(
    X_train_descript,
    X_train_cible,
    eval_set=(X_test_descript, X_test_cible),
    use_best_model=True
)


best_cat = cat_search.best_estimator_
print("Meilleurs param√®tres CatBoost :", cat_search.best_params_)


### **Comparaison**

In [None]:
# -----------------------------
# Pr√©dictions
# -----------------------------
y_train_pred_lgb = best_lgb.predict(X_train_descript)
y_test_pred_lgb  = best_lgb.predict(X_test_descript)

y_train_pred_cat = best_cat.predict(X_train_descript)
y_test_pred_cat  = best_cat.predict(X_test_descript)

# -----------------------------
# Calcul des m√©triques
# -----------------------------
results = []

for name, ytr, yte in [
    ("LightGBM optimis√©", y_train_pred_lgb, y_test_pred_lgb),
    ("CatBoost optimis√©", y_train_pred_cat, y_test_pred_cat)
]:
    train_metrics = compute_metrics(X_train_cible, ytr)
    test_metrics  = compute_metrics(X_test_cible, yte)

    results.append([name] + list(train_metrics) + list(test_metrics))

# -----------------------------
# Tableau comparatif
# -----------------------------
columns = ["Model",
           "MSE Train", "RMSE Train", "MAE Train", "MAPE Train (%)", "R¬≤ Train",
           "MSE Test",  "RMSE Test",  "MAE Test",  "MAPE Test (%)", "R¬≤ Test"]

results_df_optimized = pd.DataFrame(results, columns=columns)
results_df_optimized


L‚Äôoptimisation des hyperparam√®tres via RandomizedSearchCV a permis d‚Äôam√©liorer les performances des mod√®les LightGBM et CatBoost. Compar√©s aux versions non optimis√©es, les mod√®les ajust√©s pr√©sentent une r√©duction des erreurs de pr√©diction (RMSE et MAPE) ainsi qu‚Äôune am√©lioration du coefficient de d√©termination R¬≤ sur le jeu de test. Ces r√©sultats confirment l‚Äôimportance du tuning des hyperparam√®tres pour exploiter pleinement la capacit√© pr√©dictive des mod√®les de type Gradient Boosting, en particulier dans un contexte de s√©ries temporelles avec de nombreuses variables explicatives.