<img src="https://www.bestdesigns.co/uploads/inspiration_images/4350/990__1511457498_404_walmart.png" alt="WALMART LOGO" />



                             
                               
                               
# ## Walmart : prédire les ventes hebdomadaires

## Description de l'entreprise 📇

Walmart Inc. est une société multinationale américaine de vente au détail qui exploite une chaîne d'hypermarchés, de grands magasins à prix réduits et d'épiceries aux États-Unis, dont le siège social est situé à Bentonville, dans l'Arkansas. L'entreprise a été fondée par Sam Walton en 1962.

## Projet 🚧

Le service marketing de Walmart vous a demandé de construire un modèle de machine learning capable d'estimer les ventes hebdomadaires dans leurs magasins, avec la meilleure précision possible sur les prédictions effectuées. Un tel modèle les aiderait à mieux comprendre comment les ventes sont influencées par les indicateurs économiques, et pourrait être utilisé pour planifier de futures campagnes marketing.

## Objectifs 🎯

Le projet peut être divisé en trois étapes :

- Partie 1 : faire un EDA et tous les prétraitements nécessaires pour préparer les données pour l'apprentissage automatique.
- Partie 2 : entraîner un **modèle de régression linéaire** (baseline)  (ligne de base).
- Partie 3 : éviter l'overfitting en entraînant un **modèle de régression régularisé**.

## Portée de ce projet 🖼️

Pour ce projet, vous travaillerez avec un jeu de données qui contient des informations sur les ventes hebdomadaires réalisées par différents magasins Walmart, et d'autres variables telles que le taux de chômage ou le prix du carburant, qui pourraient être utiles pour prédire le montant des ventes. Le jeu de données provient d'une compétition Kaggle, mais nous avons apporté quelques modifications par rapport aux données originales. Veuillez vous assurer que vous utilisez **notre** jeu de données personnalisé (disponible sur JULIE). 🤓


                             
# ## Livrable 📬

Pour réaliser ce projet, votre équipe doit : 

- Créer des visualisations
- Entraîner au moins un **modèle de régression linéaire** sur le jeu de données, qui prédit le montant des ventes hebdomadaires en fonction des autres variables.
- Évaluer les performances du modèle en utilisant une métrique qui est pertinente pour les problèmes de régression.
- Interprétez les coefficients du modèle pour identifier les caractéristiques importantes pour la prédiction.
- Entraînez au moins un modèle avec **régularisation (Lasso ou Ridge)** pour réduire l'overfitting.


                                                                                              
# ## Aides 🦮

Pour vous aider à réaliser ce projet, voici quelques conseils qui devraient vous aider : 

### Partie 1 : EDA et prétraitement des données.

Commencez votre projet en explorant votre jeu de données : créez des figures, calculez quelques statistiques etc....

Ensuite, vous devrez effectuer un prétraitement sur votre jeu de données. Vous pouvez suivre les directives du *modèle de prétraitement*. Il y aura également quelques transformations spécifiques à prévoir sur ce jeu de données, par exemple sur la colonne *Date* qui ne peut pas être incluse telle quelle dans le modèle. Voici quelques conseils qui pourront vous aider 🤓

 #### Prétraitement à prévoir avec pandas

 **Déposer les lignes où les valeurs cibles sont manquantes :**.
 - Ici, la variable cible (Y) correspond à la colonne *Ventes_hebdomadaires*. On peut voir ci-dessus qu'il y a quelques valeurs manquantes dans cette colonne.
 - Nous n'utilisons jamais de techniques d'imputation sur la cible : cela pourrait créer un biais dans les prédictions !
 - Nous allons donc supprimer les lignes du jeu de données pour lesquelles la valeur de *Ventes_hebdomadaires* est manquante.
 
**Créer des caractéristiques utilisables à partir de la colonne *Date* : **.
La colonne *Date* ne peut pas être incluse telle quelle dans le modèle. Soit vous pouvez abandonner cette colonne, soit vous créerez de nouvelles colonnes contenant les caractéristiques numériques suivantes : 
- *année*
- *mois*
- jour*
- *jour de la semaine*

**Supprimez les lignes contenant des valeurs invalides ou aberrantes :**
Dans ce projet, seront considérées comme aberrantes toutes les caractéristiques numériques qui ne sont pas comprises dans l'intervalle : $[\bar{X} - 3\sigma, \bar{X} + 3\sigma]$. Cela concerne les colonnes : *Température*, *Prix du carburant*, *IPC* et *Chômage*.
 


**Variable cible/cible (Y) que l'on va essayer de prédire, de séparer des autres** : *Ventes_hebdomadaires*

 **------------**

 #### Prétraitements à prévoir avec scikit-learn

 **Variables explicatives (X)**
Nous devons identifier quelles colonnes contiennent des variables catégorielles et quelles colonnes contiennent des variables numériques, car elles seront traitées différemment.

 - Variables catégorielles : Store, Holiday_Flag
 - Variables numériques : Température, Fuel_Price, CPI, Unemployment, Year, Month, Day, DayOfWeek.

### Partie 2 : Modèle de base (régression linéaire)
Une fois que vous avez formé un premier modèle, n'oubliez pas d'évaluer ses performances sur les ensembles de formation et de test. Etes-vous satisfait des résultats ?
De plus, il serait intéressant d'analyser les valeurs des coefficients du modèle pour savoir quelles caractéristiques sont importantes pour la prédiction. Pour ce faire, l'attribut `.coef_` de la classe LinearRegression de scikit-learn pourrait être utile. Veuillez vous référer au lien suivant pour plus d'informations 😉 https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html

### Partie 3 : Combattre l'overfitting
Dans cette dernière partie, vous allez devoir entraîner un modèle de régression linéaire **régularisé**. Vous trouverez ci-dessous quelques classes utiles dans la documentation de scikit-learn :
- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html#sklearn.linear_model.Ridge
- https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html#sklearn.linear_model.Lasso

**Question bonus**

Dans les modèles de régression régularisés, il y a un hyperparamètre appelé *la force de régularisation* qui peut être ajusté finement pour obtenir les meilleures prédictions généralisées sur un jeu de données donné. Ce réglage fin peut être effectué grâce à la classe GridSearchCV de scikit-learn : https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html.

Vous trouverez également ici quelques exemples d'utilisation de GridSearchCV avec des modèles Ridge ou Lasso : https://alfurka.github.io/2018-11-18-grid-search/