# import des librairies

In [1]:
import pandas as pd

import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.figure_factory as ff
import matplotlib.pyplot as plt

# Chargement des données

In [84]:
df = pd.read_csv("..\\data\\walmart_Store_Sales.csv")

## Exploration des données
### Affichage des premières lignes

In [85]:
df.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,6.0,18-02-2011,1572117.54,,59.61,3.045,214.777523,6.858
1,13.0,25-03-2011,1807545.43,0.0,42.38,3.435,128.616064,7.47
2,17.0,27-07-2012,,0.0,,,130.719581,5.936
3,11.0,,1244390.03,0.0,84.57,,214.556497,7.346
4,6.0,28-05-2010,1644470.66,0.0,78.89,2.759,212.412888,7.092


Pour bien comprendre les données, je vais chercher une date qui revient plusieurs fois. Cela me permettra de voir si les données sont liés au magasin (région) ou non

In [86]:
df['Date'].value_counts()
df_filtre = df[df['Date']=='19-10-2012']
df_filtre

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
63,5.0,19-10-2012,313358.15,0.0,69.17,3.594,224.019287,5.422
74,1.0,19-10-2012,1508068.77,0.0,67.97,3.594,223.425723,
134,6.0,19-10-2012,,0.0,69.68,3.594,225.050101,5.329
144,3.0,19-10-2012,424513.08,0.0,73.44,3.594,226.968844,6.034


Store - Numéro du magasin

Date - Semaine de vente (Toutes les dates sont des vendredis)

Weekly_Sales - Montant de vente de la semaine de vente pour le magasin (store)

Holiday_Flag - 1 si la semaine est une semaine de vacances, 0 sinon

Temperature - Temperature moyenne durant la semaine de vente (région du magasin)

Fuel_Price - Coût moyen du carburant durant la semaine de vente

CPI – Indice des prix à la consommation en vigueur (région du magasin)

Unemployment - Taux de chômage actuel (région du magasin)

# EDA et préprocessing

In [None]:
# Informations
print("Nombre de colonnes : {}".format(df.shape[1]))
print()

print("Nombre de lignes : {}".format(df.shape[0]))
print()

print("Affichage du dataset : ")
display(df.head())
print()

print("Statistiques basiques : ")
data_desc = df.describe(include="all")
display(data_desc)
print()

print("Pourcentage de valeurs manquantes : ")
Nb_Lignes = df.shape[0]
for column in df.columns:
    Nb_Null = df[column].isnull().sum()
    if Nb_Null != 0 :
        Pct_val_Null = round((Nb_Null/Nb_Lignes)*100,2)
        print(f"Dans la colonne {column}, il y a {Nb_Null} NULL soit {Pct_val_Null}%")

print("Type des donnees")
display (df.dtypes)

Nombre de colonnes : 8

Nombre de lignes : 150

Affichage du dataset : 


Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
0,6.0,18-02-2011,1572117.54,,59.61,3.045,214.777523,6.858
1,13.0,25-03-2011,1807545.43,0.0,42.38,3.435,128.616064,7.47
2,17.0,27-07-2012,,0.0,,,130.719581,5.936
3,11.0,,1244390.03,0.0,84.57,,214.556497,7.346
4,6.0,28-05-2010,1644470.66,0.0,78.89,2.759,212.412888,7.092



Statistiques basiques : 


Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment
count,150.0,132,136.0,138.0,132.0,136.0,138.0,135.0
unique,,85,,,,,,
top,,19-10-2012,,,,,,
freq,,4,,,,,,
mean,9.866667,,1249536.0,0.07971,61.398106,3.320853,179.898509,7.59843
std,6.231191,,647463.0,0.271831,18.378901,0.478149,40.274956,1.577173
min,1.0,,268929.0,0.0,18.79,2.514,126.111903,5.143
25%,4.0,,605075.7,0.0,45.5875,2.85225,131.970831,6.5975
50%,9.0,,1261424.0,0.0,62.985,3.451,197.908893,7.47
75%,15.75,,1806386.0,0.0,76.345,3.70625,214.934616,8.15



Pourcentage de valeurs manquantes : 
Dans la colonne Date, il y a 18 NULL soit 12.0%
Dans la colonne Weekly_Sales, il y a 14 NULL soit 9.33%
Dans la colonne Holiday_Flag, il y a 12 NULL soit 8.0%
Dans la colonne Temperature, il y a 18 NULL soit 12.0%
Dans la colonne Fuel_Price, il y a 14 NULL soit 9.33%
Dans la colonne CPI, il y a 12 NULL soit 8.0%
Dans la colonne Unemployment, il y a 15 NULL soit 10.0%
Type des données


Store           float64
Date             object
Weekly_Sales    float64
Holiday_Flag    float64
Temperature     float64
Fuel_Price      float64
CPI             float64
Unemployment    float64
dtype: object

On peut noter que seule la colonne Store est intégralement renseigné. Le cible (Weekly_Sales) ne l'est pas toujours et je vais devoir supprimer les lignes.

In [88]:
df_cleaned = df.dropna(subset=['Weekly_Sales'])
df_cleaned.shape

(136, 8)

On passe a 136 lignes après la suppression des 14 lignes sans valeur cible.

In [None]:
# je groupe par "store" pour determiner le nombre de na par "store"
df_na = df_cleaned.groupby("Store").apply(lambda group: group.isna().sum(), include_groups=False)

# Pour calculer le pourcentage de valeur manquante, je compte egalement le nombre de valeurs par "store"
df_value = df_cleaned.groupby("Store").apply(lambda group: group.notna().sum(), include_groups=False)

for store in df_na.index:
    na_counts = df_na.loc[store]
    value_counts = df_value.loc[store]
    total_na = na_counts.sum()
    total_value = value_counts.sum()
    ratio_na= round((total_na*100)/(total_value+total_na),2)
    print(f'le magasin {store} a {ratio_na}% de valeur manquante')

le magasin 1.0 a 9.52% de valeur manquante
le magasin 2.0 a 12.5% de valeur manquante
le magasin 3.0 a 7.14% de valeur manquante
le magasin 4.0 a 4.76% de valeur manquante
le magasin 5.0 a 8.93% de valeur manquante
le magasin 6.0 a 9.52% de valeur manquante
le magasin 7.0 a 8.93% de valeur manquante
le magasin 8.0 a 4.76% de valeur manquante
le magasin 9.0 a 10.71% de valeur manquante
le magasin 10.0 a 11.43% de valeur manquante
le magasin 11.0 a 14.29% de valeur manquante
le magasin 12.0 a 2.86% de valeur manquante
le magasin 13.0 a 3.17% de valeur manquante
le magasin 14.0 a 14.29% de valeur manquante
le magasin 15.0 a 10.71% de valeur manquante
le magasin 16.0 a 3.57% de valeur manquante
le magasin 17.0 a 14.29% de valeur manquante
le magasin 18.0 a 8.57% de valeur manquante
le magasin 19.0 a 3.57% de valeur manquante
le magasin 20.0 a 8.57% de valeur manquante


In [None]:
# Vu qu'aux USA, les vacances sont fixes par etat, on prendra la valeur la plus frequente ne sachant pas l'etat correspondant au store
mode_holiday = df_cleaned["Holiday_Flag"].mode()[0]
df_cleaned = df_cleaned.copy()
df_cleaned["Holiday_Flag"] = df_cleaned["Holiday_Flag"].fillna(mode_holiday)

In [91]:
Nb_Lignes = df_cleaned.shape[0]
for column in df_cleaned.columns:
    Nb_Null = df_cleaned[column].isnull().sum()
    if Nb_Null != 0 :
        Pct_val_Null = round((Nb_Null/Nb_Lignes)*100,2)
        print(f"Dans la colonne {column}, il y a {Nb_Null} NULL soit {Pct_val_Null}%")

Dans la colonne Date, il y a 18 NULL soit 13.24%
Dans la colonne Temperature, il y a 15 NULL soit 11.03%
Dans la colonne Fuel_Price, il y a 12 NULL soit 8.82%
Dans la colonne CPI, il y a 11 NULL soit 8.09%
Dans la colonne Unemployment, il y a 14 NULL soit 10.29%


Afin de rendre le champ Date plus facilement exploitable, je le convertis en 3 champs (Année, mois, Jour)

In [92]:
df_cleaned["Date"] = pd.to_datetime(df_cleaned["Date"], format="%d-%m-%Y")

df_cleaned["Year"] = df_cleaned["Date"].dt.year.astype("Int64")
df_cleaned["Month"] = df_cleaned["Date"].dt.month.astype("Int64")
df_cleaned["Day"] = df_cleaned["Date"].dt.day.astype("Int64")

df_cleaned.head()

Unnamed: 0,Store,Date,Weekly_Sales,Holiday_Flag,Temperature,Fuel_Price,CPI,Unemployment,Year,Month,Day
0,6.0,2011-02-18,1572117.54,0.0,59.61,3.045,214.777523,6.858,2011.0,2.0,18.0
1,13.0,2011-03-25,1807545.43,0.0,42.38,3.435,128.616064,7.47,2011.0,3.0,25.0
3,11.0,NaT,1244390.03,0.0,84.57,,214.556497,7.346,,,
4,6.0,2010-05-28,1644470.66,0.0,78.89,2.759,212.412888,7.092,2010.0,5.0,28.0
5,4.0,2010-05-28,1857533.7,0.0,,2.756,126.160226,7.896,2010.0,5.0,28.0


Convertion du champ : 
 - Store en chaîne de caractère : variable qualitative
 - Holiday_Flag en chaine de caractère : variable qualitative

In [93]:
df_cleaned["Store"] = df_cleaned["Store"].astype(int).astype(str)
df_cleaned["Holiday_Flag"] = df_cleaned["Holiday_Flag"].astype(float).astype('int64').astype(str)



# Distribution des variables
## Contrôle des outliers

In [None]:
fig = go.Figure()

fig.add_trace(
    go.Box(
        x = df_cleaned['Temperature']))

fig.add_trace(
    go.Box(
        x = df_cleaned['Fuel_Price'],
        visible = False))

fig.add_trace(
    go.Box(
        x = df_cleaned['CPI'],
        visible = False))

fig.add_trace(
    go.Box(
        x = df_cleaned['Unemployment'],
        visible = False))


fig.update_layout(
        title = go.layout.Title(text = "Exploration differentes variables", x = 0.5),
        showlegend = False)

fig.update_layout(
    updatemenus = [go.layout.Updatemenu(
        active = 0,
        buttons = [
                    go.layout.updatemenu.Button(
                            label = "Temperature",
                            method = "update",
                            args = [{"visible" : [True, False, False, False]}]),
                    go.layout.updatemenu.Button(
                            label = "Prix du fuel",
                            method = "update",
                            args = [{"visible" : [False, True, False, False]}]),
                    go.layout.updatemenu.Button(
                            label = "Indice des Prix à la Consommation",
                            method = "update",
                            args = [{"visible" : [False, False, True, False]}]),
                    go.layout.updatemenu.Button(
                            label = "Chômage",
                            method = "update",
                            args = [{"visible" : [False, False, False, True]}])
                ]
    )]
)

A la vue des graphiques, nous allons suprimer les valeurs aberrantes du chômage uniquement

In [95]:
Moyenne_Unemployment = df_cleaned['Unemployment'].mean()
Ecart_type_Unemployment  = df_cleaned['Unemployment'].std()

mask_Chomage = ((df_cleaned['Unemployment']<Moyenne_Unemployment-3*Ecart_type_Unemployment)|(df_cleaned['Unemployment']>Moyenne_Unemployment+3*Ecart_type_Unemployment))
df_cleaned = df_cleaned[~mask_Chomage]

## Distribution des variables numériques

In [None]:
num_features = df_cleaned.select_dtypes(include=["int"]).columns

for feature in num_features:
    min_val = df_cleaned[feature].min()
    max_val = df_cleaned[feature].max()
    nb_bins = int(max_val) - int(min_val) +1
    bins = list(range(int(min_val), int(max_val) + 2))

    fig = px.histogram(df_cleaned, x=feature,nbins=nb_bins)
    fig.update_layout(title=f"Distribution de {feature}", title_x=0.5, xaxis_title=feature, yaxis_title="Nombre d'occurences")
    fig.update_xaxes(tickvals=bins)  # Force les ticks à être des entiers
    fig.show()


In [None]:
num_features = df_cleaned.select_dtypes(include=["float"]).columns

for feature in num_features:
    fig = px.histogram(df_cleaned, x=feature,nbins=30)
    fig.update_layout(title=f"Distribution de {feature}", title_x=0.5, xaxis_title=feature, yaxis_title="Nombre d'occurences")
    fig.show()


## Distribution des variables non numeriques

In [None]:
cat_features = df_cleaned.select_dtypes(include=["object"]).columns

for feature in cat_features:
    df_grouped = df_cleaned[feature].value_counts().reset_index()
    df_grouped.columns = [feature, "count"]

    fig = px.bar(df_grouped, x=feature, y="count", color_discrete_sequence=px.colors.qualitative.Pastel)
    fig.update_layout(title=f"Repartition de {feature}", title_x=0.5,
        xaxis_title=feature, xaxis=dict(tickformat="d"),
        yaxis_title="Nombre d'occurences")
    fig.show()

## Analyse temporelle

Répartition des données par année

In [None]:
fig = make_subplots(rows = 3, cols = 1)

years = df_cleaned["Year"].sort_values().dropna().unique().tolist()

for i in range(len(years)):
    mask = (df_cleaned["Year"] == years[i])
    df_year = df_cleaned[mask]

    fig.add_trace(go.Histogram(x = df_year["Month"], name = str(years[i]), nbinsx=12), row = i + 1, col = 1)

fig.update_layout(title = go.layout.Title(text = "Donnees mensuelles par annee", x = 0.5), height = 700)

fig.show()

Moyenne des ventes en fonction de la date sur les 3 ans

In [101]:
df_ventes = df_cleaned.groupby("Date")["Weekly_Sales"].mean().reset_index()
df_ventes["Mean_Sales"] = df_ventes["Weekly_Sales"].mean()
df_ventes.head()

Unnamed: 0,Date,Weekly_Sales,Mean_Sales
0,2010-02-05,461622.22,1255114.0
1,2010-02-12,1318379.42,1255114.0
2,2010-02-19,1392645.145,1255114.0
3,2010-02-26,2095591.63,1255114.0
4,2010-03-12,860336.16,1255114.0


In [None]:
df_ventes["Date"] = pd.to_datetime(df_ventes["Date"])

dates_ticks = pd.date_range(
    start=df_ventes["Date"].min(),
    end=df_ventes["Date"].max(),
    freq="3MS"  # Affichage des dates tous les trimestres
)

fig = go.Figure(
    data=go.Scatter(
        x=df_ventes["Date"],
        y=df_ventes["Weekly_Sales"],
        name="Ventes hebdomadaires"
    )
)

fig.add_trace(
    go.Scatter(
        x=df_ventes["Date"],
        y=df_ventes["Mean_Sales"],
        name="Moyenne des ventes"
    )
)

fig.update_layout(
    title=dict(text="Moyenne des ventes par jour", x=0.5),
    xaxis=dict(
        title="Date sur 3 ans",
        rangeslider=dict(visible=True),
        tickmode="array",  
        tickvals=dates_ticks,  
        tickformat="%b %Y",  
    ),
    showlegend=True 
)

fig.show()


On peut remarquer un impact de la période pour la moyenne des ventes. Cependannt, étant donné le nombre peu important des données, nous allons également vérifier l'impact des dates pour les magasins pour savoir si nous garderons ou non les données avec des dates manquantes.

## Analyse par magasin

Pour vérifier s'il est utile ou non de supprimer les lignes sans date sachant que nous souhaitons prédire les ventes par semaine, nous allons vérifier les moyennes de ventes avec et sans dates pour l'ensemble des magasins ains que de manière générale

In [None]:
# Moyenne par magasin (toutes lignes)
moyennes_par_magasin = df_cleaned.groupby('Store')['Weekly_Sales'].mean()

# Moyenne par magasin (dates nulles uniquement)
moyenne_nulles_par_magasin = df_cleaned[df_cleaned['Date'].isna()].groupby('Store')['Weekly_Sales'].mean()

# Moyenne generale
moyenne_generale = df_cleaned['Weekly_Sales'].mean()

# Moyenne generale pour dates nulles uniquement
moyenne_null_dates = df_cleaned[df_cleaned['Date'].isna()]['Weekly_Sales'].mean()

# Construction du DataFrame combine
df_comparatif = pd.DataFrame({
    'Toutes dates': moyennes_par_magasin,
    'Dates nulles uniquement': moyenne_nulles_par_magasin
})

# Tracer le barplot groupe
df_comparatif.plot(kind='bar', figsize=(10, 6), color=['lightgreen', 'salmon'], edgecolor='black')

# Ajouter lignes horizontales
plt.axhline(y=moyenne_generale, color='red', linestyle='--', label=f'Moyenne generale : {moyenne_generale:.2f}')
plt.axhline(y=moyenne_null_dates, color='orange', linestyle='--', label=f'Moyenne dates nulles : {moyenne_null_dates:.2f}')

# Titres et mise en forme
plt.title("Ventes moyennes par magasin")
plt.ylabel("Ventes moyennes")
plt.xlabel("Magasin")
plt.xticks(rotation=0)
plt.legend()
plt.tight_layout()
plt.show()


Je vais regarder si les magasins sont plus ou moins impactés par l'absence de date.

In [None]:
# Compter les dates non nulles et nulles par magasin
Store_dates = df_cleaned.groupby('Store')['Date'].agg(dates_non_nulles = lambda x: x.notna().sum(), dates_nulles = lambda x: x.isna().sum()).reset_index()

# Barplot
Store_dates.set_index('Store')[['dates_non_nulles', 'dates_nulles']].plot(
    kind='bar',
    stacked=False,
    figsize=(8, 5),
    color=['skyblue', 'salmon']
)

plt.title("Nombre de dates renseignees vs nulles par magasin")
plt.ylabel("Nombre d'occurrences")
plt.xlabel("Magasin")
plt.xticks(rotation=0)
plt.legend(title="Type de date")
plt.tight_layout()
plt.show()

L'impact de la suppression des lignes sans date, impactera particulièrement les magasins 10 et 11. Sur le premier graphique, on voit que la moyenne générale des ventes se rapproche de leur propre moyenne. Je décide donc de garder les lignes nulles afin de ne pas impacter trop l'absence des autres valeurs, particulièrement pour ces magasins.

## graphique bivarié et atrice de corrélation

In [None]:
fig = px.scatter_matrix(df_cleaned)

fig.update_layout(title = go.layout.Title(text = "Bivariate analysis", x = 0.5), showlegend = False, 
            autosize=False, height=1400, width = 1400)

fig.show()

Pas de corrélation frappante avec la variable cible.

In [None]:
corr_matrix = df_cleaned.corr().round(2)

fig = ff.create_annotated_heatmap(corr_matrix.values, x = corr_matrix.columns.tolist(), y = corr_matrix.index.tolist())
fig.show()

On observe qu'avec la variable cible `Weekly_Sales`, l'indice de correlation est intéressant pour :
 - `CPI`;
 - `Unemployment`;
 - `Temperature`;
 - `Store`.

# fin du nettoyage et sauvegarde du dataset nettoyé

Suppression des lignes si juste la date est non renseignée. On garde les autres valeurs qu'on remplacera par une valeur moyenne

In [107]:
# Masque pour les lignes où Date est Na
mask_date_na = df_cleaned['Date'].isna()

# Masque pour les lignes où l'un des aautres champ est na
mask_autre_na = df_cleaned[['Holiday_Flag','Temperature','CPI', 'Fuel_Price','Unemployment']].isna().any(axis=1)

# Combine les deux masques : on veut supprimer les lignes où les deux conditions sont vraies
mask_a_supp = mask_date_na & mask_autre_na
df_cleaned = df_cleaned[~mask_a_supp]


Suppression du champ Date que l'on a découpé et dont on ne servira plus

In [108]:
df_cleaned.drop(columns=['Date'],axis=1, inplace=True)

In [109]:
df_cleaned.to_csv("..\\data\\walmart_Store_Sales_Cleaned.csv")