# 📊 Analyse prédictive des ventes

Bienvenue dans ce notebook. Nous allons explorer un jeu de données de ventes au détail, créer des visualisations et tenter de prédire les ventes futures.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline


In [None]:
# Charger les données
df = pd.read_csv('../data/superstore.csv')

# Aperçu du jeu de données
df.head()


In [None]:
# Taille et infos
print(df.shape)
df.info()

# Statistiques descriptives
df.describe()


In [None]:
# Exemple : Ventes par catégorie
cat_sales = df.groupby('Category')['Sales'].sum().reset_index()
px.bar(cat_sales, x='Category', y='Sales', title='Ventes par catégorie')


In [None]:
# Exemple simple : prédiction des ventes selon la quantité
df_model = df[['Sales', 'Quantity']].dropna()

X = df_model[['Quantity']]
y = df_model['Sales']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

print("RMSE:", np.sqrt(mean_squared_error(y_test, y_pred)))
print("MAE:", mean_absolute_error(y_test, y_pred))


## ✅ Prochaines étapes
- Améliorer le modèle avec plus de variables
- Créer un dashboard Power BI
- Ajouter des visualisations interactives supplémentaires