
# üõí PROJET 17 : OPTIMISEUR DE STOCK P√âRISSABLE ü•¨

Bienvenue dans ce projet crucial pour les supermarch√©s et √©piceries !

**Le Probl√®me :** Les produits frais (tomates, lait, bananes...) p√©rissent rapidement.
- Commander TROP = ‚ùå Gaspillage (les produits pourrissent)
- Commander PEU = ‚ùå Ventes perdues (rupture de stock)

**Votre Mission :** Pr√©dire combien d'unit√©s vous allez vendre DEMAIN pour chaque produit. Ainsi, vous commanderez la quantit√© parfaite ! üéØ

---

## üìÖ VOTRE PROGRAMME

### üìã SESSION 1 : From Raw Data to Clean Insights (45 min)
- **Part 1: The Setup** - Charger les donn√©es de ventes historiques
- **Part 2: The Sanity Check** - Nettoyer les stocks manquants
- **Part 3: Exploratory Data Analysis** - Quels produits se vendent le mieux ?

### üìã SESSION 2 : The Art of Feature Engineering (45 min)
- **Part 1: The Concept** - Transformer les dates et la m√©t√©o en variables
- **Part 2: The Lab** - Cr√©er des moyennes mobiles (tendances)
- **Part 3: Final Prep** - Pr√©parer les donn√©es pour l'IA

### üìã SESSION 3 : Building & Trusting Your Model (45 min)
- **Part 1: The Split** - S√©parer entra√Ænement et test
- **Part 2: Training** - Entra√Æner le mod√®le pr√©dictif
- **Part 3: Evaluation** - Quelle est notre pr√©cision ?
- **Part 4: Going Further (BONUS)** - Calculer la quantit√© optimale √† commander

---



# üìã SESSION 1 : FROM RAW DATA TO CLEAN INSIGHTS



## üèÅ Part 1: The Setup (10 min)

Importons nos outils et chargeons les donn√©es de ventes.


In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme(style="whitegrid")
plt.rcParams['figure.figsize'] = (10, 6)

print("‚úÖ Librairies import√©es !")



### üìÇ Chargement du fichier stock_perissable.csv


In [None]:

df = pd.read_csv('stock_perissable.csv')

print("Aper√ßu des donn√©es :")
display(df.head(10))

print("\nInfos techniques :")
df.info()



> **üí° Tip:** Le dataset contient :
> - **Date** : Jour de vente
> - **Item** : Produit (Tomato, Banana, Milk, Spinach)
> - **Stock_Initial** : Quantit√© en rayon au d√©but de la journ√©e
> - **Meteo** : M√©t√©o (Hot, Cold, Mild)
> - **Jour_Ferie** : 1 si jour f√©ri√©, 0 sinon
> - **Sold** : üéØ NOTRE CIBLE (Quantit√© vendue)



## üßπ Part 2: The Sanity Check (15 min)

### 1. Valeurs manquantes


In [None]:

print("Valeurs manquantes par colonne :")
print(df.isnull().sum())



> **‚ö†Ô∏è Warning:** Certaines lignes ont `Stock_Initial` ou `Meteo` manquants. Pour simplifier, on va les supprimer (car difficile d'imputer sans introduire de biais).


In [None]:

# Supprimer les lignes avec des valeurs manquantes
df = df.dropna()

print(f"‚úÖ Nouvelles dimensions : {df.shape}")



### 2. Conversion de la date


In [None]:

df['Date'] = pd.to_datetime(df['Date'])
print("‚úÖ Date convertie en format datetime !")



## üìä Part 3: Exploratory Data Analysis (20 min)

### üìà Ventes par Produit
Quel produit se vend le plus ?


In [None]:

plt.figure(figsize=(10, 5))
sns.barplot(data=df, x='Item', y='Sold', estimator=np.mean, errorbar=None)
plt.title('Vente Moyenne par Produit')
plt.ylabel('Unit√©s Vendues (Moyenne)')
plt.show()



‚ùì **Question :** Quel produit a le volume de vente le plus √©lev√© en moyenne ?

### üå¶Ô∏è Impact de la M√©t√©o
La m√©t√©o influence-t-elle les ventes ?


In [None]:

plt.figure(figsize=(10, 5))
sns.barplot(data=df, x='Meteo', y='Sold', hue='Item', errorbar=None)
plt.title('Ventes par M√©t√©o et Produit')
plt.show()



‚ùì **Question :** Remarquez-vous un pattern ? (Ex: Plus de soupes vendues quand il fait froid ?)



# üìã SESSION 2 : THE ART OF FEATURE ENGINEERING



## üß† Part 1: The Concept (10 min)

Pour pr√©dire les ventes de demain, le mod√®le a besoin de "signaux" :
- **Le jour de la semaine** (les ventes sont plus √©lev√©es le week-end)
- **La saison / le mois** (les glaces se vendent mieux l'√©t√©)
- **Les tendances r√©centes** (si les ventes augmentent depuis 3 jours...)



## üß™ Part 2: The Lab - Choose Your Recipe (30 min)

### Recipe 1: Dates & Time üïê
Extrayons des informations de la date.


In [None]:

# Extraction de features temporelles
df['Jour'] = df['Date'].dt.day
df['Mois'] = df['Date'].dt.month
df['JourSemaine'] = df['Date'].dt.dayofweek  # 0=Lundi, 6=Dimanche
df['Is_Weekend'] = (df['JourSemaine'] >= 5).astype(int)  # 1 si samedi/dimanche

print("‚úÖ Features temporelles cr√©√©es !")
display(df[['Date', 'Mois', 'JourSemaine', 'Is_Weekend']].head())



### Recipe 2: Categories üè∑Ô∏è
Encodons les cat√©gories (`Item` et `Meteo`).


In [None]:

# One-Hot Encoding
df = pd.get_dummies(df, columns=['Item', 'Meteo'], prefix=['Item', 'Meteo'])

print("‚úÖ Encodage termin√© !")
display(df.head())



### Recipe 6: Domain-Specific Features üéØ
Cr√©ons des features m√©tier.

#### üîπ Moyenne Mobile (Tendance r√©cente)


In [None]:

# Tri par date pour calculer les moyennes mobiles
df = df.sort_values('Date').reset_index(drop=True)

# Moyenne mobile sur 7 jours (tendance de la semaine)
# TODO: Cette feature n√©cessite un groupby par Item, mais nos Item sont maintenant encod√©s
# Pour simplifier, on calcule une moyenne globale
df['Sold_MA7'] = df['Sold'].shift(1).rolling(window=7, min_periods=1).mean()

print("‚úÖ Moyenne mobile cr√©√©e !")



## üèÅ Part 3: Final Prep (5 min)

Supprimons les colonnes inutiles et pr√©parons le dataset final.


In [None]:

# Colonnes √† supprimer
cols_to_drop = ['Date']  # On garde tout le reste

df_model = df.drop(columns=cols_to_drop)

# Supprimer les lignes avec NaN (cr√©√©es par rolling)
df_model = df_model.dropna()

print(f"‚úÖ Dataset pr√™t ! Dimensions : {df_model.shape}")



# üìã SESSION 3 : BUILDING & TRUSTING YOUR MODEL



## ‚úÇÔ∏è Part 1: The Split (10 min)

S√©parons les features (X) et la cible (y).


In [None]:

from sklearn.model_selection import train_test_split

X = df_model.drop('Sold', axis=1)
y = df_model['Sold']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Train size: {X_train.shape}")
print(f"Test size: {X_test.shape}")



## üèãÔ∏è Part 2: Training (15 min)

Entra√Ænons un **RandomForestRegressor**.


In [None]:

from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor(n_estimators=100, random_state=42)

print("‚è≥ Entra√Ænement...")
model.fit(X_train, y_train)
print("‚úÖ Mod√®le entra√Æn√© !")



## üéØ Part 3: Evaluation (20 min)

√âvaluons la pr√©cision du mod√®le.


In [None]:

from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

y_pred = model.predict(X_test)

mae = mean_absolute_error(y_test, y_pred)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print(f"üìä MAE (Erreur Moyenne) : {mae:.2f} unit√©s")
print(f"üìä RMSE : {rmse:.2f}")
print(f"üìä R¬≤ Score : {r2:.3f}")

# Visualisation
plt.figure(figsize=(8, 8))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.xlabel('Ventes R√©elles')
plt.ylabel('Ventes Pr√©dites')
plt.title('V√©rit√© vs Pr√©diction')
plt.show()



## üéÅ Part 4: Going Further (Bonus - 15-30 mins)

### Bonus Task 1: Calculer la Quantit√© de Commande Optimale üì¶

**Goal:** Recommander combien commander pour demain.

**Why it matters:** Si on pr√©dit 30 ventes mais on en vend parfois 35, on aura une rupture de stock. Il faut une **marge de s√©curit√©**.

**Approach:**
1. Pr√©dire les ventes moyennes
2. Calculer l'√©cart-type (volatilit√©)
3. Commande Optimale = Pr√©diction + (1.5 √ó √âcart-type)


In [None]:

# TODO: Calculer l'√©cart-type des erreurs de pr√©diction
errors = y_test - y_pred
std_error = errors.std()

print(f"√âcart-type des erreurs : {std_error:.2f}")

# Exemple : Si on pr√©dit 30 unit√©s demain
predicted_sales = 30
safety_margin = 1.5 * std_error
optimal_order = predicted_sales + safety_margin

print(f"\nüì¶ Pr√©diction : {predicted_sales} unit√©s")
print(f"üì¶ Marge de s√©curit√© : +{safety_margin:.2f}")
print(f"üì¶ Quantit√© √† commander : {optimal_order:.0f} unit√©s")



### Bonus Task 2: Identifier les Articles √† Rotation Lente üêå

**Goal:** Trouver les produits qui se vendent peu (candidats pour les soldes).


In [None]:

# Revenir au dataset original pour cette analyse
df_original = pd.read_csv('stock_perissable.csv').dropna()

avg_sales_by_item = df_original.groupby('Item')['Sold'].mean().sort_values()

print("Vente moyenne par produit :")
print(avg_sales_by_item)

# Les produits en dessous de 30 unit√©s/jour sont consid√©r√©s lents
slow_movers = avg_sales_by_item[avg_sales_by_item < 30]
print(f"\nüêå Articles √† rotation lente : {list(slow_movers.index)}")



### Bonus Task 3: D√©tecter les Ruptures de Stock üö®

**Goal:** Identifier les jours o√π nous avons manqu√© de stock.

**Approach:** Si `Stock_Initial` < `Sold`, alors nous avons eu une rupture.


In [None]:

# D√©tecter les ruptures (impossible de vendre plus que le stock initial)
# En r√©alit√©, si Stock_Initial est proche de Sold, c'est suspect
df_original['Rupture_Probable'] = (df_original['Stock_Initial'] <= df_original['Sold'] * 1.1).astype(int)

ruptures = df_original[df_original['Rupture_Probable'] == 1]
print(f"Nombre de ruptures probables d√©tect√©es : {len(ruptures)}")

# Top des jours avec ruptures
print("\nExemples de ruptures :")
display(ruptures[['Date', 'Item', 'Stock_Initial', 'Sold']].head(10))
