# üì¶ Performance Supply & Livraison ‚Äì Olist + IA  

## üéØ Objectif du projet
Ce projet vise √† analyser la **performance logistique** et la **satisfaction client** sur la marketplace **Olist**, en exploitant un jeu de donn√©es e-commerce r√©el.  
L‚Äôobjectif est de comprendre le parcours **‚Äúde la commande √† la r√©ception‚Äù**, d‚Äôidentifier les leviers d‚Äôam√©lioration et d‚Äôint√©grer des briques **d‚Äôintelligence artificielle (IA)** pour anticiper les retards et analyser automatiquement les avis clients.

---

## üß© Contexte business
Olist est une plateforme br√©silienne reliant des milliers de vendeurs √† des clients via une marketplace unique.  
La performance logistique et la satisfaction client sont des enjeux strat√©giques :  

- Les **retards de livraison** impactent directement la **note moyenne des avis clients**.  
- Les **donn√©es textuelles des commentaires** contiennent des signaux pr√©cieux sur les causes d‚Äôinsatisfaction.  

Le projet cherche donc √† r√©pondre √† deux grandes questions :

1. **Comment am√©liorer la performance logistique et la satisfaction client ?**  
2. **Peut-on pr√©dire et expliquer les retards ou les avis n√©gatifs √† l‚Äôaide de l‚ÄôIA ?**

---

## üß† Objectifs analytiques

### 1. Analyse descriptive (Data Analyst)
- √âtudier les d√©lais entre les diff√©rentes √©tapes : commande ‚Üí exp√©dition ‚Üí livraison.  
- Identifier les causes de retard (produit, vendeur, r√©gion, p√©riode).  
- Mesurer l‚Äôimpact des retards sur la satisfaction client (notes et commentaires).  
- Visualiser la performance logistique dans un **dashboard Power BI interactif**.

### 2. Analyse pr√©dictive et IA
- **Mod√®le #1 ‚Äì Pr√©diction des retards de livraison**  
  ‚Üí Classifier les commandes susceptibles d‚Äô√™tre livr√©es en retard (Random Forest / XGBoost).  
- **Mod√®le #2 ‚Äì Analyse automatique des sentiments**  
  ‚Üí D√©tecter les √©motions dans les commentaires clients √† l‚Äôaide d‚Äôun mod√®le NLP pr√©-entra√Æn√© (DistilBERT).  

---

## üß± Donn√©es utilis√©es
Les donn√©es proviennent du **dataset public Olist** disponible sur Kaggle.  
Elles sont r√©parties en plusieurs tables reli√©es par `order_id` et `customer_id` :

| Fichier | Description |
|----------|-------------|
| `olist_orders_dataset.csv` | D√©tails des commandes (dates, statuts, d√©lais estim√©s) |
| `olist_order_items_dataset.csv` | Articles command√©s (produits, vendeurs, prix, transport) |
| `olist_customers_dataset.csv` | Informations clients (identifiants, localisation) |
| `olist_sellers_dataset.csv` | Donn√©es des vendeurs (localisation, ID) |
| `olist_order_reviews_dataset.csv` | Avis clients (note, commentaire, timestamp) |
| `olist_products_dataset.csv` | Caract√©ristiques des produits |
| `olist_order_payments_dataset.csv` | M√©thodes et montants des paiements |
| `olist_geolocation_dataset.csv` | Coordonn√©es g√©ographiques (lat/lon) |
| `product_category_name_translation.csv` | Traduction des cat√©gories produits |

---

## üßÆ M√©thodologie du projet

### ü©µ √âtape 1 ‚Äî Cadrage & exploration
- Lecture et compr√©hension des donn√©es.  
- D√©finition des KPI logistiques et satisfaction.  
- V√©rification de la qualit√© et coh√©rence des donn√©es.

### üíΩ √âtape 2 ‚Äî Pr√©paration & fusion des datasets
- Nettoyage, jointures (`orders`, `order_items`, `sellers`, `customers`).  
- Cr√©ation des variables : d√©lais, retards, distance client‚Äìvendeur.  

### üìä √âtape 3 ‚Äî Analyse descriptive
- Analyse des d√©lais moyens par vendeur, produit et r√©gion.  
- Corr√©lation d√©lai ‚Üî satisfaction (`review_score`).  
- Visualisations : histogrammes, heatmaps, cartes.  
- Dashboard Power BI :  
  - Page 1 : Supply & Livraison  
  - Page 2 : Satisfaction client  
  - Page 3 : Corr√©lations & recommandations  

### ü§ñ √âtape 4 ‚Äî IA #1 : Pr√©diction du retard de livraison
- Variable cible : `late_delivery = 1 si d√©lai r√©el > d√©lai estim√©`.  
- Variables explicatives : `freight_value`, `product_weight_g`, `distance`, `category`, `seller_state`, etc.  
- Mod√©lisation : Random Forest, XGBoost.  
- √âvaluation : pr√©cision, F1-score, AUC.  
- Interpr√©tation : SHAP values (importance des facteurs).  

### üí¨ √âtape 5 ‚Äî IA #2 : Analyse de sentiment des avis
- Nettoyage du texte (`review_comment_message`).  
- Application d‚Äôun mod√®le pr√©-entra√Æn√© (DistilBERT / Hugging Face).  
- Extraction de mots-cl√©s (TF-IDF / KeyBERT).  
- Analyse crois√©e : sentiment ‚Üî cat√©gorie produit ‚Üî retard.  
- Visualisation : nuage de mots, score moyen par cat√©gorie.  

### üßæ √âtape 6 ‚Äî Synth√®se & recommandations
- Identification des principaux leviers de satisfaction.  
- Propositions d‚Äôactions : optimisation transport, communication proactive, am√©lioration des produits.  
- Pr√©sentation visuelle et orale (Demo Day style).

---

## üìà Livrables finaux

| Type | Fichier / format | Description |
|------|-------------------|-------------|
| üîç Notebook 1 | `01_Exploration_Olist.ipynb` | Exploration et compr√©hension des donn√©es |
| üîß Notebook 2 | `02_Cleaning_Preparation.ipynb` | Nettoyage et jointures |
| üìä Notebook 3 | `03_KPIs_Analyses.ipynb` | Calculs des indicateurs cl√©s |
| ü§ñ Notebook 4 | `04_Prediction_Retards.ipynb` | Mod√®le de pr√©diction des retards |
| üí¨ Notebook 5 | `05_Sentiment_Clients.ipynb` | Analyse de sentiment des avis |
| üìä Dashboard Power BI | `Olist_Performance.pbix` | Visualisation interactive |
| üìÑ Rapport / slides | `Olist_Project_Presentation.pdf` | R√©sum√© des r√©sultats et recommandations |

---

## üß∞ Outils & technologies
- **Python** : Pandas, NumPy, Matplotlib, Seaborn, Scikit-learn, XGBoost, SHAP, Transformers  
- **Power BI** : visualisation interactive & storytelling  
- **Jupyter Notebook** : exploration et mod√©lisation  
- **Git / GitHub** : versioning et documentation  

---

## üí° Comp√©tences d√©montr√©es
‚úÖ Data cleaning & manipulation multi-tables  
‚úÖ Calculs d‚Äôindicateurs logistiques & satisfaction  
‚úÖ Cr√©ation de dashboards interactifs  
‚úÖ Machine Learning appliqu√© √† la logistique  
‚úÖ NLP appliqu√© √† la satisfaction client  
‚úÖ Storytelling data & restitution business  

---

## üöÄ Pistes d‚Äô√©volution
- Int√©gration d‚Äôun mod√®le **multi-output** (pr√©dire √† la fois le retard et la note).  
- Cr√©ation d‚Äôun tableau de bord **temps r√©el** avec Streamlit ou Power BI Service.  
- Segmentation IA des vendeurs selon performance logistique.  

---

## üßë‚Äçüíª Auteur
Projet r√©alis√© dans le cadre d‚Äôune reconversion **Data Analyst**,  
avec une sp√©cialisation en **analyse de donn√©es e-commerce et IA appliqu√©e**.  

> üß≠ Objectif : d√©montrer la capacit√© √† relier analyse m√©tier, mod√©lisation et visualisation d√©cisionnelle.
