DUDA CohortScore v1

Le DUDA CohortScore est le MVP d’une Webapp Streamlit d’analyse de cohortes, réalisée pour le DU Sorbonne Data Analytics 2024-2025 par Alexandre Cameron BORGES & Alioune DIOP. L’outil segmente la clientèle Instacart via l’analyse RFM (Récence, Fréquence, Montant), explore les habitudes d’achat et génère un WordCloud à partir d’un texte importé.

· 1️⃣ ✨ Objectif

Segmenter les clients selon le modèle RFM.
Visualiser les tendances d’achat (top produits, heatmaps temporelles).
Explorer dynamiquement via filtres (jour, heure, rayon, cluster).
Générer un WordCloud à partir d’un fichier texte lié au e-commerce.

· 2️⃣ 🚀 Démo rapide

Ouvrez la WebApp hébergée → https://acb-dudacohortscore.streamlit.app/

ou

Cloner le dépôt et installer les dépendances (cf. §6).
Lancer l’application :
```
streamlit run app.py
```
Dans l’interface :
- Sélectionner le fichier data/instacart_sample_1m.parquet
- Appliquer des filtres (jour, heure, rayon, cluster)
- Explorer les graphiques (bar charts, heatmap, pairplot, vue 3D)
- Charger un texte pour générer un WordCloud

· 3️⃣ 📊 Jeux de données

Table	Lignes	Description
`instacart_sample_1m.parquet`	1 000 000	Cet échantillon de jeu de données provient d'Instacart, une plateforme américaine de livraison d'épicerie en ligne. L'original contient des informations anonymisées sur plus de 3 millions de commandes passées par plus de 200 000 utilisateurs Instacart en 2017.

Contenu principal: Le dataset comprend plusieurs fichiers CSV interconnectés :

Orders : Informations sur chaque commande (ID utilisateur, jour de la semaine, heure, délai depuis la dernière commande)
Products : Catalogue de ~50 000 produits avec leurs noms et rayons
Aisles : Les 134 rayons du magasin (ex: "fresh vegetables", "packaged cheese")
Departments : Les 21 départements (ex: "dairy eggs", "beverages")
Order_products : Détails des produits dans chaque commande avec l'ordre d'ajout au panier

Source : Kaggle – Instacart Online Grocery Basket Analysis

· 4️⃣ 🧠 Méthodologie

EDA & nettoyage (data_and_finetuning_cohort.py) :
- Détection et traitement des NaN, doublons, typage.
Création de variables :
- order_dow_name (jour de la semaine), totaux par client, indicateurs RFM.
Clustering RFM :
- Standardisation, méthode du coude, KMeans.
Visualisations (10 graphiques) :
- Bar charts, heatmap, pairplot, vue 3D.
Text mining :
- Nettoyage, tokenisation, suppression de stopwords, génération de WordCloud.

· 5️⃣ 🏗️ Architecture de l’application

duda_cohortscore/
├── app.py                          # Application Streamlit
├── data_and_finetuning_cohort.py  # EDA, nettoyage & création de variables
├── requirements.txt                # Dépendances Python
├── data/
│   ├── [instacart_sample_1m.parquet](https://drive.google.com/file/d/1znbv-o5XfyWLc_5IcnHosrDdgH8JafDp/view?usp=drive_link) # Échantillon de travail
│   └── [instacart_cleaned.csv](https://drive.google.com/file/d/1pRjgJ3X8CXfcaApv_W-QfZiWTHO71HlS/view?usp=drive_link)       # Jeu nettoyé final
└── README.md                       # Ce document

· 6️⃣ ⚙️ Installation locale

# 1. Cloner le repo
git clone https://github.com/alexandre-cameron-borges/duda_cohortscore.git
cd duda_cohortscore

# 2. Créer et activer l’environnement
python -m venv .venv && source .venv/bin/activate  # macOS/Linux
# venv\Scripts\activate                            # Windows

# 3. Installer les dépendances
pip install --upgrade pip
pip install -r requirements.txt

# 4. Lancer l’application
streamlit run app.py

Note : l’application s’attend à trouver data/instacart_sample_1m.parquet. Ajustez le chemin dans app.py si nécessaire.

· 7️⃣ 🙋 Auteurs

Alexandre Cameron BORGES – LinkedIn
Alioune DIOP

“In God We Trust, All the Others We Want Data.”

Dernière mise à jour : 15 juin 2025

Name		Name	Last commit message	Last commit date
Latest commit History 68 Commits
README.md		README.md
app.py		app.py
data_and_finetuning_cohort.ipynb		data_and_finetuning_cohort.ipynb
data_and_finetuning_cohort.py		data_and_finetuning_cohort.py
data_sample_1million.parquet		data_sample_1million.parquet
requirements.txt		requirements.txt
sandbox.ipynb		sandbox.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

DUDA CohortScore v1

· 1️⃣ ✨ Objectif

· 2️⃣ 🚀 Démo rapide

· 3️⃣ 📊 Jeux de données

· 4️⃣ 🧠 Méthodologie

· 5️⃣ 🏗️ Architecture de l’application

· 6️⃣ ⚙️ Installation locale

· 7️⃣ 🙋 Auteurs

About

Uh oh!

Releases

Packages

Languages

alexandre-cameron-borges/duda_cohortscore

Folders and files

Latest commit

History

Repository files navigation

DUDA CohortScore v1

· 1️⃣ ✨ Objectif

· 2️⃣ 🚀 Démo rapide

· 3️⃣ 📊 Jeux de données

· 4️⃣ 🧠 Méthodologie

· 5️⃣ 🏗️ Architecture de l’application

· 6️⃣ ⚙️ Installation locale

· 7️⃣ 🙋 Auteurs

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages