<p align="center">
  <img alt="University Paris Cité" src="https://img.shields.io/badge/University-Paris%20Cité-6f42c1?style=for-the-badge&logo=academia&logoColor=white">
  <img alt="Master ML for Data Science" src="https://img.shields.io/badge/Master-Machine%20Learning%20for%20Data%20Science-1976D2?style=for-the-badge&logo=python&logoColor=white">
  <img alt="Project LLMs" src="https://img.shields.io/badge/Project-Mental%20Health%20Assistant-FF9800?style=for-the-badge&logo=transformers&logoColor=white">
  <img alt="Academic Year" src="https://img.shields.io/badge/Year-2025%2F-009688?style=for-the-badge&logo=googlecalendar&logoColor=white">
</p>

---

<p align="center">
  <strong>Master 2 — Machine Learning for Data Science</strong><br>
  <strong>Project : Mental Health Assistant (Empathy-driven Dialogue Generation)</strong><br>
  <strong>Author : Hamady GACKOU</strong>
</p>

---

##  Project Information  

| **Category**        | **Details**                                                                 |
|---------------------|------------------------------------------------------------------------------|
| **University**      | Université Paris Cité                                                        |
| **Master Program**  | Machine Learning for Data Science (MLDS/AMSD)                                |
| **Course**          | Natural Language Processing & Large Language Models                          |
| **Student**         | Hamady GACKOU                                                                |
| **Dataset**         | [EmpatheticDialogues](https://huggingface.co/datasets/facebook/empathetic_dialogues) |
| **Objective**       | Develop a prototype of a Mental Health Assistant using pre-trained LLMs (DistilGPT-2) to generate empathetic responses |
| **Keywords**        | NLP • Empathy • LLM • Hugging Face • Transformers • Dialogue Systems         |
| **Year**   | 2025                                                              |


##  Objectif du Projet
Développer un assistant virtuel capable de générer des réponses empathiques et utiles en matière de bien-être mental, sans se substituer à un professionnel de santé.


##  Phase 1 – Lancement & Exploration
- Définir les objectifs précis du projet  
- Comparer les modèles (GPT-2, DistilGPT-2, BERT, T5)  
- Créer un tableau comparatif (capacité, efficacité CPU, complexité)


###  Comparatif des Modèles Candidats

| Modèle | Type | Paramètres | Taille approx. | Points forts | Limites | Pertinence pour l'empathie |
|:--|:--:|:--:|:--:|:--|:--|:--|
| **GPT-2 (small)** | Decoder | 124 M | ~500 MB | Bonne fluidité, capable de dialogues longs | Lent sur CPU, consomme beaucoup de RAM | ⭐⭐⭐ |
| **DistilGPT-2** | Decoder distillé | 82 M | ~300 MB | Léger, rapide sur CPU, bon équilibre qualité-coût | Moins précis sur les émotions complexes | ⭐⭐⭐⭐ |
| **BERT (base-uncased)** | Encoder | 110 M | ~400 MB | Excellente compréhension du texte | Non génératif (classification uniquement) | ⭐ |
| **T5-small** | Encoder-Decoder | 60 M | ~240 MB | Génératif et multitâche | Sorties parfois mécaniques sur peu de données | ⭐⭐⭐ |

---

###  Interprétation
- Les **modèles “Decoder only”** (GPT-2 et DistilGPT-2) sont naturellement meilleurs pour **la génération empathique**.  
- **DistilGPT-2** est **le plus adapté pour ton projet** :  
  - Compatible **CPU**, rapide à l’inférence,  
  - Suffisamment cohérent pour des réponses naturelles,  
  - Facile à fine-tuner sur des données empathiques comme *EmpatheticDialogues*.  
- **T5-small** est un bon candidat secondaire si tu veux explorer les architectures **encoder-decoder**.

---

###  Choix final pour la suite du projet
 **Modèle retenu : `DistilGPT-2`**  
Justification : compromis optimal entre **vitesse**, **cohérence**, **efficacité CPU** et **capacité à produire des réponses empathiques** après fine-tuning.


##  Phase 2 – Préparation des Données

###  Objectif
Charger et préparer le dataset **EmpatheticDialogues** de Facebook AI afin d’obtenir des données propres et prêtes pour le fine-tuning.

###  Étapes
1. **Chargement du dataset** depuis Hugging Face  
2. **Nettoyage** des textes : suppression des doublons, normalisation et retrait des caractères spéciaux  
3. **Analyse exploratoire rapide** : longueur moyenne des dialogues, distribution des émotions  
4. **Tokenisation** pour le modèle DistilGPT-2  

---

### Dataset
 Nom : `facebook/empathetic_dialogues`  
 Taille : ~25 000 dialogues (train / valid / test)  
 Contenu : contextes + réponses humaines à 32 types d’émotions (e.g., sad, proud, jealous, grateful, anxious, afraid…)

---


In [12]:
from datasets import load_dataset
import pandas as pd

print("Chargement du dataset EmpatheticDialogues...")
dataset = load_dataset("facebook/empathetic_dialogues", trust_remote_code=True)

train_df = pd.DataFrame(dataset["train"])
print("Taille du jeu d'entraînement :", len(train_df))
train_df.head(3)


ImportError: cannot import name 'DataFilesPatternsDict' from 'datasets.data_files' (/home/researcherdatascientist/mental-health-assistant/venv/lib/python3.11/site-packages/datasets/data_files.py)

##  Phase 3 – Prototype Simple (Baseline)
- Création d’un **pipeline Hugging Face** pour la génération  
- Test de génération avec **DistilGPT-2** non fine-tuné  
- Validation rapide sur quelques exemples ("I feel sad", "I feel anxious")


##  Phase 4 – Fine-Tuning sur CPU
- Entraînement rapide avec `Trainer` (DistilGPT-2)  
- Paramètres : batch réduit + gradient accumulation  
- Évaluation et sauvegarde du modèle fine-tuné


##  Phase 5 – Ajustements & Ré-Entraînement
- Réglage des hyperparamètres (learning rate, époques, batch size)  
- Évaluation qualitative : empathie, cohérence, fluidité  
- Option : utiliser **DistillBERT** pour la détection d’émotions


##  Phase 6 – Interface Utilisateur (Gradio)
- Conception d’une interface simple et rassurante  
- Mise en place avec **Gradio** (`Interface`, `Blocks`)  
- Tests locaux et ajustements de la tonalité des réponses


##  Phase 7 – Tests & Validation Utilisateur
- Panel de testeurs (pairs, étudiants, amis)  
- Questionnaire d’évaluation : empathie, clarté, utilité  
- Collecte et synthèse des retours pour amélioration


##  Phase 8 – Finitions & Lancement
- Nettoyage du code et amélioration finale de l’UI  
- Rédaction d’un **README** clair et d’une note éthique  
- Déploiement sur **Hugging Face Spaces**  
- Publication sur **GitHub** et **LinkedIn**


##  Annexe – Tableau Comparatif des Modèles
| Modèle | Paramètres | Taille | Avantage | Limite |
|:--|:--:|:--:|:--|:--|
| GPT-2 | 124M | ~500 MB | Bonne génération, stable | Lent sur CPU |
| DistilGPT-2 | 82M | ~300 MB | Léger, rapide, bon compromis | Moins cohérent sur longs dialogues |
| BERT | 110M | ~400 MB | Bonne compréhension de texte | Pas génératif |
| T5-small | 60M | ~240 MB | Génératif et flexible | Plus lent que DistilGPT-2 |


##  Résumé Final
Un prototype **fonctionnel sur CPU**, avec :
- Dataset empathique  
- Modèle fine-tuné DistilGPT-2  
- Interface Gradio conviviale  
- Documentation éthique et technique prête pour déploiement
