# Projet BIG5 - Analyse de la personnalité via le Langage Naturel

## Objectifs du projet

- **Concevoir et développer une application web interactive capable d'analyser les réponses textuelles libres** d'un utilisateur à une série de 8 à 10 questions ouvertes, afin de **prédire son profil de personnalité selon le modèle Big Five (OCEAN)**. 

- **Générer des insights personnalisés pour l'utilisateur**, facilitant une meilleure connaissance de soi et proposer des recommandations comportementales basées sur les traits identifiés (exemples de feedback : forces, axes d'amélioration, comportement en situation de stress).

- **Explorer les techniques avancées de NLP et l'application des LLMs**, tout en comprenant  les limites des modèles.

- **Valider le modèle par LLM** : en demandant à un LLM de générer des réponses sous des "personas" OCEAN spécifiques et en les faisant prédire par notre modèle (si le temps le permet).

## Le Big Five, Kesako ?

Le modèle de personnalité Big Five est issu d'une analyse factorielle de questions basées sur des adjectifs descriptifs courants. Cette analyse a permis de dégager cinq traits de personnalité distincts :

| Trait (OCEAN)     | Description psychologique                                                                 | Haut score ⬆️                                   | Bas score ⬇️                                    |
|---------------------|--------------------------------------------------------------------------------------------|-------------------------------------------------------------------------|-------------------------------------------------------------------------|
| **Openness** (Ouverture à l’experience)        | Tendance à l'imagination, à la curiosité intellectuelle et à l'ouverture aux nouvelles expériences. | Curieux, inventif, imaginatif, original, ouvert d'esprit.               | Pragmatique, factuel, terre-à-terre, ancré dans le réel, constant.      |
| **Conscientiousness**  (Conscience / Rigueur)| Degré d'organisation, de fiabilité et de discipline personnelle.                          | Organisé, méticuleux, discipliné, prévoyant, persévérant.               | Spontané, adaptable, flexible, moins rigide, détendu face au changement.|
| **Extraversion**    | Niveau d'énergie sociale, d'affirmation de soi et de recherche de stimulation externe.     | Énergique, sociable, extraverti, s'exprime facilement, enthousiaste.    | Réservé, réfléchi, calme, indépendant, attentif.                        |
| **Agreeableness** (Agréabilité / Amabilité)  | Tendance à l'empathie, à la coopération et à la considération pour autrui.                 | Bienveillant, coopératif, empathique, conciliant, généreux.             | Analytique, indépendant, assertif, sait défendre ses opinions, réaliste.|
| **Neuroticism** (Névrosisme)    | Stabilité émotionnelle et capacité à gérer le stress et les émotions négatives.           | Sensible, introspectif, conscient de ses émotions, prudent.             | Serein, confiant, stable émotionnellement, résilient, peu affecté par le stress. |

## Publics cibles

**Personnes en quête de connaissance de soi**, curieuses de mieux se connaître, souhaitant explorer leur personnalité, comprendre leurs traits dominants, et potentiellement identifier des axes de développement personnel.

***Chercheurs en psychologie et sciences comportementales*** *: l'application pourrait potentiellement être utilisée pour collecter des données anonymisées (avec consentement) pour des études sur la personnalité, les corrélations entre langage et traits de personnalité, ou le développement de nouveaux modèles prédictifs.*

---

## Définition du MVP (Minimum Viable Product)

### Dataset Essays (retenu dans un premier temps)
- **Stream of consciousness essays `jingjietan/essays-big5`** : référence scientifique en psychologie, issue d'un flux de conscience collecté en environnement contrôlé par James Pennebaker et Laura King et étiqueté selon les cinq grands traits de personnalité (potentiellement moins de biais d'auto-sélection que les médias sociaux). 2 470 lignes (1 580 train, 395 validation, 494 test).  [Pour en savoir plus](http://web.archive.org/web/20160519045708/http://mypersonality.org/wiki/doku.php?id=wcpr13)
- Lexique des émotions : un lexique d'environ 14 000 mots a été utilisé. [Pour plus d'informations](https://www.saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm)

### Interface Utilisateur simple en anglais :
- Page d'accueil : brève introduction au projet et à son objectif.
- Formulaire de questions : affichage de 8 à 10 questions ouvertes (définies en amont, claires et incitant à des réponses détaillées). Champ de texte libre pour chaque réponse.
- Bouton de soumission pour envoyer les réponses.
- Visualisation des résultats (radar chart, bar chart) pour une classification multi-labels (5 traits OCEAN binaire).

### Moteur d'analyse (back-end) :
- *Collecte et stockage des réponses : stockage sécurisé des réponses textuelles (sans identification personnelle).*
- Modèle prédictif de personnalité : intégration d'un premier modèle de classification multi-labels (par exemple un modèle BERT ou ROBERTa fine-tuné) capable d'analyser les réponses et de générer un score pour chaque dimension OCEAN.

### Affichage des résultats (front-end) :
- Page de résultats : présentation claire et concise du profil OCEAN de l'utilisateur, idéalement sous forme de graphiques simples (par exemple, un radar chart ou des barres) montrant le score pour chaque trait.
- Brève interprétation : une ou deux phrases explicatives pour chaque trait, basées sur le score obtenu.

### Mentions légales et confidentialité :
- Politique de confidentialité succincte : informant l'utilisateur de la manière dont ses données sont traitées et de leur usage (anonymisation).

---

## Stack Technologique

| Objectif                     | Outils                          |
|-----------------------------|-------------------------------------------|
| Data Preprocessing          | `pandas`, *`spaCy`, `nltk`* |
| Modélisation              | *`scikit-learn`*, *`XGBoost`*, `transformers` (fine-tuning de modèles de langage pré-entraînés -> ex: BERT, RoBERTa)   |
| NLP / Embeddings           | `HuggingFace Transformer`, `sentence-transformers`, `Trainer`   |
| Web App                     | `Streamlit`, `Plotly`, `Matplotlib` |
| Déploiement                 | `Docker`, `Hugging Face Spaces` |
| Feedback   | LLM |
| *Traduction*            | *`transformers`(à voir si le timing le permet)* |
| *Validation externe des profils*  | *LLM à discuter ensemble*  |

----

## Feuille de route

### EDA & Preprocessing
- Choix et compréhension des datasets 
- **Analyse exploratoire** (visualisation des distributions, des longueurs des textes...)
- **Tokenisation**, **embeddings**
- *Harmonisation des labels (si concaténation)*

### Modélisation & Evaluation
- **Entraînement d’un modèle de base** : classifiers simples (`LogisticRegression`, `XGBoost`)
- **Finetuning** d'un modèle Transformer : modèle pré-entraîné (ex: BERT) 
- **Évaluation des performances** pour chaque trait et pour le type global (accuracy, F1-score par classe, confusion matrix).
- **Feature Engineering**
- ***Validation externe par LLM*** : utilisation d'un LLM pour générer des réponses synthétiques sous différents "personas" OCEAN, puis faire prédire ces réponses par notre modèle (à voir si on retient cette option, mais innovant et pertinent pour évaluer notre problème de biais)

### Développement de l'application Streamlit
- **Interface utilisateur** avec 8 à 10 questions ouvertes (charte graphique, logo)
- **Implémentation** de la logique de prédiction du modèle.
- **Visualisation** des résultats (radar chart, bar chart).
- **Intégration d'un feedback généré par un LLM** (forces, axes d'amélioration, comportement en stress) basés sur le profil prédit.
- **Traduction en français** (si temps nécessaire)

### Déploiement & Tests
- **Dockerisation** du projet
- **Déploiement** en ligne (Hugging Face Spaces)
- **Tests** utilisateurs
- **Corrections** et améliorations UX/UI

### Documentation & Préparation Finale
- Documentation du projet
- Construction du support de présentation
- Entrainement pour la présentation

---

## Points de Vigilance / Limites

- Précision de la prédiction : la complexité de l'analyse sémantique des réponses libres peut rendre la prédiction des traits de personnalité imprécise.

- Qualité des données d'entraînement : l'obtention de données d'entraînement de qualité est cruciale, bien que complexe, pour développer un modèle performant (--> privilégier la qualité à la quantité).

- Biais  de sélection et biais algorithmiques : vigilance particulière pour identifier et atténuer ces biais.

---

## Références pour inspiration / benchmarking

- [myPersonality Project](http://web.archive.org/web/20160518020419/http://mypersonality.org/wiki/doku.php?id=download_databases)

- [Personality Prediction from Text](https://github.com/jcl132/personality-prediction-from-text) (GitHub - jcl132)

- [Personality Prediction from Text](https://github.com/jkwieser/personality-prediction-from-text/tree/master) (GitHub - jkwieser)

- [Introducing Text Analytics: Personality from Text](https://www.kaggle.com/code/datasniffer/introducing-text-analytics-personality-from-text) (Kaggle)

- [Big Five Personality Traits Prediction Based on User Comments](https://www.preprints.org/manuscript/202504.2499/v1) (kaggle)

- [www.assessfirst.com](https://www.assessfirst.com/fr/comprendre-personnalite-test-big-five/)

## Références bibliographiques

- [Big Five Personality Trait Prediction Based on User Comments](https://www.mdpi.com/2078-2489/16/5/418)

- [Semantic Approach for Big Five Personality Prediction on Twitter](https://pdfs.semanticscholar.org/1172/a35031939ba1a2ce291950953656a86edf49.pdf)