# Introduction à l'Analyse Psychométrique avec Python

Ce notebook est conçu pour vous guider dans l'analyse psychométrique des données de personnalité basées sur le modèle du Big five (Extraversion, Ouverture à l'expérience, Agréabilité, Conscienciosité, Stabilité émotionnelle).

Commençons par charger les données !

In [None]:
# ============================================================
# Section 1 : Chargement des Données
# ============================================================

# Importation des bibliothèques nécessaires
# A effectuer sur votre terminal au préalable : pip install factor-analyzer ; pip install pingouin
import pandas as pd
from factor_analyzer import FactorAnalyzer
import pingouin as pg

# Chargement du fichier CSV (assurez-vous qu'il est dans le même dossier)
data = pd.read_csv("data_big_five.csv", sep='\t')
data.head()

In [None]:
# ============================================================
# Section 2 : Préparation des Données
# ============================================================

### Détails sur le dataset à analyser ###

# Suppression de colonnes non utilisées

# Aperçu rapide du dataset


In [None]:
### Nettoyage des données ###

# Remplacer les zéros par NA (valeurs manquantes)

# Pour l'âge, remplacer les valeurs > 99 par NA

# Vérification du nombre de valeurs manquantes

# Détection et exclusion des réponses uniformes sur les questions


In [None]:
# Potentielles visualisations des données


# Les Trois Grands Critères Psychométriques

Pour vérifier qu'un test est valable, il est essentiel de prendre en compte les trois grands critères :

1. **La Validité** : Mesure si un outil évalue bien ce qu'il est censé mesurer.
2. **La Fiabilité** : Indique la cohérence interne et la stabilité des résultats.
3. **La Sensibilité** : Évalue la capacité de l'outil à détecter des variations fines entre les individus.

Voici une décomposition de ces critères :
![Les Trois Critères Psychométriques](criteres_psychometriques.png)

# La consistance interne : Une dimension de la fiabilité

La fiabilité est un des trois critères clés en psychométrie, et l'une de ses composantes essentielles est **la consistance interne**.

### Qu'est-ce que la consistance interne ?
La consistance interne mesure à quel point les items (questions) d'un test sont cohérents entre eux. Elle permet de vérifier si toutes les questions évaluent bien le même construit. Si les réponses à des items évaluant une même dimension sont bien corrélées entre elles, cela suggère que les items évaluent bien un même trait.

### Comment la mesurer ?
L'outil principal pour mesurer la consistance interne est **l'alpha de Cronbach**. Un alpha supérieur à **0.7** est généralement considéré comme acceptable, bien que ce seuil puisse varier selon les contextes.

### Formule de l'alpha de Cronbach
Imaginons que nous ayons un ensemble de *k* items. Pour chaque item, nous pouvons calculer sa variance (c'est-à-dire dans quelle mesure les réponses varient). Nous pouvons également calculer la variance du score total (la somme des scores de tous les items) pour chaque individu et ensuite la variance globale de ces scores totaux dans l'échantillon.

L'alpha de Cronbach se calcule selon la formule suivante :$$
\alpha = \frac{k}{k-1} \left( 1 - \frac{\sum_{i=1}^{k} \sigma_{i}^{2}}{\sigma_{\text{total}}^{2}} \right)
$$

- $k$ est le nombre d'items.
- $\sigma_{i}^{2}$ est la variance du *i*-ème item.
- $\sigma_{\text{total}}^{2}$ est la variance du score total (somme des $k$ items).

Cette formule montre qu’un alpha élevé est obtenu lorsque la somme des variances des items est petite par rapport à la variance totale du score combiné. Plus les items "vont dans le même sens" (corrèlent entre eux), plus l’alpha augmente.

In [None]:
# ============================================================
# Section 3 : Fiabilité
# Sous-section : Consistance Interne
# ============================================================

### Calcul de l'alpha de Cronbach pour l'extraversion ###

# Colonnes d'extraversion

# Fonction de calcul de l'alpha de Cronbach

# Calcul initial

# Interprétation simple
if alpha_extraversion < 0.7:
    print("L'alpha est faible. Nous devons vérifier les items inversés.")
else:
    print("Alpha acceptable. Les items d'Extraversion sont cohérents.")

In [None]:
### Correction des items inversés ###

# Items à inverser pour l'Extraversion

# Nouveau calcul

# Stockage des résultats


In [None]:
### Correction des items inversés et calcul de l'alpha pour les autres dimensions ###


In [None]:
### Récapitulatif des alphas de Cronbach ###


### Limites de l'alpha de Cronbach et l'importance de l'omega de McDonald
L'alpha de Cronbach est un indicateur utile pour évaluer la consistance interne, mais il présente certaines limites:
1. **Hypothèse de tau-équivalence :** L'alpha suppose que tous les items contribuent de manière égale au score total, ce qui est rarement le cas en pratique.
2. **Sensibilité au nombre d'items :** L'alpha peut être artificiellement élevé si le nombre d'items est important.

### L'omega de McDonald : une mesure alternative
L'omega est une mesure plus robuste de la consistence interne, car il prend en compte des pondérations différentielles des items (modèle factoriel). Il ne repose pas sur l'hypothèse de tau-équivalence. On calcule "l'omega total" pour évaluer la consistance interne d'une dimension psychologique sans s'intéresser à ses sous-facteurs (on choisirait "l'omega hiérarchique" dans le cas contraire). Un omega supérieur à 0.7 est également considéré acceptable.

### Formule de l'omega total

L'omega total se calcule à partir des loadings factoriels (λ) issus d'une analyse factorielle à un seul facteur. Supposons que nous ayons *k* items, et pour chacun un loading λ<sub>i</sub> sur ce facteur. On définit :

- La somme des loadings : \\( \sum_{i=1}^{k} \lambda_i \\)
- La somme des loadings au carré : \\( \sum_{i=1}^{k} \lambda_i^2 \\)

Alors, l'omega total se calcule comme suit :

$$
\omega_{\text{total}} = \frac{\left(\sum_{i=1}^{k} \lambda_i\right)^2}{\left(\sum_{i=1}^{k} \lambda_i\right)^2 + k - \sum_{i=1}^{k} \lambda_i^{2}}
$$

Dans cette formule, \(k\) est le nombre d'items. Les loadings (λ) reflètent la contribution de chaque item au facteur commun. L'omega total prend ainsi en compte la structure factorielle de l'échelle, contrairement à l'alpha de Cronbach, et ne suppose pas que tous les items contribuent également au construit mesuré.

In [None]:
# Définition des dimensions et des colonnes associées

# Fonction de calcul de l'omega total pour un ensemble d'items

# Calculer l'omega total pour chaque dimension et afficher les résultats

# Créer un tableau récapitulatif des omegas


# Fiabilité test-retest
Les données de ce dataset ne sont pas longitudinales, cette caractéristique ne peut donc pas être évaluée.

# La sensibilité

La sensibilité d'un test psychométrique fait référence à sa capacité à distinguer des différences subtiles entre les individus.

### Qu'est-ce que la sensibilité d'une mesure ?
La sensibilité s’intéresse à la finesse de la mesure, c’est-à-dire sa capacité à différencier finement les individus. Un outil peu sensible aboutira à des scores très semblables pour la plupart des personnes, rendant difficile la mise en évidence de différences importantes, qu’il s’agisse de comparer différents groupes ou de suivre une progression dans le temps.

### Comment évaluer la sensibilité ?
Pour évaluer simplement la sensibilité, on peut examiner la variabilité des scores. Plus la variabilité est élevée, plus le test est susceptible de détecter des différences entre individus. Un indicateur simple est l’écart-type : un écart-type trop faible (tous les scores proches d’une valeur centrale) suggère une sensibilité limitée, alors qu’un écart-type plus élevé peut indiquer une mesure plus sensible. De plus, il est souvent utile de vérifier la distribution des données. De nombreux tests statistiques requièrent une distribution normale. Si les données sont fortement asymétriques ou aplaties, cela peut affecter l’interprétation de la sensibilité.

In [None]:
# Définition d'une fonction pour interpréter la sensibilité
# Un écart-type supérieur à 0.5 est considéré moyen, et un écart-type supérieur à 0.8 est considéré marque d'une sensibilité élevée ici

# Calcul et interprétation de la sensibilité de chaque dimension

# Affichage des résultats


In [None]:
# Représentation graphique de la distribution des scores moyens comparée à une distribution normale théorique


# Validité

La validité d’une mesure indique dans quelle mesure cette mesure évalue réellement le construit qu’elle est censée mesurer. Elle reflète la justesse et la pertinence de l’outil de mesure par rapport à son objectif.

### Validité critérielle

La validité critérielle se réfère à la capacité d’une mesure à prédire ou être associée à des variables extérieures pertinentes, appelées critères. Un test de personnalité devrait, par exemple, présenter des liens cohérents avec des caractéristiques démographiques ou des comportements connus.

Dans notre cas, nous pouvons évaluer la validité critérielle en examinant si les dimensions de personnalité sont associées à des variables comme le genre ou l’âge. Par exemple, puisque la littérature suggère que certains trait de personnalité varient avec l’âge ou présentent des différences moyennes entre les hommes et les femmes, notre test devrait refléter ces tendances. Plus nos résultats sont conformes aux relations attendues, plus la validité critérielle de notre mesure est robuste.

In [None]:
# Calcul d'un score moyen par dimension

# Conversion et nettoyage des variables âge et genre

# Calcul des corrélations entre âge et scores de personnalité

# T-tests entre genre et scores de personnalité


## Validité de construit

La validité de construit concerne la capacité d'un test à mesurer réellement le construit psychologique qu'il prétend évaluer. Pour un questionnaire de personnalité basé sur le Big Five, cela implique qu'une analyse factorielle effectuée sur les données devrait révéler une structure conforme aux cinq dimensions de personnalité attendues (Extraversion, Névrosisme, Agréabilité, Conscienciosité, Ouverture).

En d'autres termes, si notre questionnaire est valide sur le plan du construit, les items censés mesurer une même dimension devraient fortement se regrouper ensemble sur un même facteur, tandis que ceux mesurant d'autres dimensions devraient se regrouper de manière distincte.

In [None]:
# Extraire tous les items du Big Five

# Analyse factorielle exploratoire avec 5 facteurs


# Exemple d’application pratique

Au-delà de l’analyse factorielle et de la consistance interne, imaginons une application concrète. Supposons que nous souhaitons, pour chaque individu de notre dataset, trouver l’autre individu dont le profil de personnalité est le plus similaire, son âme soeur. Nous pourrons pour ce faire calculer une mesure de distance (telle que la distance euclidienne) entre chaque paire d’individus sur la base de leurs scores moyens aux cinq dimensions du Big Five, puis déterminer l’individu le plus proche.

Ensuite, pour faciliter la visualisation de ces relations, nous allons réaliser une Analyse en Composantes Principales (ACP, ou PCA en anglais) sur le tableau des scores de personnalité. La PCA permet de représenter nos individus dans un espace de dimension réduite (2D ici) tout en conservant le plus d’information possible. Sur ce graphique, il sera alors possible d’indiquer, pour chaque individu, l’individu qui lui est le plus similaire, par exemple en traçant une ligne reliant les deux points correspondants.

In [None]:
# Assigner un prénom à chaque individu


In [None]:
# Calcul du score moyen par dimension et détermination de l'âme sœur

# Mettre la distance à soi-même à l'infini pour ne pas se choisir


In [None]:
# Réaliser un PCA sur un sous-échantillon de 100 individus pour plus de lisibilité

# Récupération des loadings pour interpréter les axes

# Tracer le segment reliant chaque individu à son âme sœur si elle est dans l'échantillon

# Ajouter les noms sur le graphique

# Représentation graphique
