# L’analyse discriminante linéaire

Dans le chapitre précédent, nous avons abordé les techniques de regroupement d’observations dans des partitions (*clusters*) à des fins de classification. L’analyse discriminante linéaire (LDA pour *Linear Discriminant Analysis*) intervient en quelque sorte après, dans le sens où elle s’attache à repérer les structures qui ont autorisé l’attribution des classes (groupes).

Avant d’opérer une LDA, il faut s’assurer de respecter plusieurs contraintes :

- Le jeu de données est complet ;
- toutes les variables indépendantes sont continues (c’est-à-dire normalisées) ;
- les classes ont correctement été assignées.

Par ailleurs, une LDA repose sur deux hypothèses fondamentales :

- **La multinormalité :** les variables indépendantes sont normalement distribuées au sein des classes.
- **L’homoscédasticité :** les matrices de covariance des classes sont identiques.

Ajoutons à cela que la LDA cherche à maximiser la variance inter-classes en minimisant la variance intra-classe, aboutissant à une séparation linéaire entre les classes. De fait, si les données ne sont pas séparables linéairement, la LDA risque de ne pas bien fonctionner.

De nombreuses contraintes, qui ne doivent malgré tout pas empêcher d’utiliser cette technique : la LDA peut s’effectuer sur des données multi-classes et ne demande pas d’énormes calculs contrairement à d’autres comme la régression logistique pour des résultats équivalents.

## Présentation des données

Commençons par charger toutes les bibliothèques nécessaires pour ce projet :

In [None]:
import pickle
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.metrics import confusion_matrix

Prenons ensuite un jeu de données réduit issu d’une courte analyse de neuf fichiers appartenant au corpus *Brown*. L’objectif est de déterminer la meilleure manière d’analyser les données pour attribuer à coup sûr la bonne catégorie.

In [None]:
data = {
    'Tokens': [2374, 2370, 2428, 2213, 2334, 2332, 2200, 2234, 2244],
    'Types': [745, 672, 737, 743, 735, 833, 956, 916, 908],
    'TTR': [0.313816, 0.283544, 0.303542, 0.335743, 0.31491, 0.357204, 0.434545, 0.410027, 0.404635],
    'Sents': [150, 147, 189, 84, 67, 84, 103, 95, 96],
    'Average sentence length': [15.8267, 16.1224, 12.8466, 26.3452, 34.8358, 27.7619, 21.3592, 23.5158, 23.375],
    '1-letter words': [416, 398, 361, 227, 262, 286, 213, 210, 265],
    '2-letter words': [430, 432, 424, 451, 559, 384, 334, 372, 371],
    '>15-letter words': [1, 2, 0, 1, 9, 3, 3, 6, 2],
    'Average word length': [3.68618, 3.66624, 3.63715, 4.26661, 4.39674, 4.58533, 4.75455, 4.61549, 4.29055],
    'Category': ['mystery', 'mystery', 'mystery', 'religion', 'religion', 'religion', 'editorial', 'editorial', 'editorial']
}

df = pd.DataFrame(data, index=['cl01', 'cl02', 'cl03', 'cd01', 'cd02', 'cd03', 'cb01', 'cb02', 'cb03'])

display(df)

## Étape 1 : choisir les variables prédictives

La première étape consiste à séparer les variables prédictives (celles qui nous aideront dans nos prédictions) de la variable dépendante (celle que l’on cherche à prédire). Nous identifions par ailleurs des variables redondantes : l’indice TTR étant un ratio entre les mots-formes uniques et le nombre de tokens, on peut retirer sans perte de notre modèle les variables *Tokens* et *Types*. Même traitement pour la variable *Sents* qui, à partir du moment où nous connaissons le nombre de tokens et la longueur moyenne d’une phrase, peut-être reconstituée.

Nos matrices deviennent :

In [None]:
# predictive variables
X = df.drop(columns=['Tokens', 'Types', 'Sents', 'Category']).values

# target
y = df['Category'].values

# unique classes
classes = np.unique(y)

## Étape 2 : normaliser les données

On ne le répétera jamais assez, il est généralement recommandé de normaliser sa matrice de données : d’une part certaines variables sont sur des échelles très différentes, ce qui peut influencer l’analyse ; d’autre part les algorithmes sont plus robustes en travaillant avec des variables continues.

Pour *X*, on obtient :

In [None]:
X_scaled = (X - X.mean(axis=0)) / X.std(axis=0)

## Étape 3 : calculer les moyennes

Afin de déterminer les variances inter-classes et intra-classes, il est nécessaire au préalable de calculer les moyennes globales et à l’intérieur des classes :

In [None]:
mu = X_scaled.mean(axis=0)
means_per_class = {cls: X_scaled[y == cls].mean(axis=0) for cls in classes}

## Étape 4 : établir les matrices de dispersion

À cette étape, notre objectif est d’une part de révéler la manière dont les données varient à l’intérieur de leur classe et d’autre part comment les moyennes varient entre elles. Deux matrices seront calculées :

- la matrice de dispersion intra-classe ($S_W$), qui analyse la variance/covariance des données à l’intérieur de leur classe ;
- la matrice de dispersion inter-classe ($S_B$), qui mesure la variance entre les moyennes des classes.

Avant tout, initialisons des matrices carrées nulles :

In [None]:
# initialization
S_W = np.zeros((X_scaled.shape[1], X_scaled.shape[1]))
S_B = np.zeros((X_scaled.shape[1], X_scaled.shape[1]))

### La matrice de dispersion intra-classe

Pour mesurer la variance à l’intérieur de chaque classe, nous devons nous intéresser à la dispersion des données par rapport à la moyenne dans chaque classe. La formule établit que :

$$
S_W = \sum_{k=1}^{K} \sum_{i \in C_k} (x_i - \mu_k)(x_i - \mu_k)^T
$$

Où :

- $K$ est le nombre de classes ;
- $C_k$ représente les données dans la classe $k$ ;
- $x_i$ est un vecteur de caractéristiques pour l’exemple $i$ dans la classe $k$ ;
- $\mu_k$ est la moyenne des caractéristiques dans la classe $k$.

### La matrice de dispersion inter-classe

Cette matrice se construit en analysant les moyennes des classes varient entre elles à partir de l’expression suivante :

$$
S_B = \sum_{k=1}^{K} N_k (\mu_k - \mu)(\mu_k - \mu)^T
$$

Où :

- $N_k$ est le nombre d'éléments dans la classe $k$ ;
- $\mu_k$ est la moyenne des caractéristiques de la classe $k$ ;
- $\mu$ est la moyenne globale de toutes les classes.

### Résolution des calculs

Les opérations se réalisent en une passe avec *Numpy* :

In [None]:
for i in classes:
    # matrix for a class
    X_i = X_scaled[y == i]
    mu_k = means_per_class[i]
    
    # within-class scatter
    S_W += np.dot((X_i - mu_k).T, (X_i - mu_k))
    
    # between-class scatter
    n_k = X_i.shape[0]
    S_B += n_k * np.outer((mu_k - mu), (mu_k - mu))

**Explications :**

- Pour chaque classe, nous conservons une matrice $3 \times 6$ des trois textes décrits par les six variables ainsi qu’un vecteur des six moyennes ;
- $S_W$ étant définie dans l’espace des dimensions, nous souhaitons in fine une matrice $6 \times 6$ et non une matrice $3 \times 3$ ;
- pour $S_W$, le produit matriciel $(X_i − \mu_k)^T \cdot (X_i − \mu_k)$ équivaut à la somme des produits extérieurs $(x_i - \mu_k)(x_i - \mu_k)^T$ pour tous les $i \in C_k $ ;
- le produit extérieur des deux vecteurs $\mu_k \in \mathbb{R}^6$ et $\mu \in \mathbb{R}^6$ donne une matrice $6 \times 6$.

## Étape 5 : maximiser la séparation entre les classes

Si notre objectif était simplement de minimiser la variance intra-classe, $S_W$ seule suffirait à l’analyse. Cependant, dans la LDA, l’objectif est double : rechercher aussi les directions discriminantes en projetant les données sur un sous-espace où la séparation des classes est maximisée. Mathématiquement, cela revient à calculer :

$$
S_W^{-1}S_B
$$

En prenant l’inverse de $S_W$, nous réduisons l’impact de la dispersion intra-classe sur la séparation entre les classes. Plus précisément, cela permet de mettre en évidence les directions de l’espace vectoriel où les classes sont le mieux séparées, tout en tenant compte de la variance intra-classe par la diminution de l’influence des directions où les classes se chevauchent le plus.

Avec *Numpy*, on réalise l’opération simplement :

In [None]:
S_W_inv = np.linalg.inv(S_W)
S_W_inv_S_B = np.dot(S_W_inv, S_B)

## Étape 6 : décomposer la matrice en éléments propres

Une fois la matrice $S_W^{-1}S_B$ obtenue, il reste à la décomposer en éléments propres afin de révéler :
- Les **valeurs propres** (*eigenvalues*), qui quantifient la force de chaque direction discriminante.
- Les **vecteurs propres** (*eigenvectors*), qui représentent les directions dans lesquelles la séparation des classes est maximisée.

Pour rappel, la décomposition en éléments revient à exprimer une matrice carrée comme le résultat de l’équation :

$$
A = PDP^{-1}
$$

Où :

- $P$ est la matrice des vecteurs propres ;
- $D$ la diagonale des valeurs propres ;
- $P^{-1}$ l’inverse de $P$ si $A$ est diagonalisable.

### Calculer les valeurs propres

Cela revient à extraire les racines du polynôme caractéristique de la matrice :

$$
P_M(x) = \det[M - x.I_n]
$$

### Calculer les vecteurs propres

Les vecteurs propres sont les vecteurs associés aux valeurs propres d’une matrice. Elles répondent au système d’équation ci-dessous où $I_n$ est la matrice identité et $\vec{X}$ un vecteur des racines du polynôme caractéristique :

$$
(M − \lambda I_n)\vec{X} = \vec{0}
$$

### Projeter les données sur un sous-espace vectoriel

La méthode `.linalg.eig()` de *Numpy* effectue les calculs en une ligne :

In [None]:
eigenvalues, eigenvectors = np.linalg.eig(S_W_inv_S_B)

Il reste maintenant à sélectionner les vecteurs propres pour les valeurs propres les plus fortes. Pour cela, nous ordonnons d’abord les valeurs propres par ordre décroissant :

In [None]:
# indices to sort the array?
idx = eigenvalues.argsort()[::-1]

# sorting & swiping out the imaginary part of the number
eigenvalues = np.real(eigenvalues[idx])
eigenvectors = np.real(eigenvectors[:, idx])

Ensuite, nous décidons de la dimensionnalité du sous-espace dans lequel nous souhaitons projeter les données, avec la contrainte qu’il peut, au maximum, avoir autant de dimensions que de classes $-1$ :

In [None]:
# number of dimensions (max here: 2)
k = 2

# select the k eigenvectors
components = eigenvectors[:, :k]

Finalement, nous projetons les données sur le sous-espace :

In [None]:
X_projected = np.dot(X_scaled, components)

# into a dataframe
df_projected = pd.DataFrame(X_projected, index=df.index, columns=['Component 1', 'Component 2'])
df_projected['Class'] = y

display(df_projected)

## Visualisation

Mettons que nous obtenons une nouvelle donnée pour laquelle nous souhaitons deviner la classe :

In [None]:
# a new text
new_data = np.array([0.410961, 17.4314, 207, 498, 4, 3.72824]).reshape(1, -1)

# standardization
new_data_scaled = (new_data - new_data.mean()) / new_data.std()

# projection
new_data_projected = np.dot(new_data_scaled, components)

# into a dataframe
df_new = pd.DataFrame(new_data_projected, columns=['Component 1', 'Component 2'])
df_new['Class'] = 'Unknown'

# concatenation
df_projected = pd.concat([df_projected, df_new], ignore_index=True)

Preuve que la LDA a bien fonctionné, nous visualisons dans un nuage de points des partitions distinctes qui nous incitent à attribuer la classe *mystery* au nouveau texte :

In [None]:
plt.figure(figsize=(8, 6))

sns.scatterplot(
    data=df_projected,
    x='Component 1',
    y='Component 2',
    hue='Class',
    palette='Set2',
    style='Class',
    s=100,
    alpha=0.7
)

plt.title('Linear Discriminant Analysis (LDA)', fontsize=16)
plt.xlabel('Component 1', fontsize=12)
plt.ylabel('Component 2', fontsize=12)
plt.legend(title='Class', title_fontsize='13', fontsize='11', loc='best')

plt.xlim(-2, 2)
plt.ylim(-1, 1)
plt.grid(True, linestyle='--', alpha=0.5)

plt.show()

## Établir un modèle discriminant

Si elle s’interprète facilement, la preuve graphique n’est pas suffisante pour parler de modèle de classification. Une fois les données projetées sur un sous-espace de $k-1$ classes, nous pouvons construire un modèle basé sur les fonctions discriminantes de la LDA :

$$
g_k(x) = W_k \cdot x + b_k
$$

Où :

- $W_k$ figure les coefficients (ou poids) ;
- $b_k$ le biais.

### Calculer les coefficients

La matrice des coefficients se calcule comme :

$$
W_k = S_W^{−1} \cdot (\mu_k − \mu)
$$

Où :

- $\mu_k$ la moyenne de la classe $k$ ;
- $\mu$ la moyenne globale.

Nous avons besoin de connaître en premier lieu les moyennes globale et de chaque classe dans l’espace projeté :

In [None]:
# overall mean in the projected space
mean_overall = np.mean(X_projected, axis=0)

# mean of each class in the projected space
means_per_class = [np.mean(X_projected[y == c], axis=0) for c in classes]

Ensuite, nous recalculons l’inverse de la matrice de dispersion intra-classe dans l’espace projeté. Dans ce contexte, $S_W$ se comprend comme la matrice de covariance des dimensions réduites obtenues après projection sur les vecteurs propres. Comme `X_projected` est une matrice contenant en lignes les observations et en colonnes les dimensions, il nous suffit de la transposer pour obtenir la covariance des dimensions :

In [None]:
S_W_projected = np.cov(X_projected.T)
S_W_inv = np.linalg.inv(S_W_projected)

### Calculer le biais

Le biais est calculé par :

$$
b_k = -\frac{1}{2} \mu_k^T \cdot S_W^{−1} \cdot \mu_k + \log⁡(\pi_k)
$$

Où $\pi_k$ est le *prior* (probabilité a priori) de la classe $k$. L’existence de ce *prior* se justifie par la possibilité de déséquilibre de représentation d’une classe dans les données d’apprentissage. Pour éviter ce risque, le modèle prend en compte les connaissances a priori. De manière naïve, en présence de trois classes nous estimons le *prior* à 0.33 pour chacune.

Dans la pratique, il faut considérer ce mécanisme comme une possibilité de représenter les connaissances a priori : si nous sommes certain·es qu’une classe se rencontre davantage dans la nature, il nous faudra bouger le curseur en conséquence. Et si en revanche les données sont parfaitement équilibrées, comme dans notre exemple où nous avons trois représentants de chaque classe, les *priors* n’auront aucun impact et pourraient être ignorées. Nous tenons toutefois à les conserver :

In [None]:
priors = [np.sum(y == c) / len(y) for c in classes]

### Construire le modèle

Tous les éléments étant en place, nous pouvons construire le modèle en reprenant la formule énoncée plus haut :

In [None]:
coefficients = []
for k, class_mean in enumerate(means_per_class):
    W_k = np.dot(S_W_inv, class_mean - mean_overall)
    b_k = -0.5 * np.dot(class_mean, np.dot(S_W_inv, class_mean)) + np.log(priors[k])
    coefficients.append((W_k, b_k))

### Effectuer des prédictions

Il est temps d’utiliser le modèle pour prédire la classe de notre nouvelle observation, selon l'expression :

$$
\hat{y} = \arg \max_k g_k(x)
$$

La formule se comprend facilement : nous appliquons la fonction discriminante du modèle ajusté à chaque classe et choisissons la classe correspondant à l’argument qui maximise la fonction discriminante.

In [None]:
scores = [
    np.dot(new_data_projected, W_k) + b_k
    for W_k, b_k in coefficients
]

print(
    f"Score : {np.max(scores):.4f}",
    f"Catégorie : {classes[np.argmax(scores)]}",
    sep="\n"
)

Cerise sur le gâteau, il est possible de ressortir la probabilité associée à chaque classe grâce à la fonction de densité a posteriori :

In [None]:
# according to Bayes theorem
exps = np.exp(scores - np.max(scores))
probabilities = exps / np.sum(exps)

for class_name, p in zip(classes, probabilities):
    print(f'{class_name} : {p[0]:.2%}')

## Évaluer la performance du modèle

Dans une tâche de classification, on évalue généralement la performance du modèle avec une matrice de confusion et ses métriques dérivées : la **précision**, le **rappel**, et le **score F1**.

### Des données de test

Comme nous avons entraîné notre modèle sur des textes issus du corpus *Brown*, prenons d’autres textes pour lesquels nous connaissons la bonne catégorie :

In [None]:
with open('./data/brown.pkl', 'rb') as f:
    df = pickle.load(f)

# first 5 texts
display(df.head())

### Préparer les données

Il convient désormais de préparer les données de test de la même manière que celles qui ont servi lors de la phase d‘apprentissage :

1. Sélectionner les variables ;
2. Normaliser ;
3. Projeter dans le sous-espace vectoriel.

In [None]:
X_test = df.drop(columns=['Category']).values
X_test_scaled = (X_test - X_test.mean()) / X_test.std()
X_test_projected = np.dot(X_test_scaled, components)

### Appliquer le modèle

Il reste à appliquer le modèle pour chaque nouvelle observation, ressortir les scores et prédire leur classe :

In [None]:
scores = [
    [
        np.dot(data, W_k) + b_k
        for W_k, b_k in coefficients
    ]
    for data in X_test_projected
]
y_pred = classes[np.argmax(scores, axis=1)]

### Métriques d’évaluation

#### Déterminer la précision globale

Pour connaître la précision globale de notre modèle, nous allons calculer le taux de bonnes réponses :

In [None]:
y_test = df.Category
global_accuracy = sum(y_pred == y_test) / len(y_pred)

print(f'Précision globale : {global_accuracy:.2%}')

#### Établir la matrice de confusion

La précision globale n’est pas très rassurante. Regardons en détail avec la matrice de confusion. Utilisons pour cela la bibliothèque *Scikit-Learn* :

In [None]:
cfm = confusion_matrix(y_test, y_pred)

Chaque ligne de la matrice correspond à une classe réelle et chaque colonne à une classe prédite. Visuellement, il est plus simple d’analyser la matrice de confusion avec une carte de chaleur :

In [None]:
plt.figure(figsize=(8, 6))
sns.heatmap(
    cfm,
    annot=True,
    fmt='d',
    cmap='Blues',
    xticklabels=classes,
    yticklabels=classes
)

plt.xlabel('Predictions')
plt.ylabel('True labels')
plt.title('Confusion Matrix')

plt.show()

Les résultats sont édifiants : notre modèle ne prédit qu’une classe pour tous les textes, ce qui explique sa lamentable performance globale.

#### Les mesures dérivées

Dans un cas de classification binaire, on a coutume de calculer des métriques basées sur quatre cas :

- Les **vrais positifs** (*true positive* ou TP) : le nombre de fois où le modèle a attribué correctement la classe positive ;
- les **faux positifs** (*false positive* ou FP) : le nombre de fois où le modèle a faussement attribué la classe positive à un exemple qui appartient en réalité à la classe négative ;
- les **vrais négatifs** (*true negative* ou TN) : le nombre de fois où le modèle a attribué correctement la classe négative ;
- les **faux négatifs** (*false negative* ou FN) : le nombre de fois où le modèle a faussement attribué la classe négative à un exemple qui appartient en réalité à la classe positive.

De là, nous pouvons calculer des métriques importantes telles que la précision, le rappel, la spécificité, et le score F1.

La **précision** (*precision*) s’intéresse à l’exactitude des prédictions positives et se résout avec la formule :

$$
\text{precision} = \frac{TP}{TP + FP}
$$

Le **rappel** (*recall*), ou sensibilité, détermine le taux de classes positives que le modèle a correctement étiquetées selon la formule :

$$
\text{recall} = \frac{TP}{TP + FN}
$$

Le **taux de vrais négatifs** (*true negative rate*), ou score de spécificité, mesure la capacité du modèle à identifier correctement les échantillons négatifs grâce au rapport :

$$
\text{TNR} = \frac{TN}{TN + FP}
$$

Le **score F1** établit quant à lui la moyenne harmonique entre la précision et le rappel :

$$
\text{F1} = 2 \times \frac{\text{precision} \times \text{recall}}{\text{precision} + \text{recall}}
$$

Dans notre exemple, nous sommes dans le cas d’une classification multi-classes où le modèle doit choisir parmi plusieurs laquelle est la plus adaptée. Pour cette raison, la classe positive est la classe qu’il faudrait attribuer et la classe négative est constituée de toutes les autres.

Intéressons-nous uniquement aux résultats pour la classe positive *mystery* :

In [None]:
TP, FP, TN, FN = 21, 38, 0, 0

precision = TP / (TP + FP)
recall = TP / (TP + FN)
TNR = TN / (TN + FP)
f1_score = 2 * ((precision * recall) / (precision + recall))

print(
    f"Précision : {precision:.4f}",
    f"Rappel : {recall:.4f}",
    f"TNR : {TNR:.4f}",
    f"Score F1 : {f1_score:.4f}",
    sep="\n"
)

#### Interprétation des résultats

Avec un rappel de 1, notre modèle identifie clairement tous les textes de la catégorie *mystery* dans le jeu de données de test, sans ne jamais se tromper. Mais ne nous réjouissons pas hâtivement : nous parviendrions au même résultat si on attribuait à tous les textes la même étiquette.

C’est ce que nous enseigne le taux de vrais négatifs : le modèle n’est jamais parvenu à identifier une classe autre que *mystery*…

Par ailleurs, souvenons-nous que la précision est loin d’être folle : seulement 36 % de bonnes étiquettes attribuées. Aussi, le score F1 nous conforte dans ce triste constat : le modèle n’équilibre pas la précision et le rappel de manière optimale.

La raison de cet échec ne viendrait-elle pas de la faible quantité de données sur lesquelles nous avons entraîné notre modèle ?