# Quadratic Discriminant Analysis (QDA)

<div align="center">
  <img src="src/pics/DiscriminantAnalysis/qda_iris.png" alt="a" width="750" height="500">
</div>

## 1.1 Formulation mathématique



La QDA est une méthode statistique de classification supervisée. Pour chaque classes $k$ associée à une valeur de sortie $y \in \mathcal{Y} = \{ k |  i \in \mathbb{N}^*\}$, on considère que ces classes suivent une répartition gaussienne et que chaque classe a sa propre matrice de covariance. i.e.

$$
\boxed{X | Y = k \sim \mathcal{N}(\mu_k, \Sigma_k)}
$$

Avec : 

$$
\quad \mu_k \in \mathbb{R}^n, \Sigma_k \in \mathcal{M}_{n}(\mathbb{R}), \forall k, n \in \mathbb{N}^* \times \mathbb{N}^*
$$

* Un estimateur de la moyenne $\mu_k$ est donné par $\hat{\mu_k} = \frac{1}{n_k}\sum_{i=1}^{n_k}x_i$
* De même pour la matrice de covariance, $\Sigma_k$, $\hat{\Sigma_k} = \frac{1}{n_k - 1}\sum_{i=1}^{n}(x_i - \hat{\mu_k})(x_i - \hat{\mu_k})^T$

La probabilité *a priori* d'appartenir à une classe vaut donc :

$$
\hat{\pi_k} = \frac{n_k}{n}
$$

QDA cherche alors à retourner le score le plus élevé évalué pour chaque classe, ce qui correspond à retourner la classe la plus probable en fonction des données d'entrées pour un échantillon de validation. Autrement dit, un estimateur de la classe à prédire $y$, noté $\hat{y} \in \mathcal{Y}$ est : 

$$
\hat{y} = \text{arg} \max_{k \in \mathbb{N}^*} \delta_k(x)
$$

Avec : 

$$
\delta_k(x) =
\;
\underbrace{
\log(\pi_k)
}_{\text{Pénalisation / biais a priori}}
\underbrace{
-\frac{1}{2}(x-\mu_k)^T \Sigma_k^{-1}(x-\mu_k)
}_{\text{Distance de Mahalanobis}}
\;
-\frac{1}{2}\log|\Sigma_k|
$$

---

Retour sur la matrice de covariance et de corrélation

* **Matrice de corrélation**. Pour un ensemble de variables $(X_n)_{n \in \mathbb{N}}$ Une matrice de corrélation est une matrice symétrique $\Sigma$ tel que :

$$
\Sigma = 
\begin{bmatrix}
r_{1,1} & \dots & r_{1,n} \\
\vdots & r_{i,j} & \vdots \\
r_{n,1} & \dots & r_{n,n} \\
\end{bmatrix}
$$

avec les $(r_{i,j})_{i, j \in \mathbb{N} \times \mathbb{N}}$ les coefficients de corrélation tels que :

$$
r_{i,j} = \text{Corr}(X_i,X_j) = \frac{\text{Cov}(X_i, X_j)}{\sigma_{X_{i}} \sigma_{X_{j}}} \quad \forall i, j \in \mathbb{N}^* \times \mathbb{N}^*
$$

avec $\text{Cov}(X_i, X_j) = \mathbb{E}[(X_i - \mathbb{E}(X_i))(X_j - \mathbb{E}(X_j))]$. Pour des échantillons $\{(x_i^n,x_j^n) | n \in \mathbb{N}\}$, un estimateur du coefficient de corrélation de $r_{i,j}$ noté $\hat{r_{i,j}}$ est donné par les relations suivantes

$$
\hat{r_{i,j}} = \frac{\hat{\sigma_{X_i,X_j}}}{\hat{\sigma_{X_{i}}} \hat{\sigma_{X_{j}}}}
$$

Avec : 

$$
\hat{\sigma}_{X,Y} = \frac{1}{N}\sum_{k=1}^{N}(x_i - \bar{x})(y_i - \bar{y}), \quad \hat{\sigma}_{S} = \sqrt{\frac{1}{N}\sum_{k=1}^{N}(s_i - \bar{s})²}, \quad \bar{s} = \frac{1}{N}\sum_{k=1}^{N}s_i, \quad S = X \quad \text{ou} \quad S = Y
$$

* **Matrice de covariance**. Pour un ensemble de variables $(X_n)_{n \in \mathbb{N}}$ Une matrice de covariance est une matrice symétrique $\Sigma$ tel que :

$$
\Sigma = 
\begin{bmatrix}
\sigma_{1,1} & \dots & \sigma_{1,n} \\
\vdots & \sigma_{i,j} & \vdots \\
\sigma_{n,1} & \dots & \sigma_{n,n} \\
\end{bmatrix}
$$

avec les $(\sigma_{i,j})_{i, j \in \mathbb{N} \times \mathbb{N}}$ la covariance entre les variables $X_i$ et $X_j$ tels que :

$$
\sigma_{i,j} = \text{Cov}(X_i, X_j) = \mathbb{E}[(X_i - \mathbb{E}(X_i))(X_j - \mathbb{E}(X_j))], \quad \forall i, j \in \mathbb{N}^* \times \mathbb{N}^*
$$

---

## 1.2 Illustration avec le *dataset* Iris de QDA

Voici une animation qui permet d'illustrer le fonctionnement de QDA sur 2 *features* du *dataset* Iris (4 *features* initialement). QDA sépare non linéairement le *dataset* en fonction des classes. 

<div align="center">
  <img src="src/pics/DiscriminantAnalysis/qda_iris.gif" alt="a" width="600" height="450">
</div>

## 2. Proposition d'implémentation de Naive Bayes

## 3. Des exemples en Python

# Quadratic Discriminant Analysis (QDA)
---
## 1.1 Formulation mathématique

La LDA suit le même paradigme que QDA mais en considérant la matrice de covariance commune à toutes les classes, i.e. pour $K$ classes :

$$
\boxed{X | Y = k \sim \mathcal{N}(\mu_k, \Sigma)}
$$

Avec : 

$$
\quad \mu_k \in \mathbb{R}^n, \Sigma \in \mathcal{M}_{n}(\mathbb{R}), \forall n \in \mathbb{N}^*
$$

* Un estimateur de la moyenne $\mu_k$ est donné par $\hat{\mu_k} = \frac{1}{n_k}\sum_{i=1}^{n_k}x_i$
* De même pour la matrice de covariance, $\Sigma$, $\hat{\Sigma} = \frac{1}{n - K}\sum_{k=1}^{K}(x_i - \hat{\mu_k})(x_i - \hat{\mu_k})^T$

La fonction discriminante est donc : 

$$
\hat{y} = \text{arg} \max_{k \in \mathbb{N}^*} \delta_k(x)
$$

Avec : 

$$
\delta_k(x) = x^T\Sigma^{-1}\mu_k - \frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k + \log(\pi_k)
$$

Cette méthode permet de séparer le plus possible la moyenne des groupes en tenant compte de la variance globale $\Sigma^{-1}$


## 1.2 Illustration avec le *dataset* Iris de LDA

Voici une animation qui projette le dataset Iris (4 *features*) sur le plan en utilisant LDA. LDA applique une réduction de dimension et projette l'espace de dimension 4 dans l'espace LDA (axes LDA1 et LDA2) en maximisant la séparation entre les classes. Contrairement à QDA, la séparation est ici linéaire.

<div align="center">
  <img src="src/pics/DiscriminantAnalysis/lda_iris.gif" alt="a" width="600" height="450">
</div>

## 1.3 Comparaison entre QDA et LDA

| Critère                            | LDA (Linear Discriminant Analysis)                                                           | QDA (Quadratic Discriminant Analysis)                                                                                 |
| ---------------------------------- | -------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------- |
| **Hypothèse sur la covariance**    | Une seule matrice de covariance $\Sigma$ commune à toutes les classes     | Une matrice de covariance $\Sigma_k$ pour chaque classe  |
| **Frontière de décision**          | Linéaire                                                                  | Quadratique    |
| **Nombre de paramètres à estimer** | Faible                                                                    | Elevé (une covariance par classe) |
| **Risque d'overfitting**           | Faible, stable sur petits échantillons                                    | Plus élevé si peu de données par classe   |
| **Performance**                    | Bonne si les classes ont des formes similaires                            | Meilleure si les classes ont des formes très différentes  |
| **Réduction de dimension**         | Peut être utilisé pour projeter les données sur un espace de dimension réduite  | Pas vraiment utilisé pour la réduction de dimension   |
| **Intuition statistique**          | Cherche une projection qui maximise la séparation linéaire entre classes  | Séparation quadratique |
| **Visualisation typique**          | Frontières droites entre classes                                          | Frontières  elliptiques |


## 2. Proposition d'implémentation de Naive Bayes

## 3. Des exemples en Python