# Modèles de Mélange et Algorithmes EM : Théorie Fondamentale et Applications Avancées

## 1. Introduction aux Modèles de Mélange (Mixture Models)
Les modèles de mélange sont une famille de modèles probabilistes qui supposent que les données observées sont générées à partir d’une combinaison (mélange) de plusieurs distributions sous-jacentes. Ils sont particulièrement utiles pour :

- La classification non supervisée (clustering)
- L’estimation de densité (density estimation)
- La modélisation de données hétérogènes

### 1.1 Formulation Mathématique
Un modèle de mélange s’écrit sous la forme générale :

$$
p(x \mid \theta) = \sum_{k=1}^{K} \pi_k \, p(x \mid \theta_k)
$$

où :

- $K$ = nombre de composantes du mélange
- $\pi_k$ = poids du $k$-ième composant ($\pi_k \geq 0$, $\sum_{k=1}^{K} \pi_k = 1$)
- $p(x \mid \theta_k)$ = distribution de probabilité du $k$-ième composant (ex : Gaussienne, Poisson, etc.)
- $\theta = \{(\pi_k, \theta_k)\}_{k=1}^{K}$ = paramètres du modèle




### 1.2 Exemple : Modèle de Mélange Gaussien (GMM)
Si chaque composante est une loi normale multivariée, alors :

$$
p(x \mid \theta_k) = N(x \mid \mu_k, \Sigma_k) = \frac{1}{(2\pi)^{d/2} |\Sigma_k|^{1/2}} \exp\left( -\frac{1}{2} (x - \mu_k)^T \Sigma_k^{-1} (x - \mu_k) \right)
$$

où :

- $\mu_k$ = vecteur moyenne
- $\Sigma_k$ = matrice de covariance
- $d$ = dimension des données



# Loi Normale Multivariée : Démonstration

## 📌 Formule à démontrer
Soit $x \in \mathbb{R}^p$ une variable aléatoire suivant une loi normale multivariée de moyenne $\mu$ et de matrice de covariance $\Sigma$.

**Densité de probabilité :**
$$
f(x \mid \mu, \Sigma) = \frac{1}{(2\pi)^{p/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T \Sigma^{-1} (x-\mu)\right)
$$

## 1️⃣ Cas univarié (rappel)
Pour $X \sim \mathcal{N}(\mu, \sigma^2)$ :
$$
f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
$$

Le terme $\frac{(x-\mu)^2}{\sigma^2}$ représente la distance normalisée.

## 2️⃣ Extension multivariée
Pour un vecteur aléatoire $x \in \mathbb{R}^p$ :

- $\mu \in \mathbb{R}^p$ : vecteur moyenne
- $\Sigma \in \mathbb{R}^{p×p}$ : matrice de covariance

**Généralisations :**
1. $\sigma^2$ → $\Sigma$ (matrice de covariance)
2. $\frac{(x-\mu)^2}{\sigma^2}$ → $(x-\mu)^T \Sigma^{-1} (x-\mu)$ (distance de Mahalanobis)
3. Normalisation : $\frac{1}{\sqrt{2\pi\sigma^2}}$ → $\frac{1}{(2\pi)^{p/2} |\Sigma|^{1/2}}$

## 3️⃣ Démonstration complète

### Étape 1 : Fonction caractéristique
Pour $X \sim \mathcal{N}(\mu, \Sigma)$ :
$$
\varphi_x(t) = \exp\left(i t^T \mu - \frac{1}{2} t^T \Sigma t\right)
$$

### Étape 2 : Transformée de Fourier inverse
La densité s'obtient par :
$$
f(x) = \frac{1}{(2\pi)^p} \int_{\mathbb{R}^p} \exp(-i t^T x) \varphi_x(t) dt
$$

En résolvant cette intégrale gaussienne, on retrouve la formule :
$$
f(x \mid \mu, \Sigma) = \frac{1}{(2\pi)^{p/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T \Sigma^{-1} (x-\mu)\right)
$$

## 4️⃣ Interprétation

### Terme de normalisation
- Garantit $\int_{\mathbb{R}^p} f(x)dx = 1$
- $|\Sigma|^{1/2}$ ajuste le volume dans $\mathbb{R}^p$

### Terme exponentiel
- Mesure la distance de Mahalanobis
- Tient compte des corrélations entre variables
- Si $\Sigma$ est diagonale : variables indépendantes

## Tableau récapitulatif

| Cas univarié | Cas multivarié |
|--------------|----------------|
| $\sigma^2$ | $\Sigma$ |
| $\frac{(x-\mu)^2}{\sigma^2}$ | $(x-\mu)^T \Sigma^{-1} (x-\mu)$ |
| $\frac{1}{\sqrt{2\pi\sigma^2}}$ | $\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}$ |

**Propriété clé :** Quand $\Sigma$ est diagonale, on retrouve le produit de $p$ lois normales indépendantes.




# Modèles de Mélange Gaussien

## 1️⃣ Structure du modèle
Le paramètre global $\Phi$ contient :
- **Proportions** : $\pi_1, \ldots, \pi_g$ (probabilités d'appartenance aux groupes)
- **Paramètres** : $\theta_k = (\mu_k, \Sigma_k)$ pour chaque composante $k$

**Densité du mélange** :
$$
\varphi(x, \Phi) = \sum_{k=1}^g \pi_k f(x, \theta_k)
$$
où $f(x, \theta_k)$ est la densité $\mathcal{N}(\mu_k, \Sigma_k)$.

## 2️⃣ Interprétation probabiliste
### Formulation jointe :
$$
\varphi(x, \Phi) = \sum_{k=1}^g P(\theta_k) P(x \mid \theta_k) = P\left(\bigcup_{k=1}^g \{(x, \theta_k)\}\right)
$$

### Signification :
- $P(x, \theta_k)$ : Probabilité conjointe observation-groupe
- La somme représente la probabilité totale sur tous les groupes

## 3️⃣ Estimation par maximum de vraisemblance
**Fonction de vraisemblance** (pour $p$ observations) :
$$
\mathcal{L}(x; \Phi) = \sum_{i=1}^p \log \left( \sum_{k=1}^g \pi_k f(x_i, \theta_k) \right)
$$

**Processus d'optimisation** :
1. Calculer $f(x_i, \theta_k)$ pour chaque observation et composante
2. Pondérer par $\pi_k$
3. Maximiser $\mathcal{L}$ via EM (Expectation-Maximization)

## 4️⃣ Attribution des classes
**Probabilité a posteriori** (règle de Bayes) :
$$
P(x_i \in G_k \mid x_i) = \frac{\pi_k f(x_i, \theta_k)}{\sum_{\ell=1}^g \pi_\ell f(x_i, \theta_\ell)}
$$

**Décision** :
Attribuer $x_i$ au groupe $k^* = \arg\max_k P(x_i \in G_k \mid x_i)$

## Tableau récapitulatif
| Concept | Formule |
|---------|---------|
| Densité | $\sum \pi_k \mathcal{N}(\mu_k, \Sigma_k)$ |
| Vraisemblance | $\sum \log(\sum \pi_k f(x_i, \theta_k))$ |
| Bayes | $\frac{\pi_k f_k}{\sum \pi_\ell f_\ell}$ |

## Propriétés clés
- Flexibilité pour modéliser des distributions complexes
- Estimation itérative via algorithme EM
- Requiert de spécifier $g$ (nombre de composantes)














## 2. Algorithme EM (Expectation-Maximization)
L’algorithme EM est une méthode itérative pour estimer les paramètres $$\theta$$ d’un modèle de mélange lorsque certaines variables sont latentes (non observées).

### 2.1 Variables Latentes et Données Complètes
Données observées : 
$$ X = \{x_1, \dots, x_N\} $$

Données latentes : 

$Z = \{z_1, \dots, z_N\}$, où $z_{nk} = 1$ si $x_n$ provient de la composante $k$, sinon $0$.

La vraisemblance complète s'écrit :

$$
p(X, Z \mid \theta) = \prod_{n=1}^{N} \prod_{k=1}^{K} \left[\pi_k \, p(x_n \mid \theta_k)\right]^{z_{nk}}
$$

### 2.2 Étapes de l’Algorithme EM
#### (E-Step) : Calcul des Responsabilités
On calcule l’espérance des variables latentes $$Z$$ étant donné les paramètres courants $$\theta^{(t)}$$ :

$$
\gamma_{nk} = \mathbb{E}[z_{nk} \mid x_n, \theta^{(t)}] = \frac{\pi_k^{(t)} p(x_n \mid \theta_k^{(t)})}{\sum_{j=1}^{K} \pi_j^{(t)} p(x_n \mid \theta_j^{(t)})}
$$

#### (M-Step) : Maximisation de la Vraisemblance
On met à jour les paramètres en maximisant l’espérance de la log-vraisemblance complète :

$$
\theta^{(t+1)} = \arg \max_{\theta} \mathbb{E}[ \log p(X, Z \mid \theta) \mid X, \theta^{(t)}]
$$

Pour un GMM, les mises à jour sont explicites :

- Poids des composantes :

$$
\pi_k^{(t+1)} = \frac{1}{N} \sum_{n=1}^{N} \gamma_{nk}
$$

- Moyennes :

$$
\mu_k^{(t+1)} = \frac{\sum_{n=1}^{N} \gamma_{nk} x_n}{\sum_{n=1}^{N} \gamma_{nk}}
$$

- Matrices de covariance :

$$
\Sigma_k^{(t+1)} = \frac{\sum_{n=1}^{N} \gamma_{nk} (x_n - \mu_k^{(t+1)})(x_n - \mu_k^{(t+1)})^T}{\sum_{n=1}^{N} \gamma_{nk}}
$$

## 3. Application : Clustering avec les CMM (Conditional Mixture Models)
Les CMM sont une variante des modèles de mélange où chaque composante est centrée sur un point de données (exemplaire).

### 3.1 Formulation du Problème
Soit un dataset $$ X = \{x_1, \dots, x_N\} $$, la distribution du mélange est :

$$
Q(x) = \sum_{j=1}^{N} q_j f_j(x)
$$

où :

- $f_j(x) = C_\phi(x) \exp\left(-\beta \, d_\phi(x, x_j)\right)$ (distribution exponentielle)
- $d_\phi$ = divergence de Bregman (ex : distance euclidienne $\|x - x_j\|_2$)
- $q_j$ = probabilité a priori du $j$-ième exemplaire

### 3.2 Maximisation de la Log-Vraisemblance
La log-vraisemblance s’écrit :

$$
L(X; \{q_j\}) = \frac{1}{N} \sum_{i=1}^{N} \log \left( \sum_{j=1}^{N} q_j \exp\left( -\beta d_\phi(x_i, x_j) \right) \right) + \text{const}
$$

### 3.3 Minimisation de la Divergence KL
Le problème est équivalent à minimiser :

$$
D(P \parallel Q) = -L + \text{const}
$$

où $$ P $$ est la distribution empirique.

### 3.4 Mise à Jour des Paramètres
La règle de mise à jour EM pour $$ q_j $$ est :

$$
q_j^{(t+1)} = q_j^{(t)} \frac{\sum_{i=1}^{N} P(x_i) f_j(x_i)}{\sum_{j'} q_{j'}^{(t)} f_{j'}(x_i)}
$$

## 4. Étude de Cas : Segmentation d’Images par GMM
### 4.1 Problème
Segmenter une image en 3 régions (fond, objet, bordure) en utilisant un GMM sur les pixels.

### 4.2 Modélisation
Chaque pixel $$ x_n $$ est représenté par sa couleur (RGB).

On utilise un GMM à 3 composantes.

### 4.3 Algorithme EM Appliqué
**Initialisation** :

- $$ \pi_k = \frac{1}{3} $$  
- $ \mu_k $ = centres issus du K-means  
- $ \Sigma_k $ = matrices identité

**E-Step** :  
Calculer $$ \gamma_{nk} $$ pour chaque pixel.

**M-Step** :  
Mettre à jour $$ \pi_k, \mu_k, \Sigma_k $$.

**Convergence** :  
Après ~20 itérations, les pixels sont classés en 3 clusters.

### 4.4 Résultats
- Cluster 1 = Fond (couleur uniforme)
- Cluster 2 = Objet principal
- Cluster 3 = Contours

## 5. Conclusion et Perspectives
Les modèles de mélange offrent une approche flexible pour modéliser des données complexes.

L’algorithme EM permet une estimation efficace des paramètres même avec des données manquantes.

Les CMM étendent cette approche en utilisant des exemplaires, utile pour le clustering.

**Applications avancées** :

- Reconnaissance vocale (HMM)
- Imagerie médicale (segmentation)
- Recommandation (collaborative filtering)

## Références :

- Bishop, *Pattern Recognition and Machine Learning* (2006)
- Dempster et al., *Maximum Likelihood from Incomplete Data via the EM Algorithm* (1977)
- [Paper original sur les CMM]
