# Mod√®les de M√©lange et Algorithmes EM : Th√©orie Fondamentale et Applications Avanc√©es

## 1. Introduction aux Mod√®les de M√©lange (Mixture Models)
Les mod√®les de m√©lange sont une famille de mod√®les probabilistes qui supposent que les donn√©es observ√©es sont g√©n√©r√©es √† partir d‚Äôune combinaison (m√©lange) de plusieurs distributions sous-jacentes. Ils sont particuli√®rement utiles pour :

- La classification non supervis√©e (clustering)
- L‚Äôestimation de densit√© (density estimation)
- La mod√©lisation de donn√©es h√©t√©rog√®nes

### 1.1 Formulation Math√©matique
Un mod√®le de m√©lange s‚Äô√©crit sous la forme g√©n√©rale :

$$
p(x \mid \theta) = \sum_{k=1}^{K} \pi_k \, p(x \mid \theta_k)
$$

o√π :

- $K$ = nombre de composantes du m√©lange
- $\pi_k$ = poids du $k$-i√®me composant ($\pi_k \geq 0$, $\sum_{k=1}^{K} \pi_k = 1$)
- $p(x \mid \theta_k)$ = distribution de probabilit√© du $k$-i√®me composant (ex : Gaussienne, Poisson, etc.)
- $\theta = \{(\pi_k, \theta_k)\}_{k=1}^{K}$ = param√®tres du mod√®le




### 1.2 Exemple : Mod√®le de M√©lange Gaussien (GMM)
Si chaque composante est une loi normale multivari√©e, alors :

$$
p(x \mid \theta_k) = N(x \mid \mu_k, \Sigma_k) = \frac{1}{(2\pi)^{d/2} |\Sigma_k|^{1/2}} \exp\left( -\frac{1}{2} (x - \mu_k)^T \Sigma_k^{-1} (x - \mu_k) \right)
$$

o√π :

- $\mu_k$ = vecteur moyenne
- $\Sigma_k$ = matrice de covariance
- $d$ = dimension des donn√©es



# Loi Normale Multivari√©e : D√©monstration

## üìå Formule √† d√©montrer
Soit $x \in \mathbb{R}^p$ une variable al√©atoire suivant une loi normale multivari√©e de moyenne $\mu$ et de matrice de covariance $\Sigma$.

**Densit√© de probabilit√© :**
$$
f(x \mid \mu, \Sigma) = \frac{1}{(2\pi)^{p/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T \Sigma^{-1} (x-\mu)\right)
$$

## 1Ô∏è‚É£ Cas univari√© (rappel)
Pour $X \sim \mathcal{N}(\mu, \sigma^2)$ :
$$
f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)
$$

Le terme $\frac{(x-\mu)^2}{\sigma^2}$ repr√©sente la distance normalis√©e.

## 2Ô∏è‚É£ Extension multivari√©e
Pour un vecteur al√©atoire $x \in \mathbb{R}^p$ :

- $\mu \in \mathbb{R}^p$ : vecteur moyenne
- $\Sigma \in \mathbb{R}^{p√óp}$ : matrice de covariance

**G√©n√©ralisations :**
1. $\sigma^2$ ‚Üí $\Sigma$ (matrice de covariance)
2. $\frac{(x-\mu)^2}{\sigma^2}$ ‚Üí $(x-\mu)^T \Sigma^{-1} (x-\mu)$ (distance de Mahalanobis)
3. Normalisation : $\frac{1}{\sqrt{2\pi\sigma^2}}$ ‚Üí $\frac{1}{(2\pi)^{p/2} |\Sigma|^{1/2}}$

## 3Ô∏è‚É£ D√©monstration compl√®te

### √âtape 1 : Fonction caract√©ristique
Pour $X \sim \mathcal{N}(\mu, \Sigma)$ :
$$
\varphi_x(t) = \exp\left(i t^T \mu - \frac{1}{2} t^T \Sigma t\right)
$$

### √âtape 2 : Transform√©e de Fourier inverse
La densit√© s'obtient par :
$$
f(x) = \frac{1}{(2\pi)^p} \int_{\mathbb{R}^p} \exp(-i t^T x) \varphi_x(t) dt
$$

En r√©solvant cette int√©grale gaussienne, on retrouve la formule :
$$
f(x \mid \mu, \Sigma) = \frac{1}{(2\pi)^{p/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T \Sigma^{-1} (x-\mu)\right)
$$

## 4Ô∏è‚É£ Interpr√©tation

### Terme de normalisation
- Garantit $\int_{\mathbb{R}^p} f(x)dx = 1$
- $|\Sigma|^{1/2}$ ajuste le volume dans $\mathbb{R}^p$

### Terme exponentiel
- Mesure la distance de Mahalanobis
- Tient compte des corr√©lations entre variables
- Si $\Sigma$ est diagonale : variables ind√©pendantes

## Tableau r√©capitulatif

| Cas univari√© | Cas multivari√© |
|--------------|----------------|
| $\sigma^2$ | $\Sigma$ |
| $\frac{(x-\mu)^2}{\sigma^2}$ | $(x-\mu)^T \Sigma^{-1} (x-\mu)$ |
| $\frac{1}{\sqrt{2\pi\sigma^2}}$ | $\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}$ |

**Propri√©t√© cl√© :** Quand $\Sigma$ est diagonale, on retrouve le produit de $p$ lois normales ind√©pendantes.




# Mod√®les de M√©lange Gaussien

## 1Ô∏è‚É£ Structure du mod√®le
Le param√®tre global $\Phi$ contient :
- **Proportions** : $\pi_1, \ldots, \pi_g$ (probabilit√©s d'appartenance aux groupes)
- **Param√®tres** : $\theta_k = (\mu_k, \Sigma_k)$ pour chaque composante $k$

**Densit√© du m√©lange** :
$$
\varphi(x, \Phi) = \sum_{k=1}^g \pi_k f(x, \theta_k)
$$
o√π $f(x, \theta_k)$ est la densit√© $\mathcal{N}(\mu_k, \Sigma_k)$.

## 2Ô∏è‚É£ Interpr√©tation probabiliste
### Formulation jointe :
$$
\varphi(x, \Phi) = \sum_{k=1}^g P(\theta_k) P(x \mid \theta_k) = P\left(\bigcup_{k=1}^g \{(x, \theta_k)\}\right)
$$

### Signification :
- $P(x, \theta_k)$ : Probabilit√© conjointe observation-groupe
- La somme repr√©sente la probabilit√© totale sur tous les groupes

## 3Ô∏è‚É£ Estimation par maximum de vraisemblance
**Fonction de vraisemblance** (pour $p$ observations) :
$$
\mathcal{L}(x; \Phi) = \sum_{i=1}^p \log \left( \sum_{k=1}^g \pi_k f(x_i, \theta_k) \right)
$$

**Processus d'optimisation** :
1. Calculer $f(x_i, \theta_k)$ pour chaque observation et composante
2. Pond√©rer par $\pi_k$
3. Maximiser $\mathcal{L}$ via EM (Expectation-Maximization)

## 4Ô∏è‚É£ Attribution des classes
**Probabilit√© a posteriori** (r√®gle de Bayes) :
$$
P(x_i \in G_k \mid x_i) = \frac{\pi_k f(x_i, \theta_k)}{\sum_{\ell=1}^g \pi_\ell f(x_i, \theta_\ell)}
$$

**D√©cision** :
Attribuer $x_i$ au groupe $k^* = \arg\max_k P(x_i \in G_k \mid x_i)$

## Tableau r√©capitulatif
| Concept | Formule |
|---------|---------|
| Densit√© | $\sum \pi_k \mathcal{N}(\mu_k, \Sigma_k)$ |
| Vraisemblance | $\sum \log(\sum \pi_k f(x_i, \theta_k))$ |
| Bayes | $\frac{\pi_k f_k}{\sum \pi_\ell f_\ell}$ |

## Propri√©t√©s cl√©s
- Flexibilit√© pour mod√©liser des distributions complexes
- Estimation it√©rative via algorithme EM
- Requiert de sp√©cifier $g$ (nombre de composantes)














## 2. Algorithme EM (Expectation-Maximization)
L‚Äôalgorithme EM est une m√©thode it√©rative pour estimer les param√®tres $$\theta$$ d‚Äôun mod√®le de m√©lange lorsque certaines variables sont latentes (non observ√©es).

### 2.1 Variables Latentes et Donn√©es Compl√®tes
Donn√©es observ√©es : 
$$ X = \{x_1, \dots, x_N\} $$

Donn√©es latentes : 

$Z = \{z_1, \dots, z_N\}$, o√π $z_{nk} = 1$ si $x_n$ provient de la composante $k$, sinon $0$.

La vraisemblance compl√®te s'√©crit :

$$
p(X, Z \mid \theta) = \prod_{n=1}^{N} \prod_{k=1}^{K} \left[\pi_k \, p(x_n \mid \theta_k)\right]^{z_{nk}}
$$

### 2.2 √âtapes de l‚ÄôAlgorithme EM
#### (E-Step) : Calcul des Responsabilit√©s
On calcule l‚Äôesp√©rance des variables latentes $$Z$$ √©tant donn√© les param√®tres courants $$\theta^{(t)}$$ :

$$
\gamma_{nk} = \mathbb{E}[z_{nk} \mid x_n, \theta^{(t)}] = \frac{\pi_k^{(t)} p(x_n \mid \theta_k^{(t)})}{\sum_{j=1}^{K} \pi_j^{(t)} p(x_n \mid \theta_j^{(t)})}
$$

#### (M-Step) : Maximisation de la Vraisemblance
On met √† jour les param√®tres en maximisant l‚Äôesp√©rance de la log-vraisemblance compl√®te :

$$
\theta^{(t+1)} = \arg \max_{\theta} \mathbb{E}[ \log p(X, Z \mid \theta) \mid X, \theta^{(t)}]
$$

Pour un GMM, les mises √† jour sont explicites :

- Poids des composantes :

$$
\pi_k^{(t+1)} = \frac{1}{N} \sum_{n=1}^{N} \gamma_{nk}
$$

- Moyennes :

$$
\mu_k^{(t+1)} = \frac{\sum_{n=1}^{N} \gamma_{nk} x_n}{\sum_{n=1}^{N} \gamma_{nk}}
$$

- Matrices de covariance :

$$
\Sigma_k^{(t+1)} = \frac{\sum_{n=1}^{N} \gamma_{nk} (x_n - \mu_k^{(t+1)})(x_n - \mu_k^{(t+1)})^T}{\sum_{n=1}^{N} \gamma_{nk}}
$$

## 3. Application : Clustering avec les CMM (Conditional Mixture Models)
Les CMM sont une variante des mod√®les de m√©lange o√π chaque composante est centr√©e sur un point de donn√©es (exemplaire).

### 3.1 Formulation du Probl√®me
Soit un dataset $$ X = \{x_1, \dots, x_N\} $$, la distribution du m√©lange est :

$$
Q(x) = \sum_{j=1}^{N} q_j f_j(x)
$$

o√π :

- $f_j(x) = C_\phi(x) \exp\left(-\beta \, d_\phi(x, x_j)\right)$ (distribution exponentielle)
- $d_\phi$ = divergence de Bregman (ex : distance euclidienne $\|x - x_j\|_2$)
- $q_j$ = probabilit√© a priori du $j$-i√®me exemplaire

### 3.2 Maximisation de la Log-Vraisemblance
La log-vraisemblance s‚Äô√©crit :

$$
L(X; \{q_j\}) = \frac{1}{N} \sum_{i=1}^{N} \log \left( \sum_{j=1}^{N} q_j \exp\left( -\beta d_\phi(x_i, x_j) \right) \right) + \text{const}
$$

### 3.3 Minimisation de la Divergence KL
Le probl√®me est √©quivalent √† minimiser :

$$
D(P \parallel Q) = -L + \text{const}
$$

o√π $$ P $$ est la distribution empirique.

### 3.4 Mise √† Jour des Param√®tres
La r√®gle de mise √† jour EM pour $$ q_j $$ est :

$$
q_j^{(t+1)} = q_j^{(t)} \frac{\sum_{i=1}^{N} P(x_i) f_j(x_i)}{\sum_{j'} q_{j'}^{(t)} f_{j'}(x_i)}
$$

## 4. √âtude de Cas : Segmentation d‚ÄôImages par GMM
### 4.1 Probl√®me
Segmenter une image en 3 r√©gions (fond, objet, bordure) en utilisant un GMM sur les pixels.

### 4.2 Mod√©lisation
Chaque pixel $$ x_n $$ est repr√©sent√© par sa couleur (RGB).

On utilise un GMM √† 3 composantes.

### 4.3 Algorithme EM Appliqu√©
**Initialisation** :

- $$ \pi_k = \frac{1}{3} $$  
- $ \mu_k $ = centres issus du K-means  
- $ \Sigma_k $ = matrices identit√©

**E-Step** :  
Calculer $$ \gamma_{nk} $$ pour chaque pixel.

**M-Step** :  
Mettre √† jour $$ \pi_k, \mu_k, \Sigma_k $$.

**Convergence** :  
Apr√®s ~20 it√©rations, les pixels sont class√©s en 3 clusters.

### 4.4 R√©sultats
- Cluster 1 = Fond (couleur uniforme)
- Cluster 2 = Objet principal
- Cluster 3 = Contours

## 5. Conclusion et Perspectives
Les mod√®les de m√©lange offrent une approche flexible pour mod√©liser des donn√©es complexes.

L‚Äôalgorithme EM permet une estimation efficace des param√®tres m√™me avec des donn√©es manquantes.

Les CMM √©tendent cette approche en utilisant des exemplaires, utile pour le clustering.

**Applications avanc√©es** :

- Reconnaissance vocale (HMM)
- Imagerie m√©dicale (segmentation)
- Recommandation (collaborative filtering)

## R√©f√©rences :

- Bishop, *Pattern Recognition and Machine Learning* (2006)
- Dempster et al., *Maximum Likelihood from Incomplete Data via the EM Algorithm* (1977)
- [Paper original sur les CMM]
