# **Gaussian Mixture Models (GMM)**  
### *Modele mieszanek Gaussowskich*

---

## **English**

Gaussian Mixture Models (GMM) are probabilistic models that assume data comes from a mixture of multiple Gaussian distributions with unknown parameters. GMM is a generalization of K-means clustering that incorporates information about covariance structure and cluster membership probabilities.

### **Key Concepts**

1. **Mixture Model**: Combination of multiple probability distributions
2. **Gaussian Components**: Each cluster is modeled as a Gaussian distribution
3. **Soft Clustering**: Points can belong to multiple clusters with different probabilities
4. **EM Algorithm**: Expectation-Maximization for parameter estimation
5. **Latent Variables**: Hidden cluster assignments

### **Mathematical Foundation**

#### **Mixture Model**
For K components, the probability density function is:
$$
p(x) = \sum_{k=1}^{K} \pi_k \mathcal{N}(x | \mu_k, \Sigma_k)
$$

Where:
- $\pi_k$ = mixing coefficient (weight) for component k
- $\mathcal{N}(x | \mu_k, \Sigma_k)$ = Gaussian distribution with mean $\mu_k$ and covariance $\Sigma_k$
- $\sum_{k=1}^{K} \pi_k = 1$ and $\pi_k \geq 0$

#### **Gaussian Distribution**
$$
\mathcal{N}(x | \mu, \Sigma) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)
$$

#### **Posterior Probability (Responsibility)**
$$
\gamma_{nk} = \frac{\pi_k \mathcal{N}(x_n | \mu_k, \Sigma_k)}{\sum_{j=1}^{K} \pi_j \mathcal{N}(x_n | \mu_j, \Sigma_j)}
$$

### **EM Algorithm**

#### **E-Step (Expectation)**
Calculate responsibilities (posterior probabilities):
$$
\gamma_{nk} = \frac{\pi_k \mathcal{N}(x_n | \mu_k, \Sigma_k)}{\sum_{j=1}^{K} \pi_j \mathcal{N}(x_n | \mu_j, \Sigma_j)}
$$

#### **M-Step (Maximization)**
Update parameters:

**Mixing coefficients:**
$$
\pi_k = \frac{1}{N} \sum_{n=1}^{N} \gamma_{nk}
$$

**Means:**
$$
\mu_k = \frac{\sum_{n=1}^{N} \gamma_{nk} x_n}{\sum_{n=1}^{N} \gamma_{nk}}
$$

**Covariances:**
$$
\Sigma_k = \frac{\sum_{n=1}^{N} \gamma_{nk} (x_n - \mu_k)(x_n - \mu_k)^T}{\sum_{n=1}^{N} \gamma_{nk}}
$$

### **Model Selection**

#### **Akaike Information Criterion (AIC)**
$$
AIC = -2 \ln(L) + 2p
$$

#### **Bayesian Information Criterion (BIC)**
$$
BIC = -2 \ln(L) + p \ln(N)
$$

Where L is the likelihood and p is the number of parameters.

### **Covariance Types**

1. **Full**: Each component has its own general covariance matrix
2. **Tied**: All components share the same covariance matrix
3. **Diagonal**: Covariance matrices are diagonal (features independent)
4. **Spherical**: Covariance matrices are spherical (σ²I)

### **Advantages**
- **Soft clustering**: Probabilistic cluster assignments
- **Flexible cluster shapes**: Can model elliptical clusters
- **Probabilistic framework**: Provides uncertainty estimates
- **Density estimation**: Can be used for density modeling
- **Generative model**: Can generate new samples

### **Disadvantages**
- **Assumes Gaussian distributions**: May not fit non-Gaussian data
- **Sensitive to initialization**: May converge to local optima
- **Model selection**: Need to choose number of components
- **Computational complexity**: More expensive than K-means
- **Curse of dimensionality**: Performance degrades in high dimensions

### **Applications**
- **Clustering**: Soft clustering with uncertainty
- **Dimensionality Reduction**: Combined with PCA
- **Anomaly Detection**: Low probability regions as anomalies
- **Image Segmentation**: Pixel clustering in images
- **Speech Recognition**: Modeling acoustic features
- **Finance**: Risk modeling and portfolio optimization

### **Comparison with K-Means**

| Aspect | GMM | K-Means |
|--------|-----|---------|
| **Cluster Assignment** | Soft (probabilistic) | Hard (deterministic) |
| **Cluster Shape** | Elliptical | Spherical |
| **Parameters** | Mean, covariance, weights | Only centroids |
| **Complexity** | Higher | Lower |
| **Initialization** | More sensitive | Less sensitive |

### **Initialization Strategies**

1. **Random**: Random parameter initialization
2. **K-means**: Use K-means results to initialize
3. **K-means++**: Improved K-means initialization
4. **Multiple runs**: Run multiple times and select best

---

## **Polish**

Modele mieszanek Gaussowskich (GMM) to modele probabilistyczne, które zakładają, że dane pochodzą z mieszanki wielu rozkładów Gaussowskich o nieznanych parametrach. GMM to uogólnienie klasteryzacji K-means, które uwzględnia informacje o strukturze kowariancji i prawdopodobieństwach przynależności do klastrów.

### **Kluczowe pojęcia**

1. **Model mieszanki**: Kombinacja wielu rozkładów prawdopodobieństwa
2. **Komponenty Gaussowskie**: Każdy klaster jest modelowany jako rozkład Gaussowski
3. **Klasteryzacja miękka**: Punkty mogą należeć do wielu klastrów z różnymi prawdopodobieństwami
4. **Algorytm EM**: Expectation-Maximization do estymacji parametrów
5. **Zmienne ukryte**: Ukryte przypisania klastrów

### **Podstawy matematyczne**

#### **Model mieszanki**
Dla K komponentów, funkcja gęstości prawdopodobieństwa to:
$$
p(x) = \sum_{k=1}^{K} \pi_k \mathcal{N}(x | \mu_k, \Sigma_k)
$$

Gdzie:
- $\pi_k$ = współczynnik mieszania (waga) dla komponentu k
- $\mathcal{N}(x | \mu_k, \Sigma_k)$ = rozkład Gaussowski ze średnią $\mu_k$ i kowariancją $\Sigma_k$
- $\sum_{k=1}^{K} \pi_k = 1$ i $\pi_k \geq 0$

#### **Rozkład Gaussowski**
$$
\mathcal{N}(x | \mu, \Sigma) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)
$$

#### **Prawdopodobieństwo a posteriori (odpowiedzialność)**
$$
\gamma_{nk} = \frac{\pi_k \mathcal{N}(x_n | \mu_k, \Sigma_k)}{\sum_{j=1}^{K} \pi_j \mathcal{N}(x_n | \mu_j, \Sigma_j)}
$$

### **Algorytm EM**

#### **Krok E (Expectation)**
Obliczenie odpowiedzialności (prawdopodobieństwa a posteriori):
$$
\gamma_{nk} = \frac{\pi_k \mathcal{N}(x_n | \mu_k, \Sigma_k)}{\sum_{j=1}^{K} \pi_j \mathcal{N}(x_n | \mu_j, \Sigma_j)}
$$

#### **Krok M (Maximization)**
Aktualizacja parametrów:

**Współczynniki mieszania:**
$$
\pi_k = \frac{1}{N} \sum_{n=1}^{N} \gamma_{nk}
$$

**Średnie:**
$$
\mu_k = \frac{\sum_{n=1}^{N} \gamma_{nk} x_n}{\sum_{n=1}^{N} \gamma_{nk}}
$$

**Kowariancje:**
$$
\Sigma_k = \frac{\sum_{n=1}^{N} \gamma_{nk} (x_n - \mu_k)(x_n - \mu_k)^T}{\sum_{n=1}^{N} \gamma_{nk}}
$$

### **Selekcja modelu**

#### **Kryterium informacyjne Akaike (AIC)**
$$
AIC = -2 \ln(L) + 2p
$$

#### **Bayesowskie kryterium informacyjne (BIC)**
$$
BIC = -2 \ln(L) + p \ln(N)
$$

Gdzie L to wiarygodność, a p to liczba parametrów.

### **Typy kowariancji**

1. **Pełna**: Każdy komponent ma własną ogólną macierz kowariancji
2. **Wiązana**: Wszystkie komponenty dzielą tę samą macierz kowariancji
3. **Diagonalna**: Macierze kowariancji są diagonalne (cechy niezależne)
4. **Sferyczna**: Macierze kowariancji są sferyczne (σ²I)

### **Zalety**
- **Klasteryzacja miękka**: Probabilistyczne przypisania klastrów
- **Elastyczne kształty klastrów**: Może modelować klastry eliptyczne
- **Ramy probabilistyczne**: Zapewnia oszacowania niepewności
- **Estymacja gęstości**: Może być używany do modelowania gęstości
- **Model generatywny**: Może generować nowe próbki

### **Wady**
- **Zakłada rozkłady Gaussowskie**: Może nie pasować do danych nie-Gaussowskich
- **Wrażliwy na inicjalizację**: Może zbiegać do optimów lokalnych
- **Selekcja modelu**: Potrzeba wyboru liczby komponentów
- **Złożoność obliczeniowa**: Droższa niż K-means
- **Przekleństwo wymiarowości**: Wydajność spada w wysokich wymiarach

### **Zastosowania**
- **Klasteryzacja**: Miękka klasteryzacja z niepewnością
- **Redukcja wymiarowości**: W połączeniu z PCA
- **Wykrywanie anomalii**: Regiony o niskim prawdopodobieństwie jako anomalie
- **Segmentacja obrazów**: Klasteryzacja pikseli w obrazach
- **Rozpoznawanie mowy**: Modelowanie cech akustycznych
- **Finanse**: Modelowanie ryzyka i optymalizacja portfela

### **Porównanie z K-Means**

| Aspekt | GMM | K-Means |
|--------|-----|---------|
| **Przypisanie klastra** | Miękkie (probabilistyczne) | Twarde (deterministyczne) |
| **Kształt klastra** | Eliptyczny | Sferyczny |
| **Parametry** | Średnia, kowariancja, wagi | Tylko centroidy |
| **Złożoność** | Wyższa | Niższa |
| **Inicjalizacja** | Bardziej wrażliwa | Mniej wrażliwa |

### **Strategie inicjalizacji**

1. **Losowa**: Losowa inicjalizacja parametrów
2. **K-means**: Użycie wyników K-means do inicjalizacji
3. **K-means++**: Ulepszona inicjalizacja K-means
4. **Wielokrotne uruchomienia**: Uruchomienie wielokrotne i wybór najlepszego
