## Gaussian Mixture Model (GMM)
Un Gaussian Mixture Model (GMM) es una técnica de modelado probabilístico que se utiliza para agrupar datos o modelar distribuciones complejas. Combina múltiples distribuciones normales (Gaussianas) para representar un conjunto de datos. Es una generalización de la k-means, pero más flexible.

¿Qué es un Gaussian Mixture Model?
1. Distribuciones Gaussianas:
    GMM supone que los datos se generan a partir de una mezcla de varias distribuciones normales (Gaussianas), cada una representando un grupo o clúster.

2. Modelo probabilístico:
    Cada punto de datos tiene una probabilidad de pertenecer a cada una de las distribuciones Gaussianas.

3. No linealidad:
    A diferencia de k-means, GMM permite identificar clústeres que no son necesariamente esféricos ni de igual tamaño.

**Ecuación de GMM** 

La función de densidad de probabilidad para una mezcla de $K$ Gaussianas es:

$
 P(x) = \sum_{k=1}^K \pi_k \cdot \mathcal{N}(x \,|\, \mu_k, \Sigma_k) 
$
 
1. $K$: Número de distribuciones Gaussianas (o clústeres).
 
2. $\pi_k$: Peso de la mezcla para el clúster $k$ (suma de todos los $\pi_k = 1$).
 
3. $\mathcal{N}(x \,|\, \mu_k, \Sigma_k)$: La densidad de probabilidad de una Gaussiana con: 
  - $\mu_k$: Media del clúster $k$.
 
  - $\Sigma_k$: Matriz de covarianza del clúster $k$.

In [1]:
import pandas as pd
from sklearn import datasets
import plotly.graph_objects as go
from sklearn.mixture import GaussianMixture

iris = datasets.load_iris(as_frame=True)
dataset = iris['frame']
dataset['species'] = pd.Categorical.from_codes(iris['target'], iris['target_names'])
dataset

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target,species
0,5.1,3.5,1.4,0.2,0,setosa
1,4.9,3.0,1.4,0.2,0,setosa
2,4.7,3.2,1.3,0.2,0,setosa
3,4.6,3.1,1.5,0.2,0,setosa
4,5.0,3.6,1.4,0.2,0,setosa
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,virginica
146,6.3,2.5,5.0,1.9,2,virginica
147,6.5,3.0,5.2,2.0,2,virginica
148,6.2,3.4,5.4,2.3,2,virginica


In [2]:
# crear modelo de GMM
gmm = GaussianMixture(n_components=3, random_state=666)
gmm.fit(dataset[['sepal length (cm)','sepal width (cm)','petal length (cm)']])
gmm

In [3]:
# Predecir los clústeres
labels = gmm.predict(dataset.iloc[:,0:3])
print(gmm.means_)
labels

[[6.63722432 2.97133256 5.68003036]
 [6.06723131 2.82043916 4.504222  ]
 [5.00600012 3.42800027 1.46200004]]


array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0])

In [4]:
fig = go.Figure([
    go.Scatter(x=dataset['sepal length (cm)'], y=dataset['sepal width (cm)'], name='Train', mode='markers',
                marker=dict(color=dataset['target'], size=12, symbol=dataset['target'], opacity=0.9)),
    go.Scatter(x=gmm.means_[:,0], y=gmm.means_[:,1], name='Means', mode='markers', 
                marker=dict(size=10, color='red')),
    go.Scatter(x=dataset['sepal length (cm)'], y=dataset['sepal width (cm)'], name='labels', mode='markers', 
                marker=dict(size=5, symbol=labels)),
])
fig.update_layout(title='Iris dataset', xaxis_title='sepal length (cm)', yaxis_title='sepal width (cm)', template='plotly_dark')
fig.show()

In [5]:
fig = go.Figure([
    go.Scatter3d(x=dataset['sepal length (cm)'], y=dataset['sepal width (cm)'],z=dataset['petal length (cm)'], 
                    name='Train', mode='markers',
                    marker=dict(color=dataset['target'],size=16,opacity=0.25,)),
    go.Scatter3d(x=gmm.means_[:,0], y=gmm.means_[:,1],z=gmm.means_[:,2], name='Means', mode='markers', 
                marker=dict(size=20, color='red')),
    go.Scatter3d(x=dataset['sepal length (cm)'], y=dataset['sepal width (cm)'],z=dataset['petal length (cm)'], 
                name='labels', mode='markers', 
                marker=dict(color=labels,size=6)),
])
fig.update_layout(title='Iris dataset',template='plotly_dark')
fig.show()

: 