Este es un "notebook" (cuaderno digital) con una demostración de k-medias (del inglés k-means), DBSCAN y GMM.

Acompaña al Capítulo 7 del libro (1 de 4) y muestra cómo se hacen diferentes figuras.

Un poco menos pulido que otros como cuaderno de clase.

Autor: Viviana Acquaviva, con contribuciones de Jake Postiglione y Olga Privman. Traducido por Manuel Pichardo Marcano y Genaro Suárez; ver también otras fuentes. 

In [None]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from scipy.spatial.distance import cdist
from sklearn import metrics

In [None]:
# %pip install mlxtend --upgrade 

In [None]:
from mlxtend.plotting import plot_decision_regions

In [None]:
X, y_true = make_blobs(n_samples=300, centers=4,
                       cluster_std=0.6, random_state=2)

fig = plt.figure(figsize=(12,6))

start = np.array([[-1,1],[1,-1],[3,-3],[-5,-10]]) #puntos iniciales (fijos para la reproducibilidad)

plt.subplot(2,2,1)
plt.scatter(X[:, 0], X[:, 1], s =3, c ='gray') # graficar los puntos originales
plt.scatter(start[:,0],start[:,1], s = 20, c = 'k', label = 'Iteración 0');
plt.xlim(-10,5);
plt.annotate('Iteración 0', xy=(77, 20), xycoords='axes points',
            size=14, ha='right', va='top')
#plt.legend(loc='lower left');

for i in range(1,4):
    plt.subplot(2,2,i+1)
    kmeans = KMeans(n_clusters=4, max_iter = i, init = start, n_init=1)
    kmeans.fit(X)
    y_kmeans = kmeans.predict(X)
    centroids = kmeans.cluster_centers_
    plt.scatter(X[:, 0], X[:, 1], s = 3, c = y_kmeans, cmap = 'rainbow') # graficar los puntos originales
    plt.scatter(centroids[:, 0], centroids[:, 1], s=20, \
                edgecolor = 'k', label = 'Iteration'+str(i), c = [0,1,2,3],cmap = 'rainbow');
    plt.xlim(-10,5);
#    plt.legend(loc='lower left', numpoints=1);
    plt.annotate('Iteración '+str(i), xy=(77, 20), xycoords='axes points',
            size=14, ha='right', va='top')
#            bbox=dict(boxstyle='round', fc='w'))
#plt.savefig('Clustering_iterations.png', dpi = 300)

### Registro de Aprendizaje
    
P: Según el gráfico superior izquierdo, etiquetado como "Iteración 0", ¿cuántos grupos de puntos dirías que hay?

<details>
<summary style="display: list-item;">¡Haz clic aquí para la respuesta!</summary>
<p>
Hay 4 grupos de puntos o "clusters". Esto es fácil de ver para un ser humano, pero ¿cómo hacemos que una computadora haga esto por nosotros? Veamos a continuación los ejemplos que detallan algunas situaciones más difíciles que podemos encontrar con el agrupamiento
</p>
</details>


### Primer ejemplo un poco engañoso: manchas superpuestas de diferente tamaño/densidad.

In [None]:
X1b, y1b = make_blobs(n_samples=200, centers=[(1.25,1)],
                       cluster_std=0.2, random_state=1)

X2b, y2b = make_blobs(n_samples=400, centers=[(0,1)],
                       cluster_std=0.5, random_state=2)

X3b, y3b = make_blobs(n_samples=200, centers=[(-1.25,1)],
                       cluster_std=0.2, random_state=3)

In [None]:
fig = plt.figure(figsize=(12,6))

plt.scatter(X1b[:, 0], X1b[:, 1], s =10, c ='gray') # graficar los puntos originales

plt.scatter(X2b[:, 0], X2b[:, 1], s =10, c ='violet') # graficar los puntos originales

plt.scatter(X3b[:, 0], X3b[:, 1], s =10, c ='teal') # graficar los puntos originales

In [None]:
Xb = np.vstack([X1b,X2b,X3b])

In [None]:
kmeans = KMeans(n_clusters=3, n_init = 10, random_state=30) #predecir 0,1,2
kmeans.fit(Xb)
yb_kmeans = kmeans.predict(Xb)
centersb = kmeans.cluster_centers_

In [None]:
yb_kmeans

In [None]:
yb = np.concatenate([np.zeros(len(y1b)),np.zeros(len(y2b))+1,np.zeros(len(y3b))+2])

In [None]:
plt.figure(figsize=(8,6))
plot_decision_regions(Xb, yb_kmeans.astype(int), clf=model, legend=0, markers = '...', colors = 'lightgray,violet,teal')
plt.scatter(X1b[:,0],X1b[:,1], s = 30, c = 'lightgray',edgecolors='k')
plt.scatter(X2b[:,0],X2b[:,1], s = 30, c = 'violet', edgecolors='k')
plt.scatter(X3b[:,0],X3b[:,1],s = 30, c = 'teal', edgecolors='k')
plt.scatter(centersb[:, 0], centersb[:, 1], c='black', s=100, alpha=0.5);

plt.xlim(-2.5,2.5)
plt.ylim(-0.5,2.5);

#plt.savefig('ClustersBad.png', dpi = 300)

### Ahora pasamos a una distribución diferente (cara sonriente).



In [None]:
from math import pi, cos, sin
from random import random

def point(h, k, r):
    theta = random() * 2 * pi
    return h + cos(theta) * r, k + sin(theta) * r + 0.2*random()

xy = [point(1,2,1) for _ in range(100)]

In [None]:
X1, y1 = make_blobs(n_samples=10, centers=[(0.5,2.5)],
                       cluster_std=0.05, random_state=1)

X2, y2 = make_blobs(n_samples=10, centers=[(1.5,2.5)],
                       cluster_std=0.05, random_state=2)

X3, y3 = make_blobs(n_samples=10, centers=[(1,1.7)],
                       cluster_std=0.05, random_state=2)

In [None]:
X3_stretch = np.array([X3[:,0]*3, X3[:,1]]) #hacer la boca :) 

In [None]:
plt.axes().set_aspect('equal', 'datalim')
plt.scatter(*zip(*xy))
plt.scatter(X1[:,0],X1[:,1])
plt.scatter(X2[:,0],X2[:,1])
plt.scatter(X3_stretch.T[:,0]-1.9,X3_stretch.T[:,1])

plt.show()

In [None]:
X = np.vstack([xy,X1,X2,np.array([X3_stretch.T[:,0]-1.9,X3_stretch.T[:,1]]).T])

### Veamos cómo k-medias agrupa estos puntos.

In [None]:
kmeans = KMeans(n_clusters=4, n_init = 10) #También podemos cambiar el número de grupos
kmeans.fit(X)
y_kmeans = kmeans.predict(X)
centers = kmeans.cluster_centers_

print(centers)
plt.scatter(X[:, 0], X[:, 1], c=y_kmeans, s=10, cmap='viridis')
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=100, alpha=0.5);

In [None]:
y = np.concatenate([np.zeros(len(xy)), np.zeros(len(y1))+1,np.zeros(len(y2))+2,np.zeros(len(y3))+3])

In [None]:
plt.figure(figsize=(8,6))
plot_decision_regions(X, y.astype(int), clf=kmeans, legend=0, markers = '.', colors = 'lightgray,teal,yellow,violet')
plt.scatter(centers[:, 0], centers[:, 1], c='black', s=100, alpha=0.5);
plt.scatter(*zip(*xy), s = 30, c = 'lightgray', edgecolors='k')
plt.scatter(X1[:,0],X1[:,1], s = 30, c = 'teal',edgecolors='k')
plt.scatter(X2[:,0],X2[:,1], s = 30, c = 'yellow', edgecolors='k')
plt.scatter(X3_stretch.T[:,0]-1.9,X3_stretch.T[:,1],s = 30, c = 'violet', edgecolors='k')
plt.xlim(-0.5,2.5);
plt.ylim(0.5,3.5);
#plt.savefig('ClustersBad2.png', dpi = 300)

### Registro de Aprendizaje
    
P: ¿Se ve bien este ajuste? ¿Por qué nuestro método de agrupamiento podría estar agrupando objetos como este?

<details>
<summary style="display: list-item;">¡Haz clic aquí para la respuesta!</summary>
<p>
¡Esto no es un muy buen ajuste! La cara sonriente es un ejemplo realmente engañoso, por varias razones. Una de estas razones es el anillo que rodea los tres cúmulos más pequeños. KMeans (algoritmo K-medias) no puede seleccionar grupos no convexos y termina dividiendo los puntos del anillo entre los grupos.
</p>
</details>

#### La curva de codo se puede utilizar para inferir el número de grupos.

Esto es para la cara sonriente...

In [None]:
inertias = []
for k in range(2, 10):
    kmeans = KMeans(n_clusters=k, n_init = 10)
    kmeans.fit(X)
    inertias.append(kmeans.inertia_)

In [None]:
fig = plt.figure(figsize=(8, 6))
plt.plot(range(2, 10), inertias)
#plt.grid(True)
plt.title('Curva de codo para una cara sonriente');
plt.xlabel('Número de grupos $k$', fontsize = 14);
plt.ylabel('Función de costo de $k$-medias', fontsize = 14);
#plt.savefig('ElbowSmiley.png', dpi = 300)

# ... y esto es para los blobs.

In [None]:
inertiasb = []
for k in range(2, 10):
    kmeans = KMeans(n_clusters=k, n_init = 10)
    kmeans.fit(Xb)
    inertiasb.append(kmeans.inertia_)

In [None]:
fig = plt.figure(figsize=(8, 6))
plt.plot(range(2, 10), inertiasb)
#plt.grid(True)
plt.title('Curva de codo para las manchas (del inglés blobs)');
plt.xlabel('Número de grupos $k$', fontsize = 14);
plt.ylabel('Función de costo de $k$-medias', fontsize = 14);
plt.savefig('CodoBlobs.png', dpi = 300)


# Nota: podemos o no incluir el material a continuación, el cual no se menciona en las diapositivas. Podría ser bueno introducir al menos GMM (modelo generativo).

### Nota de silueta

In [None]:
from sklearn.metrics import silhouette_samples, silhouette_score

In [None]:
# Cara sonriente

n_clusters = [2,3,4,6]

for n in n_clusters:
    
    model = KMeans(n_clusters = n, n_init = 10)

    model.fit(X)

    y_kmeans = model.predict(X)

    silhouette_scores = silhouette_samples(X, y_kmeans)

    xlower = 10

    fig, axs = plt.subplots(1, 2, figsize=(16, 8))
    
    ax = axs[1]
    colors = plt.cm.Accent(y_kmeans.astype(float)/n)
    #ax.scatter(X[:, 0], X[:, 1], c=colors, s=40, cmap='viridis', edgecolor='k');
    ax.scatter(X[:, 0], X[:, 1], c=colors, s=40, edgecolor='k');
    ax.tick_params(axis='both', which='both', labelsize=20);

    ax = axs[0]

    for i in np.unique(y_kmeans):
        ind = y_kmeans==i
        silh = np.sort(silhouette_scores[ind])
        size_cluster_i = silh.shape[0]
        xupper = xlower + size_cluster_i
        color = plt.cm.Accent(float(i)/model.n_clusters)
        ax.fill_between(np.arange(xlower, xupper), 0, silh, facecolor=color, edgecolor=color, alpha=0.7)
        ax.axhline(y=0, c='k', lw=2)
        ax.text(0.05, 0.95, '%0.0f grupos'%n, transform=ax.transAxes, fontsize=17)
        ax.text(0.35, 0.95, 'Nota de silueta promedio: %0.2f'%np.mean(silhouette_scores), transform=ax.transAxes, fontsize=17)
        xlower = xupper + 10
        ax.set_ylabel('Nota de silueta', fontsize=16)
        ax.set_ylim(-0.2,0.8)
        
    ax.axhline(y=np.mean(silhouette_scores), color="red", linestyle="--")
    ax.tick_params(axis='both', which='both', labelsize=20);
    ax.set_xticks([]);
#    figname = 'SilhouetteSmiley'+str(n)+'.png'
#    plt.savefig(figname, dpi = 300)

### Registro de aprendizaje
    
P: Una nota de silueta promedio más cercana a 1 significa que hay una superposición menor entre los grupos. Con eso en mente, ¿cuál es la mejor nota de silueta que vemos arriba?

<br>

<details>
<summary style="display: list-item;">¡Haz clic aquí para la respuesta!</summary>
<p>
La mejor nota que vemos es un 0.49 (nota: esto puede variar un poco, si la semilla aleatoria no es fija), con notas comparables para 4 y 6 grupos.
</p>
</details>

In [None]:
# manchas (del inglés blobs)

n_clusters = np.arange(2, 10)

for n in n_clusters:
    
    model = KMeans(n_clusters = n, n_init = 6)

    model.fit(Xb)

    y_kmeans = model.predict(Xb)
    
    silhouette_scores = silhouette_samples(Xb, y_kmeans)

    xlower = 10

    fig, axs = plt.subplots(1, 2, figsize=(16, 8))
    
    ax = axs[1]
    colors = plt.cm.Accent(y_kmeans.astype(float)/n)
    ax.scatter(Xb[:, 0], Xb[:, 1], c=colors, s=40, edgecolor='k');
    ax.tick_params(axis='both', which='both', labelsize=20);

    ax = axs[0]

    for i in np.unique(y_kmeans):
        ind = y_kmeans==i
        silh = np.sort(silhouette_scores[ind])
        size_cluster_i = silh.shape[0]
        xupper = xlower + size_cluster_i
        color = plt.cm.Accent(float(i)/model.n_clusters)
        ax.fill_between(np.arange(xlower, xupper), 0, silh, facecolor=color, edgecolor=color, alpha=0.7)
        ax.axhline(y=0, c='k', lw=2)
        ax.text(0.05, 0.95, '%0.0f grupos'%n, transform=ax.transAxes, fontsize=17)
        ax.text(0.35, 0.95, 'Nota de silueta promedio: %0.2f'%np.mean(silhouette_scores), transform=ax.transAxes, fontsize=17)
        xlower = xupper + 10
        ax.set_ylabel('Nota de silueta', fontsize=16)
        ax.set_ylim(-0.15,0.85)
        
    ax.axhline(y=np.mean(silhouette_scores), color="red", linestyle="--")
    ax.tick_params(axis='both', which='both', labelsize=20);
    ax.set_xticks([]);
#    figname = 'SilhouetteBlobs'+str(n)+'.png'
#    plt.savefig(figname, dpi = 300)

### Agrupamiento basado en la densidad.

In [None]:
from sklearn.cluster import DBSCAN

#Código adapdato de: https://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html

In [None]:
# #############################################################################
# Calcular DBSCAN (del inglés "Density-Based Spatial Clustering of Applications with Noise" o agrupamiento espacial basado en la densidad de aplicaciones con ruido)
db = DBSCAN(eps=0.25, min_samples=2).fit(X)
core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
core_samples_mask[db.core_sample_indices_] = True
labels = db.labels_

# Número de grupos en las etiquetas, ignorando el ruido si lo hay.
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
n_noise_ = list(labels).count(-1)

print('Número estimado de grupos: %d' % n_clusters_)
print('Número estimado de puntos de ruido: %d' % n_noise_)

# #############################################################################

# Se eliminó el negro y se usa para el ruido en su lugar.
unique_labels = set(labels)
colors = [plt.cm.Spectral(each)
          for each in np.linspace(0, 1, len(unique_labels))]
for k, col in zip(unique_labels, colors):
    if k == -1:
        # Negro utilizado para el ruido.
        col = [0, 0, 0, 1]

    class_member_mask = (labels == k)

    xy = X[class_member_mask & core_samples_mask]
    plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col),
             markeredgecolor='k', markersize=14)

    xy = X[class_member_mask & ~core_samples_mask]
    plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col),
             markeredgecolor='k', markersize=6)

plt.title('Número estimado de grupos: %d' % n_clusters_)
plt.show()

In [None]:
# #############################################################################
# Calcular DBSCAN (del inglés "Density-Based Spatial Clustering of Applications with Noise" o agrupamiento espacial basado en la densidad de aplicaciones con ruido)

for i,eps in enumerate([0.2, 0.25, 0.3, 0.35]):
    
    plt.figure(figsize = (6,6))
    
    db = DBSCAN(eps=eps, min_samples=2).fit(X)

    core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
    core_samples_mask[db.core_sample_indices_] = True
    labels = db.labels_

# Número de grupos en las etiquetas, ignorando el ruido si lo hay.
    n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
    n_noise_ = list(labels).count(-1)

    print('Número estimado de grupos: %d' % n_clusters_)
    print('Número estimado de puntos de ruido: %d' % n_noise_)

# #############################################################################


# Black removed and is used for noise instead.
    unique_labels = set(labels)
    colors = [plt.cm.Spectral(each)
          for each in np.linspace(0, 1, len(unique_labels))]
    for k, col in zip(unique_labels, colors):
        if k == -1:
        # Black used for noise.
            col = [0, 0, 0, 1]

        class_member_mask = (labels == k)

        xy = X[class_member_mask & core_samples_mask]
        plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col),
             markeredgecolor='k', markersize=10)

        xy = X[class_member_mask & ~core_samples_mask]
        plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col),
             markeredgecolor='k', markersize=6)

    plt.title('$\epsilon$ = %0.2f; número estimado de grupos: %d' % (eps, n_clusters_))
    
   # plt.savefig('DBSCAN_'+str(i)+'.png', dpi = 300)
    
    

### ÓPTICA

In [None]:
from sklearn.cluster import OPTICS

# Fuente parcial:
    
https://scikit-learn.org/stable/auto_examples/cluster/plot_optics.html

In [None]:
# #############################################################################

op = OPTICS(xi=0.05, min_cluster_size=.05).fit(X)

labels = op.labels_

# Número de grupos en las etiquetas, ignorando el ruido si lo hay.
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
n_noise_ = list(labels).count(-1)

print('Número estimado de grupos: %d' % n_clusters_)
print('Número estimado de puntos de ruido: %d' % n_noise_)

# El negro se eliminó y se usa para el ruido en su lugar.
unique_labels = np.unique(labels)

colors = [plt.cm.Spectral(each)
          for each in np.linspace(0, 1, len(unique_labels))]

plt.figure(figsize=(6,6))

for klass, color in zip(unique_labels[1:], colors[1:]):

    Xk = X[op.labels_ == klass]
    plt.scatter(Xk[:, 0], Xk[:, 1], 60, np.array([color,]),\
                'o', edgecolors='k',linewidths=1, )#, ls = 'None')
    
plt.plot(X[op.labels_ == -1, 0], X[op.labels_ == -1, 1], 'k+', ls = 'None')

plt.title('Número estimado de grupos: %d' % n_clusters_)
plt.show()

#### Cambiar el parámetro xi cambiará la estimación.

In [None]:
# #############################################################################

op = OPTICS(xi=0.2, min_cluster_size=.05).fit(X)

labels = op.labels_

# Número de grupos en las etiquetas, ignorando el ruido si lo hay.
n_clusters_ = len(set(labels)) - (1 if -1 in labels else 0)
n_noise_ = list(labels).count(-1)

print('Número estimado de grupos: %d' % n_clusters_)
print('Número estimado de puntos de ruido: %d' % n_noise_)

# El negro se eliminó y se usa para el ruido en su lugar.
unique_labels = np.unique(labels)

colors = [plt.cm.Spectral(each)
          for each in np.linspace(0, 1, len(unique_labels))]

plt.figure(figsize=(6,6))

for klass, color in zip(unique_labels[1:], colors[1:]):

    Xk = X[op.labels_ == klass]
    plt.scatter(Xk[:, 0], Xk[:, 1], 60, np.array([color,]),\
                'o', edgecolors='k',linewidths=1, )#, ls = 'None')
    
plt.plot(X[op.labels_ == -1, 0], X[op.labels_ == -1, 1], 'k+', ls = 'None')

plt.title('Número estimado de grupos: %d' % n_clusters_)
plt.show()

Modelo de mezcla gaussiana (del inglés Gaussian mixture model o GMM)

In [None]:
from sklearn import mixture

In [None]:
from matplotlib.patches import Ellipse

In [None]:
# Función de https://jakevdp.github.io/PythonDataScienceHandbook/06.00-figure-code.html#Covariance-Type

def draw_ellipse(gmm, ax, **kwargs):
    """Dibuja una elipse con una posición y covarianza dadas"""
    for n in range(gmm.n_components):
        if gmm.covariance_type == 'full':
            covariances = gmm.covariances_[n]
        elif gmm.covariance_type == 'tied':
            covariances = gmm.covariances_
        elif gmm.covariance_type == 'diag':
            covariances = np.diag(gmm.covariances_[n])
        elif gmm.covariance_type == 'spherical':
            covariances = np.eye(gmm.means_.shape[1]) * gmm.covariances_[n]
        v, w = np.linalg.eigh(covariances)
        u = w[0] / np.linalg.norm(w[0])
        angle = np.arctan2(u[1], u[0])
        angle = 180 * angle / np.pi  # convertir a grados
        v = 2. * np.sqrt(2.) * np.sqrt(v)
        
        # dibujar la elipse
        for nsig in range(1, 4): #1, 2, and 3 sigma
            ell = Ellipse(gmm.means_[n], nsig *v[0], nsig *v[1], angle=angle, **kwargs)
            ax.add_patch(ell)


In [None]:
# Figura también adaptada de from https://jakevdp.github.io/PythonDataScienceHandbook/06.00-figure-code.html#Covariance-Type
 
fig, ax = plt.subplots(1, 3, figsize=(14, 4), sharey=True)
fig.subplots_adjust(wspace=0.05)

rng = np.random.RandomState(20)
Xe = np.dot(rng.randn(500, 2), rng.randn(2, 2))

for i, cov_type in enumerate(['full','diag', 'spherical']):
    model = mixture.GaussianMixture(n_components=1, covariance_type=cov_type).fit(Xe)
    ax[i].axis('equal')
    ax[i].scatter(Xe[:, 0], Xe[:, 1], edgecolor='k', alpha=0.5)
    ax[i].set_title('tipo_covarianza="{0}"'.format(cov_type), size=14, family='monospace')
    draw_ellipse(gmm=model, ax=ax[i], alpha=0.1, edgecolor='k', facecolor='#808080')
    ax[i].xaxis.set_major_formatter(plt.NullFormatter())
    ax[i].yaxis.set_major_formatter(plt.NullFormatter())
    
    ax[i].set_xlim(-5, 5)
    
#plt.savefig('GMM_Covariances.png', dpi = 300)
    
#plt.show()
    #plt.xlim(-5, 5)

### El modelado con un modelo de mezcla gaussiana predice probabilidades.

*   Elemento de la lista
*   Elemento de la lista



In [None]:
model = mixture.GaussianMixture(n_components=3, covariance_type='full', random_state=30) 

model.fit(Xb)

y_GMM = model.predict(Xb)

probs = model.predict_proba(Xb)

size = 50 * probs.max(axis=1)**4

In [None]:
y_GMM # Debe ser 0,1,2 para que los colores funcionen; puede que tenga que cambiar el estado aleatorio 

Función de decisión de GMM (siglas en inglés para el modelo mezclado gaussiano) para una covarianza "completa":

In [None]:
model = mixture.GaussianMixture(n_components=3, covariance_type='full',random_state=30)

model.fit(Xb)

fig, ax = plt.subplots(1, 1, figsize=(8, 6))

plt.axis('equal')

plot_decision_regions(Xb, yb.astype(int), 
        clf=model, legend=0, markers = '...', colors = 'lightgray,violet,teal')

plt.scatter(X1b[:,0],X1b[:,1], s = size[:len(y1b)], c = 'lightgray',edgecolors='k')

plt.scatter(X2b[:,0],X2b[:,1], s = size[len(y1b):len(y1b)+len(y2b)], c = 'violet', edgecolors='k')

plt.scatter(X3b[:,0],X3b[:,1],s = size[len(y1b)+len(y2b):], c = 'teal', edgecolors='k')

ax.set_title('tipo_covarianza="{0}"'.format('full'), size=14, family='monospace')

ax.set_xlim(-2.5, 2.5)
ax.set_ylim(-0.5,2.5)

#plt.savefig('GMM_blobs_full.png', dpi = 300)

### Ahora con una covarianza esférica:

In [None]:
model = mixture.GaussianMixture(n_components=3, covariance_type='spherical',random_state=30)

model.fit(Xb)

fig, ax = plt.subplots(1, 1, figsize=(8, 6))

plt.axis('equal')

plot_decision_regions(Xb, yb.astype(int), 
        clf=model, legend=0, markers = '...', colors = 'lightgray,violet,teal')

plt.scatter(X1b[:,0],X1b[:,1], s = size[:len(y1b)], c = 'lightgray',edgecolors='k')

plt.scatter(X2b[:,0],X2b[:,1], s = size[len(y1b):len(y1b)+len(y2b)], c = 'violet', edgecolors='k')

plt.scatter(X3b[:,0],X3b[:,1],s = size[len(y1b)+len(y2b):], c = 'teal', edgecolors='k')

ax.set_title('tipo_covarianza="{0}"'.format('spherical'), size=14, family='monospace')

ax.set_xlim(-2.5, 2.5)
ax.set_ylim(-0.5,2.5)

#plt.savefig('GMM_blobs_spherical.png', dpi = 300)

### Finalmente, generamos predicciones para la cara sonriente.

In [None]:
X.shape

In [None]:
gmm4 = mixture.GaussianMixture(n_components=4, covariance_type='full', random_state=0)

gmm4.fit(X)

plt.figure(figsize=(8,6))

xy = [point(1,2,1) for _ in range(100)]

plot_decision_regions(X, y.astype(int), 
        clf=gmm4, legend=0, markers = '.', colors = 'lightgray,yellow,teal,violet')

plt.scatter(*zip(*xy), s = 30, c = 'lightgray', edgecolors='k')
plt.scatter(X1[:,0],X1[:,1], s = 30, c = 'teal',edgecolors='k')
plt.scatter(X2[:,0],X2[:,1], s = 30, c = 'violet', edgecolors='k')
plt.scatter(X3_stretch.T[:,0]-1.9,X3_stretch.T[:,1],s = 30, c = 'yellow', edgecolors='k')


plt.xlim(-0.5,2.5);

plt.ylim(0.5,3.5);

#plt.savefig('GMMbad.png', dpi = 300)

### Podemos usar el criterio de información bayesiano (del inglés Bayesian Information Criterion or BIC) para averiguar cuántos componentes se ajustan mejor a la cara sonriente en el modelo GMM.

In [None]:
n_components = np.arange(1, 30)
models = [mixture.GaussianMixture(n, covariance_type='full', random_state=0).fit(X)
          for n in n_components]


fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111)
ax.plot(n_components, [m.bic(X) for m in models], label='BIC')
ax.legend(loc='best', fontsize=20)
ax.set_xlabel('n_componentes', fontsize=20);
ax.tick_params(axis='both', which='both', labelsize=20);
#plt.savefig('GMM_smiley_BIC.png', dpi = 300)

### Registro de aprendizaje
    
P: Encuentre la cantidad de componentes que corresponde al BIC más bajo (pista: se puede reciclar el código de la celda de arriba)

In [None]:
# Escribir el código en esta celda


<details>
<summary style="display: list-item;">¡Haz clic aquí para la respuesta!</summary>
<p>

```python
print(np.argmin([m.bic(X) for m in models]))
```
    
</p>
</details>

### Y volver a hacer la figura con el número apropiado de componentes.

(Nota: si se ve una pequeña discrepancia (+-1) entre el número que obtuvimos y el código a continuación, lo más probable es que se trate de una fluctuación aleatoria, así que no se preocupe).

In [None]:
# Estas dos funciones (¡notar que "draw_ellipse" no es lo mismo que antes!) también son de los cuadernos de Jake Vanderplas.

def draw_ellipse(position, covariance, ax=None, **kwargs):
    """Dibuja una elipse con una posición y covarianza dadas"""
    ax = ax or plt.gca()
    
    # Convert covariance to principal axes
    if covariance.shape == (2, 2):
        U, s, Vt = np.linalg.svd(covariance)
        angle = np.degrees(np.arctan2(U[1, 0], U[0, 0]))
        width, height = 2 * np.sqrt(s)
    else:
        angle = 0.0
        width, height = 2 * np.sqrt(covariance)
    
    # Draw the Ellipse
    for nsig in range(1, 4):
        ax.add_patch(Ellipse(position, nsig * width, nsig * height, angle, **kwargs))

def plot_gmm(gmm, X, label=True, ax=None):
    ax = ax or plt.gca()
    labels = gmm.fit(X).predict(X)
    if label:
        ax.scatter(X[:, 0], X[:, 1], c=labels, s=40, cmap='Accent', zorder=2, edgecolor='k')
    else:
        ax.scatter(X[:, 0], X[:, 1], s=40, zorder=2, edgecolor='k')
    ax.axis('equal')
    
    w_factor = 0.2 / gmm.weights_.max()
    
    for pos, covar, w in zip(gmm.means_, gmm.covariances_, gmm.weights_):
        draw_ellipse(pos, covar, facecolor='#808080', edgecolor='k', alpha=w * w_factor)
        
    ax.tick_params(axis='both', which='both', labelsize=20);

In [None]:
gmm10 = mixture.GaussianMixture(n_components=10, covariance_type='full', random_state=0)

fig = plt.figure(figsize=(8, 8))

ax = fig.add_subplot(111, aspect='equal')

plot_gmm(gmm10, X, label=False, ax=ax)

plt.xlim(-0.5,2.5);

plt.ylim(0.5,3.5);

plt.text(-0.3,0.7,'Original', fontsize = 18)

ax.tick_params(axis='both', which='both', labelsize=20);

#plt.savefig('Smiley_GMM_10.png', dpi = 300)


¡Finalmente, podemos usar nuestro GMM (siglas en inglés para el modelo mezclado gaussiano) con 10 componentes como modelo generativo para generar nuevas muestras a lo largo de la distribución de cara sonriente!


In [None]:
Xnew = gmm10.sample(n_samples=500)

fig = plt.figure(figsize=(8, 8))

ax2 = fig.add_subplot(111, aspect='equal', sharey = ax)

ax2.scatter(Xnew[0][:, 0], Xnew[0][:, 1], s = 40, facecolor='r', edgecolor='k', alpha=0.5);

ax2.tick_params(axis='both', which='both', labelsize=20);

plt.xlim(-0.5,2.5);

plt.ylim(0.5,3.5);

plt.text(-0.3,0.7,'Generado', fontsize = 18)

#plt.savefig('Smiley_GMM_generated.png', dpi = 300)

### Registro de aprendizaje
    
P: ¿Cómo funciona el método GMM (siglas en inglés para el modelo mezclado gaussiano) al modelar una distribución como la cara sonriente?

<br>

<details>
<summary style="display: list-item;">¡Haz clic aquí para la respuesta!</summary>
<p>
En el gráfico de la izquierda, podemos ver dónde GMM decidió colocar los componentes gaussianos. Cuando usamos esas distribuciones para generar nuevos puntos (a la derecha), la estructura general se conserva, pero debido al tamaño limitado de la muestra, hay muchas imprecisiones.

</p>
</details>