<img src="figuras/mbit-logo.png" align="right" style="float" width="200">
<font color="#CA3532"><h1 align="left">Clustering</h1></font>
<h2 align="left">Base de datos sintética. K-means (parte 3)</h2>

In [None]:
COLAB = True

Primero importamos las librerías que necesitaremos. También activaremos el modo *inline* para los gráficos generados por *matplotlib*. También inicializaremos la semilla del generador de números aleatorios.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn import metrics

import IPython.display as ipd
import plotly.offline as py # pip install plotly
py.init_notebook_mode(connected=True)
import plotly.graph_objs as go
import plotly.tools as tls

In [None]:
if COLAB:
    def configure_plotly_browser_state():
      import IPython
      display(IPython.core.display.HTML('''
            <script src="/static/components/requirejs/require.js"></script>
            <script>
              requirejs.config({
                paths: {
                  base: '/static/base',
                  plotly: 'https://cdn.plot.ly/plotly-latest.min.js?noext',
                },
              });
            </script>
            '''))

Ahora crearemos un problema no supervisado sintético. El objetivo es entender los conceptos principales con este prolema, luego analizaremos bases de datos reales. Usaremos la función "make_blobs" que genera datos con un número especificado de "blobs". Esta función escoge aleatoriamente los centros de los blobs.

Los parámetros que cambiaremos se comentan aquí:

In [None]:
problema = 4

if problema==4:
    from sklearn.datasets import make_swiss_roll
    X = make_swiss_roll(n_samples=1000, noise=.01, random_state=21)[0]

data = [go.Scatter3d(x=X[:,0], y=X[:,1], z=X[:,2], mode='markers',
        marker=dict(size=5, color='blue', opacity=0.5))]
layout = go.Layout(title='Datos sintéticos (no etiquetados)', scene = dict(),)
fig = go.Figure(data=data, layout=layout)

if COLAB:
    configure_plotly_browser_state()

py.iplot(fig)

Ahora usaremos el algoritmo de clustering k-means.
El parámetro principal es el número de clusters. Los otros parámetros se comentan en la celda siguiente y se visualizan los resultados obtenidos por este algoritmo:

In [None]:
Nclusters = 10    # número de clusters
Nrepetitions = 10 # número de repeticiones (para evitar mínimos locales). Número mínimo: 1
kmeans = KMeans(n_clusters=Nclusters,
                init='random', # random o kmeans++ (más eficiente)
                n_init=Nrepetitions,
                max_iter=500,
                random_state=2)
kmeans.fit(X)

colors = ['lightgreen', 'orange', 'yellow', 'magenta', 'lightblue']
colors = 10*colors
#colors = plt.rcParams['axes.prop_cycle'].by_key()['color']
#markers = ['s', 'v', 'o', 'd', 's']
markers = ['square', 'cross', 'circle', 'diamond', 'square']

markers = 10*markers
data = []
centroides = kmeans.cluster_centers_

for i in range(Nclusters):
    aux = kmeans.labels_ == i
    data.append(go.Scatter3d(x=X[aux,0], y=X[aux,1], z=X[aux,2], mode='markers',
                             marker=dict(size=5, color=colors[i], symbol=markers[i], opacity=0.5),
                             name='cluster '+str(i)))

data.append(go.Scatter3d(x=centroides[:,0], y=centroides[:,1], z=centroides[:,2],
                         mode='markers',
#                         marker=dict(size=10, color='red', symbol='d', opacity=0.5),
                         marker=dict(size=10, color='red', symbol='diamond', opacity=0.5),
                         name='centroides'))


layout = go.Layout(title='clustering k-means con %d clusters' % Nclusters, scene = dict(),)
fig = go.Figure(data=data, layout=layout)

if COLAB:
    configure_plotly_browser_state()

py.iplot(fig)