<a href="https://colab.research.google.com/github/cristiandarioortegayubro/BA/blob/main/cl_km_01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

![logo](https://github.com/cristiandarioortegayubro/BA/blob/main/dba.png?raw=true)

![](https://scikit-learn.org/stable/_static/scikit-learn-logo-small.png)

# **Clustering con datos simulados**


***El término clustering hace referencia a un amplio abanico de técnicas cuya finalidad es encontrar patrones o grupos (clusters) dentro de un conjunto de observaciones. Las particiones se establecen de forma que, las observaciones que están dentro de un mismo grupo, son similares entre ellas y distintas a las observaciones de otros grupos. Se trata de un método de aprendizaje no supervisado, ya que el proceso no tiene en cuenta a qué grupo pertenece realmente cada observación (si es que existe tal información). Esta característica es la que diferencia al clustering de las métodos de clasificación en el que sí emplea la verdadera clasificación durante su entrenamiento.***

## **Librerías**

### ***Para el análisis de datos y el conjunto de datos***

In [1]:
import numpy as np
import pandas as pd
from sklearn.datasets import make_blobs

### ***Para el preprocesado y el modelo***

In [2]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

### ***Para gráficos***

In [3]:
import plotly.express as px
import plotly.graph_objects as go

## **Conjunto de datos**

### ***Simulación de los datos***

In [4]:
X, y = make_blobs(n_samples    = 900, 
                  n_features   = 5, 
                  centers      = 4, 
                  cluster_std  = 0.60, 
                  shuffle      = True, 
                  random_state = 0)

In [5]:
fig = px.scatter(x = X[:, 0], 
                 y = X[:, 1],
                 template="plotly_white",
                 title="Datos simulados para clustering")
fig.show()

## **Modelo Kmeans**

**Con la clase ```sklearn.cluster.KMeans``` de Scikit-Learn se pueden entrenar modelos de clustering utilizando el algoritmo k-means. Entre sus parámetros destacan:**

-  **n_clusters**: determina el número  𝐾  de clusters que se van a generar.

- **init**: estrategia para asignar los centroides iniciales. Por defecto se emplea 'k-means++', una estrategia que trata de alejar los centroides lo máximo posible facilitando la convergencia. Sin embargo, esta estrategia puede ralentizar el proceso cuando hay muchos datos, si esto ocurre, es mejor utilizar 'random'.

- **n_init**: determina el número de veces que se va a repetir el proceso, cada vez con una asignación aleatoria inicial distinta. Es recomendable que este último valor sea alto, entre 10-25, para no obtener resultados subóptimos debido a una iniciación poco afortunada del proceso.

- **max_iter**: número máximo de iteraciones permitidas.

- **random_state**: semilla para garantizar la reproducibilidad de los resultados.

### **Generando el modelo**

In [6]:
modelo_kmeans = KMeans(n_clusters = 4, n_init = 25, random_state = 123)
modelo_kmeans.fit(X)

KMeans(n_clusters=4, n_init=25, random_state=123)

### **Predicción**

In [7]:
y_predict = modelo_kmeans.predict(X)

### **Armando el dataframe**

In [8]:
df = pd.DataFrame()

In [9]:
df["x"] = X[:, 0]
df["y"] = X[:, 1]
df["cluster"] = y
df["prediccion"] = y_predict
df.head(9)

Unnamed: 0,x,y,cluster,prediccion
0,2.944296,-0.862423,1,3
1,5.435476,1.016829,2,2
2,-7.311698,-9.33051,3,0
3,5.290021,0.462456,2,2
4,3.116202,-1.33542,1,3
5,-7.918781,-10.178437,3,0
6,5.143051,1.110838,2,2
7,2.544547,-2.161917,1,3
8,6.278083,0.949391,2,2


In [10]:
fig = px.scatter(x = df.x, 
                 y = df.y,
                 template = "gridon",
                 title = "Datos simulados",
                 color = df.cluster)
fig.show()

### **Centroides**

In [11]:
centroides = pd.DataFrame()

In [12]:
centroides["x"] = modelo_kmeans.cluster_centers_[:, 0]
centroides["y"] = modelo_kmeans.cluster_centers_[:, 1]

In [13]:
centroides.head(6)

Unnamed: 0,x,y
0,-8.160264,-9.640529
1,0.942063,4.277521
2,5.815064,0.565852
3,2.907802,-1.228132


### **Graficando clusters y centroides**

In [14]:
fig = go.Figure([go.Scatter(x = df.x, 
                            y = df.y,
                            mode = "markers",
                            name = "Clusters",
                            marker = dict(color = df.cluster,
                                          colorscale = 'bluered', 
                                          showscale = False)),

                 go.Scatter(x = centroides.x,
                            y = centroides.y,
                            mode = "markers",
                            name = "Centroide",
                            marker_color = "lightgreen",
                            marker = dict(size = 10)),
                 ])

fig.update_layout(template =    "gridon",
                  title =       "Clusters y Centroides",
                  yaxis_title = "Y",
                  xaxis_title = "X")

fig.show()

### ***Otros valores K***

#### **K=2**

In [15]:
modelo_kmeans = KMeans(n_clusters = 2, n_init = 25, random_state = 123)
modelo_kmeans.fit(X)
y_predict = modelo_kmeans.predict(X)

In [16]:
df["x"] = X[:, 0]
df["y"] = X[:, 1]
df["cluster"] = y
df["prediccion"] = y_predict

In [17]:
centroides = pd.DataFrame()
centroides["x"] = modelo_kmeans.cluster_centers_[:, 0]
centroides["y"] = modelo_kmeans.cluster_centers_[:, 1]

In [18]:
fig = go.Figure([go.Scatter(x = df.x, 
                            y = df.y,
                            mode = "markers",
                            name = "Clusters",
                            marker = dict(color = df.prediccion,
                                          colorscale = 'bluered', 
                                          showscale = False)),

                 go.Scatter(x = centroides.x,
                            y = centroides.y,
                            mode = "markers",
                            name = "Centroide",
                            marker_color = "black",
                            marker = dict(size = 10)),
                 ])

fig.update_layout(template =    "gridon",
                  title =       "Clusters y Centroides",
                  yaxis_title = "Y",
                  xaxis_title = "X")

fig.show()

#### **K=3**

In [19]:
modelo_kmeans = KMeans(n_clusters = 3, n_init = 25, random_state = 123)
modelo_kmeans.fit(X)
y_predict = modelo_kmeans.predict(X)

In [20]:
df["x"] = X[:, 0]
df["y"] = X[:, 1]
df["cluster"] = y
df["prediccion"] = y_predict

In [21]:
centroides = pd.DataFrame()
centroides["x"] = modelo_kmeans.cluster_centers_[:, 0]
centroides["y"] = modelo_kmeans.cluster_centers_[:, 1]

In [22]:
fig = go.Figure([go.Scatter(x = df.x, 
                            y = df.y,
                            mode = "markers",
                            name = "Clusters",
                            marker = dict(color = df.prediccion,
                                          colorscale = 'bluered', 
                                          showscale = False)),

                 go.Scatter(x = centroides.x,
                            y = centroides.y,
                            mode = "markers",
                            name = "Centroide",
                            marker_color = "black",
                            marker = dict(size = 10)),
                 ])

fig.update_layout(template =    "gridon",
                  title =       "Clusters y Centroides",
                  yaxis_title = "Y",
                  xaxis_title = "X")

fig.show()

#### **K=5**

In [23]:
modelo_kmeans = KMeans(n_clusters = 5, n_init = 25, random_state = 123)
modelo_kmeans.fit(X)
y_predict = modelo_kmeans.predict(X)

In [24]:
df["x"] = X[:, 0]
df["y"] = X[:, 1]
df["cluster"] = y
df["prediccion"] = y_predict

In [25]:
centroides = pd.DataFrame()
centroides["x"] = modelo_kmeans.cluster_centers_[:, 0]
centroides["y"] = modelo_kmeans.cluster_centers_[:, 1]

In [26]:
fig = go.Figure([go.Scatter(x = df.x, 
                            y = df.y,
                            mode = "markers",
                            name = "Clusters",
                            marker = dict(color = df.prediccion,
                                          colorscale = 'bluered', 
                                          showscale = False)),

                 go.Scatter(x = centroides.x,
                            y = centroides.y,
                            mode = "markers",
                            name = "Centroide",
                            marker_color = "black",
                            marker = dict(size = 10)),
                 ])

fig.update_layout(template =    "gridon",
                  title =       "Clusters y Centroides",
                  yaxis_title = "Y",
                  xaxis_title = "X")

fig.show()

#### **K=7**

In [27]:
modelo_kmeans = KMeans(n_clusters = 7, n_init = 25, random_state = 123)
modelo_kmeans.fit(X)
y_predict = modelo_kmeans.predict(X)

In [28]:
df["x"] = X[:, 0]
df["y"] = X[:, 1]
df["cluster"] = y
df["prediccion"] = y_predict

In [29]:
centroides = pd.DataFrame()
centroides["x"] = modelo_kmeans.cluster_centers_[:, 0]
centroides["y"] = modelo_kmeans.cluster_centers_[:, 1]

In [30]:
fig = go.Figure([go.Scatter(x = df.x, 
                            y = df.y,
                            mode = "markers",
                            name = "Clusters",
                            marker = dict(color = df.prediccion,
                                          colorscale = 'bluered',
                                          showscale = False)),

                 go.Scatter(x = centroides.x,
                            y = centroides.y,
                            mode = "markers",
                            name = "Centroide",
                            marker_color = "black",
                            marker = dict(size = 8)),
                 ])

fig.update_layout(template =    "gridon",
                  title =       "Clusters y Centroides",
                  yaxis_title = "Y",
                  xaxis_title = "X")

fig.show()

### **Calculando el numero K**

#### **Metodo del codo**

In [31]:
clusters = pd.DataFrame()
inertia = []

In [32]:
clusters['cluster_range'] = range(1, 10)

In [33]:
for k in clusters['cluster_range']:
   kmeans = KMeans(n_clusters=k, random_state=123).fit(X)
   inertia.append(kmeans.inertia_)

In [34]:
clusters['inertia'] = inertia

In [35]:
fig = px.line(clusters,
              x = "cluster_range",
              y = "inertia",
              markers = True,
              title = "Metodo del codo",
              template = "gridon",
              labels = {"cluster_range":"clusters"})
fig.show()

#### **Método silhouette**

In [36]:
range_n_clusters = range(2, 15)
valores_medios_silhouette = []

In [37]:
for n_clusters in range_n_clusters:
    modelo_kmeans = KMeans(
                        n_clusters   = n_clusters, 
                        n_init       = 20, 
                        random_state = 123)
    
    cluster_labels = modelo_kmeans.fit_predict(X)
    silhouette_avg = silhouette_score(X, cluster_labels)
    valores_medios_silhouette.append(silhouette_avg)

In [38]:
fig = px.line(x = range_n_clusters,
              y = valores_medios_silhouette,
              markers = True,
              title="Metodo silhouette",
              template="gridon")
fig.show()

***El valor medio de los índices silhouette se maximiza con $4$ clusters. Acorde a este criterio, $K = 4$ es la mejor opción.***

***Ambos criterios, elbow y silhouette, identifican el valor $K=4$ como valor óptimo de clusters.***

