# Algoritmo Clustering K-Means

A continuación, se dará el código en JupyterNotebook para el algoritmo de clustering K-Means.

In [None]:
# importar librerias
%matplotlib inline
from copy import deepcopy
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from mpl_toolkits.mplot3d import Axes3D

- **`%matplotlib inline`**: Esta es una "magic function" de Jupyter Notebook que permite mostrar las gráficas generadas por Matplotlib directamente en el notebook.
- **`from copy import deepcopy`**: Se importa la función **`deepcopy`** desde el módulo **`copy`**. Esta función se utiliza para realizar una copia profunda de objetos.
- **`import pandas as pd`**: Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas para el análisis de datos.
- **`import numpy as np`**: NumPy es una biblioteca de Python utilizada principalmente para operaciones numéricas.
- **`import matplotlib.pyplot as plt`**: Matplotlib es una biblioteca de visualización de datos en Python.
- **`from sklearn.cluster import KMeans`**: Se importa la clase **`KMeans`** de **`scikit-learn`**, que se utilizará para realizar el clustering mediante el algoritmo K-Means.
- **`from sklearn.datasets import make_blobs`**: Esta función se utiliza para generar conjuntos de datos de prueba con grupos de puntos distribuidos uniformemente.
- **`from mpl_toolkits.mplot3d import Axes3D`**: Se importa Axes3D desde **`mpl_toolkits.mplot3d`** para permitir la visualización de gráficos 3D.

In [None]:
plt.rcParams["figure.figsize"] = (16, 9)
plt.style.use("ggplot")

plt.rcParams["figure.figsize"] = (16, 9): Establece el tamaño predeterminado de las figuras generadas por Matplotlib.plt.style.use("ggplot"): Establece el estilo de las gráficas como "ggplot".

In [None]:
# importar dataset
route = "C:/Users/ASUS/PythonNotebook/Datasets_CSV/mallCustomerData.txt"
dataset = pd.read_csv(route, sep = ",")
print(dataset.shape)
dataset.head(10)

- La variable **`route`** contiene la ruta del archivo del conjunto de datos.
- Se utiliza **`pd.read_csv()`** para cargar el conjunto de datos desde el archivo CSV especificado en **`route`**.
- **`print(dataset.shape)`**: Muestra la forma (número de filas y columnas) del conjunto de datos.
- **`dataset.head(10)`**: Muestra las primeras 10 filas del conjunto de datos.

In [None]:
print(dataset["Gender"].value_counts())

print(dataset["Gender"].value_counts()): Cuenta el número de ocurrencias de cada valor único en la columna "Gender" del conjunto de datos.

In [None]:
# obtener valores y graficarlos
f1 = dataset["Annual Income (k$)"].values
f2 = dataset["Spending Score (1-100)"].values

for key in dataset.keys():
    print(key)

x = np.array(list(zip(f1, f2)))
# x = [[1, 1], [2, 2], [3, 3], [4, 4]]
plt.xlabel("Annual Income (k$)")
plt.ylabel("Spending Score (1-100)")
plt.scatter(f1, f2, s = 20, color = "blue")

- Se extraen las columnas `"Annual Income (k$)"` y `"Spending Score (1-100)"` del conjunto de datos y se almacenan en las variables **`f1`** y **`f2`** respectivamente.
- Se crea un array **`x`** que contiene las características seleccionadas, formando pares de valores de "Annual Income (k$)" y "Spending Score (1-100)".
- Se genera una gráfica de dispersión (**`scatter plot`**) de los datos utilizando las características seleccionadas.

In [None]:
# numero clusters
kmeans = KMeans(n_clusters = 3)
# ajustar datos entrada
kmeans = kmeans.fit(x)
# obtener etiquetas clusters
labels = kmeans.predict(x)
# valores centroide
c = kmeans.cluster_centers_
print(c)

- Se instancia un objeto **`KMeans`** con 3 clusters (**`n_clusters = 3`**).
- Se ajusta el modelo KMeans a los datos utilizando el método **`fit()`**.
- Se predicen los clusters para cada muestra utilizando el método **`predict()`**.
- Se obtienen los centroides de los clusters utilizando el atributo **`cluster_centers_`**.

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.scatter(x[:, 0], x[:, 1], x[:, 1])
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')

- Se crea una nueva figura utilizando **`plt.figure()`** y se agrega un subplot 3D a esa figura utilizando **`fig.add_subplot(111, projection='3d')`**. Esto crea un espacio tridimensional donde se trazarán los datos y los centroides de los clusters.
- Se utilizan los datos de entrada **`x`** para trazar los puntos en la gráfica tridimensional. En este caso, **`x[:, 0]`** representa la coordenada x, **`x[:, 1]`** representa la coordenada y, y **`x[:, 1]`** representa la coordenada z. Esto crea un scatter plot de los datos en la gráfica 3D.
- Se agregan etiquetas a los ejes de la gráfica tridimensional para indicar qué representan las coordenadas x, y y z.

In [None]:
fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
ax.scatter(x[:, 0], x[:, 1], x[:, 1])
ax.scatter(c[:, 0], c[:, 1], c[:, 1], color = "blue", marker = "*", s = 1000)
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')

- Se utilizan los centroides de los clusters **`c`** para trazar puntos adicionales en la gráfica tridimensional.
- Estos puntos se muestran como estrellas azules (**`color = "blue"`**, **`marker = "*"`**) y se escala su tamaño a 1000 (**`s = 1000`**).

In [None]:
# inicializando kmeans
kmeans = KMeans(n_clusters = 4)
# ajuste datos entrada
kmeans = kmeans.fit(x)
# prediciendo clusters
labels = kmeans.predict(x)
# obtener centro clusters
c = kmeans.cluster_centers_
print(labels)

- Se repite el proceso de clustering con un nuevo objeto **`KMeans`** que tiene 4 clusters (**`n_clusters = 4`**).
- Luego se ajusta el modelo a los datos, se predicen los clusters para cada muestra y se obtienen los nuevos centroides de los clusters.
- Finalmente, se imprimen las etiquetas de los clusters (**`print(labels)`**).