# Algoritmo Clustering Método Elbow

A continuación, se dará el código en JupyterNotebook para el algoritmo de clustering.

In [None]:
# importar librerias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from mpl_toolkits.mplot3d import Axes3D

- `pandas (pd)`: No se utiliza en esta parte del código. Se suele utilizar para manipular y analizar datos tabulares.
- `numpy (np)`: Probablemente se utiliza para crear los datos de muestra con `make_blobs`.
- `matplotlib.pyplot (plt)`: Se utiliza para crear visualizaciones (gráficos en este caso).
- `from sklearn.cluster import KMeans`: Importa la clase `KMeans` para realizar clustering de datos.
- `from sklearn.datasets import make_blobs`: Importa la función `make_blobs` para generar datos de muestra con múltiples clusters.
- `from mpl_toolkits.mplot3d import Axes3D`: Importa la clase `Axes3D` para crear gráficos 3D (en caso de tener características de 3 dimensiones).

In [None]:
plt. rcParams["figure.figsize"] = (16, 9)
# creando una muestra de dataset con 4 clusters
x, y = make_blobs(n_samples = 800, n_features = 3, centers = 4)
x

- `plt.rcParams["figure.figsize"] = (16, 9)`: Establece el tamaño predeterminado de las figuras creadas con `plt` a 16 pulgadas de ancho y 9 pulgadas de alto.
- Genera un conjunto de datos de muestra con 800 muestras, 3 características y 4 centros utilizando la función **`make_blobs`**.
- Las coordenadas de las muestras generadas y sus etiquetas se asignan a las variables **`x`** y **`y`** respectivamente.

In [None]:
# encontrar numero optimo de clusteres usando metodo elbow
wcss_list = [] # inicializando lista para los valores WCSS
# 10 iteraciones
for i in range(1, 11):
    kmeans = KMeans(n_clusters = i, init = "k-means++", random_state = 42)
    kmeans.fit(x)
    wcss_list.append(kmeans.inertia_)

- Inicializa una lista vacía **`wcss_list`** para almacenar los valores de la suma de los cuadrados dentro de los grupos (WCSS, por sus siglas en inglés).
- Realiza un bucle **`for`** con 10 iteraciones, donde **`i`** varía de 1 a 10.
- Dentro del bucle **`for`**, crea un objeto de modelo **`KMeans`** con **`n_clusters = i`** (el número de clústeres), **`init = "k-means++"`** (método de inicialización de los centroides) y **`random_state = 42`** (semilla para reproducibilidad).
- Ajusta el modelo de **`KMeans`** a los datos **`x`** utilizando el método **`fit`**.
- Calcula y guarda la suma de los cuadrados dentro de los clústeres en la lista **`wcss_list`** utilizando **`kmeans.inertia_`**, que representa el valor de la WCSS para el número actual de clústeres.

In [None]:
plt.plot(range(1, 11), wcss_list)
plt.title("Método Elbow")
plt.xlabel("Numero clusters")
plt.ylabel("Lista WCSS")
plt.show()

- Después del bucle **`for`**, traza un gráfico de línea con el número de clústeres en el eje x y los valores de WCSS en el eje y usando **`plt.plot(range(1, 11), wcss_list)`**.
- Agrega un título al gráfico con **`plt.title("Método Elbow")`**, etiqueta los ejes x y y con **`plt.xlabel("Numero clusters")`** y **`plt.ylabel("Lista WCSS")`** respectivamente.
- Muestra el gráfico utilizando **`plt.show()`**. Este gráfico se utiliza para determinar el número óptimo de clústeres mediante el método del codo (Elbow method).