## <span style="color:#80DAEB">FUNCIÓN K-MEANS</span>

Programar k-means, utilizando buenas prácticas de programación, es decir, debe ser una función y comparar los resultados y la eficiencia con la implementación de k-means en scikit-learn.

In [1]:
import numpy as np

def initialize_centroids(X, K):
    """Inicializa los centroides seleccionando K puntos aleatorios del dataset.
    
    Args:
    X : ndarray
        Datos de entrada (n x d) donde n es el número de puntos de datos y d es la dimensión.
    K : int
        Número de centroides/clusters.
        
    Returns:
    centroids : ndarray
        Array de centroides inicializados (K x d).
    """
    indices = np.random.choice(X.shape[0], K, replace=False)
    centroids = X[indices]
    return centroids

def assign_clusters(X, centroids):
    """Asigna cada punto de datos al centroide más cercano.
    
    Args:
    X : ndarray
        Datos de entrada.
    centroids : ndarray
        Array actual de centroides.
        
    Returns:
    labels : ndarray
        Etiquetas de cluster para cada punto de datos.
    """
    distances = np.sqrt(((X - centroids[:, np.newaxis])**2).sum(axis=2))
    labels = np.argmin(distances, axis=0)
    return labels

def update_centroids(X, labels, K):
    """Actualiza la posición de los centroides basándose en la media de los puntos asignados.
    
    Args:
    X : ndarray
        Datos de entrada.
    labels : ndarray
        Etiquetas de cluster actuales para los datos.
    K : int
        Número de clusters.
        
    Returns:
    centroids : ndarray
        Nuevos centroides calculados.
    """
    centroids = np.array([X[labels == k].mean(axis=0) for k in range(K)])
    return centroids

def k_means(X, K, num_iters=100):
    """Algoritmo K-means para clustering.
    
    Args:
    X : ndarray
        Datos de entrada.
    K : int
        Número de clusters.
    num_iters : int
        Número de iteraciones.
        
    Returns:
    centroids : ndarray
        Centroides finales.
    labels : ndarray
        Etiquetas finales de los clusters.
    """
    centroids = initialize_centroids(X, K)
    for i in range(num_iters):
        labels = assign_clusters(X, centroids)
        new_centroids = update_centroids(X, labels, K)
        if np.all(centroids == new_centroids):
            break
        centroids = new_centroids
    return centroids, labels

# Ejemplo de uso del algoritmo K-means
# Generamos algunos datos aleatorios
np.random.seed(42)
data = np.random.rand(100, 2)  # 100 puntos en 2D
num_clusters = 3  # Número de clusters

# Ejecutar K-means
centroids, labels = k_means(data, num_clusters)

print("Centroides finales:")
print(centroids)


Centroides finales:
[[0.8039633  0.57026999]
 [0.18520943 0.72228065]
 [0.36376248 0.20008043]]
