In [2]:
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets import make_blobs

In [3]:
class KMeans:
    """
    Algoritmo de clustering K-Means

    Parametros:
        k (int): Número de clusters a encontrar (por defecto 3)
        max_iter (int): Número maximo de iteraciones (por defecto 100)
        centroids (numpy.ndarray): Cordenadas iniciales del centroides (por defecto ninguna)
    """
    def __init__(self, k=3, max_iter=100, centroids = None):
        """
        Constructor de objetos kMeans

        Parametros:
            k (int): Número de cluster
            max_iter (int): Número maximo de iteraciones
        """
        self.k = k
        self.max_iter = max_iter
        self.centroids = centroids

    def distancia_euclideana(self, p1, p2):
        """
        Calcula la distancia Euclideana entre dos puntos.

        Parametros:
            point1 (numpy.ndarray): Primer punto
            point2 (numpy.ndarray): Segundo punto

        Returns:
            float: La distancia euclideana entre los dos puntos
        """
        return np.sqrt(np.sum((p1 - p2)**2))
    
    def distancia_manhattan(self, point1, point2):
        """
        Calcula la distancia de Manhattan entre dos puntos

        Parametros:
            point1 (numpy.ndarray): Primer punto.
            point2 (numpy.ndarray): Segundo punto

        Returns:
            float: Distancia de Manhattan entre dos puntos
        """
        return np.sum(np.abs(point1 - point2))

    def distancia_mahalanobis(self, point1, point2, covariance_matrix):
        """
        Cacula la distancia de Mahalanobis entre dos puntos

        Parametros:
            point1 (numpy.ndarray): Primer punto.
            point2 (numpy.ndarray): Segundo punto.
            covariance_matrix (numpy.ndarray): Matrix de covarancia de los datos.

        Returns:
            float: La distancia de Mahalanobis entre dos puntos
        """
        diff = point1 - point2
        return np.sqrt(diff @ np.linalg.inv(covariance_matrix) @ diff.T)

    def calcular_centroides(self, points, labels):
        """
        Calcula los centroides de la nube de puntos dada por la asignación en la variable labels

        Parametros:
            points (numpy.ndarray): Nube de puntos
            labels (numpy.ndarray): Cluster asignado para cada punto

        Returns:
            numpy.ndarray: Centroides de cada cluster
        """

        centroids = np.zeros((self.k, points.shape[1]))
        for i in range(self.k):
            cluster_points = points[labels == i]
            if len(cluster_points) > 0:
              centroids[i] = np.mean(cluster_points, axis=0)
        return centroids

    def run(self, points, tipo_distance='euclidean'):
        """
        Ejecuta un algoritmo K-Means dado la nube de puntos recibida como parametro

        Parametros:
            points (numpy.ndarray): Nube de puntos
            tipo_distance (str): Tipo de distancia a utilizar ('euclidean', 'manhattan', or 'mahalanobis'). Por defecto  'euclidean'.

        Returns:
            numpy.ndarray: El cluster asignado a cada grupo
        """
       
        indices = np.random.choice(points.shape[0], self.k, replace=False)
        self.centroids = points[indices]

        for _ in range(self.max_iter):
            labels = np.zeros(points.shape[0], dtype=int)
            for i, point in enumerate(points):
                if tipo_distance == 'euclidean':
                    distances = [self.distancia_euclideana(point, centroid) for centroid in self.centroids]
                elif tipo_distance == 'manhattan':
                    distances = [self.distancia_manhattan(point, centroid) for centroid in self.centroids]
                elif tipo_distance == 'mahalanobis':
                    covariance_matrix = np.cov(points, rowvar=False)                 
                    distances = [self.distancia_mahalanobis(point, centroid, covariance_matrix) for centroid in self.centroids]
                else:
                    raise ValueError("Tipo de distancia no disponible")
                labels[i] = np.argmin(distances)
            
            new_centroids = self.calcular_centroides(points, labels)

            if np.array_equal(self.centroids, new_centroids):
                break

            self.centroids = new_centroids
        return labels

In [4]:
def calcular_inercia(points, labels, centroids):
    inertia = 0
    for i in range(len(centroids)):
        cluster_points = points[labels == i]
        if len(cluster_points) > 0:
            inertia += np.sum((cluster_points - centroids[i])**2)
    return inertia

GRUPO 7

MAUSEL PEREZ,
WALDIR TOSCANO,
JORGE ACOSTA

Experimento 4

In [10]:
# Parámetros del experimento
n_samples = 1000
n_features = 100  # 100 dimensiones
k = 3
max_iter = [10, 100, 1000, 10000]
random_state = 456  # Cambiamos el random_state
centers = 6  # Número de centros

# Generación de datos
points, y = make_blobs(n_samples=n_samples, n_features=n_features, centers=centers, random_state=random_state)

# Ejecución del experimento
for max_it in max_iter:
    print(f"Experimentos con {max_it} iteraciones")
    inercias = []
    for i in range(5):  # Repetimos 5 veces para cada max_iter
        kmeans = KMeans(k=k, max_iter=max_it)
        labels = kmeans.run(points)
        inertia = calcular_inercia(points, labels, kmeans.centroids)
        inercias.append(inertia)
    print(f"Inercias para {max_it} iteraciones: {inercias}")
    print(f"Inercia promedio: {np.mean(inercias)}")
    print(f"Fin experimentos con {max_it} iteraciones\n")

    



Experimentos con 10 iteraciones


Inercias para 10 iteraciones: [np.float64(1716280.1867614654), np.float64(1660569.359944163), np.float64(1681862.384699723), np.float64(1711855.7750899903), np.float64(1743103.9139182973)]
Inercia promedio: 1702734.3240827278
Fin experimentos con 10 iteraciones

Experimentos con 100 iteraciones
Inercias para 100 iteraciones: [np.float64(1756522.3107013656), np.float64(2278435.4725329545), np.float64(1694200.613198673), np.float64(1694200.613198673), np.float64(1803413.0405767695)]
Inercia promedio: 1845354.4100416868
Fin experimentos con 100 iteraciones

Experimentos con 1000 iteraciones
Inercias para 1000 iteraciones: [np.float64(1712504.5764105418), np.float64(1802022.9590176994), np.float64(1742828.2980237757), np.float64(1681862.384699723), np.float64(2278361.436158196)]
Inercia promedio: 1843515.9308619872
Fin experimentos con 1000 iteraciones

Experimentos con 10000 iteraciones
Inercias para 10000 iteraciones: [np.float64(1712504.5764105418), np.float64(1788254.7333780343), np.fl

Conclusiones

--
--
--
--
--
--
--
--

Experimento 2