In [8]:
import os
import random
import cv2
import numpy as np
from sklearn.cluster import KMeans, DBSCAN
from sklearn.metrics import silhouette_score, davies_bouldin_score

# Función para cargar las imágenes de los directorios
def cargar_imagenes(directorio):
    imagenes = []
    for filename in os.listdir(directorio):
        if filename.endswith(".jpg") or filename.endswith(".png"):
            img = cv2.imread(os.path.join(directorio, filename))
            img = cv2.resize(img, (100, 100))  # Redimensionar las imágenes si es necesario
            img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)  # Convertir a RGB
            imagenes.append(img)
    return imagenes

# Directorio donde se encuentran las carpetas "perros", "carros" y "frutas"
directorio_dataset = "dataset"

# Cargar imágenes de los tres directorios
imagenes_perros = cargar_imagenes(os.path.join(directorio_dataset, "perros"))
imagenes_carros = cargar_imagenes(os.path.join(directorio_dataset, "carros"))
imagenes_frutas = cargar_imagenes(os.path.join(directorio_dataset, "frutas"))

# Mezclar las imágenes
random.shuffle(imagenes_perros)
random.shuffle(imagenes_carros)
random.shuffle(imagenes_frutas)

# Aplanar las imágenes
X_perros = np.array([img.flatten() for img in imagenes_perros])
X_carros = np.array([img.flatten() for img in imagenes_carros])
X_frutas = np.array([img.flatten() for img in imagenes_frutas])

# Unir los datos en un solo array
X = np.concatenate((X_perros, X_carros, X_frutas), axis=0)

# Normalizar los valores de píxeles
X = X / 255.0

# Aplicar KMeans
kmeans = KMeans(n_clusters=3)
y_kmeans = kmeans.fit_predict(X)

# Aplicar DBSCAN
dbscan = DBSCAN(eps=0.3, min_samples=5)
y_dbscan = dbscan.fit_predict(X)

array([-1, -1, -1, ..., -1, -1, -1], dtype=int64)

In [7]:
from sklearn.metrics import pairwise_distances

# Calcular centroides de los clusters para KMeans
centroides_kmeans = kmeans.cluster_centers_

# Calcular la cohesión intraclase para KMeans
cohesion_kmeans = 0
for i in range(len(centroides_kmeans)):
    puntos_cluster = X[y_kmeans == i]
    distancia_cluster = pairwise_distances(puntos_cluster, centroides_kmeans[i].reshape(1, -1), metric='euclidean')
    cohesion_kmeans += np.sum(distancia_cluster)
cohesion_kmeans /= len(X)

# Calcular la separación interclase para KMeans
separacion_kmeans = 0
for i in range(len(centroides_kmeans)):
    for j in range(i+1, len(centroides_kmeans)):
        distancia_clusters = pairwise_distances(centroides_kmeans[i].reshape(1, -1), centroides_kmeans[j].reshape(1, -1), metric='euclidean')
        separacion_kmeans += distancia_clusters
separacion_kmeans /= (len(centroides_kmeans) * (len(centroides_kmeans) - 1) / 2)

# Calcular la cohesión intraclase y separación interclase para DBSCAN
# Solo si se encontraron más de un cluster
if len(np.unique(y_dbscan)) > 1:
    centroides_dbscan = np.array([np.mean(X[y_dbscan == label], axis=0) for label in np.unique(y_dbscan)])
    cohesion_dbscan = np.mean([np.sum(pairwise_distances(X[y_dbscan == label], centroides_dbscan[i].reshape(1, -1), metric='euclidean')) for i, label in enumerate(np.unique(y_dbscan))])
    separacion_dbscan = np.mean([np.mean(pairwise_distances(centroides_dbscan[i].reshape(1, -1), centroides_dbscan[j].reshape(1, -1), metric='euclidean')) for i in range(len(centroides_dbscan)) for j in range(i+1, len(centroides_dbscan))])
else:
    cohesion_dbscan = None
    separacion_dbscan = None

print("Métricas para KMeans:")
print("Cohesión intraclase:", cohesion_kmeans)
print("Separación interclase:", separacion_kmeans)

if cohesion_dbscan is not None and separacion_dbscan is not None:
    print("\nMétricas para DBSCAN:")
    print("Cohesión intraclase:", cohesion_dbscan)
    print("Separación interclase:", separacion_dbscan)
else:
    print("\nNo se encontraron múltiples clusters con DBSCAN.")


Métricas para KMeans:
Cohesión intraclase: 52.7396504279032
Separación interclase: [[60.12344082]]

No se encontraron múltiples clusters con DBSCAN.
