In [10]:
import os
import cv2
import numpy as np
from sklearn.decomposition import PCA, KernelPCA
from sklearn.cluster import KMeans, DBSCAN
from sklearn.metrics import silhouette_score, calinski_harabasz_score

def segmentar_objeto(imagen):
    imagen_rgb = cv2.cvtColor(imagen, cv2.COLOR_BGR2RGB)
    mascara = np.zeros(imagen.shape[:2], np.uint8)
    fondo_modelo = np.zeros((1, 65), np.float64)
    primer_plano_modelo = np.zeros((1, 65), np.float64)
    
    rectangulo = (10, 10, imagen.shape[1]-10, imagen.shape[0]-10)
    cv2.grabCut(imagen_rgb, mascara, rectangulo, fondo_modelo, primer_plano_modelo, 5, cv2.GC_INIT_WITH_RECT)

    mascara_binaria = np.where((mascara == 2) | (mascara == 0), 0, 1).astype('uint8')

    imagen_segmentada = imagen * mascara_binaria[:, :, np.newaxis]
    return imagen_segmentada

def cargar_y_mezclar_imagenes(directorio):
    imagenes = []
    tamaño = (128, 128)  
    for clase in os.listdir(directorio):
        for filename in os.listdir(os.path.join(directorio, clase)):
            img = cv2.imread(os.path.join(directorio, clase, filename))
            if img is not None:
                img = cv2.resize(img, tamaño)
                img = segmentar_objeto(img)
                imagenes.append(img)
    np.random.shuffle(imagenes)
    return imagenes

def convertir_a_vectores(imagenes):
    return np.array([img.flatten() for img in imagenes])

def aplicar_kpca(datos, n_componentes, kernel='rbf', gamma=0.01):
    kpca = KernelPCA(n_components=n_componentes, kernel=kernel, gamma=gamma)
    datos_kpca = kpca.fit_transform(datos)
    return datos_kpca, kpca

def aplicar_pca(datos, n_componentes):
    pca = PCA(n_components=n_componentes)
    datos_pca = pca.fit_transform(datos)
    return datos_pca, pca

def entrenar_modelos(datos, n_clusters):
    kmeans = KMeans(n_clusters=n_clusters)
    kmeans.fit(datos)
    
    dbscan = DBSCAN(eps=0.5, min_samples=5)  # Ajustar estos parámetros según sea necesario
    dbscan.fit(datos)
    
    return kmeans, dbscan

def evaluar_agrupacion(modelo, datos):
    n_clusters = len(set(modelo.labels_)) - (1 if -1 in modelo.labels_ else 0)
    if n_clusters < 2:
        return None, None  # No es posible calcular los puntajes con menos de 2 clusters
    silhouette = silhouette_score(datos, modelo.labels_)
    calinski_harabasz = calinski_harabasz_score(datos, modelo.labels_)
    return silhouette, calinski_harabasz

directorio = "dataset"

dataset = cargar_y_mezclar_imagenes(directorio)

X = convertir_a_vectores(dataset)

n_componentes_kpca = 25
X_kpca, kpca = aplicar_kpca(X, n_componentes_kpca)

n_componentes_pca = 25
X_pca, pca = aplicar_pca(X, n_componentes_pca)

n_clusters = 3

kmeans_kpca_model, dbscan_kpca_model = entrenar_modelos(X_kpca, n_clusters)

silhouette_kmeans_kpca, calinski_kmeans_kpca = evaluar_agrupacion(kmeans_kpca_model, X_kpca)
silhouette_dbscan_kpca, calinski_dbscan_kpca = evaluar_agrupacion(dbscan_kpca_model, X_kpca)

kmeans_pca_model, dbscan_pca_model = entrenar_modelos(X_pca, n_clusters)

silhouette_kmeans_pca, calinski_kmeans_pca = evaluar_agrupacion(kmeans_pca_model, X_pca)
silhouette_dbscan_pca, calinski_dbscan_pca = evaluar_agrupacion(dbscan_pca_model, X_pca)

print("Resultados del modelo KMeans con KPCA:")
print("Silhouette Score:", silhouette_kmeans_kpca)
print("Calinski-Harabasz Score:", calinski_kmeans_kpca)

print("\nResultados del modelo DBSCAN con KPCA:")
if silhouette_dbscan_kpca is not None:
    print("Silhouette Score:", silhouette_dbscan_kpca)
    print("Calinski-Harabasz Score:", calinski_dbscan_kpca)
else:
    print("DBSCAN con KPCA no encontró suficientes clusters para evaluación")

print("\nResultados del modelo KMeans con PCA:")
print("Silhouette Score:", silhouette_kmeans_pca)
print("Calinski-Harabasz Score:", calinski_kmeans_pca)

print("\nResultados del modelo DBSCAN con PCA:")
if silhouette_dbscan_pca is not None:
    print("Silhouette Score:", silhouette_dbscan_pca)
    print("Calinski-Harabasz Score:", calinski_dbscan_pca)
else:
    print("DBSCAN con PCA no encontró suficientes clusters para evaluación")


Resultados del modelo KMeans con KPCA:
Silhouette Score: 0.6945707078722606
Calinski-Harabasz Score: 390.30067446079795

Resultados del modelo DBSCAN con KPCA:
Silhouette Score: 0.8319384795304623
Calinski-Harabasz Score: 428.8834360778836

Resultados del modelo KMeans con PCA:
Silhouette Score: 0.13749467672072002
Calinski-Harabasz Score: 190.8556594311049

Resultados del modelo DBSCAN con PCA:
DBSCAN con PCA no encontró suficientes clusters para evaluación


In [12]:
import os

def guardar_imagenes_clusters(modelo, datos_originales, directorio_base):
    labels = modelo.labels_
    unique_labels = set(labels)
    
    if not os.path.exists(directorio_base):
        os.makedirs(directorio_base)
    
    for label in unique_labels:
        cluster_dir = os.path.join(directorio_base, f"cluster_{label}")
        if not os.path.exists(cluster_dir):
            os.makedirs(cluster_dir)
        cluster_indices = np.where(labels == label)[0]
        print(f"Guardando {len(cluster_indices)} imágenes en {cluster_dir}")
        for i, idx in enumerate(cluster_indices):
            img = datos_originales[idx]
            img_path = os.path.join(cluster_dir, f"img_{idx}.png")
            cv2.imwrite(img_path, img)

directorio_base = "clusters_imagenes"

print("Guardando imágenes de los clusters obtenidos con KMeans y PCA:")
guardar_imagenes_clusters(kmeans_pca_model, dataset, os.path.join(directorio_base, "kmeans_pca"))

print("Guardando imágenes de los clusters obtenidos con KMeans y KPCA:")
guardar_imagenes_clusters(kmeans_kpca_model, dataset, os.path.join(directorio_base, "kmeans_kpca"))


print("Guardando imágenes de los clusters obtenidos con DBSCAN y KPCA:")
guardar_imagenes_clusters(dbscan_kpca_model, dataset, os.path.join(directorio_base, "dbscan_kpca"))

Guardando imágenes de los clusters obtenidos con KMeans y PCA:
Guardando 260 imágenes en clusters_imagenes\kmeans_pca\cluster_0
Guardando 514 imágenes en clusters_imagenes\kmeans_pca\cluster_1
Guardando 361 imágenes en clusters_imagenes\kmeans_pca\cluster_2
Guardando imágenes de los clusters obtenidos con KMeans y KPCA:
Guardando 1093 imágenes en clusters_imagenes\kmeans_kpca\cluster_0
Guardando 38 imágenes en clusters_imagenes\kmeans_kpca\cluster_1
Guardando 4 imágenes en clusters_imagenes\kmeans_kpca\cluster_2
Guardando imágenes de los clusters obtenidos con DBSCAN y KPCA:
Guardando 1074 imágenes en clusters_imagenes\dbscan_kpca\cluster_0
Guardando 38 imágenes en clusters_imagenes\dbscan_kpca\cluster_1
Guardando 23 imágenes en clusters_imagenes\dbscan_kpca\cluster_-1
