# Ejercicio 1: K-means con el archivo wine.csv Calcular el WCSS para k=1,…,10 y graficar los resultados:

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans


# Cargar los datos
wine_data = pd.read_csv('data/wine.csv')
wine_data.head()




# Normalizar los datos
scaler = StandardScaler()
wine_data_scaled = scaler.fit_transform(wine_data)


# Calcular WCSS para diferentes valores de k
wcss = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(wine_data_scaled)
    wcss.append(kmeans.inertia_)

# Graficar el WCSS
plt.figure(figsize=(10, 5))
plt.plot(range(1, 11), wcss, marker='o')
plt.title('Elbow Method For Optimal k')
plt.xlabel('Number of clusters (k)')
plt.ylabel('WCSS')
plt.show()


ModuleNotFoundError: No module named 'pandas'

# Justificación del valor óptimo de 𝑘

El valor óptimo de 𝑘 se encuentra en el punto donde la gráfica del WCSS comienza a disminuir de manera menos pronunciada (elbow point). Esto indica que agregar más clusters no mejora significativamente el ajuste del modelo.

# Ejercicio 2: Clustering con el archivo clusters.csv

In [None]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import AgglomerativeClustering, KMeans, DBSCAN
from sklearn.mixture import GaussianMixture
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score
import matplotlib.pyplot as plt
from scipy.cluster.hierarchy import dendrogram, linkage

# Cargar los datos
clusters_data = pd.read_csv('data/clusters.csv')

# Normalizar los datos
scaler = StandardScaler()
clusters_data_scaled = scaler.fit_transform(clusters_data)

# Hierarchical Clustering
# Generar el dendrograma
linked = linkage(clusters_data_scaled, 'ward')
plt.figure(figsize=(10, 7))
dendrogram(linked, orientation='top', distance_sort='descending', show_leaf_counts=True)
plt.show()

# Aplicar Agglomerative Clustering
hierarchical = AgglomerativeClustering(n_clusters=3)
clusters_hierarchical = hierarchical.fit_predict(clusters_data_scaled)

# K-Means Clustering
kmeans = KMeans(n_clusters=3, random_state=42)
clusters_kmeans = kmeans.fit_predict(clusters_data_scaled)

# DBSCAN Clustering
# Función para probar diferentes parámetros de DBSCAN
def test_dbscan(eps_values, min_samples_values, data):
    best_eps = None
    best_min_samples = None
    best_score = -1
    best_labels = None

    for eps in eps_values:
        for min_samples in min_samples_values:
            dbscan = DBSCAN(eps=eps, min_samples=min_samples)
            labels = dbscan.fit_predict(data)
            if len(set(labels)) > 1:  # Asegurarse de que hay más de un cluster
                score = silhouette_score(data, labels)
                if score > best_score:
                    best_score = score
                    best_eps = eps
                    best_min_samples = min_samples
                    best_labels = labels

    return best_eps, best_min_samples, best_score, best_labels

# Probar diferentes valores para eps y min_samples
eps_values = [0.3, 0.4, 0.5, 0.6, 0.7]
min_samples_values = [3, 5, 7, 10]

best_eps, best_min_samples, best_score, clusters_dbscan = test_dbscan(eps_values, min_samples_values, clusters_data_scaled)

# Si no se encuentran clusters válidos, asignar una etiqueta predeterminada
if clusters_dbscan is None:
    clusters_dbscan = [-1] * len(clusters_data_scaled)

# Gaussian Mixture
gmm = GaussianMixture(n_components=3, random_state=42)
clusters_gmm = gmm.fit_predict(clusters_data_scaled)

# Evaluación de los resultados
# Calcular las métricas para los otros algoritmos
silhouette_scores = {
    "Hierarchical": silhouette_score(clusters_data_scaled, clusters_hierarchical),
    "K-Means": silhouette_score(clusters_data_scaled, clusters_kmeans),
    "DBSCAN": silhouette_score(clusters_data_scaled, clusters_dbscan),
    "GMM": silhouette_score(clusters_data_scaled, clusters_gmm)
}

davies_bouldin_scores = {
    "Hierarchical": davies_bouldin_score(clusters_data_scaled, clusters_hierarchical),
    "K-Means": davies_bouldin_score(clusters_data_scaled, clusters_kmeans),
    "DBSCAN": davies_bouldin_score(clusters_data_scaled, clusters_dbscan),
    "GMM": davies_bouldin_score(clusters_data_scaled, clusters_gmm)
}

calinski_harabasz_scores = {
    "Hierarchical": calinski_harabasz_score(clusters_data_scaled, clusters_hierarchical),
    "K-Means": calinski_harabasz_score(clusters_data_scaled, clusters_kmeans),
    "DBSCAN": calinski_harabasz_score(clusters_data_scaled, clusters_dbscan),
    "GMM": calinski_harabasz_score(clusters_data_scaled, clusters_gmm)
}

best_eps, best_min_samples, silhouette_scores, davies_bouldin_scores, calinski_harabasz_scores


: 