In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.metrics import davies_bouldin_score, silhouette_score
from scipy.spatial.distance import cdist

# Cargar los datos de kmeans1.csv
kmeans1_df = pd.read_csv('kmeans1.csv')

# Gráfico de dispersión de variables A y B
plt.figure(figsize=(10, 6))
plt.scatter(kmeans1_df['A'], kmeans1_df['B'], c='blue', alpha=0.5)
plt.xlabel('A')
plt.ylabel('B')
plt.title('Gráfico de dispersión de las variables A y B')
plt.show()

# Aplicar el algoritmo KMeans con k = 3 + analiza los resultados
kmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(kmeans1_df)
kmeans_centroids = kmeans.cluster_centers_
kmeans_labels = kmeans.labels_

# Graficar los clusters resultantes
plt.figure(figsize=(10, 6))
plt.scatter(kmeans1_df['A'], kmeans1_df['B'], c=kmeans_labels, cmap='viridis', alpha=0.5)
plt.scatter(kmeans_centroids[:, 0], kmeans_centroids[:, 1], c='red', marker='x', s=100, label='Centroides')
plt.xlabel('A')
plt.ylabel('B')
plt.title('Clustering K-Means con 3 Clusters')
plt.legend()
plt.show()

# Iterar KMeans de 1 a 10 clusters y almacenar las distancias intra-cluster
intra_distances = {}
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(kmeans1_df)
    intra_distances[k] = kmeans.inertia_

# Graficar el método del codo para determinar el k óptimo
plt.figure(figsize=(10, 6))
plt.plot(list(intra_distances.keys()), list(intra_distances.values()), marker='o')
plt.xlabel('Número de Clusters (k)')
plt.ylabel('Distancia Intra-cluster (Inercia)')
plt.title('Método del Codo para k Óptimo')
plt.show()

# Cargar kmeans2.csv
kmeans2_df = pd.read_csv('kmeans2.csv')

# Aplicar KMeans a kmeans2.csv con k = 4 para la asignación de clusters
kmeans2 = KMeans(n_clusters=4, random_state=42)
kmeans2.fit(kmeans2_df)
kmeans2_labels = kmeans2.labels_

# Determinar el número de clusters con Silhouette plot
kmeans_scores = {}
for k in range(2, 11):
    kmeans_temp = KMeans(n_clusters=k, random_state=42)
    kmeans_temp.fit(kmeans2_df)
    labels = kmeans_temp.labels_
    kmeans_scores[k] = silhouette_score(kmeans2_df, labels)  # Puede usar davies_bouldin_score como alternativa

# Graficar el puntaje de Silhouette para determinar el k óptimo
plt.figure(figsize=(10, 6))
plt.plot(list(kmeans_scores.keys()), list(kmeans_scores.values()), marker='o')
plt.xlabel('Número de Clusters (k)')
plt.ylabel('Puntaje Silhouette')
plt.title('Puntaje Silhouette para k Óptimo')
plt.show()

# Implementar análisis automático de centroides
centroid_analysis = pd.DataFrame(kmeans2.cluster_centers_, columns=kmeans2_df.columns)
print("Análisis de Centroides:")
print(centroid_analysis)

# Implementar clase K-Means personalizada
class KMeansPersonalizado:
    def __init__(self):
        self.centroides = None
        self.etiquetas = None
        self.distancias_intra_cluster = None

    def ajustar(self, df, k):
        kmeans = KMeans(n_clusters=k, random_state=42)
        kmeans.fit(df)
        self.centroides = kmeans.cluster_centers_
        self.etiquetas = kmeans.labels_
        self.distancias_intra_cluster = kmeans.inertia_
        return self.etiquetas

# Utilizar la clase personalizada para agrupar clientes de 2024 y asignar nuevos clientes a segmentos en 2025
kmeans_personalizado = KMeansPersonalizado()
etiquetas_2024 = kmeans_personalizado.ajustar(kmeans2_df, 4)

print("Ajuste KMeans Personalizado: Etiquetas Asignadas para Clientes de 2024")
print(etiquetas_2024)

FileNotFoundError: [Errno 2] No such file or directory: '/root/Downloads/kmeans1.csv'