# Agrupamiento de Consumos de Agua con Aprendizaje No Supervisado

Este notebook muestra cómo aplicar un modelo no supervisado (KMeans) para agrupar registros de consumo de agua y analizar patrones sin etiquetas previas.

In [None]:
# Importar librerías necesarias
import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns

## Simulación de datos de consumo de agua

Simularemos un conjunto de datos donde cada fila representa una lectura de consumo de agua. No hay etiquetas, solo variables numéricas para agrupar.

In [None]:
# Simular datos de consumo de agua
# Cada fila: [consumo_litros, hora_dia, dia_semana, usuario_id]
data = [
    [10, 8, 1, 1],
    [12, 9, 1, 1],
    [50, 3, 2, 2],
    [11, 10, 1, 1],
    [9, 8, 2, 2],
    [55, 2, 3, 2],
    [10, 8, 3, 1],
    [13, 9, 4, 1],
    [60, 1, 5, 2],
    [12, 10, 6, 1],
]
df = pd.DataFrame(data, columns=["consumo_litros", "hora_dia", "dia_semana", "usuario_id"])
df

## Selección de variables para clustering

Seleccionamos las variables numéricas que usaremos para agrupar los datos.

In [None]:
# Seleccionar variables para clustering
X = df[["consumo_litros", "hora_dia"]]
X.head()

## Aplicar KMeans para agrupar los datos

Usamos el algoritmo KMeans para encontrar grupos (clusters) en los datos de consumo.

In [None]:
# Aplicar KMeans para encontrar 2 clusters
kmeans = KMeans(n_clusters=2, random_state=42)
df['cluster'] = kmeans.fit_predict(X)
print("Centroides:")
print(kmeans.cluster_centers_)
print("Etiquetas de cluster:")
print(df['cluster'].values)
df

## Visualización de los clusters generados

Graficamos los resultados del clustering para observar cómo se agruparon los registros de consumo.

In [None]:
# Visualización de los clusters
plt.figure(figsize=(6,4))
sns.scatterplot(x='consumo_litros', y='hora_dia', hue='cluster', data=df, palette='Set1')
plt.scatter(kmeans.cluster_centers_[:,0], kmeans.cluster_centers_[:,1], s=200, c='yellow', label='Centroides', marker='X')
plt.title('Clusters de consumo de agua (KMeans)')
plt.xlabel('Consumo (litros)')
plt.ylabel('Hora del día')
plt.legend()
plt.show()

## Visualización exploratoria y de clusters

A continuación se muestran tres gráficas útiles para analizar los resultados del modelo no supervisado.

In [None]:
# Gráfica 1: Histograma de consumo de litros por cluster
import matplotlib.pyplot as plt
import seaborn as sns
plt.figure(figsize=(6,4))
sns.histplot(data=df, x='consumo_litros', hue='cluster', bins=8, kde=True, palette='Set1')
plt.title('Distribución de consumo de litros por cluster')
plt.xlabel('Consumo (litros)')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Gráfica 2: Boxplot de consumo por cluster
plt.figure(figsize=(6,4))
sns.boxplot(x='cluster', y='consumo_litros', data=df, palette='Set1')
plt.title('Consumo de litros por cluster')
plt.xlabel('Cluster')
plt.ylabel('Consumo (litros)')
plt.show()

In [None]:
# Gráfica 3: Conteo de registros por cluster
plt.figure(figsize=(5,3))
sns.countplot(x='cluster', data=df, palette='Set1')
plt.title('Cantidad de registros por cluster')
plt.xlabel('Cluster')
plt.ylabel('Cantidad')
plt.show()