# Librerias empleadas

In [14]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA
from sklearn.metrics import silhouette_score
from IPython.display import display

# Carga de Datos

In [15]:
print("Cargando datos...")
df = pd.read_csv('LD2011_2014.txt', sep=';', index_col=0, parse_dates=True, decimal=',')
print(f"Datos originales: {df.shape}")

# Agrupar por hora
print("\nAgrupando por hora...")
df['hora'] = df.index.floor('h')
df_hourly = df.groupby('hora').mean()
print(f"Datos agrupados por hora: {df_hourly.shape}")

# Matriz de características
X = df_hourly.values

Cargando datos...
Datos originales: (140256, 370)

Agrupando por hora...
Datos agrupados por hora: (35065, 370)


## 2. Clustering con K-Means

In [None]:
# Entrenar K-Means
K_CLUSTERS = 10
kmeans = KMeans(n_clusters=K_CLUSTERS, random_state=42, n_init=10)
clusters = kmeans.fit_predict(X)

# Evaluación
silhouette = silhouette_score(X, clusters)
print(f"Silhouette Score: {silhouette:.3f}")

## 3. Visualización de Resultados

In [None]:
# Reducción dimensional
pca = PCA(n_components=2)
X_2D = pca.fit_transform(X)
centroids_2D = pca.transform(kmeans.cluster_centers_)

# Gráfico de clusters
plt.figure(figsize=(10, 6))
plt.scatter(X_2D[:, 0], X_2D[:, 1], c=clusters, cmap='tab20', alpha=0.6, s=20)
plt.scatter(centroids_2D[:, 0], centroids_2D[:, 1], c='black', marker='X', s=200, label='Centroides')
plt.title(f"Clusters de Consumo (Silhouette: {silhouette:.3f})")
plt.xlabel("Componente Principal 1")
plt.ylabel("Componente Principal 2")
plt.legend()
plt.show()


## 4. Aprendizaje Activo (Basado en el código original)

In [None]:
# Obtener distancias a centroides
X_dist = kmeans.transform(X)

# Seleccionar representantes (puntos más cercanos a cada centroide)
representative_idxs = np.argmin(X_dist, axis=0)
X_representatives = X[representative_idxs]

# Crear etiquetas para los representantes
y_representatives = np.arange(K_CLUSTERS)

# Entrenar modelo logístico con representantes
log_reg = LogisticRegression(multi_class='ovr', solver='lbfgs', max_iter=5000, random_state=42)
log_reg.fit(X_representatives, y_representatives)

# Propagación de etiquetas
y_propagated = np.zeros(len(X))
for i in range(K_CLUSTERS):
    y_propagated[kmeans.labels_ == i] = y_representatives[i]

# Seleccionar subconjunto para aprendizaje activo
N_SAMPLES = 1000
X_active = X[:N_SAMPLES]
y_active = y_propagated[:N_SAMPLES].copy()

# Obtener probabilidades del modelo
probas = log_reg.predict_proba(X_active)

# Encontrar instancias menos confiables
labels_ixs = np.argmax(probas, axis=1)
confidences = np.array([proba[ix] for proba, ix in zip(probas, labels_ixs)])
sorted_ixs = np.argsort(confidences)
least_confident = sorted_ixs[:K_CLUSTERS]

# "Corregir" estas instancias (usando etiquetas del clustering)
y_corrected = kmeans.predict(X_active[least_confident])

# Actualizar etiquetas y reentrenar
y_active_updated = y_active.copy()
y_active_updated[least_confident] = y_corrected

log_reg_active = LogisticRegression(multi_class='ovr', solver='lbfgs', max_iter=5000, random_state=42)
log_reg_active.fit(X_active, y_active_updated)

## 5. Visualización de Aprendizaje Activo

In [None]:
# Preparar datos para visualización
active_changes = np.zeros(len(X), dtype=bool)
active_changes[:N_SAMPLES][least_confident] = True

# Gráfico comparativo
plt.figure(figsize=(12, 5))

# Predicciones iniciales
plt.subplot(1, 2, 1)
plt.scatter(X_2D[:, 0], X_2D[:, 1], c=clusters, cmap='tab20', alpha=0.6, s=20)
plt.title("Clusters Originales")
plt.xlabel("Componente Principal 1")
plt.ylabel("Componente Principal 2")

# Puntos corregidos
plt.subplot(1, 2, 2)
plt.scatter(X_2D[:, 0], X_2D[:, 1], c=clusters, cmap='tab20', alpha=0.2, s=20)
plt.scatter(X_2D[active_changes, 0], X_2D[active_changes, 1], 
            c='red', edgecolors='black', s=50, label='Corregidas')
plt.title("Puntos Corregidos por Aprendizaje Activo")
plt.xlabel("Componente Principal 1")
plt.legend()

plt.tight_layout()
plt.show()