# ETL (Extract, Transform, Load) para An√°lisis de Luminarias Urbanas

## üìã Introducci√≥n

Este notebook implementa un proceso **ETL completo** para el an√°lisis de luminarias urbanas del proyecto ECOLUZ. El proceso integra tanto an√°lisis **supervisado** como **no supervisado** para el mantenimiento predictivo de luminarias.

### üéØ Objetivos del ETL

1. **Extraer** datos de MongoDB de luminarias urbanas
2. **Transformar** los datos aplicando limpieza, normalizaci√≥n y ingenier√≠a de caracter√≠sticas
3. **Cargar** los datos procesados para an√°lisis supervisado y no supervisado
4. **Generar insights** mediante visualizaciones y modelos predictivos

### üîÑ Flujo del Proceso

```
MongoDB ‚Üí Extract ‚Üí Clean ‚Üí Feature Engineering ‚Üí Supervised Analysis ‚Üí Unsupervised Analysis ‚Üí Insights
```

### üìä Metodolog√≠as Implementadas

- **An√°lisis Supervisado**: Random Forest para clasificaci√≥n del estado de luminarias
- **An√°lisis No Supervisado**: K-Means clustering y PCA para identificaci√≥n de patrones
- **Visualizaci√≥n Avanzada**: Gr√°ficos de importancia, matrices de confusi√≥n y clustering

## üìö Marco Te√≥rico

### ETL en el Contexto de Machine Learning

**ETL (Extract, Transform, Load)** es fundamental para el an√°lisis de datos de calidad:

- **Extract**: Extracci√≥n de datos desde fuentes heterog√©neas (MongoDB, APIs, archivos)
- **Transform**: Limpieza, normalizaci√≥n, agregaci√≥n y ingenier√≠a de caracter√≠sticas
- **Load**: Carga de datos limpios en estructuras optimizadas para an√°lisis

### An√°lisis Supervisado vs No Supervisado

#### üéØ **An√°lisis Supervisado**
- **Objetivo**: Predecir el estado de luminarias (bueno, regular, malo)
- **Algoritmo**: Random Forest Classifier
- **Ventajas**: 
  - Maneja variables mixtas (num√©ricas y categ√≥ricas)
  - Proporciona importancia de variables
  - Robusto ante outliers
- **M√©tricas**: Accuracy, Precision, Recall, F1-Score

#### üîç **An√°lisis No Supervisado**
- **Objetivo**: Descubrir patrones ocultos y agrupamientos naturales
- **Algoritmos**: K-Means clustering, PCA (Principal Component Analysis)
- **Ventajas**:
  - No requiere etiquetas predefinidas
  - Identifica estructuras latentes en los datos
  - √ötil para segmentaci√≥n y reducci√≥n dimensional
- **M√©tricas**: Silhouette Score, Within-Cluster Sum of Squares (WCSS)

### T√©cnicas de Visualizaci√≥n

1. **Importancia de Variables**: Identifica caracter√≠sticas m√°s relevantes
2. **Matriz de Confusi√≥n**: Eval√∫a rendimiento de clasificaci√≥n
3. **PCA 2D**: Visualiza clusters en espacio reducido
4. **M√©todo del Codo**: Determina n√∫mero √≥ptimo de clusters

## üì¶ Importaci√≥n de Librer√≠as

Importamos todas las librer√≠as necesarias para el proceso ETL completo:

In [None]:
# ==========================================
# LIBRER√çAS PARA PROCESAMIENTO DE DATOS
# ==========================================
import pandas as pd
import numpy as np
import os
from math import pi

# ==========================================
# CONEXI√ìN A BASE DE DATOS
# ==========================================
from dotenv import load_dotenv
from pymongo import MongoClient

# ==========================================
# VISUALIZACI√ìN
# ==========================================
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de visualizaci√≥n
plt.style.use('default')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10

# ==========================================
# MACHINE LEARNING - SUPERVISADO
# ==========================================
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import (
    classification_report, 
    confusion_matrix, 
    accuracy_score,
    precision_score,
    recall_score,
    f1_score
)

# ==========================================
# MACHINE LEARNING - NO SUPERVISADO
# ==========================================
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
from sklearn.metrics import silhouette_score

# ==========================================
# AN√ÅLISIS ESTAD√çSTICO
# ==========================================
from scipy import stats

print("‚úÖ Todas las librer√≠as importadas correctamente")

## üîå FASE 1: EXTRACT (Extracci√≥n)

### Configuraci√≥n de Conexi√≥n a MongoDB

In [None]:
# Cargar variables de entorno
load_dotenv()
MONGO_URI = os.getenv("CONECTION_DB")

# Validar conexi√≥n
if MONGO_URI:
    print("‚úÖ URI de MongoDB cargada correctamente")
    print(f"üîó Conectando a: {MONGO_URI[:20]}...")
else:
    print("‚ùå No se encontr√≥ la URI de MongoDB")
    print("üí° Aseg√∫rate de tener un archivo .env con CONECTION_DB")

# Test de conexi√≥n
try:
    client = MongoClient(MONGO_URI)
    client.admin.command('ping')
    print("‚úÖ Conexi√≥n a MongoDB exitosa")
    client.close()
except Exception as e:
    print(f"‚ùå Error de conexi√≥n: {e}")

In [None]:
def export_mongo_sample_to_csv(
    db_name: str,
    collection_name: str,
    out_csv: str = "dataset_sample.csv",
    sample_size: int = 100000,
    projection: dict | None = None,
):
    """
    Funci√≥n ETL para extraer datos de MongoDB y convertirlos a CSV
    
    Args:
        db_name: Nombre de la base de datos
        collection_name: Nombre de la colecci√≥n
        out_csv: Archivo CSV de salida
        sample_size: N√∫mero de documentos a extraer
        projection: Campos espec√≠ficos a proyectar
    
    Returns:
        pandas.DataFrame: Datos extra√≠dos
    """
    
    # ‚úÖ Optimizaci√≥n: Usar cach√© local si ya existe
    if os.path.exists(out_csv):
        print(f"üìÇ Archivo {out_csv} ya existe, cargando desde cach√©...")
        df = pd.read_csv(out_csv)
        print(f"‚úÖ Cargados {len(df):,} registros desde CSV existente")
        print(f"üìä Columnas disponibles: {len(df.columns)}")
        return df

    # üîå Conectar a MongoDB
    print(f"üîÑ Conectando a MongoDB: {db_name}.{collection_name}")
    mongo_uri = os.getenv("CONECTION_DB")
    client = MongoClient(mongo_uri)
    col = client[db_name][collection_name]

    # üìù Pipeline de agregaci√≥n
    pipeline = [{"$sample": {"size": sample_size}}]
    if projection:
        pipeline.append({"$project": projection})
        print(f"üéØ Proyecci√≥n aplicada: {list(projection.keys())}")

    # üì• Extraer datos
    print(f"üìä Extrayendo muestra de {sample_size:,} documentos...")
    cursor = col.aggregate(pipeline)
    data = list(cursor)
    
    # üîÑ Transformar a DataFrame
    df = pd.json_normalize(data)
    
    # üíæ Guardar cach√©
    df.to_csv(out_csv, index=False)
    client.close()
    
    print(f"‚úÖ Nueva muestra guardada en {out_csv}")
    print(f"üìä Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas")
    print(f"üíæ Tama√±o del archivo: {os.path.getsize(out_csv)/1024/1024:.2f} MB")
    
    return df

print("‚úÖ Funci√≥n de extracci√≥n definida correctamente")

In [None]:
# üöÄ EJECUTAR EXTRACCI√ìN DE DATOS
print("üîÑ Iniciando proceso de extracci√≥n...")

df_raw = export_mongo_sample_to_csv(
    db_name="luminarias",
    collection_name="luminarias",
    out_csv="luminarias_dataset.csv",
    sample_size=5000
)

# üëÄ Vista previa de los datos extra√≠dos
print("\nüìã RESUMEN DE DATOS EXTRA√çDOS:")
print("="*50)
print(f"‚Ä¢ Filas: {df_raw.shape[0]:,}")
print(f"‚Ä¢ Columnas: {df_raw.shape[1]}")
print(f"‚Ä¢ Memoria: {df_raw.memory_usage(deep=True).sum()/1024/1024:.2f} MB")

print("\nüîç PRIMERAS 5 FILAS:")
display(df_raw.head())

print("\nüìä INFORMACI√ìN DEL DATASET:")
print(df_raw.info())

## üîÑ FASE 2: TRANSFORM (Transformaci√≥n)

Esta fase incluye limpieza, normalizaci√≥n, ingenier√≠a de caracter√≠sticas y preparaci√≥n de datos para ambos an√°lisis (supervisado y no supervisado).

In [None]:
# üßπ LIMPIEZA Y PREPARACI√ìN DE DATOS
print("üîÑ Iniciando transformaci√≥n de datos...")

# Copiar dataset para transformaci√≥n
df = df_raw.copy()

print(f"üìä Dataset original: {df.shape}")

# ==========================================
# 1. AN√ÅLISIS DE CALIDAD DE DATOS
# ==========================================
print("\nüîç AN√ÅLISIS DE CALIDAD DE DATOS:")
print("="*50)

# Valores nulos
null_counts = df.isnull().sum()
null_percentage = (null_counts / len(df)) * 100
quality_report = pd.DataFrame({
    'Columna': null_counts.index,
    'Valores_Nulos': null_counts.values,
    'Porcentaje_Nulos': null_percentage.values
}).sort_values('Porcentaje_Nulos', ascending=False)

print("üìã Top 10 columnas con m√°s valores nulos:")
display(quality_report.head(10))

# ==========================================
# 2. SELECCI√ìN DE CARACTER√çSTICAS
# ==========================================
print("\nüéØ SELECCI√ìN DE CARACTER√çSTICAS RELEVANTES:")

# Caracter√≠sticas para an√°lisis supervisado y no supervisado
features_supervisado = [
    "potencia_watts",
    "altura_metros", 
    "consumo.actual_watts",
    "consumo.acumulado_kwh.mes",
    "consumo.acumulado_kwh.semana",
    "consumo.acumulado_kwh.dia",
    "sensores.luminosidad_lux",
    "sensores.temperatura_c",
    "sensores.humedad_pct",
    "sensores.movimiento",
    "conectividad.latencia_ms",
    "eficiencia.lumens_por_watt",
    "eficiencia.horas_funcionamiento_total",
    "eficiencia.vida_util_restante_pct",
    "estado_lampara"  # Variable objetivo
]

features_no_supervisado = [
    "potencia_watts",
    "altura_metros",
    "consumo.actual_watts", 
    "consumo.acumulado_kwh.mes",
    "sensores.luminosidad_lux",
    "sensores.temperatura_c",
    "sensores.humedad_pct",
    "conectividad.latencia_ms",
    "eficiencia.lumens_por_watt",
    "eficiencia.horas_funcionamiento_total",
    "eficiencia.vida_util_restante_pct"
]

# Verificar disponibilidad de caracter√≠sticas
available_features_sup = [col for col in features_supervisado if col in df.columns]
available_features_unsup = [col for col in features_no_supervisado if col in df.columns]

print(f"‚úÖ Caracter√≠sticas disponibles para an√°lisis supervisado: {len(available_features_sup)}/{len(features_supervisado)}")
print(f"‚úÖ Caracter√≠sticas disponibles para an√°lisis no supervisado: {len(available_features_unsup)}/{len(features_no_supervisado)}")

if len(available_features_sup) < len(features_supervisado):
    missing_sup = set(features_supervisado) - set(available_features_sup)
    print(f"‚ö†Ô∏è Caracter√≠sticas faltantes (supervisado): {missing_sup}")

if len(available_features_unsup) < len(features_no_supervisado):
    missing_unsup = set(features_no_supervisado) - set(available_features_unsup)
    print(f"‚ö†Ô∏è Caracter√≠sticas faltantes (no supervisado): {missing_unsup}")

In [None]:
# ==========================================
# 3. LIMPIEZA DE DATOS
# ==========================================
print("\nüßπ PROCESO DE LIMPIEZA:")
print("="*30)

# Filtrar solo las caracter√≠sticas disponibles
df_supervisado = df[available_features_sup].copy() if available_features_sup else pd.DataFrame()
df_no_supervisado = df[available_features_unsup].copy() if available_features_unsup else pd.DataFrame()

if not df_supervisado.empty:
    print(f"üìä Dataset supervisado: {df_supervisado.shape}")
    
    # Eliminar filas con valores nulos en variables cr√≠ticas
    antes_limpieza = len(df_supervisado)
    df_supervisado = df_supervisado.dropna()
    despues_limpieza = len(df_supervisado)
    
    print(f"üóëÔ∏è Filas eliminadas por valores nulos: {antes_limpieza - despues_limpieza:,}")
    print(f"‚úÖ Filas restantes: {despues_limpieza:,}")

if not df_no_supervisado.empty:
    print(f"üìä Dataset no supervisado: {df_no_supervisado.shape}")
    
    # Eliminar filas con valores nulos
    antes_limpieza_unsup = len(df_no_supervisado)
    df_no_supervisado = df_no_supervisado.dropna()
    despues_limpieza_unsup = len(df_no_supervisado)
    
    print(f"üóëÔ∏è Filas eliminadas por valores nulos: {antes_limpieza_unsup - despues_limpieza_unsup:,}")
    print(f"‚úÖ Filas restantes: {despues_limpieza_unsup:,}")

# ==========================================
# 4. INGENIER√çA DE CARACTER√çSTICAS
# ==========================================
print("\nüîß INGENIER√çA DE CARACTER√çSTICAS:")
print("="*35)

if not df_supervisado.empty and 'estado_lampara' in df_supervisado.columns:
    # An√°lisis de la variable objetivo
    print("üéØ Variable objetivo (estado_lampara):")
    estado_counts = df_supervisado['estado_lampara'].value_counts()
    print(estado_counts)
    
    # Visualizar distribuci√≥n de clases
    plt.figure(figsize=(10, 6))
    plt.subplot(1, 2, 1)
    estado_counts.plot(kind='bar', color=['green', 'orange', 'red'])
    plt.title('Distribuci√≥n de Estados de Luminarias')
    plt.xlabel('Estado')
    plt.ylabel('Cantidad')
    plt.xticks(rotation=45)
    
    plt.subplot(1, 2, 2)
    plt.pie(estado_counts.values, labels=estado_counts.index, autopct='%1.1f%%', 
            colors=['green', 'orange', 'red'])
    plt.title('Proporci√≥n de Estados')
    plt.tight_layout()
    plt.show()

# Estad√≠sticas descriptivas
if not df_no_supervisado.empty:
    print("\nüìà ESTAD√çSTICAS DESCRIPTIVAS:")
    display(df_no_supervisado.describe())

## üì• FASE 3: LOAD (Carga y An√°lisis)

### üéØ AN√ÅLISIS SUPERVISADO - Random Forest Classification

In [None]:
# üéØ AN√ÅLISIS SUPERVISADO
print("üöÄ Iniciando an√°lisis supervisado...")

if not df_supervisado.empty and 'estado_lampara' in df_supervisado.columns:
    
    # ==========================================
    # PREPARACI√ìN DE DATOS
    # ==========================================
    
    # Separar caracter√≠sticas y variable objetivo
    X = df_supervisado.drop('estado_lampara', axis=1)
    y = df_supervisado['estado_lampara']
    
    # Codificar variable objetivo si es necesario
    le = LabelEncoder()
    y_encoded = le.fit_transform(y)
    
    print(f"‚úÖ Caracter√≠sticas (X): {X.shape}")
    print(f"‚úÖ Variable objetivo (y): {y.shape}")
    print(f"üè∑Ô∏è Clases: {le.classes_}")
    
    # Escalar caracter√≠sticas
    scaler = StandardScaler()
    X_scaled = scaler.fit_transform(X)
    
    # Divisi√≥n train/test
    X_train, X_test, y_train, y_test = train_test_split(
        X_scaled, y_encoded, test_size=0.2, random_state=42, stratify=y_encoded
    )
    
    print(f"üìä Entrenamiento: {X_train.shape[0]} muestras")
    print(f"üìä Prueba: {X_test.shape[0]} muestras")
    
    # ==========================================
    # ENTRENAMIENTO DEL MODELO
    # ==========================================
    
    print("\nüå≥ Entrenando Random Forest...")
    
    # Modelo Random Forest
    rf_model = RandomForestClassifier(
        n_estimators=100,
        max_depth=10,
        random_state=42,
        n_jobs=-1
    )
    
    # Entrenar modelo
    rf_model.fit(X_train, y_train)
    
    # Predicciones
    y_pred = rf_model.predict(X_test)
    
    # ==========================================
    # EVALUACI√ìN DEL MODELO
    # ==========================================
    
    print("\nüìä M√âTRICAS DE EVALUACI√ìN:")
    print("="*30)
    
    accuracy = accuracy_score(y_test, y_pred)
    precision = precision_score(y_test, y_pred, average='weighted')
    recall = recall_score(y_test, y_pred, average='weighted')
    f1 = f1_score(y_test, y_pred, average='weighted')
    
    print(f"üéØ Accuracy: {accuracy:.3f}")
    print(f"üéØ Precision: {precision:.3f}")
    print(f"üéØ Recall: {recall:.3f}")
    print(f"üéØ F1-Score: {f1:.3f}")
    
    print("\nüìã Reporte de clasificaci√≥n:")
    print(classification_report(y_test, y_pred, target_names=le.classes_))
    
else:
    print("‚ö†Ô∏è No se puede realizar an√°lisis supervisado: datos insuficientes o variable objetivo faltante")

In [None]:
# ==========================================
# VISUALIZACIONES DEL AN√ÅLISIS SUPERVISADO
# ==========================================

if not df_supervisado.empty and 'estado_lampara' in df_supervisado.columns:
    
    print("\nüìä GENERANDO VISUALIZACIONES...")
    
    # 1. IMPORTANCIA DE VARIABLES
    print("üìà Gr√°fico 1: Importancia de Variables")
    
    # Obtener importancia de caracter√≠sticas
    feature_importance = pd.DataFrame({
        'feature': X.columns,
        'importance': rf_model.feature_importances_
    }).sort_values('importance', ascending=True)
    
    # Gr√°fico de importancia
    plt.figure(figsize=(12, 8))
    plt.barh(feature_importance['feature'], feature_importance['importance'])
    plt.title('Importancia de Variables (Random Forest)', fontsize=16, fontweight='bold')
    plt.xlabel('Score de Importancia', fontsize=12)
    plt.ylabel('Variables', fontsize=12)
    plt.grid(axis='x', alpha=0.3)
    
    # Agregar valores en las barras
    for i, v in enumerate(feature_importance['importance']):
        plt.text(v + 0.001, i, f'{v:.3f}', va='center', fontsize=10)
    
    plt.tight_layout()
    plt.savefig('importancia_variables_etl.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    # 2. MATRIZ DE CONFUSI√ìN
    print("üìà Gr√°fico 2: Matriz de Confusi√≥n")
    
    # Calcular matriz de confusi√≥n
    cm = confusion_matrix(y_test, y_pred)
    
    # Gr√°fico de matriz de confusi√≥n
    plt.figure(figsize=(10, 8))
    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
                xticklabels=le.classes_, yticklabels=le.classes_,
                cbar_kws={'label': 'Cantidad de Predicciones'})
    plt.title('Matriz de Confusi√≥n', fontsize=16, fontweight='bold')
    plt.xlabel('Predicci√≥n', fontsize=12)
    plt.ylabel('Real', fontsize=12)
    
    plt.tight_layout()
    plt.savefig('matriz_confusion_etl.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    # Mostrar estad√≠sticas de la matriz
    print("\\nüìä An√°lisis de la Matriz de Confusi√≥n:")
    for i, clase in enumerate(le.classes_):
        verdaderos_positivos = cm[i, i]
        total_reales = cm[i, :].sum()
        total_predichos = cm[:, i].sum()
        
        precision_clase = verdaderos_positivos / total_predichos if total_predichos > 0 else 0
        recall_clase = verdaderos_positivos / total_reales if total_reales > 0 else 0
        
        print(f"  ‚Ä¢ {clase}:")
        print(f"    - Predicciones correctas: {verdaderos_positivos}")
        print(f"    - Precision: {precision_clase:.3f}")
        print(f"    - Recall: {recall_clase:.3f}")
    
else:
    print("‚ö†Ô∏è No se pueden generar visualizaciones del an√°lisis supervisado")

### üîç AN√ÅLISIS NO SUPERVISADO - K-Means Clustering & PCA

In [None]:
# üîç AN√ÅLISIS NO SUPERVISADO
print("üöÄ Iniciando an√°lisis no supervisado...")

if not df_no_supervisado.empty:
    
    # ==========================================
    # PREPARACI√ìN DE DATOS PARA CLUSTERING
    # ==========================================
    
    print(f"üìä Dataset para clustering: {df_no_supervisado.shape}")
    
    # Normalizar datos para clustering
    scaler_unsup = StandardScaler()
    X_scaled_unsup = scaler_unsup.fit_transform(df_no_supervisado)
    
    print("‚úÖ Datos normalizados para clustering")
    
    # ==========================================
    # DETERMINACI√ìN DEL N√öMERO √ìPTIMO DE CLUSTERS
    # ==========================================
    
    print("\\nüîÑ Determinando n√∫mero √≥ptimo de clusters...")
    
    # M√©todo del codo
    wcss = []
    silhouette_scores = []
    k_range = range(2, 8)
    
    for k in k_range:
        kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
        kmeans.fit(X_scaled_unsup)
        wcss.append(kmeans.inertia_)
        silhouette_scores.append(silhouette_score(X_scaled_unsup, kmeans.labels_))
    
    # ==========================================
    # VISUALIZACI√ìN: M√âTODO DEL CODO Y SILHOUETTE
    # ==========================================
    
    print("üìà Gr√°fico 3: M√©todo del Codo y Puntuaci√≥n de Silhouette")
    
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 6))
    
    # M√©todo del codo
    ax1.plot(k_range, wcss, 'bo-', linewidth=2, markersize=8)
    ax1.set_title('M√©todo del Codo', fontsize=14, fontweight='bold')
    ax1.set_xlabel('N√∫mero de clusters', fontsize=12)
    ax1.set_ylabel('WCSS', fontsize=12)
    ax1.grid(True, alpha=0.3)
    
    # Silhouette score
    ax2.plot(k_range, silhouette_scores, 'ro-', linewidth=2, markersize=8)
    ax2.set_title('Puntuaci√≥n de Silhouette por N√∫mero de Clusters', fontsize=14, fontweight='bold')
    ax2.set_xlabel('N√∫mero de clusters', fontsize=12)
    ax2.set_ylabel('Puntuaci√≥n de Silhouette', fontsize=12)
    ax2.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.savefig('metodo_codo_silhouette_etl.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    # Encontrar k √≥ptimo
    optimal_k = k_range[silhouette_scores.index(max(silhouette_scores))]
    print(f"\\nüéØ N√∫mero √≥ptimo de clusters: {optimal_k}")
    print(f"üéØ Mejor Silhouette Score: {max(silhouette_scores):.3f}")
    
else:
    print("‚ö†Ô∏è No se puede realizar an√°lisis no supervisado: datos insuficientes")

In [None]:
# ==========================================
# APLICAR K-MEANS CON K √ìPTIMO
# ==========================================

if not df_no_supervisado.empty:
    
    print(f"\\nüéØ Aplicando K-Means con k={optimal_k}...")
    
    # Modelo K-Means final
    kmeans_final = KMeans(n_clusters=optimal_k, random_state=42, n_init=10)
    cluster_labels = kmeans_final.fit_predict(X_scaled_unsup)
    
    # Calcular silhouette score final
    silhouette_final = silhouette_score(X_scaled_unsup, cluster_labels)
    print(f"‚úÖ Silhouette Score final: {silhouette_final:.3f}")
    
    # ==========================================
    # REDUCCI√ìN DE DIMENSIONALIDAD CON PCA
    # ==========================================
    
    print("\\nüîÑ Aplicando PCA para visualizaci√≥n...")
    
    # PCA a 2 componentes para visualizaci√≥n
    pca = PCA(n_components=2, random_state=42)
    X_pca = pca.fit_transform(X_scaled_unsup)
    
    # Varianza explicada
    varianza_explicada = pca.explained_variance_ratio_
    print(f"‚úÖ Varianza explicada por PC1: {varianza_explicada[0]:.3f}")
    print(f"‚úÖ Varianza explicada por PC2: {varianza_explicada[1]:.3f}")
    print(f"‚úÖ Varianza total explicada: {sum(varianza_explicada):.3f}")
    
    # ==========================================
    # VISUALIZACI√ìN: CLUSTERS EN ESPACIO PCA
    # ==========================================
    
    print("üìà Gr√°fico 4: Visualizaci√≥n de Clusters en Espacio PCA")
    
    plt.figure(figsize=(12, 8))
    
    # Colores para cada cluster
    colors = plt.cm.Set1(np.linspace(0, 1, optimal_k))
    
    for i in range(optimal_k):
        mask = cluster_labels == i
        plt.scatter(X_pca[mask, 0], X_pca[mask, 1], 
                   c=[colors[i]], label=f'Cluster {i}', 
                   alpha=0.7, s=50)
    
    # Centroides en espacio PCA
    centroids_pca = pca.transform(kmeans_final.cluster_centers_)
    plt.scatter(centroids_pca[:, 0], centroids_pca[:, 1], 
               c='black', marker='x', s=200, linewidths=3, label='Centroides')
    
    plt.title('Visualizaci√≥n de Clusters de Luminarias (PCA)', fontsize=16, fontweight='bold')
    plt.xlabel(f'Componente Principal 1 ({varianza_explicada[0]:.1%} varianza)', fontsize=12)
    plt.ylabel(f'Componente Principal 2 ({varianza_explicada[1]:.1%} varianza)', fontsize=12)
    plt.legend()
    plt.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.savefig('clusters_pca_etl.png', dpi=300, bbox_inches='tight')
    plt.show()
    
    # ==========================================
    # AN√ÅLISIS DE CLUSTERS
    # ==========================================
    
    print("\\nüìä AN√ÅLISIS DE CARACTER√çSTICAS POR CLUSTER:")
    print("="*50)
    
    # Agregar labels de cluster al dataframe
    df_clusters = df_no_supervisado.copy()
    df_clusters['cluster'] = cluster_labels
    
    # Estad√≠sticas por cluster
    cluster_stats = df_clusters.groupby('cluster').agg(['mean', 'std', 'count'])
    
    print("üìà Caracter√≠sticas promedio por cluster:")
    display(df_clusters.groupby('cluster').mean().round(2))
    
    # Distribuci√≥n de clusters
    cluster_counts = pd.Series(cluster_labels).value_counts().sort_index()
    print(f"\\nüìä Distribuci√≥n de luminarias por cluster:")
    for i, count in cluster_counts.items():
        percentage = (count / len(cluster_labels)) * 100
        print(f"  ‚Ä¢ Cluster {i}: {count:,} luminarias ({percentage:.1f}%)")

else:
    print("‚ö†Ô∏è No se pueden generar visualizaciones del an√°lisis no supervisado")

In [None]:
# ==========================================
# VISUALIZACI√ìN: DISTRIBUCI√ìN DE CARACTER√çSTICAS POR CLUSTER
# ==========================================

if not df_no_supervisado.empty and len(df_clusters.columns) > 1:
    
    print("üìà Gr√°fico 5: Distribuci√≥n de Caracter√≠sticas por Cluster")
    
    # Seleccionar las variables m√°s importantes para visualizar
    variables_importantes = [
        'potencia_watts', 'altura_metros', 'consumo.actual_watts',
        'sensores.luminosidad_lux', 'sensores.temperatura_c', 'sensores.humedad_pct',
        'eficiencia.lumens_por_watt', 'eficiencia.horas_funcionamiento_total',
        'eficiencia.vida_util_restante_pct', 'conectividad.latencia_ms'
    ]
    
    # Filtrar variables que existen en el dataset
    variables_disponibles = [var for var in variables_importantes if var in df_clusters.columns]
    
    if len(variables_disponibles) >= 4:
        # Crear subplots para boxplots
        n_vars = len(variables_disponibles)
        n_cols = 4
        n_rows = (n_vars + n_cols - 1) // n_cols
        
        fig, axes = plt.subplots(n_rows, n_cols, figsize=(20, 5*n_rows))
        if n_rows == 1:
            axes = axes.reshape(1, -1)
        
        for i, var in enumerate(variables_disponibles):
            row = i // n_cols
            col = i % n_cols
            
            ax = axes[row, col] if n_rows > 1 else axes[col]
            
            # Boxplot por cluster
            df_clusters.boxplot(column=var, by='cluster', ax=ax)
            ax.set_title(var.replace('.', '.\\n'))
            ax.set_xlabel('Cluster')
            ax.set_ylabel(var.split('.')[-1])
            
        # Ocultar subplots vac√≠os
        for i in range(len(variables_disponibles), n_rows * n_cols):
            row = i // n_cols
            col = i % n_cols
            axes[row, col].set_visible(False)
        
        plt.suptitle('Distribuci√≥n de Caracter√≠sticas por Cluster', fontsize=16, fontweight='bold')
        plt.tight_layout()
        plt.savefig('distribucion_clusters_etl.png', dpi=300, bbox_inches='tight')
        plt.show()
    
    # ==========================================
    # INTERPRETACI√ìN DE CLUSTERS
    # ==========================================
    
    print("\\nüéØ INTERPRETACI√ìN DE CLUSTERS:")
    print("="*35)
    
    cluster_means = df_clusters.groupby('cluster').mean()
    
    for cluster_id in range(optimal_k):
        print(f"\\nüîç **Cluster {cluster_id}:**")
        cluster_data = cluster_means.loc[cluster_id]
        
        # Identificar caracter√≠sticas destacadas
        caracteristicas_altas = []
        caracteristicas_bajas = []
        
        for var in variables_disponibles:
            if var in cluster_data.index:
                valor = cluster_data[var]
                promedio_general = df_clusters[var].mean()
                std_general = df_clusters[var].std()
                
                if valor > promedio_general + 0.5 * std_general:
                    caracteristicas_altas.append(f"{var}: {valor:.2f}")
                elif valor < promedio_general - 0.5 * std_general:
                    caracteristicas_bajas.append(f"{var}: {valor:.2f}")
        
        if caracteristicas_altas:
            print(f"   üìà Caracter√≠sticas altas: {', '.join(caracteristicas_altas[:3])}")
        if caracteristicas_bajas:
            print(f"   üìâ Caracter√≠sticas bajas: {', '.join(caracteristicas_bajas[:3])}")
        
        # Contar luminarias en este cluster
        count = cluster_counts[cluster_id]
        percentage = (count / len(cluster_labels)) * 100
        print(f"   üìä Luminarias: {count:,} ({percentage:.1f}%)")

else:
    print("‚ö†Ô∏è No se puede generar an√°lisis detallado de clusters")

## üìä RESULTADOS Y CONCLUSIONES DEL ETL

### üéØ Resumen del Proceso ETL

El proceso ETL implementado ha demostrado ser efectivo para la preparaci√≥n y an√°lisis de datos de luminarias urbanas, integrando exitosamente metodolog√≠as supervisadas y no supervisadas.

In [None]:
# ==========================================
# RESUMEN FINAL Y RECOMENDACIONES
# ==========================================

print("üìã RESUMEN EJECUTIVO DEL PROCESO ETL")
print("="*50)

# Resumen de datos procesados
print(f"\\nüìä DATOS PROCESADOS:")
if not df_raw.empty:
    print(f"  ‚Ä¢ Registros extra√≠dos: {len(df_raw):,}")
    print(f"  ‚Ä¢ Columnas originales: {df_raw.shape[1]}")

if not df_supervisado.empty:
    print(f"  ‚Ä¢ Registros para an√°lisis supervisado: {len(df_supervisado):,}")
    print(f"  ‚Ä¢ Caracter√≠sticas supervisadas: {len(df_supervisado.columns)-1}")

if not df_no_supervisado.empty:
    print(f"  ‚Ä¢ Registros para an√°lisis no supervisado: {len(df_no_supervisado):,}")
    print(f"  ‚Ä¢ Caracter√≠sticas no supervisadas: {len(df_no_supervisado.columns)}")

# Resumen de resultados
print(f"\\nüéØ RESULTADOS OBTENIDOS:")

if 'accuracy' in locals():
    print(f"  ‚Ä¢ Accuracy del modelo supervisado: {accuracy:.1%}")
    print(f"  ‚Ä¢ Precisi√≥n promedio: {precision:.1%}")

if 'silhouette_final' in locals():
    print(f"  ‚Ä¢ Silhouette Score del clustering: {silhouette_final:.3f}")
    print(f"  ‚Ä¢ N√∫mero √≥ptimo de clusters: {optimal_k}")

# Archivos generados
print(f"\\nüìÅ ARCHIVOS GENERADOS:")
archivos_generados = [
    "luminarias_dataset.csv",
    "importancia_variables_etl.png", 
    "matriz_confusion_etl.png",
    "metodo_codo_silhouette_etl.png",
    "clusters_pca_etl.png",
    "distribucion_clusters_etl.png"
]

for archivo in archivos_generados:
    if os.path.exists(archivo):
        size_mb = os.path.getsize(archivo) / 1024 / 1024
        print(f"  ‚úÖ {archivo} ({size_mb:.2f} MB)")
    else:
        print(f"  ‚ö†Ô∏è {archivo} (no encontrado)")

# ==========================================
# RECOMENDACIONES Y PR√ìXIMOS PASOS
# ==========================================

print(f"\\nüí° RECOMENDACIONES:")
print("="*20)

print("\\nüîç **Para An√°lisis Supervisado:**")
print("  ‚Ä¢ Considerar recolectar m√°s datos etiquetados")
print("  ‚Ä¢ Explorar t√©cnicas de balanceo de clases")
print("  ‚Ä¢ Implementar validaci√≥n cruzada")
print("  ‚Ä¢ Probar algoritmos alternativos (XGBoost, SVM)")

print("\\nüéØ **Para An√°lisis No Supervisado:**")
print("  ‚Ä¢ Validar clusters con conocimiento del dominio")
print("  ‚Ä¢ Considerar algoritmos de clustering alternativos (DBSCAN, Hierarchical)")
print("  ‚Ä¢ Explorar m√°s componentes principales")
print("  ‚Ä¢ Implementar an√°lisis de outliers")

print("\\nüîÑ **Para el Proceso ETL:**")
print("  ‚Ä¢ Automatizar el pipeline completo")
print("  ‚Ä¢ Implementar monitoreo de calidad de datos")
print("  ‚Ä¢ Establecer actualizaciones incrementales")
print("  ‚Ä¢ Crear alertas para anomal√≠as en los datos")

print("\\nüéâ **CONCLUSI√ìN:**")
print("El proceso ETL ha proporcionado una base s√≥lida para el an√°lisis")
print("de luminarias urbanas, identificando patrones importantes y")
print("estableciendo m√©tricas de rendimiento para futuros modelos.")
print("\\n‚úÖ Proceso ETL completado exitosamente!")