 ### ✅ **Instalar solo las librerías que se usarán para este código**

In [3]:
!pip install pymongo dnspython

Collecting pymongo
  Downloading pymongo-4.13.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (22 kB)
Collecting dnspython
  Downloading dnspython-2.7.0-py3-none-any.whl.metadata (5.8 kB)
Downloading pymongo-4.13.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.4/1.4 MB[0m [31m29.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dnspython-2.7.0-py3-none-any.whl (313 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m313.6/313.6 kB[0m [31m29.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: dnspython, pymongo
Successfully installed dnspython-2.7.0 pymongo-4.13.2


 ### ✅ **Importar solo las librerías que se usarán para este código**

In [4]:
# Librerías para manejo de datos
import pandas as pd
import numpy as np
import random

# Librerías para visualización
import matplotlib.pyplot as plt
import plotly.express as px

# Librerías de aprendizaje automático y modelado
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score, mean_absolute_percentage_error
from sklearn.preprocessing import MinMaxScaler

# Librerías para deep learning
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.regularizers import L1L2
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping
from getpass import getpass

#Librerias para cálculo de las méstricas de error
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error

# Librerías para manejo de bases de datos
import pymongo
import urllib.parse

# Manejo de advertencias
import warnings
warnings.filterwarnings("ignore")

# =============================
# Semilla para reproducibilidad
# =============================
import os
import random
import numpy as np
import tensorflow as tf

SEED = 21
os.environ['PYTHONHASHSEED'] = str(SEED)
random.seed(SEED)
np.random.seed(SEED)
tf.random.set_seed(SEED)
tf.keras.utils.set_random_seed(SEED)
tf.config.experimental.enable_op_determinism()


 ### 💽 **Conexión a la base de datos de MongoDB Atlas**

In [5]:
# Conexión segura
usuario = getpass("Usuario MongoDB:")
password = getpass("Contraseña MongoDB:")
MONGO_URI = f"mongodb+srv://{usuario}:{password}@datatfmcv.lmvum.mongodb.net/?retryWrites=true&w=majority&appName=DataTFMCV"

client = pymongo.MongoClient(MONGO_URI)
db = client["potencia"]
collection = db["mediciones_mensuales"]

Usuario MongoDB:··········
Contraseña MongoDB:··········


 ### 💽 **Conexión a la base de datos de Energía Facturada**

In [6]:
# Conecta a la base de datos de energía facturada
db = client["potencia"]

# Verificar y lista la conexión a la colección
print(db.list_collection_names())

# Acceder a la colección
collection = db["mediciones_mensuales"]

# Obtener todos los documentos de la colección
cursor = collection.find({})

# Convertir a DataFrame de Pandas
df = pd.DataFrame(list(cursor))

# Eliminar la columna '_id' (genera problemas ya que es formato Object64)
df.drop(columns=["_id"], inplace=True, errors='ignore')

# Ordena los datos del dataframe
df = df.sort_values(by="Fecha", ascending=True)
df

['mediciones_max_anuales', 'mediciones_mensuales']


Unnamed: 0,Fecha,Potencia (MW)
64,1970-01-01,53.10
0,1970-02-01,55.10
65,1970-03-01,53.55
66,1970-04-01,53.70
1,1970-05-01,55.90
...,...,...
619,2024-08-01,709.40
659,2024-09-01,725.96
590,2024-10-01,727.08
620,2024-11-01,728.20


 ### 📊 **Graficar los datos de Potencia**

In [None]:
# Convertir la columna de fecha al formato datetime
df["Fecha"] = pd.to_datetime(df["Fecha"])

# Ordenar por fecha
df.sort_values(by="Fecha", inplace=True)

# Crear gráfica interactiva
fig = px.line(df, x="Fecha", y="Potencia (MW)",
              title="Potencia (MW) desde el año 1970 hasta el año 2024",
              labels={"Fecha": "Fecha", "Potencia (MW)": "Potencia (MW)"},
              markers=False)

# Centrar el título y ponerlo en negrita
fig.update_layout(
    title={
        "text": "Potencia (MW) desde el año 1970 hasta el año 2024",
        "x": 0.5,  # Centra el título
        "xanchor": "center",
        "yanchor": "top",
        "font": {"size": 22, "family": "Arial", "color": "black", "weight": "bold"}  # Negrita
    }
)

# Mostrar gráfico interactivo
fig.show()

# 🔁 Preprocesamiento


In [7]:
# ----------------------------
# Escalar la columna objetivo
# ----------------------------
# En el dataset 'df' tiene una columna 'Potencia (MW)' y está ordenada por fecha
df = df.sort_values(by='Fecha')
df = df.reset_index(drop=True)

# Inicializar y aplicar el escalador
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(df[['Potencia (MW)']])

# ----------------------------
# Crear dataset multi-output
# ----------------------------
def crear_dataset_multioutput(array, input_length, output_length):
    """
    Crea ventanas de entrada y salida para una red LSTM multi-output.
    Entrada:
        - array: numpy array unidimensional (Nx1)
        - input_length: longitud de la secuencia de entrada
        - output_length: longitud de la secuencia de salida
    Salida:
        - X: muestras de entrada con forma (muestras, input_length, 1)
        - Y: salidas esperadas con forma (muestras, output_length)
    """
    X, Y = [], []
    for i in range(len(array) - input_length - output_length + 1):
        X.append(array[i:i+input_length])
        Y.append(array[i+input_length:i+input_length+output_length])
    return np.array(X), np.array(Y)

# Parámetros de la ventana
INPUT_LENGTH = 12   # Usamos los últimos 12 meses
OUTPUT_LENGTH = 12  # Predecimos 12 meses directamente

# Crear datasets
x, y = crear_dataset_multioutput(scaled_data, INPUT_LENGTH, OUTPUT_LENGTH)

# Asegurar formato adecuado para LSTM
x = x.reshape((x.shape[0], INPUT_LENGTH, 1))
y = y.reshape((y.shape[0], OUTPUT_LENGTH))

# Confirmar forma
print(f"✔️ Dataset generado con {x.shape[0]} muestras.")
print("Forma de entrada x:", x.shape)  # (muestras, pasos, características)
print("Forma de salida y:", y.shape)  # (muestras, pasos de salida)


✔️ Dataset generado con 637 muestras.
Forma de entrada x: (637, 12, 1)
Forma de salida y: (637, 12)


In [None]:
# ----------------------------
# Visualización de Train/Val/Test
# ----------------------------
# Calcular número de muestras para entrenamiento, validación y prueba
n = len(x)
train_size = int(n * 0.80)
val_size = int(n * 0.15)
test_size = n - train_size - val_size  # garantiza que la suma sea exacta

# Obtener fechas asociadas a cada muestra (última fecha del input de cada secuencia)
fechas = df['Fecha'].iloc[INPUT_LENGTH + OUTPUT_LENGTH - 1 : len(x) + INPUT_LENGTH + OUTPUT_LENGTH - 1]

# ----------------------------
# Datos escalados
# ----------------------------
df_split = pd.DataFrame({
    'Fecha': fechas,
    'Tipo': ['Train'] * train_size + ['Val'] * val_size + ['Test'] * test_size,
    'Potencia (MW) - Escalada': [seq[-1][0] for seq in x]
})

fig = px.line(
    df_split,
    x='Fecha',
    y='Potencia (MW) - Escalada',
    color='Tipo',
    title='División de Datos en Entrenamiento, Validación y Prueba (Escalado)',
    labels={'Fecha': 'Fecha', 'Potencia (MW) - Escalada': 'Potencia (Escalada)', 'Tipo': 'Conjunto'}
)

fig.update_layout(width=1400, height=800)
fig.show()

# ----------------------------
# Datos originales (sin escalar)
# ----------------------------
potencia_original = df['Potencia (MW)'].iloc[INPUT_LENGTH + OUTPUT_LENGTH - 1 : len(x) + INPUT_LENGTH + OUTPUT_LENGTH - 1]

df_split_original = pd.DataFrame({
    'Fecha': fechas,
    'Tipo': ['Train'] * train_size + ['Val'] * val_size + ['Test'] * test_size,
    'Potencia (MW)': potencia_original.values
})

fig_original = px.line(
    df_split_original,
    x='Fecha',
    y='Potencia (MW)',
    color='Tipo',
    title='División de Datos en Entrenamiento, Validación y Prueba (Datos Originales)',
    labels={'Fecha': 'Fecha', 'Potencia (MW)': 'Potencia (MW)', 'Tipo': 'Conjunto'}
)

fig_original.update_layout(width=1400, height=800)
fig_original.show()

# ----------------------------
# División real de los conjuntos
# ----------------------------
x_train = x[:train_size]
y_train = y[:train_size]

x_val = x[train_size:train_size + val_size]
y_val = y[train_size:train_size + val_size]

x_test = x[train_size + val_size:]
y_test = y[train_size + val_size:]

print("x_train:", x_train.shape)
print("y_train:", y_train.shape)
print("x_val:", x_val.shape)
print("y_val:", y_val.shape)
print("x_test:", x_test.shape)
print("y_test:", y_test.shape)

x_train: (509, 12, 1)
y_train: (509, 12)
x_val: (95, 12, 1)
y_val: (95, 12)
x_test: (33, 12, 1)
y_test: (33, 12)


# 💽 Procesamiento LSTM

In [None]:
# ----------------------------
# Definir y compilar el modelo
# ----------------------------
model = Sequential()
model.add(LSTM(256, input_shape=(INPUT_LENGTH, 1))) # número de neuronas:512
#model.add(Dropout(0.2))  # 👈 Apaga aleatoriamente el 20% de las neuronas
model.add(Dense(OUTPUT_LENGTH))  # Predicción directa de 12 meses
model.compile(optimizer=Adam(5e-5), loss='mse')

# ----------------------------
# Entrenamiento y almacenamiento del historial
# ----------------------------
early_stop = EarlyStopping(monitor='val_loss', patience=20, restore_best_weights=True)   #👈 aquí se aplica

history = model.fit(
    x_train,
    y_train,
    epochs=100,
    batch_size=12,
    verbose=2,
    validation_data=(x_val, y_val),
    callbacks=[early_stop]           # 👈 aquí se aplica
)

# ----------------------------
# Mostrar resumen de arquitectura del modelo
# ----------------------------

model.summary()

# ----------------------------
# Visualización del historial con Plotly
# ----------------------------
hist_df = pd.DataFrame(history.history)
hist_df['Época'] = hist_df.index + 1

# Convertir a formato largo si hay más de una métrica
hist_df_melted = hist_df.melt(id_vars='Época', var_name='Métrica', value_name='Valor')

fig = px.line(
    hist_df_melted,
    x='Época',
    y='Valor',
    color='Métrica',
    title='Evolución de la Pérdida (Loss) durante el Entrenamiento',
    labels={'Valor': 'Pérdida', 'Época': 'Época'}
)

fig.update_layout(width=1000, height=500)
fig.show()


Epoch 1/100
43/43 - 4s - 93ms/step - loss: 0.2081 - val_loss: 0.6862
Epoch 2/100
43/43 - 0s - 7ms/step - loss: 0.1361 - val_loss: 0.2960
Epoch 3/100
43/43 - 0s - 7ms/step - loss: 0.0249 - val_loss: 0.0057
Epoch 4/100
43/43 - 0s - 7ms/step - loss: 0.0015 - val_loss: 0.0050
Epoch 5/100
43/43 - 0s - 7ms/step - loss: 0.0012 - val_loss: 0.0063
Epoch 6/100
43/43 - 0s - 7ms/step - loss: 0.0010 - val_loss: 0.0073
Epoch 7/100
43/43 - 0s - 6ms/step - loss: 9.0006e-04 - val_loss: 0.0078
Epoch 8/100
43/43 - 0s - 7ms/step - loss: 8.3490e-04 - val_loss: 0.0079
Epoch 9/100
43/43 - 0s - 7ms/step - loss: 7.8861e-04 - val_loss: 0.0078
Epoch 10/100
43/43 - 1s - 13ms/step - loss: 7.5090e-04 - val_loss: 0.0075
Epoch 11/100
43/43 - 0s - 7ms/step - loss: 7.1688e-04 - val_loss: 0.0072
Epoch 12/100
43/43 - 0s - 7ms/step - loss: 6.8451e-04 - val_loss: 0.0068
Epoch 13/100
43/43 - 0s - 7ms/step - loss: 6.5309e-04 - val_loss: 0.0064
Epoch 14/100
43/43 - 0s - 6ms/step - loss: 6.2250e-04 - val_loss: 0.0060
Epoch 15/

In [None]:
# ============================
# EVALUACIÓN SOBRE CONJUNTO DE PRUEBA (Test)
# ============================

# Predicción sobre datos de prueba
y_pred_scaled = model.predict(x_test)

# Invertir escalado (aplanar para métrica global)
y_pred_real = scaler.inverse_transform(y_pred_scaled.flatten().reshape(-1, 1))
y_test_real = scaler.inverse_transform(y_test.flatten().reshape(-1, 1))

# Cálculo de métricas
rmse_test = np.sqrt(mean_squared_error(y_test_real, y_pred_real))
mae_test = mean_absolute_error(y_test_real, y_pred_real)
mape_test = mean_absolute_percentage_error(y_test_real, y_pred_real) * 100

# Mostrar resultados
print("🔍 MÉTRICAS DE EVALUACIÓN SOBRE TEST:")
print(f"✅ RMSE: {rmse_test:.2f} MW")
print(f"✅ MAE : {mae_test:.2f} MW")
print(f"✅ MAPE: {mape_test:.2f} %")

[1m2/2[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 185ms/step
🔍 MÉTRICAS DE EVALUACIÓN SOBRE TEST:
✅ RMSE: 8.95 MW
✅ MAE : 6.99 MW
✅ MAPE: 0.99 %


# ⚡Predicción 2025


In [None]:
# Predicción directa de los 12 meses siguientes a diciembre 2024
last_input = scaled_data[-INPUT_LENGTH:].reshape(1, INPUT_LENGTH, 1)
pred_scaled = model.predict(last_input)
pred_real = scaler.inverse_transform(pred_scaled.reshape(-1, 1))

# Generar fechas futuras
last_date = df['Fecha'].max()
future_dates = pd.date_range(start=last_date + pd.DateOffset(months=1), periods=12, freq='MS')

# DataFrame de predicción
df_pred = pd.DataFrame({
    'Fecha': future_dates,
    'Potencia (MW) Predicha': pred_real.flatten()
})

print("\n📅 PREDICCIÓN ENERO–DICIEMBRE 2025:")
display(df_pred)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 39ms/step

📅 PREDICCIÓN ENERO–DICIEMBRE 2025:


Unnamed: 0,Fecha,Potencia (MW) Predicha
0,2025-01-01,719.685242
1,2025-02-01,723.510071
2,2025-03-01,726.0802
3,2025-04-01,725.829163
4,2025-05-01,732.123779
5,2025-06-01,732.812683
6,2025-07-01,738.852478
7,2025-08-01,737.404541
8,2025-09-01,738.88855
9,2025-10-01,739.020874


In [None]:
import plotly.express as px

df_real = df[['Fecha', 'Potencia (MW)']].copy()
df_real['Tipo'] = 'Histórico'

df_pred['Tipo'] = 'Predicción 2025'
df_pred.rename(columns={'Potencia (MW) Predicha': 'Potencia (MW)'}, inplace=True)

df_plot = pd.concat([df_real, df_pred])

fig = px.line(
    df_plot,
    x='Fecha',
    y='Potencia (MW)',
    color='Tipo',
    title='Predicción Directa de 12 Meses (Multi-output LSTM)',
    labels={'Potencia (MW)': 'Potencia (MW)', 'Fecha': 'Fecha'}
)
fig.update_layout(width=1400, height=600)
fig.show()

In [None]:
# Cargar las predicciones de XGBoost desde el CSV
df_xgboost_pred = pd.read_csv('predicciones_XGBoost_2025.csv')

# Verificar el contenido
display(df_xgboost_pred)

Unnamed: 0,Fecha,Potencia (MW)
0,2025-01-01,735.0083
1,2025-02-01,739.7364
2,2025-03-01,740.19934
3,2025-04-01,742.41095
4,2025-05-01,741.3093
5,2025-06-01,737.4454
6,2025-07-01,738.48035
7,2025-08-01,745.2199
8,2025-09-01,743.2915
9,2025-10-01,743.2915


In [None]:
# Crear un DataFrame combinado para graficar
df_xgboost_pred['Modelo'] = 'XGBoost'
df_pred['Modelo'] = 'LSTM'

# Concatenar ambos DataFrames
df_comparacion = pd.concat([df_xgboost_pred, df_pred])

# Gráfico con formato elegante
fig = px.line(
    df_comparacion,
    x='Fecha',
    y='Potencia (MW)',
    color='Modelo',
    title='Comparación de Proyecciones 2025: XGBoost vs LSTM',
    labels={
        'Fecha': 'Fecha',
        'Potencia (MW)': 'Potencia (MW)',
        'Modelo': 'Modelo'
    }
)

# Ajustes de diseño para estilo elegante
fig.update_layout(
    width=1000,
    height=500,
    plot_bgcolor='#f0f4f7',  # Fondo gris azulado claro
    title=dict(x=0.5, xanchor='center'),
    font=dict(family="Arial", size=14),
    #legend=dict(title='Modelos', orientation='v', x=0.01, y=0.99)
)

fig.show()


In [None]:
# Asegurar que las proyecciones también tengan la columna 'Tipo'
df_xgboost_pred['Tipo'] = 'XGBoost'
df_pred['Tipo'] = 'LSTM'

# Concatenar los tres DataFrames
df_comparacion_total = pd.concat([df_real, df_xgboost_pred, df_pred])

# Crear figura base con Plotly Graph Objects
fig = go.Figure()

# Serie histórica
fig.add_trace(go.Scatter(
    x=df_real['Fecha'],
    y=df_real['Potencia (MW)'],
    mode='lines',
    name='Histórico',
    line=dict(color='gray', width=2, dash='solid')
))

# Proyección XGBoost
fig.add_trace(go.Scatter(
    x=df_xgboost_pred['Fecha'],
    y=df_xgboost_pred['Potencia (MW)'],
    mode='lines+markers',  # markers para añadir punto al inicio
    name='XGBoost',
    line=dict(color='blue', width=2, dash='dash'),
    marker=dict(size=6, symbol='circle', color='blue')
))

# Proyección LSTM
fig.add_trace(go.Scatter(
    x=df_pred['Fecha'],
    y=df_pred['Potencia (MW)'],
    mode='lines+markers',
    name='LSTM',
    line=dict(color='red', width=2, dash='dash'),
    marker=dict(size=6, symbol='circle', color='red')
))

# Ajustes de diseño
fig.update_layout(
    title='Serie Histórica y Proyecciones 2025: XGBoost vs LSTM',
    xaxis_title='Fecha',
    yaxis_title='Potencia (MW)',
    plot_bgcolor='#f0f4f7',
    font=dict(family="Arial", size=14),
    width=1000,
    height=500,
    title_x=0.5,  # Centrar título
    legend=dict(title='Modelo', orientation='h', y=1.1, x=0.5, xanchor='center')
)

# Mostrar gráfico
fig.show()