<center><H1>Modelo neuronal para estimación de generación de energía fotovoltáica con</H1><center>

<center><img src="https://www.gstatic.com/devrel-devsite/prod/ve2848ad92313fddfcd40baeb58a2f663fe2fd55c371a714a6bb3e329e2b15223/tensorflow/images/lockup.svg"  height="50px" style="padding-bottom:5px;"  /></center>

<center><H2>Julio Waissman Vilanova</H2>

<table align="center">
      <td align="center"><a target="_blank" href="https://www.unison.mx">
            <img src="https://www.unison.mx/wp-content/themes/awaken/images/logo.png"  height="70px" style="padding-bottom:5px;"  /></a></td>  
      <td align="center"><a target="_blank" href="https://www.gob.mx/cenace">
            <img src="https://universidad.cenace.gob.mx/pluginfile.php/244/block_html/content/CENACE-logo-completo.png" width="300" style="padding-bottom:5px;" /></a></td>
      <td align="center"><a target="_blank" href="https://colab.research.google.com/github/juliowaissman/rn-cenace/blob/main/taller_solar.ipynb">
            <img src="https://i.ibb.co/2P3SLwK/colab.png"  style="padding-bottom:5px;" />Ejecuta en Google Colab</a></td>

</table>

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

plt.style.use('ggplot')

## Cargando los datos

Vamos a cargar los datos que nos proporcionó la Gerencia Regional Noroeste sobre una planta de generación de energía fotovoltáica y vamos a ver si somos capaces de predecir la Generación de energía utilizando la información de la Radiación, así como la información de la fecha.

In [None]:
url = "https://github.com/juliowaissman/curso-ml-cenace/raw/main/datos/Dataset_GeneracionFV.xlsx"
df = pd.read_excel(url, sheet_name=1)
df.info()

In [None]:
df.index = df.Fecha
df['Hora'] = df.index.hour
df['Dia'] = df.index.day
df['Mes'] = df.index.month
df.rename(columns={'Radiacion_FV_W/m2': 'Radiacion_FV'}, inplace=True)
df.info()

## Hagamos un pequeño análisis exploratorio de datos

In [None]:
df[df.Mes == 2].plot.scatter(
    x='Generacion_FV_MW',
    y='Radiacion_FV',
    #s='Dia',
    c='Hora',
    colormap='jet',
    figsize=(15,7)
)

Al parecer hay varios valores aberrantes que deberíamos limpiar para hacer una predicción, por el momento vamos a dejarlos y regresaremos con la limpieza en un segundo término

In [None]:
df.query('Radiacion_FV > 20 and Generacion_FV_MW < .5').Dia.value_counts()

## Predicción de la generación usando redes neuronales

Para este problema vamos a ir desarrollando el problema paso a paso.

Para esto vamos a hacer algunas hipótesis:

- El problema es estático: la generación de energía va a depender sólo de la radiación en el mismo momento, la hora del día, el día del mes y el mes del año.

- Los datos como hora, día y mes los vamos a codificar directamente, y luego veremos como funciona con one-hot encoding

- Vamos a probar primero si sólo con la radiación es posible generalizar algo decente.


### Paso 1: Seleccionar los datos y separar en conjunto de datos de entrenamiento y conjunto de datos de prueba

In [None]:
x = df.Radiacion_FV.to_numpy().reshape(-1,1)
y = df.Generacion_FV_MW.to_numpy()

#TODO: Al terminar de hacer el modelo 
#    con solo una entrada y una salida, probar 
#    agregar otras variables y documentar

print(f"La forma de x: {x.shape} y la de y = {y.shape}")

#TODO: Separa en un conjunto de prueba y otro de test
#      de manera que se escojan en forma aleatoria 
#      5000 datos en el conjunto de aprendizaje

# --- Agrega aqui tu código ---

x_train = None
y_train = None

x_test = None
y_test = None

### Paso 2: definir una red neuronal 

Recuerda que solo tenemos 5000 datos de entrenamiento (de ser posible, el número de datos de entrenamiento debería ser al menos 10 veces mayor que el número de parámetros del modelo)

In [None]:
def modelo_sin_compil(nombre="Solar_1"):
    modelo = keras.models.Sequential(name=nombre)

    #TODO: ajusta un modelo
    # Completa donde dice None y agrega las capas que consideres
    modelo.add(layers.Dense(None, activation=None, input_shape=(1,), name="capa_1"))
    #-- Agrega mas capas si tu consideres necesario
    return modelo

modelo = modelo_sin_compil()

modelo.summary()

### Paso 3 Compila el modelo

Selecciona los parámetros que creas más convenientes

In [None]:
def modelo_compilado():
    #TODO: Selecciona optimizador, función de pérdida y métricas
    #      Completa donde dice None
    model = modelo_sin_compil()
    model.compile(
        optimizer= None,
        loss=None,
        metrics=[None],
    )
    return model

modelo = modelo_compilado()

### Paso 4 Entrena el modelo

Vamos a repetir este paso mientras parezca que no hay sobreaprendizaje (vamos a hacer el early stoping a mano en este caso)

In [None]:

#TODO: Selecciona el numero de epochs (pocos cada vez)
num_epochs = None

print(f"Entrenamiento del modelo en {num_epochs} epochs")

history = modelo.fit(
    x_train,
    y_train,
    batch_size=64,
    epochs=num_epochs,
    validation_split=0.2 # Selecciona el porcentaje de datos para usar como validación
)

In [None]:
print(pd.DataFrame(history.history))

En función de como vez que evoluciona la pérdida y las métricas en los datos de validación y entrenamiento, puedes ejecutar de nuevo las dos celdas anteriores. Cada vez que las vuelvas a ejecutar, se realizan otros epochs más en el entrenamiento. Ten cuidado para evitar el sobreaprendizaje.

Si quieres reinicializar el modelo, ejecuta

```python
modelo = modelo_compilado()
```

### Paso 5 Evalúa con los datos de prueba

Este paso se ejecuta sólamente si el valor de pérdida y de las métricas se consideran aceptables. Si no es necesario buscar nuevos modelos.

In [None]:
print("Evaluando en los datos de prueba")

results = modelo.evaluate(x_test, y_test, batch_size=128)

print("\n\nPérdida en test, Métricas en test:", results)

### Paso 6 Simula para todos los datos

Vamos a predecir para todos los datos y ver como se comporta el modelo respecto a los datos que tenemos:

In [None]:
y_est = modelo.predict(x)

plt.figure(figsize=(15, 12))
plt.scatter(x, y)
plt.scatter(x, y_est)
plt.title("Estimación neuronal de la generación fotovoltáica")
plt.xlabel('Radiacion FV (W/m2)')
plt.ylabel('Generacion FV (MW)')
plt.show()

### Paso 7 Revisa y critica el modelo

Si el modelo te gustó y crees que vale la pena mantenerlo, entonces guardalo en disco, y agrega un archivo texto con la explicacion del modelo.

Realiza una funcion ```preprocesamiento_modelo1``` tal que reciba el nombre del archivo y devuelva los datos en la forma que se requiere para poder estimar con tu modelo


In [None]:
# Esto tenra que modificarse o comentarse 
# conforme se vayan desarrollando modelos más sofisticados

def preprocesamiento_modelo1(file):
    """Regresa x, y usados en el modelo1"""
    df = pd.read_excel(url, sheet_name=1)
    df.rename(columns={'Radiacion_FV_W/m2': 'Radiacion_FV'}, inplace=True)
    return df.Radiacion_FV.to_numpy(), df.Generacion_FV_MW.to_numpy()


# Guardando el modelo y su documentación

modelo.save("modelo_1.h5")

nota = """Modelo 1
Entrada: 'Radiacion_FV_W/m2'
Salida: 'Generacion_FV_MW'

Elaborado por J Waissman (2021)
"""  

with open('modelo_1.txt', 'w+') as fh:
    fh.write(nota)
    
    

### Paso 8 Prueba un modelo diferente

¿Habrá un mejor modelo? ¿Uno similar con menos parámetros? ¿La selección que se realizó es la correcta en cuanto a método de optimización? ¿Sería bueno agregar regularización?

¿Que pasaria si se toma en cuenta la hora y el día? ¿Y si se consideran valores pasados?