## Series a predecir:
Suma del consumo de las dos enfriadoras. Generado en la ETL, en ese notebook se trabajaran los outlayers. 

Predicción de la presión máxima. La presion maxima que se de de al comparar entre los 4 compresores para cada ventana de 30 minutos. Las presiones elevadas solo se dan en verano en los compresores, ya que es la estacion de mayor temperatura media en Galicia y por tanto cuando menos se puede aprovechar el Free Cooling. Por tanto, se concatenaran los datos de dos veranos consecutivos (2019 y 2020). Tenemos las 4 series temporales de presion de la ETL previa, falta escoger el maximo en cada time window de entre los cuatro compresores y limpiar outlayers.

Deseamos predecir cada serie para las proximas 24 horas (48 puntos experimentales).
En un principio ninguna de nuestras series deberian presentar tendencia por la naturaleza de las mismas, al menos de modo global. De todos modos, emplearemos el test de augmented Dickey–Fuller para saber si son estacionarias.

## Como series temporales exogenas usaremos:

Suma del consumo de los nodos. Generado en la ETL, en ese notebook se trabajaran los outlayers


Número de compresores activos (compresores con presión mayor a 15 bars) basandonos en el maximo de la etl. 

Cogeremos las temperaturas in, evaporator, out, ambient correspondientes a la enfriadora activa (la que tenga consumo mayor a 10KW) (referencia, agua caliente que volver del CPD es en torno a 18 grados)
    
    En caso de que ambas enfriadoras esten apagadas (solo pasa en caidas de corriente o reinicios en mantenimiento de todo el CESGA), la temperatura in y temperatura ambient debe ser la misma en ambas o muy similar, se toma cualquierda de las dos arbitrariamente. En cuanto a T Evap y T out se tomara la mas baja. Lo mismo pasa en los casos en los que ambas enfriadoras esten trabajando.

Cogeremos la diferencia entre la temperatura ambient y el setpoint (se puede obtener como media de temperatura out). Por analisis previos del CESGA, como se ve en el diagrama aportado, es de 15 grados.


In [3]:
#imports and useful variables
import pandas as pd
import dask as dd

pd.options.display.float_format = "{:.2f}".format

# Useful directory variables
src_path = os.getcwd()
root_path = os.path.dirname(src_path)
data_path = root_path + "/datasets"
visualization_path = root_path + "/data_visualization"

In [5]:
os.listdir(data_path+"/03_primary")

['consumption_total_average_30_min_W',
 'chiller_1and2_consumption_total_average_30_min_kW',
 'chiller_1and2_compressor_1and2_pressure_max_30min_P',
 'chiller_1and2_temperatureAll_average_30min_P']

In [18]:
list(pressure_df.columns[1:-1])

['chiller_1_compressor_1_max_pressure_P',
 'chiller_1_compressor_2_max_pressure_P',
 'chiller_2_compressor_1_max_pressure_P',
 'chiller_2_compressor_2_max_pressure_P']

## 1.- Tratamiento de las series de presiones (en bares) y numero de compresores en funcionamiento (threshold 15 bares)

In [26]:
pressure_df = pd.read_parquet(
    data_path + "/03_primary/" + "chiller_1and2_compressor_1and2_pressure_max_30min_P"
)
pressure_df["max_pressure_Bars"] = pressure_df.max(axis=1)
pressure_df["n_working_compressors"] = pressure_df[
    list(pressure_df.columns[1:-1])
].apply(lambda row: (row > 15.00).sum(), axis=1)
pressure_df[["time", "max_pressure_Bars"]].to_parquet(
    data_path + "/04_feature/" + "max_pressure_Bars"
)
pressure_df[["time", "n_working_compressors"]].to_parquet(
    data_path + "/04_feature/" + "n_working_compressors"
)


 ## 2- Tratamiento de las temperaturas °C con logica de que enfriadora esta funcionando

Paso previo: determinar el active chiller (refrigeradora activa)

In [44]:
def get_active_chiller(row, threshold: int = 10) -> int:
    """
    Designed for being used as a part of an apply over a Pandas DataFrame

    inputs:
        row (pd.Series): row in the current iteration step of the apply
        threshold (int): electric consumption thrshold in kW
    outputs:
        (int): 0 if any, 1 if chiller 1, 2 if chiller 2, 3 if both at the same time
    """
    if (
        row.chiller_1_average_power_consumption > threshold
        and row.chiller_2_average_power_consumption > threshold
    ):
        return 3
    elif row.chiller_1_average_power_consumption > threshold:
        return 1
    elif row.chiller_2_average_power_consumption > threshold:
        return 2
    else:
        return 0


chiller_1_pandas = pd.read_parquet(
    data_path + "/02_intermediate/" + "chiller_1_consumption_total_average_30min_kW"
)
chiller_2_pandas = pd.read_parquet(
    data_path + "/02_intermediate/" + "chiller_2_consumption_total_average_30min_kW"
)
chiller_1and2_consumption_pandas = pd.merge(
    chiller_1_pandas,
    chiller_2_pandas,
    on="time",
)
chiller_1and2_consumption_pandas[
    "active_chiller"
] = chiller_1and2_consumption_pandas.apply(get_active_chiller, axis=1)
chiller_1and2_consumption_pandas[["time", "active_chiller"]].to_parquet(
    data_path + "/03_primary/" + "active_chiller"
)


In [45]:
active_chiller = pd.read_parquet(
    data_path + "/03_primary/" + "active_chiller"
)
active_chiller.active_chiller.value_counts()

2    32141
1    26803
0     1503
3      818
Name: active_chiller, dtype: int64