# ETL

La primera columna "node" contiene el nombre del nodo en el que se toman los datos (eg c7102). Para los datos de las enfriadoras, aparecen en esta columna como "1" y "2" (enfriadora 1, enfriadora 2 respectivamente) para los datos de temperatura y presión y como "basement" para los datos de consumo (la enfriadora 1 se corresponde con la columna "Power13" y la 2 con "Power14").

La segunda y tercera columna incluyen los rangos de fecha para las series temporales de esa fila. Como se indicó antes, de 2018/01/01 hasta 2021/01/06.

La columna 4 "power": incluye los consumos de los nodos (ie node="cxxxx"). En cada celda se encuentra una serie temporal en formato diccionario en el que la key se corresponde con el timestamp del dato.

Las columnas 5 y 6 'Power13', 'Power14' se corresponden con el consumo de las enfriadoras (medido en los cuadros PM13 PM14) como se indicó en la explicación de la columna nodo. Solo debería tener datos para node="basement". En cada celda se encuentra una serie temporal en formato diccionario en el que la key se corresponde con el timestamp del dato.

Las columnas de la 7 a 10 :'in' -(free cooling)-> 'evaporator' -(compresores)-> 'out'. Y  'ambient' sería la temperatura externa. Estas incluyen las medidas de las temperaturas en las enfriadoras (respectivamente de entrada, salida, en el evaporador y ambiente). Solo debería tener datos para node="1" o "2" dependiendo de que enfriadora se trate. En cada celda se encuentra una serie temporal en formato diccionario en el que la key se corresponde con el timestamp del dato.

Las columnas 11, 12: 'Compressor1', 'Compressor2' son equivalentes al punto 
anterior pero con los datos de presión en cada uno de los dos compresores de cada enfriadora. Solo debería tener datos para node="1" o "2" dependiendo de que enfriadora se trate. En cada celda se encuentra una serie temporal en formato diccionario en el que la key se corresponde con el timestamp del dato.

## Objetivos:
Como series temporales usaremos (agrupando cada 30 minutos):
### Suma del consumo de los nodos -  Originalmente en Wattios
### Suma del consumo de las dos enfriadoras - KW (Power 13 enfriadora 1, Power 14 enfriadora 2)
### Máximo de la presión de los 4 compresores - En Pascales (2 enfriadoras, 4 compresores, una lista con dos diccionarios en principio)
### Número de compresores activos (compresores con presión mayor a 15 bars) 
### Cogeremos las temperaturas in, evaporator, out, ambient correspondientes a la enfriadora activa (la que tenga consumo mayor a 10KW) (referencia, agua caliente que volver del CPD es en torno a 18 grados)
### Cogeremos la diferencia entre la temperatura ambient y el setpoint (se puede obtener como media de temperatura out) 

En total tenemos 9 series temporales (a determinar si interesa mantener por separado temperatura ambiente y la diferencia de temperatura entre ambiente y setpoint).

Trataremos de hacer:
- CU1: Predicción de la suma del consumo de las enfriadoras a 24h (será función de cuanto free cooling se pueda utilizar)
- CU2: Predicción de la presión máxima a 24h

Para el entrenamiento del CU1 podemos usar datos generales aunque serán más significativos los de invierno (sólo se puede usar free cooling aquellos momentos en que la temperatura ambiente es menor a la temperatura in, en verano esto solo es probable que ocurra durante la noche).

Para el entrenamiento del CU2 son sólo relevantes los datos de los meses de verano.


Para visualizar los datos se puede usar el siguiente dashboard:

Dashboard:

http://grafana.srv.cesga.es/d/000000016/dcim?orgId=1


In [6]:
## Imports
import os
import copy
import statsmodels
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#Spark dependencies
from pyspark.sql.functions import *
from pyspark.sql.types import *
from pyspark import StorageLevel, SparkConf
from pyspark.ml.feature import StandardScaler, VectorAssembler, PCA
from pyspark.mllib.linalg import SparseVector, DenseVector, VectorUDT
from pyspark.ml.classification import LogisticRegression

from pyspark.sql import functions as F
from pyspark.sql.window import Window
from datetime import datetime, timedelta
import random
from pyspark.sql.types import TimestampType
from pyspark.sql.functions import udf

#Other configs
pd.options.display.float_format = '{:.2f}'.format

#Useful directory variables
src_path = os.getcwd()
root_path = os.path.dirname(src_path)
data_path = root_path+"/datasets"
visualization_path = root_path+"/data_visualization"

Primer Paso: pasar de la tabla con el formato original conteniendo las series temporales como diccionarios en una celda (o una lista con dos diccionarios si hay dos series - Compresor 1 y 2 de Enfriadora 1 y lo mismo para enfriadora 2, a series temporales tabulares

In [2]:
df = spark.read.parquet("output_final.parquet") #Functional programming. Reading the raw data file with the Structured API
df.printSchema()

root
 |-- node: string (nullable = true)
 |-- start_time: timestamp (nullable = true)
 |-- end_time: timestamp (nullable = true)
 |-- power: map (nullable = true)
 |    |-- key: timestamp
 |    |-- value: float (valueContainsNull = true)
 |-- Power13: map (nullable = true)
 |    |-- key: timestamp
 |    |-- value: float (valueContainsNull = true)
 |-- Power14: map (nullable = true)
 |    |-- key: timestamp
 |    |-- value: float (valueContainsNull = true)
 |-- in: map (nullable = true)
 |    |-- key: timestamp
 |    |-- value: float (valueContainsNull = true)
 |-- out: map (nullable = true)
 |    |-- key: timestamp
 |    |-- value: float (valueContainsNull = true)
 |-- evaporator: map (nullable = true)
 |    |-- key: timestamp
 |    |-- value: float (valueContainsNull = true)
 |-- ambient: map (nullable = true)
 |    |-- key: timestamp
 |    |-- value: float (valueContainsNull = true)
 |-- Compressor1: map (nullable = true)
 |    |-- key: timestamp
 |    |-- value: float (valueContains

In [3]:
df.createOrReplaceTempView("df")
node_list = spark.sql("SELECT node from df").rdd.flatMap(lambda x: x).collect()#Getting the list with all the node names

Comenzamos preparando la serie temporal para el consumo electrico de los nodos del cluster en Vatios. Para ello debemos hacer explode de todas las series temporales asociadas a nodos (todas las que estan en una fila cuyo valor en la columna node no sea "1", "2" o "basement". Despues las agruparemos (con media) cada 30 minutos y por ultima realizaremos la suma para tener el total de consumo medio en Vatios cada 30 minutos. Es importante notar que no se puede sumar primero y luego agrupar ya que cada una de las series temporales tiene medidas para un valor de tiempo distinto (difieren en el orden de los segundos) tal y como se ve para c6601 y c7102 en el notebook eDA.ipynb

In [4]:
# for node in node_list[:-3]:

In [52]:
sql_query_dates = '''
                SELECT 
                    start_time,
                    end_time
                FROM df

            '''.format(node_list[0],node_list[0])
sql_query_node_consumption = '''
                SELECT 
                    EXPLODE(power) as (time, electric_consumption_node_{}) 
                FROM df
                WHERE 
                    node LIKE "{}"
            '''.format(node_list[0],node_list[0])
node_consumption = spark.sql(sql_query_node_consumption)
dates = spark.sql(sql_query_dates)
node_consumption = node_consumption.withColumn("time", F.to_timestamp(node_consumption.time ,"yyyy-MM-dd HH:MM:SS"))
sub = node_consumption.groupBy("time", F.window("time", "30 minutes")).agg(F.expr("collect_list(electric_consumption_node_c6601)").alias("power"), F.expr("count('time')").alias("count"),)
sub=sub.select("time", "window.*", "power", "count").sort(F.asc("time"))
sub.show(40)

+-------------------+-------------------+-------------------+------+-----+
|               time|              start|                end| power|count|
+-------------------+-------------------+-------------------+------+-----+
|2018-01-01 00:00:44|2018-01-01 00:00:00|2018-01-01 00:30:00|[54.0]|    1|
|2018-01-01 00:01:57|2018-01-01 00:00:00|2018-01-01 00:30:00|[54.0]|    1|
|2018-01-01 00:03:09|2018-01-01 00:00:00|2018-01-01 00:30:00|[72.0]|    1|
|2018-01-01 00:04:21|2018-01-01 00:00:00|2018-01-01 00:30:00|[54.0]|    1|
|2018-01-01 00:05:33|2018-01-01 00:00:00|2018-01-01 00:30:00|[54.0]|    1|
|2018-01-01 00:06:45|2018-01-01 00:00:00|2018-01-01 00:30:00|[54.0]|    1|
|2018-01-01 00:07:57|2018-01-01 00:00:00|2018-01-01 00:30:00|[54.0]|    1|
|2018-01-01 00:09:08|2018-01-01 00:00:00|2018-01-01 00:30:00|[54.0]|    1|
|2018-01-01 00:10:20|2018-01-01 00:00:00|2018-01-01 00:30:00|[54.0]|    1|
|2018-01-01 00:11:33|2018-01-01 00:00:00|2018-01-01 00:30:00|[90.0]|    1|
|2018-01-01 00:12:45|2018

## IDEA ORIGINAL

In [11]:
node_consumption_pandas=node_consumption.limit(1000).toPandas()

In [17]:
node_consumption_pandas.head(30)

Unnamed: 0,time,electric_consumption_node_c6601
0,2018-01-01 00:00:44,54.0
1,2018-01-01 00:01:57,54.0
2,2018-01-01 00:03:09,72.0
3,2018-01-01 00:04:21,54.0
4,2018-01-01 00:05:33,54.0
5,2018-01-01 00:06:45,54.0
6,2018-01-01 00:07:57,54.0
7,2018-01-01 00:09:08,54.0
8,2018-01-01 00:10:20,54.0
9,2018-01-01 00:11:33,90.0


In [27]:
import time
fecha_fija = "2018-01-01 00:00:00"
start_time = datetime.strptime(fecha_fija,"%Y-%m-%d %H:%M:%S")
minutes_since_1970_to_start_time = int(time.mktime(start_time.timetuple())/60)#Passing the total seconds to minutes dividing by 60
offset_minutes = minutes_since_1970_to_start_time % 30 #offset minutes
window_30_mins = F.window("time", "30 minutes", startTime = "{} minutes".format(offset_minutes))
pandas=node_consumption.groupBy("time", window_30_mins).agg(F.mean("electric_consumption_node_c6601").alias("power")).limit(20).toPandas()
pandas

Unnamed: 0,time,window,power
0,2018-01-01 12:33:04,"(2018-01-01 12:30:00, 2018-01-01 13:00:00)",108.0
1,2018-01-01 16:33:32,"(2018-01-01 16:30:00, 2018-01-01 17:00:00)",108.0
2,2018-01-01 19:55:46,"(2018-01-01 19:30:00, 2018-01-01 20:00:00)",108.0
3,2018-01-02 02:18:10,"(2018-01-02 02:00:00, 2018-01-02 02:30:00)",54.0
4,2018-01-02 06:36:48,"(2018-01-02 06:30:00, 2018-01-02 07:00:00)",54.0
5,2018-01-02 06:53:33,"(2018-01-02 06:30:00, 2018-01-02 07:00:00)",90.0
6,2018-01-02 07:19:53,"(2018-01-02 07:00:00, 2018-01-02 07:30:00)",54.0
7,2018-01-02 09:28:53,"(2018-01-02 09:00:00, 2018-01-02 09:30:00)",54.0
8,2018-01-02 13:27:24,"(2018-01-02 13:00:00, 2018-01-02 13:30:00)",54.0
9,2018-01-03 00:18:36,"(2018-01-03 00:00:00, 2018-01-03 00:30:00)",54.0


In [26]:
fecha_fija = "2018-01-01 00:00:00"
start_time = datetime.strptime(fecha_fija,"%Y-%m-%d %H:%M:%S")
start_time

datetime.datetime(2018, 1, 1, 0, 0)

## BORRADOR

In [16]:
dates.show()#All the nodes has the same starting and ending date

+-------------------+-------------------+
|         start_time|           end_time|
+-------------------+-------------------+
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
|2018-01-01 01:00:00|2021-06-01 02:00:00|
+-------------------+-------------