# Proyecto Ciencia de Datos II
## Análisis de Sesiones de Carga
### Autores: Jesús Cumplido Almenara e Ismael Alonso Gómez Calero

#### 1. Introducción

Nuestro proyecto va a consistir en realizar un análisis de ciencia de datos
para una empresa de compañía eléctrica o de vehículos eléctricos. Este
análisis consiste específicamente en un estudio sobre el consumo energético
en las sesiones de carga realizadas por los usuarios en los puntos de cargas
(públicas o domésticas) a nivel mundial.

Este estudio consistirá en obtener diferentes datasets abiertos de sesiones
de carga en diferentes países a lo largo de los últimos años (sobre
todo países con un gran desarrollo en puntos de carga como son Países Bajos,
Reino Unido, Francia y EEUU), limpiar estas sesiones de anomalías o
datos inválidos, y realizar un posterior análisis para observar el comportamiento
de los datos, como pueden ser:

- Tendencia del número de sesiones de carga en los últimos años.
- Energía consumida media (según el tipo de conector).
- Duración media (según el tipo de conector).
- Frecuencia del inicio y finalización de las sesiones de carga por hora
del día (histograma).
- Frecuencia de sesiones de carga por día de la semana (histograma).
- Predicción (forecasting) del número de sesiones de carga en los próximos
días en una zona.
- Etc.

Este proyecto tiene el objetivo de entender el comportamiento y avance
del desarrollo de los puntos de cargas, que permitirá a diferentes compañías
o entidades gubernamentales tomar decisiones de mercado, como por ejemplo
la necesidad de desplegar más puntos de carga en una zona debido a su
elevada demanda.

#### 2. Datos abiertos y modelos de datos

Para obtener una mayor calidad de los datos, se ha decidido obtener datos
abiertos de sesiones de cargas de diferentes ciudades de diferentes países,
sobre todo, países con gran desarrollo de los puntos de cargas. La gran
mayoría de los datos que se han obtenido en este proyecto han sido a partir
de las páginas oficiales de datos abiertos de diferentes ciudades. A continuación,
se detalla las diferentes fuentes de datos:

- **Palo Alto (EE.UU)**: aprox. 260.000 datos abiertos de sesiones de
carga desde 2011 a 2020. https://data.cityofpaloalto.org/dataviews/
257812/electric-vehicle-charging-station-usage-july-2011-dec-2020/
- **Boulder, Colorado (EE.UU)**: aprox. 30.000 datos abiertos de sesiones
de carga desde 2018 a 2021. https://open-data.bouldercolorado.
gov/datasets/183adc24880b41c4be9fd6a14eb6165f_0/explore
- **Países Bajos**: ejemplo de 10.000 datos abiertos de sesiones de carga
desde 2019 a 2020 de diferentes ciudades de Países Bajos, bajo la
red de puntos de carga de Elaadnl. https://platform.elaad.io/
download-data/
- **Dundee (UK)**: aprox. 160.000 datos abiertos de sesiones de carga
de 2017 a 2018 desde la página web https://data.dundeecity.gov.
uk/dataset/ev-charging-data. Por otro lado, dar agradecimientos a
dundeecity, ya que se ha logrado obtener más datos recientes desde
2021 a 2022 tras solicitarlos por email.
- **Perth & Kinross (UK)**: aprox. 66.000 datos abiertos de sesiones de
carga de 2016 a 2019. https://data.pkc.gov.uk/dataset/ev-charging-data

Tras recoger, todos estos datos que se encuentran en diferentes formatos,
el objetivo siguiente es normalizar y limpiar los datos para construir
el siguiente modelo de datos común, en formato JSON:


Tener de manera redundante información sobre la fecha de inicio y fin,
nos facilita para posteriormente realizar consultas para ver las sesiones de
carga dependiendo del año, día de la semana, hora, etc.

#### 3. Manejo y limpieza de datos

Aunque todas las fuentes de datos encontradas proporcionan casi la misma información (excepto algunas que contienen mayor información sobre tarifas y costes), cada una de estas fuentes contienen datos con nombres de columnas y estilos de formatos distintos. Además, muchas de estos datos no han sido procesados y contienen diferentes tipos de anomalías u outliers que deben ser descartados. Por esta razón, en esta sección se muestra el procedimiento realizado para:

- En primer lugar, se crea un script de python para cada uno de los datasets (con el nombre loadAndTransform_ZZZ) para manejar los datos de cada dataset y convertirlos a un formato común, definido en la sección anterior. Cada dataset es renombrado a ZZZ_not_Clean.csv, donde ZZZ es el nombre del lugar origen del dataset (Boulder, Dundee, Netherlands, PaloAlto o Perth).
- En segundo lugar, estos datos preprocesados y normalizados a un formato común son unidos a un único dataset denominado como Dataset_not_Clean.csv, el cual aún contiene anomalías y desviaciones de sesiones.
- Por último, se crea un último script de Python encargado de recorrer el Dataset_not_Clean.csv y detectar las anomalías y desviaciones, generando finalmente dos archivos finales: Dataset_with_Anomalies (que incluye las anomalías pero etiquetadas con las columnas "class" y "anomaly") y Dataset_Clean.csv (que solo incluye las sesiones de carga sin anomalías).

Todos los datasets y scipts de manejo y limpieza de datos se encuentra dentro del proyecto en la carpeta *datasets/*.

#### 3.1. Normalización de los datos

Como se ha mencionado, se ha creado un script de python para cada uno de los datos abiertos obtenidos para procesarlos y pasarlos a un formato común, definido en la Sección 2. A continuación, se muestra un ejemplo del script de los datos de Dundee en el año 2021. El resto de scripts tienen un esquema similar, alterando ligeramente los nombres de las columnas correspondientes o las formas de obtener las fechas, si estas tienen un formato diferente.

En primer lugar, importamos las librerías y el dataframe con los datos abiertos de Dundee.

In [4]:
import pandas as pd
import datetime

df = pd.read_csv("datasets/dundee_uk/cpdata-sample.csv") # Se ha usado un sample de 200 muestras como ejemplo
display(df)

Unnamed: 0.1,Unnamed: 0,Charging event,User ID,CP ID,Connector,Start Date,Start Time,End Date,End Time,Total kWh,Cost,Site,Group,Model,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16
0,0,11684888,621969,51584,2,31/01/2021,23:33,01/02/2021,00:08,11.216,2.06,"Lochee Charging Hub, Aimer Square, Dundee",APT Controls; APT test; CYC; ChargePlace Scotl...,APT 50kW Raption,,,806169924A6B04,Nissan LEAF
1,1,11684768,628777,51584,2,31/01/2021,23:02,,,,,"Lochee Charging Hub, Aimer Square, Dundee",APT Controls; APT test; CYC; ChargePlace Scotl...,APT 50kW Raption,,,805F6172247304,Nissan LEAF
2,2,11684711,621472,52667,1,31/01/2021,22:52,01/02/2021,00:22,113.776,17.25,Green Market HGV,Dundee City Council Private,Swarco Raption 150 CCS/CHA,,,8062FB2A5A4304,
3,3,11684864,610690,51427,2,31/01/2021,22:35,01/02/2021,04:05,20.114,3.38,"Princes Street Charging Hub, Dundee",APT Controls; APT test; CYC; ChargePlace Scotl...,APT 22kW Dual Outlet,,,805E81C25D0604,
4,4,11684583,615610,51547,2,31/01/2021,22:24,,,,,"Lochee Charging Hub, Aimer Square, Dundee",APT Controls; CYC; ChargePlace Scotland; Dunde...,APT 50kW Raption,,,8062CBA2487304,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,195,11675742,625584,50910,1,31/01/2021,03:13,31/01/2021,21:16,22.161,3.70,"Dock Street, Dundee",APT Controls; CYC; ChargePlace Scotland; Dunde...,APT 22kW Dual Outlet,,,8.0617E+13,
196,196,11675730,621969,51424,2,31/01/2021,03:11,31/01/2021,03:35,10.738,1.99,"Princes Street Charging Hub, Dundee",APT Controls; APT test; CYC; ChargePlace Scotl...,APT 50kW Raption,,,806169924A6B04,Nissan LEAF
197,197,11675620,618928,51585,2,31/01/2021,02:52,31/01/2021,03:05,4.155,1.00,"Lochee Charging Hub, Aimer Square, Dundee",APT Controls; APT test; CYC; ChargePlace Scotl...,APT 50kW Raption,,,805F5612907004,Nissan LEAF
198,198,11675619,618311,51547,2,31/01/2021,02:52,31/01/2021,03:34,24.466,4.04,"Lochee Charging Hub, Aimer Square, Dundee",APT Controls; CYC; ChargePlace Scotland; Dunde...,APT 50kW Raption,,,805F5612464004,Nissan LEAF


In [2]:
# Creamos un dataframe vacío con las columnas que deseamos
newDF = pd.DataFrame(
    columns=["connectorType", "cost", "energy", "tariff", "durationCharge", "durationSession", "meanPower", "maxPower",
             "anomaly", "class",
             "weekDayStart", "hourStart", "minuteStart", "weekDayEnd", "hourEnd", "minuteEnd",
             "startDate", "endDate", "startTimestamp", "endTimestamp"
             ])

# Recorremos el dataframe original de Dundee fila a fila
for index, session in df.iterrows():
    session = session.to_dict()  # Convertir fila (Series) a diccionario
    # LEER DATOS
    energy = session["Total kWh"]
    model = session["Model"]
    maxPower = 0
    # Obtener tipo de connector a traves del modelo
    connectorType = ""
    if "22" in model:
        maxPower = 22.0
        connectorType = "Fast"
    elif "7" in model:
        maxPower = 7.0
        connectorType = "Fast"
    elif "Semi-Rapid" in model:
        maxPower = 22.0
        connectorType = "Fast"
    elif "150" in model:
        maxPower = 150.0
        connectorType = "Ultra-Rapid"
    elif " 50kW" in model:
        maxPower = 50.0
        connectorType = "Rapid"
    elif "Dual Rapid" in model:
        maxPower = 50.0
        connectorType = "Rapid"
    elif "Triple Rapid" in model:
        maxPower = 50.0
        connectorType = "Rapid"
    else:
        print("ERROR GETTING MODEL MAX POWER")
        raise Exception
    
    # Datos de Tiempo de Inicio y Fin
    startDate = session["Start Date"]
    startTime = session["Start Time"]
    endDate = session.get("End Date", None)
    endTime = session.get("End Time", None)
    
    # Crear objetos Datetime
    startDateObject = datetime.datetime.strptime(startDate, "%d/%m/%Y")
    startTimeObject = datetime.datetime.strptime(startTime, "%H:%M")
    startDateObject = startDateObject.replace(hour=startTimeObject.hour, minute=startTimeObject.minute)
    weekDayStart = startDateObject.weekday()
    yearStart = startDateObject.year
    hourStart = startDateObject.hour
    minuteStart = startDateObject.minute
    startTimestamp = startDateObject.timestamp()
    
    # Usar Try-Except para descartar filas con fechas con formatos erróneos
    try:
        endDateObject = datetime.datetime.strptime(endDate, "%d/%m/%Y")
        endTimeObject = datetime.datetime.strptime(endTime, "%H:%M")
        endDateObject = endDateObject.replace(hour=endTimeObject.hour, minute=endTimeObject.minute)
        weekDayEnd = endDateObject.weekday()
        yearEnd = endDateObject.year
        hourEnd = endDateObject.hour
        minuteEnd = endDateObject.minute
        endTimestamp = endDateObject.timestamp()
    except:
        continue
    
    # Calcular duración de la sesion
    durationSession = round((endTimestamp - startTimestamp) / 3600.0, 2)
    # En este caso, este dataset no proporciona información de la duración de la carga, por lo que suponemos que la duración
    # de la carga es igual a la de la sesión. Otros scripts si añaden esta información.
    durationCharge = durationSession
    
    # Calcular potencia media
    meanPower = 0.0
    if durationCharge > 0:
        meanPower = round(energy / durationCharge, 3)

    # Calcular Tarifa a partir del Coste
    cost = session["Cost"]
    
    if cost > 0 and energy > 0:
        tariff = round(cost/energy, 2)
    else:
        cost = 0
        tariff = 0

    city = "Dundee" # Constante
    country = "UK" # Constante

    # Generamos un diccionario con toda la informacion recogida
    newObject = {}
    newObject["country"] = country
    newObject["city"] = city
    newObject["connectorType"] = connectorType
    newObject["durationCharge"] = durationCharge
    newObject["durationSession"] = durationSession
    newObject["energy"] = energy
    newObject["tariff"] = tariff
    newObject["cost"] = cost
    newObject["meanPower"] = meanPower
    newObject["maxPower"] = maxPower
    newObject["startDate"] = startDateObject.strftime("%d/%m/%Y %H:%M:%S%z")
    newObject["startTimestamp"] = startTimestamp
    newObject["weekDayStart"] = weekDayStart
    newObject["yearStart"] = yearStart
    newObject["hourStart"] = hourStart
    newObject["minuteStart"] = minuteStart
    newObject["endDate"] = endDateObject.strftime("%d/%m/%Y %H:%M:%S%z")
    newObject["endTimestamp"] = endTimestamp
    newObject["weekDayEnd"] = weekDayEnd
    newObject["yearEnd"] = yearEnd
    newObject["hourEnd"] = hourEnd
    newObject["minuteEnd"] = minuteEnd
    newObject["anomaly"] = 0
    newObject["class"] = "Normal"

    # collection.insert_one(object) # Podriamos guardar directamente el json en MongoDB
    # Crear fila con el diccionario creado
    series = pd.Series(newObject)
    row_df = pd.DataFrame([series])
    # Concatenar fila en el dataframe final
    newDF = pd.concat([row_df, newDF], ignore_index=True)

# Guardar Dataframe como CSV
newDF.to_csv(r'datasets/dundee_uk/2021/Dundee_2021_not_Clean.csv', index=False)
display(newDF)

Unnamed: 0,country,city,connectorType,durationCharge,durationSession,energy,tariff,cost,meanPower,maxPower,...,hourStart,minuteStart,endDate,endTimestamp,weekDayEnd,yearEnd,hourEnd,minuteEnd,anomaly,class
0,UK,Dundee,Rapid,0.18,0.18,8.101,0.2,1.59,45.006,50.0,...,2,33,31/01/2021 02:44:00,1612057440.0,6,2021.0,2,44,0,Normal
1,UK,Dundee,Rapid,0.7,0.7,24.466,0.17,4.04,34.951,50.0,...,2,52,31/01/2021 03:34:00,1612060440.0,6,2021.0,3,34,0,Normal
2,UK,Dundee,Rapid,0.22,0.22,4.155,0.24,1.0,18.886,50.0,...,2,52,31/01/2021 03:05:00,1612058700.0,6,2021.0,3,5,0,Normal
3,UK,Dundee,Rapid,0.4,0.4,10.738,0.19,1.99,26.845,50.0,...,3,11,31/01/2021 03:35:00,1612060500.0,6,2021.0,3,35,0,Normal
4,UK,Dundee,Fast,18.05,18.05,22.161,0.17,3.7,1.228,22.0,...,3,13,31/01/2021 21:16:00,1612124160.0,6,2021.0,21,16,0,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
191,UK,Dundee,Rapid,0.4,0.4,14.638,0.18,2.57,36.595,50.0,...,22,10,31/01/2021 22:34:00,1612128840.0,6,2021.0,22,34,0,Normal
192,UK,Dundee,Rapid,0.1,0.1,4.013,0.24,0.98,40.13,50.0,...,22,12,31/01/2021 22:18:00,1612127880.0,6,2021.0,22,18,0,Normal
193,UK,Dundee,Fast,5.5,5.5,20.114,0.17,3.38,3.657,22.0,...,22,35,01/02/2021 04:05:00,1612148700.0,0,2021.0,4,5,0,Normal
194,UK,Dundee,Ultra-Rapid,1.5,1.5,113.776,0.15,17.25,75.851,150.0,...,22,52,01/02/2021 00:22:00,1612135320.0,0,2021.0,0,22,0,Normal


#### 3.2. Unificación de los datasets

A continuación, una vez normalizado cada dataset, se ha creado un pequeño script muy simple para unificar los archivos CSV en un único archivo. Este archivo se encuentra en la carpeta datasets/ con el nombre "unionAllDatasets.py".

In [3]:
import pandas as pd
df1 = pd.read_csv("datasets/boulder_usa/Boulder_not_Clean.csv")
df2 = pd.read_csv("datasets/dundee_uk/Dundee_not_Clean.csv")
df3 = pd.read_csv("datasets/netherlands/Netherlands_not_Clean.csv")
df4 = pd.read_csv("datasets/paloalto_usa/PaloAlto_not_Clean.csv")
df = pd.concat([df1, df2, df3, df4])
df.to_csv(r"datasets/Dataset_not_Clean.csv", index=False)
display(df)

Unnamed: 0,country,city,connectorType,durationCharge,durationSession,energy,tariff,cost,meanPower,maxPower,...,hourStart,minuteStart,endDate,endTimestamp,weekDayEnd,yearEnd,hourEnd,minuteEnd,anomaly,class
0,USA,Boulder,Fast,2.35,2.35,13.762,0.00,0.00,5.856,7.4,...,13,27,28/11/2021 15:48:00-0700,1.638140e+09,6,2021.0,15,48,0,Normal
1,USA,Boulder,Fast,2.63,2.64,12.963,0.57,7.39,4.929,7.4,...,13,4,28/11/2021 15:42:00-0700,1.638139e+09,6,2021.0,15,42,0,Normal
2,USA,Boulder,Fast,1.88,2.72,5.609,1.04,5.83,2.984,7.4,...,12,2,28/11/2021 14:45:00-0700,1.638136e+09,6,2021.0,14,45,0,Normal
3,USA,Boulder,Fast,2.19,2.20,7.275,0.00,0.00,3.322,7.4,...,11,30,28/11/2021 13:42:00-0700,1.638132e+09,6,2021.0,13,42,0,Normal
4,USA,Boulder,Fast,1.05,1.07,6.337,0.18,1.14,6.035,7.4,...,10,57,28/11/2021 12:01:00-0700,1.638126e+09,6,2021.0,12,1,0,Normal
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
67824,USA,Palo Alto,Fast,1.51,1.52,9.026,1.19,10.74,5.977,7.2,...,9,54,01/01/2019 11:25:00-0600,1.546364e+09,1,2019.0,11,25,0,Normal
67825,USA,Palo Alto,Fast,1.82,1.83,6.103,0.00,0.00,3.353,7.2,...,9,46,01/01/2019 11:35:00-0600,1.546364e+09,1,2019.0,11,35,0,Normal
67826,USA,Palo Alto,Fast,3.58,9.27,11.515,1.07,12.32,3.216,7.2,...,9,19,01/01/2019 18:36:00-0600,1.546389e+09,1,2019.0,18,36,0,Normal
67827,USA,Palo Alto,Fast,1.11,1.12,6.598,0.00,0.00,5.944,7.2,...,9,18,01/01/2019 10:25:00-0600,1.546360e+09,1,2019.0,10,25,0,Normal


#### 3.3. Limpieza de datos

Por último, se ha creado un script denominado *"clearDataset.py"* encargado de recorrer de nuevo el Dataset_not_Clean.csv fila a fila y detectar cuales de ellas presentan anomalías, desviaciones o valores no deseados (como valores NaN o sesiones de carga anteriores a 2018). Las anomalías son marcadas en la columna *"class"* y *"anomaly"*, mientras que las filas con valores no deseados son descartados. Finalmente, se genera dos archivos CSV que corresponde a:
- **Dataset_With_Anomalies.csv**: donde se encuentran todas las filas etiquetadas correctamente si son normales o anómalas, gracias a las columnas "anomaly" y "class".
- **Dataset_Clean.csv**: donde se encuentran solo las filas que son normales, sin anomalías. Este dataset será el finalmente usado y cargado en MongoDB para los futuros análisis.

A continuación, se muestra el código del script de limpieza de datos "clearDataset.py":

In [None]:
# read-only cell
import pandas as pd

df = pd.read_csv("Dataset_not_Clean.csv")

df.dropna()  # Eliminar filas con valores NaN

dfClean = pd.DataFrame(
    columns=["connectorType", "cost", "energy", "tariff", "durationCharge", "durationSession", "meanPower", "maxPower",
             "anomaly", "class",
             "weekDayStart", "hourStart", "minuteStart", "weekDayEnd", "hourEnd", "minuteEnd",
             "startDate", "endDate", "startTimestamp", "endTimestamp"
             ])
# Recorremos fila a fila el dataframe original
for index, session in df.iterrows():
    session = session.to_dict() # Convertir fila (Series) en un diccionario
    
    # Obtener los datos deseados de la fila
    durationCharge = session["durationCharge"]
    durationSession = session["durationSession"]
    maxPower = session["maxPower"]
    energy = session["energy"]
    tariff = session["tariff"]
    cost = session["cost"]
    meanPower = session["meanPower"]
    yearStart = session["yearStart"]

    if yearStart <= 2017:  # Descartar sesiones anteriores a 2018
        continue

    # Anomalias en la duracion
    if durationCharge < 0:
        session["class"] = "DurationChargeNegative"
        session["anomaly"] = 1
    if durationSession < 0:
        session["class"] = "DurationSessionNegative"
        session["anomaly"] = 1
    if durationSession < durationCharge:
        session["class"] = "DurationSessionLessThanDurationCharge"
        session["anomaly"] = 1
    if durationCharge >= 100:
        session["class"] = "DurationChargeTooLong"
        session["anomaly"] = 1
    if durationSession > 168:
        session["class"] = "DurationSessionTooLong"
        session["anomaly"] = 1

    # Anomalias en la energia
    if energy < 0:
        session["class"] = "EnergyNegative"
        session["anomaly"] = 1
    if 0 <= energy <= 0.2 and durationCharge >= 3:
        session["class"] = "NotCharge"
        session["anomaly"] = 1

    # Anomalias en la tarifa
    if tariff < 0:
        session["class"] = "TariffNegative"
        session["anomaly"] = 1
    if tariff >= 4:
        session["class"] = "TariffExcessive"
        session["anomaly"] = 1
    
    # Anomalias en el coste
    if cost < 0:
        session["class"] = "CostNegative"
        session["anomaly"] = 1
    if cost > 100:
        session["class"] = "CostExcessive"
        session["anomaly"] = 1
    
    # Anomalias en la potencia
    if meanPower < 0:
        session["class"] = "MeanPowerNegative"
        session["anomaly"] = 1
    if meanPower > maxPower:
        session["class"] = "MeanPowerExcessive"
        session["anomaly"] = 1
    if maxPower > 22 and 0 < meanPower < 0.01:
        session["class"] = "MeanPowerTooLow"
        session["anomaly"] = 1
    
    # Guardar diccionario como fila en el nuevo dataframe
    series = pd.Series(session)
    row_df = pd.DataFrame([series])
    dfClean = pd.concat([row_df, dfClean], ignore_index=True)

# Guardar dataframe como CSV
dfClean.to_csv("Dataset_With_Anomalies.csv", index=False)

# Eliminar filas con anomalias
dfClean = dfClean[dfClean['anomaly'] == 0]
# Eliminar columnas anomaly y class
dfClean.drop(['anomaly', 'class'], axis=1, inplace=True)

# Guardar dataframe como CSV
dfClean.to_csv("Dataset_Clean.csv", index=False)


Finalmente, obtenemos un total de 184452 sesiones de cargas de las diferentes localizaciones limpias y con el mismo formato común.

In [4]:
df = pd.read_csv("datasets/Dataset_Clean.csv")
display(df)

Unnamed: 0,country,city,connectorType,durationCharge,durationSession,energy,tariff,cost,meanPower,maxPower,...,weekDayStart,yearStart,hourStart,minuteStart,endDate,endTimestamp,weekDayEnd,yearEnd,hourEnd,minuteEnd
0,USA,Palo Alto,Fast,2.11,2.19,12.434,0.88,10.94,5.893,7.2,...,1,2019.0,8,46,01/01/2019 10:58:00-0600,1.546362e+09,1,2019.0,10,58
1,USA,Palo Alto,Fast,1.11,1.12,6.598,0.00,0.00,5.944,7.2,...,1,2019.0,9,18,01/01/2019 10:25:00-0600,1.546360e+09,1,2019.0,10,25
2,USA,Palo Alto,Fast,3.58,9.27,11.515,1.07,12.32,3.216,7.2,...,1,2019.0,9,19,01/01/2019 18:36:00-0600,1.546389e+09,1,2019.0,18,36
3,USA,Palo Alto,Fast,1.82,1.83,6.103,0.00,0.00,3.353,7.2,...,1,2019.0,9,46,01/01/2019 11:35:00-0600,1.546364e+09,1,2019.0,11,35
4,USA,Palo Alto,Fast,1.51,1.52,9.026,1.19,10.74,5.977,7.2,...,1,2019.0,9,54,01/01/2019 11:25:00-0600,1.546364e+09,1,2019.0,11,25
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
184447,USA,Boulder,Fast,1.05,1.07,6.337,0.18,1.14,6.035,7.4,...,6,2021.0,10,57,28/11/2021 12:01:00-0700,1.638126e+09,6,2021.0,12,1
184448,USA,Boulder,Fast,2.19,2.20,7.275,0.00,0.00,3.322,7.4,...,6,2021.0,11,30,28/11/2021 13:42:00-0700,1.638132e+09,6,2021.0,13,42
184449,USA,Boulder,Fast,1.88,2.72,5.609,1.04,5.83,2.984,7.4,...,6,2021.0,12,2,28/11/2021 14:45:00-0700,1.638136e+09,6,2021.0,14,45
184450,USA,Boulder,Fast,2.63,2.64,12.963,0.57,7.39,4.929,7.4,...,6,2021.0,13,4,28/11/2021 15:42:00-0700,1.638139e+09,6,2021.0,15,42


### 4. Consultas
TODO (ISMAEL) Sección de Consultas: Crear y explicar Consultas FIND y Aggregate sobre el dataset final (Dataset_Clean.csv) (Carga este dataset en MongoDB, en local o en un cluster). Intenta crear consultas que se ajusten a los objetivos que propusimos en la Introducción y nos facilita el trabajo para el posterior análisis y visualización.

Lo primero que debemos hacer es pasar los datos leidos del dataset ya procesado y pasarlos a una base de datos. En este caso utilizamos MongoDB de forma remota, usando un cluster. Para ello creamos un script llamado "*importData.py*", en el cual se leen los datos del fichero .csv una vez se ha procesado y se insertan uno a uno en la base de datos. Otra alternativa es añadir los datos a través de MongoDB Compass subiendo el fichero .csv. Sin embargo, hemos optado en crear este script ya que nos permite crear el objeto con el modelo de datos deseado (por ejemplo, crear los objetos start y end embebidos). Además, los tipos de datos de cada atributo es seleccionado de forma automática gracias a la asignación dinámica de python, y no es necesario indicar de forma manual que tipo de dato corresponde a cada columna o atributo (string, numérico, fecha, ...).

In [2]:
from pymongo import MongoClient

# Connection to database
client = MongoClient(
    "mongodb+srv://ismaelgo97:Yo19970923%2B@cluster0.wepwf.mongodb.net/test?retryWrites=true&w=majority", tls=True,
    tlsAllowInvalidCertificates=True)

db = client.charging_vehicles.data

In [None]:
# Get data from csv file
df = pd.read_csv("/datasets/Dataset_Clean.csv") 

# We import the data to the database 1 by 1
for index, session in df.iterrows():
    session = session.to_dict()
    newData = {}
    endData = {}
    startData = {}
    newData["country"] = session["country"]
    newData["city"] = session["city"]
    newData["connectorType"] = session["connectorType"]
    newData["durationSession"] = session["durationSession"]
    newData["durationCharge"] = session["durationCharge"]
    newData["energy"] = session["energy"]
    newData["tariff"] = session["tariff"]
    newData["cost"] = session["cost"]
    newData["meanPower"] = session["meanPower"]
    newData["maxPower"] = session["maxPower"]

    startData["startDate"] = session["startDate"]
    startData["startTimestamp"] = session["startTimestamp"]
    startData["weekDayStart"] = session["weekDayStart"]
    startData["yearStart"] = session["yearStart"]
    startData["hourStart"] = session["hourStart"]
    startData["minuteStart"] = session["minuteStart"]

    endData["endDate"] = session["endDate"]
    endData["endTimestamp"] = session["endTimestamp"]
    endData["weekDayEnd"] = session["weekDayEnd"]
    endData["yearEnd"] = session["yearEnd"]
    endData["hourEnd"] = session["hourEnd"]
    endData["minuteEnd"] = session["minuteEnd"]

    newData["start"] = startData
    newData["end"] = endData

    db.insert_one(newData)

Para comprobar que se ha ejecutado correctamente, comprobamos el contenido de la base de datos.

In [6]:
import json
first_data = db.find_one({}, {'_id': False})
print(json.dumps(first_data, indent=2))

{
  "country": "USA",
  "city": "Palo Alto",
  "connectorType": "Fast",
  "durationSession": 2.19,
  "durationCharge": 2.11,
  "energy": 12.434,
  "tariff": 0.88,
  "cost": 10.94,
  "meanPower": 5.893,
  "maxPower": 7.2,
  "start": {
    "startDate": "01/01/2019 08:46:00-0800",
    "startTimestamp": 1546361160.0,
    "weekDayStart": 1,
    "yearStart": 2019.0,
    "hourStart": 8,
    "minuteStart": 46
  },
  "end": {
    "endDate": "01/01/2019 10:58:00-0600",
    "endTimestamp": 1546361880.0,
    "weekDayEnd": 1,
    "yearEnd": 2019.0,
    "hourEnd": 10,
    "minuteEnd": 58
  }
}


Como podemos ver, mostrando el primer objeto recogido de la consulta, observamos que la estructura es la esperada.

Una vez comprobado que todo se ha realizado con éxito, podemos empezar realizando algunas consultas más útiles. Primero utilizando la función "*find()*" podemos hacer consultas básicas como buscar todos los registros con datos específicos, como por ejemplo en función del país, ciudad, ocurridos antes o después de cierta fecha, etc. Usando la función "*aggregate()*" podemos crear *pipelines* para hacer nuevas consultas sobre consultas anteriores, algo muy útil en estadística. De esta forma podemos calcular la suma de energía usada en cierto lugar y cierto día agrupando por tipo de conector, entre muchas otras.

#### 4.1. Consultas con Find()

Primero podemos realizar una consulta para devolver todos los datos ocurridos en el país *USA*, ciudad *Palo Alto* o *Boulder*, ordenado por fecha. En este caso se muestran solo 20 filas.

In [42]:
cursorDataUSAPaloAltoBoulder = db.find({"country": "USA", "$or": [{"city": "Palo Alto"}, {"city": "Boulder"}]}).sort([('start.startDate', 1)]).limit(20)
listDataUSAPaloAltoBoulder = list(cursorDataUSAPaloAltoBoulder)
dfDataUSAPaloAltoBoulder = pd.DataFrame(listDataUSAPaloAltoBoulder)
display(dfDataUSAPaloAltoBoulder)

Unnamed: 0,_id,country,city,connectorType,durationSession,durationCharge,energy,tariff,cost,meanPower,maxPower,start,end
0,627a930e4d18cf2984c65702,USA,Palo Alto,Fast,2.19,2.11,12.434,0.88,10.94,5.893,7.2,"{'startDate': '01/01/2019 08:46:00-0800', 'sta...","{'endDate': '01/01/2019 10:58:00-0600', 'endTi..."
1,627a930e4d18cf2984c65703,USA,Palo Alto,Fast,1.12,1.11,6.598,0.0,0.0,5.944,7.2,"{'startDate': '01/01/2019 09:18:00-0800', 'sta...","{'endDate': '01/01/2019 10:25:00-0600', 'endTi..."
2,627a930e4d18cf2984c65704,USA,Palo Alto,Fast,9.27,3.58,11.515,1.07,12.32,3.216,7.2,"{'startDate': '01/01/2019 09:19:00-0800', 'sta...","{'endDate': '01/01/2019 18:36:00-0600', 'endTi..."
3,627a930e4d18cf2984c65705,USA,Palo Alto,Fast,1.83,1.82,6.103,0.0,0.0,3.353,7.2,"{'startDate': '01/01/2019 09:46:00-0800', 'sta...","{'endDate': '01/01/2019 11:35:00-0600', 'endTi..."
4,627a930e4d18cf2984c65706,USA,Palo Alto,Fast,1.52,1.51,9.026,1.19,10.74,5.977,7.2,"{'startDate': '01/01/2019 09:54:00-0800', 'sta...","{'endDate': '01/01/2019 11:25:00-0600', 'endTi..."
5,627a930e4d18cf2984c65707,USA,Palo Alto,Fast,1.91,1.91,6.077,0.24,1.46,3.182,7.2,"{'startDate': '01/01/2019 10:03:00-0800', 'sta...","{'endDate': '01/01/2019 11:57:00-0600', 'endTi..."
6,627a930f4d18cf2984c65708,USA,Palo Alto,Fast,0.21,0.21,0.763,0.73,0.56,3.633,7.2,"{'startDate': '01/01/2019 10:05:00-0800', 'sta...","{'endDate': '01/01/2019 10:17:00-0600', 'endTi..."
7,627aae5a4d18cf2984c8c2f1,USA,Boulder,Fast,2.26,2.26,7.438,0.69,5.13,3.291,7.4,"{'startDate': '01/01/2019 10:25:00-0600', 'sta...","{'endDate': '01/01/2019 12:40:00-0600', 'endTi..."
8,627a930f4d18cf2984c65709,USA,Palo Alto,Fast,1.67,1.41,2.585,0.0,0.0,1.833,7.2,"{'startDate': '01/01/2019 10:27:00-0800', 'sta...","{'endDate': '01/01/2019 12:07:00-0600', 'endTi..."
9,627aae5a4d18cf2984c8c2f2,USA,Boulder,Fast,0.25,0.24,1.587,0.0,0.0,6.612,7.4,"{'startDate': '01/01/2019 10:32:00-0600', 'sta...","{'endDate': '01/01/2019 10:46:00-0600', 'endTi..."


Otra consulta que podemos hacer es devolver las columnas con las tarifas más caras para los tipos de conectores *Fast* de datos que no sean de *USA*. Para eso podemos ordenador por orden descendente a través de la tarifa.

In [9]:
cursorDataUSAPaloAltoBoulder = db.find({"country": {"$ne": "USA"}, "connectorType": "Fast"}).sort([('tariff', -1)]).limit(20)
listDataUSAPaloAltoBoulder = list(cursorDataUSAPaloAltoBoulder)
dfDataUSAPaloAltoBoulder = pd.DataFrame(listDataUSAPaloAltoBoulder)
display(dfDataUSAPaloAltoBoulder)

Unnamed: 0,_id,country,city,connectorType,durationSession,durationCharge,energy,tariff,cost,meanPower,maxPower,start,end
0,627aacc24d18cf2984c89b64,UK,Dundee,Fast,0.08,0.08,0.106,3.68,0.39,1.325,22.0,"{'startDate': '19/05/2021 16:04:00', 'startTim...","{'endDate': '19/05/2021 16:09:00', 'endTimesta..."
1,627aacee4d18cf2984c89fab,UK,Dundee,Fast,0.05,0.05,0.12,3.25,0.39,2.4,7.0,"{'startDate': '14/05/2021 14:32:00', 'startTim...","{'endDate': '14/05/2021 14:35:00', 'endTimesta..."
2,627aadf64d18cf2984c8b944,UK,Dundee,Fast,0.03,0.03,0.12,3.25,0.39,4.0,7.0,"{'startDate': '12/06/2021 16:27:00', 'startTim...","{'endDate': '12/06/2021 16:29:00', 'endTimesta..."
3,627aa9054d18cf2984c83e0a,UK,Dundee,Fast,0.85,0.85,0.13,3.0,0.39,0.153,22.0,"{'startDate': '26/01/2021 11:08:00', 'startTim...","{'endDate': '26/01/2021 11:59:00', 'endTimesta..."
4,627aabac4d18cf2984c880d7,UK,Dundee,Fast,0.05,0.05,0.15,2.67,0.4,3.0,7.0,"{'startDate': '23/04/2021 15:04:00', 'startTim...","{'endDate': '23/04/2021 15:07:00', 'endTimesta..."
5,627aaa8a4d18cf2984c8645c,UK,Dundee,Fast,2.22,2.22,0.177,2.26,0.4,0.08,22.0,"{'startDate': '01/02/2021 12:55:00', 'startTim...","{'endDate': '01/02/2021 15:08:00', 'endTimesta..."
6,627aac7b4d18cf2984c894ac,UK,Dundee,Fast,0.18,0.18,0.18,2.22,0.4,1.0,22.0,"{'startDate': '26/05/2021 18:01:00', 'startTim...","{'endDate': '26/05/2021 18:12:00', 'endTimesta..."
7,627aa94a4d18cf2984c844d7,UK,Dundee,Fast,1.28,1.28,0.19,2.11,0.4,0.148,22.0,"{'startDate': '18/01/2021 15:25:00', 'startTim...","{'endDate': '18/01/2021 16:42:00', 'endTimesta..."
8,627aaa954d18cf2984c8658c,UK,Dundee,Fast,0.05,0.05,0.19,2.11,0.4,3.8,22.0,"{'startDate': '30/03/2021 17:53:00', 'startTim...","{'endDate': '30/03/2021 17:56:00', 'endTimesta..."
9,627aae374d18cf2984c8bf9c,UK,Dundee,Fast,0.05,0.05,0.209,1.96,0.41,4.18,22.0,"{'startDate': '04/06/2021 19:32:00', 'startTim...","{'endDate': '04/06/2021 19:35:00', 'endTimesta..."


Otra consulta que podemos hacer es para devolver los datos guardados donde la duración de la sesión sea mayor a 1 y menor a 2.

In [11]:
cursorDataUSAPaloAltoBoulder = db.find({"durationSession": {"$gte": 1.0, "$lte": 2.0}}).limit(20)
listDataUSAPaloAltoBoulder = list(cursorDataUSAPaloAltoBoulder)
dfDataUSAPaloAltoBoulder = pd.DataFrame(listDataUSAPaloAltoBoulder)
display(dfDataUSAPaloAltoBoulder)

Unnamed: 0,_id,country,city,connectorType,durationSession,durationCharge,energy,tariff,cost,meanPower,maxPower,start,end
0,627a930e4d18cf2984c65703,USA,Palo Alto,Fast,1.12,1.11,6.598,0.0,0.0,5.944,7.2,"{'startDate': '01/01/2019 09:18:00-0800', 'sta...","{'endDate': '01/01/2019 10:25:00-0600', 'endTi..."
1,627a930e4d18cf2984c65705,USA,Palo Alto,Fast,1.83,1.82,6.103,0.0,0.0,3.353,7.2,"{'startDate': '01/01/2019 09:46:00-0800', 'sta...","{'endDate': '01/01/2019 11:35:00-0600', 'endTi..."
2,627a930e4d18cf2984c65706,USA,Palo Alto,Fast,1.52,1.51,9.026,1.19,10.74,5.977,7.2,"{'startDate': '01/01/2019 09:54:00-0800', 'sta...","{'endDate': '01/01/2019 11:25:00-0600', 'endTi..."
3,627a930e4d18cf2984c65707,USA,Palo Alto,Fast,1.91,1.91,6.077,0.24,1.46,3.182,7.2,"{'startDate': '01/01/2019 10:03:00-0800', 'sta...","{'endDate': '01/01/2019 11:57:00-0600', 'endTi..."
4,627a930f4d18cf2984c65709,USA,Palo Alto,Fast,1.67,1.41,2.585,0.0,0.0,1.833,7.2,"{'startDate': '01/01/2019 10:27:00-0800', 'sta...","{'endDate': '01/01/2019 12:07:00-0600', 'endTi..."
5,627a930f4d18cf2984c6570c,USA,Palo Alto,Fast,1.27,1.23,7.153,0.74,5.29,5.815,7.2,"{'startDate': '01/01/2019 10:54:00-0800', 'sta...","{'endDate': '01/01/2019 12:09:00-0600', 'endTi..."
6,627a930f4d18cf2984c6570d,USA,Palo Alto,Fast,1.29,1.28,7.977,0.0,0.0,6.232,7.2,"{'startDate': '01/01/2019 11:00:00-0800', 'sta...","{'endDate': '01/01/2019 12:17:00-0600', 'endTi..."
7,627a930f4d18cf2984c6570f,USA,Palo Alto,Fast,1.51,1.5,4.449,0.48,2.14,2.966,7.2,"{'startDate': '01/01/2019 12:08:00-0800', 'sta...","{'endDate': '01/01/2019 13:39:00-0600', 'endTi..."
8,627a93104d18cf2984c65719,USA,Palo Alto,Fast,2.0,1.01,3.627,0.3,1.09,3.591,7.2,"{'startDate': '01/01/2019 13:43:00-0800', 'sta...","{'endDate': '01/01/2019 15:43:00-0600', 'endTi..."
9,627a93114d18cf2984c6571f,USA,Palo Alto,Fast,1.34,0.87,4.136,0.53,2.19,4.754,7.2,"{'startDate': '01/01/2019 15:01:00-0800', 'sta...","{'endDate': '01/01/2019 16:21:00-0600', 'endTi..."


TODO: Demasiado simples las consultas Find(). Dejaría sólo una de las tres últimas, y añadiría 2 o 3 más complejas: usando por ejemplo: entre un rango de fechas, seleccionar sesiones de carga mayores a 1 hora de duración, ordenar por tarifa o costes más baratos a más caros, entre un rango de energía... La cuestión es que se debería usar otros atributos, no solo consultas con el país y la ciudad. 

#### 4.2. Consultas con Aggregate()

Usando la función "*aggregate()*" podemos añadir ciertas utilidades. Por ejemplo, podemos obtener todos los resultados correspondientes a *USA* y luego agruparlos por tipo de conector, devolviendo la suma de la energía total consumida en cada uno de ellos.

In [19]:
dataUSAConnector = db.aggregate( [
   {
      "$match": { "country": "USA" }
   },
   {
      "$group": { "_id": "$connectorType", "totalEnergy": { "$sum": "$energy" } }
   }
] )
for row in dataUSAConnector:
    print(row)

{'_id': 'Slow', 'totalEnergy': 62.619}
{'_id': 'Fast', 'totalEnergy': 842906.161}


Otra posible opción es agrupar todos los datos de *USA* agrupandolos por día de la semana en el que se empieza la carga y devolver la suma de la energía utilizada en función de dichos días.

In [30]:
dataDay = db.aggregate( [
   {
      "$match": { "country": "USA" }
   },
   {
      "$group": { "_id": "$start.weekDayStart", "totalEnergy": { "$sum": "$energy" } }
   },
    { "$sort": {
        "_id": 1
    }},
] )
for row in dataDay:
    print(row)

{'_id': 0, 'totalEnergy': 122732.108}
{'_id': 1, 'totalEnergy': 126863.677}
{'_id': 2, 'totalEnergy': 132039.428}
{'_id': 3, 'totalEnergy': 133431.109}
{'_id': 4, 'totalEnergy': 134034.212}
{'_id': 5, 'totalEnergy': 101473.382}
{'_id': 6, 'totalEnergy': 92394.864}


También podemos calcular la media de las tarifas en función del día de la semana y el tipo de conector, ordenandolo por día de la semana seguido por el tipo en orden alfabético, de los datos de los países bajos.

In [35]:
dataUKDayType = db.aggregate( [
   {
       "$match": { "city": "Dundee" }
   },
   {
      "$group": { "_id": {"start": "$start.weekDayStart", "type": "$connectorType"}, "meanTariff": { "$avg": "$tariff"} }
   },
   {
       "$sort": {"_id.start": 1, "type": 1}
   }
] )
for row in dataUKDayType:
    print(row)

{'_id': {'start': 0, 'type': 'Fast'}, 'meanTariff': 0.07697705802968961}
{'_id': {'start': 0, 'type': 'Rapid'}, 'meanTariff': 0.18671107142327464}
{'_id': {'start': 0, 'type': 'Ultra-Rapid'}, 'meanTariff': 0.15217509621635816}
{'_id': {'start': 0, 'type': 'AC'}, 'meanTariff': 0.19341258931247857}
{'_id': {'start': 1, 'type': 'Fast'}, 'meanTariff': 0.08223785166240409}
{'_id': {'start': 1, 'type': 'AC'}, 'meanTariff': 0.19449860767988805}
{'_id': {'start': 1, 'type': 'Rapid'}, 'meanTariff': 0.18662907988752872}
{'_id': {'start': 1, 'type': 'Ultra-Rapid'}, 'meanTariff': 0.13557090014149523}
{'_id': {'start': 2, 'type': 'Rapid'}, 'meanTariff': 0.1840564720620045}
{'_id': {'start': 2, 'type': 'Ultra-Rapid'}, 'meanTariff': 0.1540606264492557}
{'_id': {'start': 2, 'type': 'Fast'}, 'meanTariff': 0.07017263427109974}
{'_id': {'start': 2, 'type': 'AC'}, 'meanTariff': 0.16625086569062647}
{'_id': {'start': 3, 'type': 'AC'}, 'meanTariff': 0.15035952494937935}
{'_id': {'start': 3, 'type': 'Ultra-R