# ElectroDatos
HackUDC 16, 17, 18 de febrero 2024


Este es un notebook de ejemplo para ayudarte a comenzar con el análisis del dataset. En este notebook te mostramos como puedes cargarlo y visualizarlo de forma sencilla


## Descarga de los datos
Puede descargar el dataset necesario para la ejecución de este notebook en el mismo enlace en el que has conseguido este notebook.


## Código Base

### Instalación de dependencias

[Seaborn](https://github.com/mwaskom/seaborn): Seaborn is a Python data visualization library based on matplotlib. It provides a high-level interface for drawing attractive and informative statistical graphics.

[Ydata-profiling](https://github.com/ydataai/ydata-profiling): is a leading package for data profiling, that automates and standardizes the generation of detailed reports, complete with statistics and visualization.  Its primary goal is to provide a one-line Exploratory Data Analysis (EDA) experience in a consistent and fast solution.

In [None]:
!pip install seaborn
!pip install ydata-profiling

### Importación de librerías

In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from ydata_profiling import ProfileReport

### Carga de los datos

Como puedes ver en la siguiente celda del notebook, **se carga el archivo .csv que se enlaza al inicio del documento**.

Sobre el dataset teneis que saber que este contiene datos de múltiples contadores, cada uno asociado a una vivienda diferente. Para diferenciar las mediciones de los diferentes contadores, lo podeis hacer a través de la variable `Código universal de punto de suministro`

In [None]:
df = pd.read_csv("electrodatos.csv")
df

In [None]:
df.info()

Convertimos las columnas Fecha y datetime al datetime nativo de pandas para que sea más sencillo de trabajar con las mismas.

In [None]:
df['Fecha'] = df['Fecha'].apply(lambda x: pd.Timestamp(x))
df['datetime'] = pd.to_datetime(df['datetime'])
df

Convertimos el código de suministro a string patra tratarlo como una categoría

In [None]:
df['Código universal de punto de suministro'] = df['Código universal de punto de suministro'].astype(str)
df

In [None]:
df.info()

## Gráficas

Pintamos el consumo de todos los puntos de suministro para todos los datos que tenemos.

In [None]:
# Set the figure size
plt.figure(figsize=(10, 6))
sns.lineplot(data=df,
             x='datetime',
             y='Consumo',
             hue='Código universal de punto de suministro'
            )

Pintamos todos los datos del punto de suministro 6

In [None]:
sns.lineplot(data=df[df['Código universal de punto de suministro'] == '6'],
             x='datetime',
             y='Consumo',
             hue='Código universal de punto de suministro')

Graficamos filtrando entre fechas.

Queremos todos los puntos de suministro pero únicamente del 1 al 7 de mayo de 2023

In [None]:
sns.lineplot(
    data=df[(df['datetime'] > '2023-05-01') & (df['datetime'] < '2023-05-08')],
    x='datetime',
    y='Consumo',
    hue='Código universal de punto de suministro',
    alpha=0.5
  )

¿Cuáles son los últimos datos del punto de suministro 6?

Filtramos por punto de suministro y obtenemos su cola (tail)

In [None]:
df[df['Código universal de punto de suministro'] == '6'].tail()

*¿Cuál* es el día más reciente del que tenemos datos?

Simplemente obtenemos el valor máximo de la columna Fecha

In [None]:
df['Fecha'].max()

## EDA automático

¿Y no me pueden dar esa información de manera automática?

Para eso tenemos ydata-profiling, una librería que nos permite hacer un análisis exploratorio (EDA) de una manera sencilla. ¿Qué datos nos ofrece? ¡Veámoslo!

In [None]:
profile = ProfileReport(df, title="Report Contadores Luz")
profile