# E3. Uso de Ydata Profiling para EDA

## Objetivo  
Utilizar la herramienta pandas_profiling (ahora ydata-profiling) para realizar un análisis exploratorio de datos (EDA) sobre una serie temporal de consumo energético.

## Descripción del ejercicio
Tienes un conjunto de datos con información del consumo energético registrado por hora en una ciudad. Tu tarea es utilizar pandas_profiling para obtener un análisis detallado de la serie temporal, identificar valores faltantes, detectar posibles anomalías y extraer información relevante sobre las tendencias de consumo.

### Instalación de librerias

In [None]:
!pip install ydata_profiling
!pip install ydata-profiling[notebook]

### Carga de datos

In [None]:
import pandas as pd
from ydata_profiling import ProfileReport
import numpy as np

# Generar datos sintéticos de consumo energético por hora
np.random.seed(42)
date_range = pd.date_range(start="2023-01-01", periods=24*30, freq="1h")  # Un mes de datos
consumo = np.random.normal(loc=50, scale=10, size=len(date_range))  # Consumo con ruido

# Introducir algunos valores nulos y anomalías
consumo[100] = np.nan  # Valor faltante
consumo[500] = 200  # Valor atípico
consumo[1000:1010] = np.nan  # Segmento de datos faltantes

# Crear DataFrame
df = pd.DataFrame({"Fecha": date_range, "Consumo_kWh": consumo})
df["Fecha"] = pd.to_datetime(df["Fecha"])  # Asegurar formato datetime
df.set_index("Fecha", inplace=True)


In [None]:
# De manera alternativa podemos utilizar un dataset más rico en datos
from ydata_profiling.utils.cache import cache_file

file_name = cache_file(
    "titanic.csv",
    "https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv",
)
df = pd.read_csv(file_name)


## Generación de Informe
La función `create_report` de Dataprep realiza un análisis exploratorio completo: describe las variables, detecta valores faltantes, genera gráficos interactivos, distribuciones y correlaciones, todo sin necesidad de codificar manualmente cada paso.

In [None]:
# Generar reporte de pandas profiling
profile = ProfileReport(df, explorative=True)
# Guardar y visualizar el informe
profile.to_file("data/profiling_eda.html")
print("Reporte generado: eda_consumo_energetico.html")

## Visualización

Una vez generado, el informe se abre en el navegador, permitiendo explorar interactivamente los resultados y personalizar el análisis según se requiera.

In [None]:
profile.to_widgets()