# Actividad 4: Creación de Dataset Sintético

**Asignatura:** Big Data Aplicado.
**Estudiante:** Byron V. Blatch Rodríguez.
**Fecha:** 26/11/2025

## Objetivos de la actividad
1. Generar un dataset sintético basándose en el ejemplo visto en clases de la página web de Aitor Medrano.

> Nota: Web de referencia para dataset sintética https://aitor-medrano.github.io/iabd/de/faker.html#datos-sinteticos

In [1]:
# Importo las librerías que usaré.

import pandas as pd
import numpy as np
from faker import Faker # La librería Faker para generar datos falsos
import uuid # Para generar identificadores únicos

# Establecemos una semilla para la reproducibilidad
np.random.seed(42)
Faker.seed(42)
fake = Faker('es_ES')

# Definimos nuestras constantes.
NUMERO_DE_CLIENTES = 500
YEAR = 2025
MAX_CONSUMO = 20.0 # kWh
MAX_GENERACION = 10.0 # kWh

# Generamos las IDs únicas para los clientes.
lista_ids = [str(uuid.uuid4()) for _ in range(NUMERO_DE_CLIENTES)]

In [None]:
# Divido el código para la generación de cada CSV que necesito.

# CSV de propietarios
datos_propietarios = [] # Lista para almacenar los datos de los propietarios

for client_id in lista_ids:
    datos_propietarios.append({
        'client_id': client_id,
        'nombre': fake.name(),
        'direccion': fake.address().replace('\n', ', '), # Limpiar saltos de línea
        'ciudad': fake.city(),
        'email': fake.email()
    })


df_propietarios = pd.DataFrame(datos_propietarios)

# Exportación a CSV
ruta_propietarios = 'data/propietarios.csv'  # Define la ruta donde se guardarán los archivos.
df_propietarios.to_csv(ruta_propietarios, index=False)
print(f"-> {ruta_propietarios} generado ({len(df_propietarios)} registros).")

-> data/propietarios.csv generado (500 registros).


In [9]:
# CSV de consumos y generación 
print("Creando tabla de consumos y generación...")

fechas = pd.date_range(start=f'{YEAR}-01-01', end=f'{YEAR}-12-31 23:00', freq='h') # Genera un rango de fechas por hora para todo el año
horas_por_ano = len(fechas) # 8760 horas en un año no bisiesto

datos_consumos = [] # Lista para almacenar los datos de consumos y generación

for client_id in lista_ids:
    # Estructura base temporal
    temp_df = pd.DataFrame({'timestamp': fechas})

    # Asignamos el ID del cliente
    temp_df['client_id'] = client_id

    # Generamos datos aleatorios vectorizados para consumo y generación.
    temp_df['consumo_kwh'] = np.round(np.random.uniform(0, MAX_CONSUMO, size=horas_por_ano), 2)
    temp_df['generado_kwh'] = np.round(np.random.uniform(0, MAX_GENERACION, size=horas_por_ano), 2)

    datos_consumos.append(temp_df)

# Concatenamos todos los dataframes temporales en uno solo
df_consumos = pd.concat(datos_consumos, ignore_index=True)

# Exportación a CSV
ruta_consumos = 'data/consumos_generacion.csv'  # Define la ruta donde se guardarán los archivos.
df_consumos.to_csv(ruta_consumos, index=False)
print(f"-> {ruta_consumos} generado ({len(df_consumos)} registros).")

print("\nProceso finalizado. Generado dos CSV vinculados por 'client_id'.")

Creando tabla de consumos y generación...
-> data/consumos_generacion.csv generado (4380000 registros).

Proceso finalizado. Generado dos CSV vinculados por 'client_id'.
