# Generacíon de Datos Sintéticos para Clustering

In [4]:
import numpy as np
import pandas as pd

# Configuración de la semilla aleatoria para la reproducibilidad
np.random.seed(0)

# Número de muestras y características
num_muestras = 1000
num_caracteristicas = 10

# Generar datos sintéticos
# Dividimos los datos en 3 grupos
grupo1 = np.random.normal(loc=0, scale=1, size=(num_muestras // 3, num_caracteristicas))
grupo2 = np.random.normal(loc=5, scale=1.5, size=(num_muestras // 3, num_caracteristicas))
grupo3 = np.random.normal(loc=-5, scale=0.5, size=(num_muestras - 2 * (num_muestras // 3), num_caracteristicas))

# Combinar los datos en un único DataFrame
datos_sinteticos = np.vstack([grupo1, grupo2, grupo3])
df_datos_sinteticos = pd.DataFrame(datos_sinteticos, columns=[f"variable_{i}" for i in range(1, num_caracteristicas + 1)])

# Mezclar los datos de manera aleatoria
df_datos_sinteticos = df_datos_sinteticos.sample(frac=1).reset_index(drop=True)

# Mostrar las primeras filas del DataFrame
print(df_datos_sinteticos.head())

   variable_1  variable_2  variable_3  variable_4  variable_5  variable_6  \
0    8.344961    4.715572    6.428700    5.255314    6.409827    5.798243   
1   -5.502146   -5.035375   -5.768499   -5.440576   -5.452099   -4.647987   
2    6.239869    7.277777    7.645180    1.848981    6.435969    5.371813   
3   -5.056919   -5.580652   -4.721013   -5.598207   -4.361949   -5.271425   
4    5.597015    4.666456    6.113044    1.391359    6.113810    6.160972   

   variable_7  variable_8  variable_9  variable_10  
0    3.141838    6.934148    3.712691     3.048803  
1   -4.400470   -4.081165   -4.336583    -5.086407  
2    6.773858    6.467779    4.140253     3.523331  
3   -5.383804   -6.019011   -5.418709    -4.096154  
4    7.710515    2.923001    5.282002     4.713573  


In [5]:
# Guardar los datos en un fichero CSV
from pathlib import Path
file_path = ("../datos/demo_data_clustering.csv")
df_datos_sinteticos.to_csv(file_path, index=False)