In [None]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta

def generate_random_product_dataframe(base_df, num_samples=None):
    if num_samples is None:
        num_samples = len(base_df)
    
    # Crear nuevo DataFrame
    df = pd.DataFrame(columns=base_df.columns)
    
    # Determinar los nombres de columnas
    date_column = base_df.columns[0]
    time_column = base_df.columns[1]
    model_column = base_df.columns[2]
    color_column = base_df.columns[3]
    current_price_column = base_df.columns[4]
    normal_price_column = base_df.columns[5]
    link_column = base_df.columns[6]
    
    # Generar fechas aleatorias en 2024
    start_date = datetime(2024, 1, 1)
    end_date = datetime(2024, 10, 31)
    date_range = (end_date - start_date).days
    
    for i in range(num_samples):
        # Seleccionar una fecha aleatoria en 2024
        random_days = np.random.randint(0, date_range)
        random_date = start_date + timedelta(days=random_days)
        
        # Generar hora aleatoria
        random_time = f"{np.random.randint(0,24):02d}:{np.random.randint(0,60):02d}:{np.random.randint(0,60):02d}"
        
        # Modificar precios con cierta aleatoriedad
        current_price = base_df[current_price_column].iloc[i % len(base_df)]
        normal_price = base_df[normal_price_column].iloc[i % len(base_df)]
        
        # Convertir precios a numérico, manejando diferentes formatos
        def convert_price(price):
            if isinstance(price, (int, float)):
                return price
            # Eliminar el símbolo de euro y reemplazar coma por punto
            return float(str(price).replace('€', '').replace(',', '.').strip())
        
        current_price_numeric = convert_price(current_price)
        normal_price_numeric = convert_price(normal_price)
        
        # Si el precio actual es 0 o menor, usar el precio normal
        if current_price_numeric <= 0:
            current_price_numeric = normal_price_numeric
        
        # Añadir variación aleatoria a los precios
        current_price_var = current_price_numeric * np.random.uniform(0.9, 1.1)
        normal_price_var = normal_price_numeric * np.random.uniform(0.9, 1.1)
        
        # Formatear precios de vuelta
        current_price_formatted = f"{current_price_var:.2f}€"
        normal_price_formatted = f"{normal_price_var:.2f}€"
        
        # Seleccionar aleatoriamente otros detalles
        model = base_df[model_column].iloc[i % len(base_df)]
        color = base_df[color_column].iloc[i % len(base_df)]
        link = base_df[link_column].iloc[i % len(base_df)]
        
        # Añadir al nuevo DataFrame
        df.loc[i] = [
            random_date.strftime('%Y-%m-%d'), 
            random_time, 
            model, 
            color, 
            current_price_formatted, 
            normal_price_formatted, 
            link
        ]
    
    return df

In [3]:
# Cargar el archivo CSV
df_original = pd.read_csv(r'data\productos_zalando_2024-11-19_16-31-50.csv', encoding='utf-8')

# Generar DataFrame aleatorio con 1000 productos
df_aleatorio = generate_random_product_dataframe(df_original, num_samples=1000)

# Eliminar filas con valores nulos en columnas importantes
df_aleatorio = df_aleatorio.dropna(subset=['model', 'color', 'current_price', 'normal_price'])

# Ordenar por fecha
df_aleatorio = df_aleatorio.sort_values(by='date')

# Guardar el DataFrame aleatorio como CSV
df_aleatorio.to_csv(r'data\datos_aleatorios_desde_2021.csv', index=False, encoding='utf-8')

print("Datos aleatorios generados y guardados en 'datos_aleatorios_2024.csv'")

Datos aleatorios generados y guardados en 'datos_aleatorios_2024.csv'


In [4]:
print(df_aleatorio)

           date      time                      model  \
566  2024-01-01  17:25:25                   METCON 9   
765  2024-01-01  17:08:42                 NANOFLEX 2   
2    2024-01-01  07:55:19                   METCON 9   
80   2024-01-01  19:25:49                   METCON 9   
870  2024-01-02  19:09:53                   METCON 9   
..          ...       ...                        ...   
950  2024-10-29  15:05:13                   METCON 9   
638  2024-10-29  08:33:55                   METCON 9   
483  2024-10-30  16:03:43                       NANO   
686  2024-10-30  05:24:38                 NANOFLEX 2   
697  2024-10-30  15:10:53  FLEX EXPERIENCE RN 12 PRM   

                                                 color current_price  \
566  white/deep royal blue/fierce pink/aquarius blu...        98.65€   
765                     barely grey black digital lime          nan€   
2                    black/white/anthracite/smoke grey       101.49€   
80                    light iron ore/fl