# Creador de datos Dummy

Ingresa tu rango de fechas y la función generate_dummy_df se encargará de crear tus datos dummy
En caso de que tengas datos reales asegúrate que tengan el siguiente formato:

| ID_pedido | Fecha_pedido | Fecha_picking | Fecha_factura | Fecha_entrega |
|-----------|--------------|--------------|--------------|--------------|
| 1         | DD/MM/YYYY   | DD/MM/YYYY   | DD/MM/YYYY   | DD/MM/YYYY   |


In [4]:
import pandas as pd
import random
from datetime import datetime, timedelta

In [5]:
# Función para generar fechas aleatorias dentro de un rango
def random_date(start_date, end_date):
    return start_date + timedelta(days=random.randint(0, (end_date - start_date).days))

# Función para generar valores dummy y guardarlos en un DataFrame
def generate_dummy_df(values=1000):
    start_date = datetime(2020, 1, 1)  # Fecha de inicio
    end_date = datetime(2023, 12, 31)  # Fecha de fin
    id_pedido = 1
    dummy_data = []

    for _ in range(values):
        fecha_pedido = random_date(start_date, end_date)
        fecha_picking = random_date(fecha_pedido, fecha_pedido + timedelta(days=4))
        fecha_factura = random_date(fecha_picking, fecha_picking + timedelta(days=2))
        fecha_entrega = random_date(fecha_factura, fecha_factura + timedelta(days=8))

        dummy_data.append([id_pedido, fecha_pedido, fecha_picking, fecha_factura, fecha_entrega])
        id_pedido += 1

    # Crear un DataFrame a partir de los datos dummy
    df = pd.DataFrame(dummy_data, columns=["ID_pedido", "Fecha_pedido", "Fecha_picking", "Fecha_factura", "Fecha_entrega"])
    
    return df

## Corre la siguiente celda para generar tu Dataframe, cambia el valor de "Values" para definir cuantos registros quieres generar

In [9]:
values = 1000
# Llamamos a la función y obtenemos el DataFrame
dummy_df = generate_dummy_df(values)

# Puedes imprimir el DataFrame
print(dummy_df)

     ID_pedido Fecha_pedido Fecha_picking Fecha_factura Fecha_entrega
0            1   2023-07-14    2023-07-18    2023-07-20    2023-07-21
1            2   2021-03-03    2021-03-04    2021-03-05    2021-03-08
2            3   2020-03-31    2020-04-03    2020-04-03    2020-04-10
3            4   2020-11-06    2020-11-09    2020-11-09    2020-11-17
4            5   2022-07-27    2022-07-29    2022-07-30    2022-08-02
..         ...          ...           ...           ...           ...
995        996   2023-05-23    2023-05-27    2023-05-28    2023-06-04
996        997   2023-11-11    2023-11-13    2023-11-14    2023-11-18
997        998   2022-08-01    2022-08-04    2022-08-06    2022-08-13
998        999   2023-04-12    2023-04-16    2023-04-16    2023-04-23
999       1000   2020-10-01    2020-10-05    2020-10-06    2020-10-06

[1000 rows x 5 columns]


In [10]:
# Función para agregar outliers a las fechas
def add_outliers(df, num_outliers):
    df_with_outliers = df.copy()
    num_rows, num_cols = df.shape
    for _ in range(num_outliers):
        row_index = random.randint(0, num_rows - 1)
        col_index = random.randint(1, num_cols - 1)  # Excluimos la columna de ID_pedido
        date = df.iloc[row_index, col_index]
        days = random.randint(5, 20)  # Puedes ajustar el rango de días para los outliers
        new_date = date + timedelta(days)
        df_with_outliers.iat[row_index, col_index] = new_date
    return df_with_outliers

## Si deseas agregar algunos outliers a tu DF corre la siguiente celda seleccionando el número de outliers que quieras agregar

In [12]:
# Llamamos a la función para agregar outliers
dummy_df = add_outliers(dummy_df, num_outliers=30)  # Puedes ajustar el número de outliers

# Imprimimos el DataFrame con outliers
print(dummy_df)

     ID_pedido Fecha_pedido Fecha_picking Fecha_factura Fecha_entrega
0            1   2023-07-14    2023-07-18    2023-07-20    2023-07-21
1            2   2021-03-03    2021-03-04    2021-03-05    2021-03-08
2            3   2020-03-31    2020-04-03    2020-04-03    2020-04-10
3            4   2020-11-06    2020-11-09    2020-11-09    2020-11-17
4            5   2022-07-27    2022-07-29    2022-07-30    2022-08-02
..         ...          ...           ...           ...           ...
995        996   2023-05-23    2023-05-27    2023-05-28    2023-06-04
996        997   2023-11-11    2023-11-13    2023-11-14    2023-11-18
997        998   2022-08-01    2022-08-04    2022-08-06    2022-08-13
998        999   2023-04-12    2023-04-16    2023-04-16    2023-04-23
999       1000   2020-10-01    2020-10-05    2020-10-06    2020-10-06

[1000 rows x 5 columns]


## Corre la siguiente celda si deseas tener "missing_values" en tu dataset, cambia el valor de la variable "values" para seleccionar la cantidad de vacíos que quieres tener

In [13]:
# Función para introducir celdas vacías (missing values) de forma aleatoria
def introduce_missing_values(df, num_missing_values):
    df_with_missing_values = df.copy()
    num_rows, num_cols = df.shape

    for _ in range(num_missing_values):
        row_index = random.randint(0, num_rows - 1)
        col_index = random.randint(1, num_cols - 1)  # Excluimos la columna de ID_pedido
        df_with_missing_values.iat[row_index, col_index] = None

    return df_with_missing_values

In [15]:
values = 15

# Llamamos a la función para introducir missing values
dummy_df = introduce_missing_values(dummy_df.copy(), values)  # Puedes ajustar el número de missing values

# Imprimimos el DataFrame con missing values
print(dummy_df)

     ID_pedido Fecha_pedido Fecha_picking Fecha_factura Fecha_entrega
0            1   2023-07-14    2023-07-18    2023-07-20    2023-07-21
1            2   2021-03-03    2021-03-04    2021-03-05    2021-03-08
2            3   2020-03-31    2020-04-03    2020-04-03    2020-04-10
3            4   2020-11-06    2020-11-09    2020-11-09    2020-11-17
4            5   2022-07-27    2022-07-29    2022-07-30    2022-08-02
..         ...          ...           ...           ...           ...
995        996   2023-05-23    2023-05-27    2023-05-28    2023-06-04
996        997   2023-11-11    2023-11-13    2023-11-14    2023-11-18
997        998   2022-08-01    2022-08-04    2022-08-06    2022-08-13
998        999   2023-04-12    2023-04-16    2023-04-16    2023-04-23
999       1000   2020-10-01    2020-10-05    2020-10-06    2020-10-06

[1000 rows x 5 columns]


## Corre la siguiente función para guardar el df en un archivo CSV

In [16]:
# Para guardar el DataFrame en un archivo CSV, por ejemplo:
dummy_df.to_csv("../data/data.csv", index=False)