# Creación de datasets

### Importando librerías

In [581]:
import pandas as pd
import numpy as np
import random
import string
from datetime import datetime
from scipy.stats import truncnorm


### Función 'days_between' para calcular el la diferencia entre 2 fechas, recibe como parámetros:
- d1: fecha mínima
- d2: fecha máxima

retorna:
- un 'int' que se refiere a la diferencia en días entre las dos fechas

In [582]:
def days_between(d1, d2):
    d1 = datetime.strptime(d1, "%Y-%m-%d")
    d2 = datetime.strptime(d2, "%Y-%m-%d")
    return (d2 - d1).days

### Función 'get_count' para calcular los valores posibles en caso de columnas numéricas, categóricas o dates, recibe como parámetros:
- col: la columna de la cual queremos calcular el total de valores

retorna:
- un 'int' el cual se refiere a la cantidad total de valores posibles

In [583]:
def get_count(col):
    if col['type'] == 'category':
        return len(col['values'])
    elif col['type'] == 'numeric':
        return col['values']['max'] - col['values']['min']
    elif col['type'] == 'date':
        return days_between(col['max'], col['min'])
    else:
        return None

### Función 'getRows' para calcular el número máximo de registros que tendrán el dataframe (Este función y las anteriores son implementadas o usadas solamente en los casos en los que la columna 'random' de cualquier configuración de dataframe sea False), recibe como parámetros:
- conf: la configuración del dataframe del cual queremos obtener la cantidad máxima de registros

retorna:
- un 'int' que corresponde al número mayor entre todos los posibles valores de cada columna

In [584]:
def getRows(conf):
    columns_total_values = [
        get_count(col) for col in conf['columns'] if get_count(col) is not None
    ]

    return max(columns_total_values)

### Función 'validateRandomRows' para validar que existe el elemento 'random_rows' en el caso que el elemento 'random' sea True. Recibe como parámetros:
- conf: la configuración del dataframe donde su elemento 'random' es True.

retorna:
- Lanza un excepción si el elemento no existe, caso contrario, devuelve el valor que contiene random_rows

In [585]:
def validateRandomRows(conf):
    if 'random_rows' not in conf:
        raise NameError(f"random_rows no existe en la configuracion del dataset '{conf['ds']}'")
    
    return conf['random_rows']

### Función 'generate_unique_id' para crear un str de 16 caracteres de manera aleatoria
retorna:
- un 'str' el cual es un string de 16 caracteres, que pueden ser letras y números

In [586]:
def generate_unique_id():
    caracteres = string.ascii_letters + string.digits
    unique_id = ''.join(random.choices(caracteres, k=16))
    return unique_id

### Función 'generate_unique_ids' para crear 'n' str de 16 caracteres, donde 'n' es el número de registros máximos que tendrá el dataframe dependiendo de la configuración, recibe como parámetros:
- count: el número total de 'ids' que necesitamos

retorna:
- una 'list' que contiene todos los 'ids' distintos

In [587]:
def generate_unique_ids(count):
    unique_ids = set()
    while len(unique_ids) < count:
        unique_ids.add(generate_unique_id())
    return list(unique_ids)


### Función 'generate_truncated_normal_data' para calcular valores de columnas numéricas en caso de que exista media y desviación, recibe como parámetros:
- valores estadísticos (min, max, mean y std)
- cantidad de valores que deseamos (size)

retorna:
- un objeto 'list' que contiene todos los valores calculados a partir de la información estadística proporcionada

In [588]:
def generate_truncated_normal_data(min_val, max_val, mean, std, size):
    
    # Calcular los parámetros de la distribución normal truncada
    a, b = (min_val - mean) / std, (max_val - mean) / std
    data = truncnorm(a, b, loc=mean, scale=std).rvs(size)

    # data = [int(i) for i in data]
    return data

### Función 'generate_col' para calcular cada una de las columnas de cualquier dataframe, esta función recibe como parámetros:
- col: se refiere a la configuración de la columna que deseamos crear.
- conf_list: es la lista de las configuraciones de dataframe, nos servirá para utilizar recursividad, ya que se necesitará para los casos donde existan llave foráneas.
- rows: se refiere al número de valores totales que tendrá nuestra columna.
- df_dict: este es un diccionario de dataframes. En los casos que existan llaves foráneas, nos servirá para verificar que el dataframe al que se hace referencia, ya ha sido creado, en caso contrario, lo crearemos y lo agregaremos a 'df_dict'

retorna: 
- un objeto 'Series' de pandas, el cual es la columna que deseabamos generar

In [589]:
def generate_col(col, conf_list, rows, df_dict):
    if col['type'] == "category":
        return random.choices(col['values'], k=rows)
    elif col['type'] == "numeric":
        min = col['values']['min']
        max = col['values']['max']
        if 'mean' in col['values'] and 'std' in col['values']:
            mean = col['values']['mean']
            std = col['values']['std']
            return generate_truncated_normal_data(min, max, mean, std, rows)
        return [int(random.uniform(min, max)) for i in range(rows)]
    elif col['type'] == "unique":
        return generate_unique_ids(rows)
    elif col['type'] == 'foreign':
        ds_name_ref, col_name_ref = col['values'].split('.')
        
        ds_names = [c['ds'] for c in conf_list]
        print(ds_names)
        if ds_name_ref not in ds_names:
            raise ValueError(f"El nombre de dataset '{ds_name_ref}' no existe")
        else:
            con = [c for c in conf_list if c['ds'] == ds_name_ref]
            col_names = [col['name'] for col in con[0]['columns']]
            if col_name_ref not in col_names:
                raise ValueError(f"""
                    La columna {col_name_ref} no existe en el dataset '{ds_name_ref}'
                    Solamente puede seleccionar las columnas: {str(col_names)}
                    """)
        
        if ds_name_ref in df_dict:
            return random.choices(df_dict[ds_name_ref][col_name_ref], k=rows)
        else:
            temp_conf = [c for c in conf_list if c['ds'] == ds_name_ref]
            temp_df = build_dataframe(temp_conf[0], conf_list, df_dict)
            df_dict[ds_name_ref] = temp_df
            return random.choices(df_dict[ds_name_ref][col_name_ref], k=rows)
    else:
        raise ValueError("Tipo de columna no válida")

### Función 'build_dataframe' se utiliza para crear únicamente 1 dataframe, recibe como parámetros:
- conf: la configuración completa del dataframe a crear
- conf_list: la lista de configuraciones, servirá para enviar las configuraciones a 'generate_col' para los casos recursivos o de llave foránea.
- df_dict: enviamos la diccionarios de diccionarios para ser utilizado en 'generate_col' 

retorna:
- un objeto 'DataFrame' de pandas

In [590]:
def build_dataframe(conf, conf_list, df_dict):
    rows = validateRandomRows(conf) if conf['random'] else getRows(conf)
    df = pd.DataFrame()

    for col in conf['columns']:
        df[col['name']] = generate_col(col, conf_list, rows, df_dict)
    
    return df

### Función 'build_dataframes' sirve para crear la lista final de dataframes a partir de una lista de configuraciones, recibe solamente un parámetro:
- conf_list: lista de configuraciones de los dataframes a crear.

retorna:
- una 'list' que contiene los dataframes generados a partir de las configuraciones proporcionadas

In [591]:
def build_dataframes(conf_list):
    df_dict = {}
    result = []

    for conf in conf_list:
        df = df_dict[conf['ds']] if conf['ds'] in df_dict else build_dataframe(conf, conf_list, df_dict)
        # df_dict[conf['ds']] = df
        result.append(df)

    return result

# Ejemplo de uso

In [592]:
d1 = {
        "ds": "dataset1",
        "columns": [
            {
                "name": "segment",
                "type": "category",
                "values": ["Consumer", "Corporate", "Home Office"]
            },
            {
                "name": "id",
                "type": "unique"
            },
            {
                'name': 'test',
                'type': 'numeric',
                'values': {'min': 5, 'max':6}
            }
        ],
        "random": False
    }


d2 = {
        "ds": "dataset2",
        "columns": [
            {
                "name": "id",
                "type": "unique"
            },
            {
                "name": "segment",
                "type": "foreign",
                "values": "dataset1.segment"
            },
            {
                "name": "ship_mode",
                "type": "category",
                "values": ["First Class", "Same Day", "Second Class", "Standard Class"]
            }
        ],
        "random": False
    }


d3 = {
        "ds": "dataset3",
        "columns": [
            {
                "name": "id",
                "type": "unique"
            },
            {
                "name": "segment",
                "type": "foreign",
                "values": "dataset1.segment"
            },
            {
                "name": "ship_mode",
                "type": "foreign",
                "values": "dataset2.ship_mode"
            },
            {
                "name": 'country',
                'type': 'category',
                'values': ['USA', 'HON']
            },
            {
                'name': 'products_cat',
                'type': 'category',
                'values': ['Accesories', 'Art', 'Phones', 'Supplies', 'Chairs', 'Paper']
            },
            {
                'name': 'region',
                'type': 'category',
                'values': ['South', 'North']
            },
            {
                "name": "quantity",
                "type": "numeric",
                "values": {"min": 1, "max": 15}
            },
            {
                "name": "sale price",
                "type": "numeric",
                "values": {"min": 10, "max": 1500, "std": 300,
                "mean": 200}
            }
            ],
        "random": True,
        "random_rows": 1000
    }

configuration_list = [d2, d3, d1]

dataframe_list = build_dataframes(configuration_list)


['dataset2', 'dataset3', 'dataset1']
['dataset2', 'dataset3', 'dataset1']
['dataset2', 'dataset3', 'dataset1']
['dataset2', 'dataset3', 'dataset1']


# Simulación de Dataset

In [593]:
simulation_extended = dataframe_list[1]

## Análisis Detallado

- Creamos una nueva columna para contabilizar las ocurrencias para cada combinacion distinta
- aggregation: contiene todas las distintas combinaciones entre segment', 'ship_mode', 'country' y 'products_cat', así como el total de ocurrencias que existen en el dataframe original.

He decidido no incluir únicamente la columna categórica 'region' ya que no me aporta información relevante para ser analizada, a diferencia de 'products_cat' que me proporciona más detalle de lo que nos habla el dataframe (que son ventas realizadas).

In [594]:


simulation_extended['n'] = 1

aggregation = (simulation_extended.
               groupby([
                   'segment',
                   'ship_mode',
                   'country',
                #    'region'
                   'products_cat'
               ], as_index = False)
               .agg({
                   'n': ['count']
               })
               )

aggregation

Unnamed: 0_level_0,segment,ship_mode,country,products_cat,n
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,count
0,Consumer,First Class,HON,Accesories,21
1,Consumer,First Class,HON,Art,16
2,Consumer,First Class,HON,Chairs,11
3,Consumer,First Class,HON,Paper,12
4,Consumer,First Class,HON,Phones,10
...,...,...,...,...,...
67,Home Office,Same Day,USA,Art,20
68,Home Office,Same Day,USA,Chairs,12
69,Home Office,Same Day,USA,Paper,17
70,Home Office,Same Day,USA,Phones,18


- Renombramos las columnas de la agregación del paso anterior
- Calculamos las probabilidades de cada combinación, en base a la cantidad total que aparece la combinación en el dataframe original

In [595]:
aggregation.columns = ['segment', 'ship_mode', 'country', 'products_cat', 'count']
aggregation['probs'] = aggregation['count'] / simulation_extended.shape[0]

aggregation

Unnamed: 0,segment,ship_mode,country,products_cat,count,probs
0,Consumer,First Class,HON,Accesories,21,0.021
1,Consumer,First Class,HON,Art,16,0.016
2,Consumer,First Class,HON,Chairs,11,0.011
3,Consumer,First Class,HON,Paper,12,0.012
4,Consumer,First Class,HON,Phones,10,0.010
...,...,...,...,...,...,...
67,Home Office,Same Day,USA,Art,20,0.020
68,Home Office,Same Day,USA,Chairs,12,0.012
69,Home Office,Same Day,USA,Paper,17,0.017
70,Home Office,Same Day,USA,Phones,18,0.018


- Generamos una muestra aleatoria a partir de los indices de las combinaciones que están en 'agregation' y utilizando las probabilidades de cada combinación.
- randIndex: contiene los indices generados aleatoriamente.

In [596]:
randIndex = np.random.choice( 
    aggregation.index
    , size=10000 
    , p = list(aggregation['probs'])
)

- Visualizamos las filas del DataFrame 'agregation' cuyos índices están en randIndex, y solo incluye las columnas “segment”, "ship_mode", “country” y “products_cat”. Luego con .loc[2]: Selecciona la fila con el índice 2 de la selección anterior.

In [597]:
OneSegmentShipCountryProd = aggregation.loc[randIndex , ['segment', 'ship_mode', 'country', 'products_cat']].loc[2]

segment, ship_m, country, p_cat = OneSegmentShipCountryProd.iloc[0]

print(segment, ship_m, country, p_cat)

Consumer First Class HON Chairs


A continuación del dataset original seleccionamos solamente los registros con las combinaciones:
- 'segment': 'Consumer'
- 'ship_mode': 'First Class'
- 'country': 'HON'
- 'products_cat': 'Chairs' 

y podemos ver que tiene 16 registros eso significa que 16/1,000 = 0.016 de representatividad en ese dataset de 1,000 registros

In [598]:
test = simulation_extended.loc[ 
    ( simulation_extended['segment'] == segment )
    &
    ( simulation_extended['ship_mode'] == ship_m )
    &
    ( simulation_extended['country'] == country )
    &
    ( simulation_extended['products_cat'] == p_cat )
, : ]

print(f"""
Del dataset original seleccionamos solamente los registros con las combinaciones:
- segment = {segment}
- ship_mode = {ship_m}
- country = {country}
- products_cat = {p_cat}

Y observamos que existen {test.shape[0]} registros para esa combinación. Eso significa que {test.shape[0]} / 1,000 = {test.shape[0]/1000} de representatividad en ese dataset de 1,000 registros.  
""")


Del dataset original seleccionamos solamente los registros con las combinaciones:
- segment = Consumer
- ship_mode = First Class
- country = HON
- products_cat = Chairs

Y observamos que existen 11 registros para esa combinación. Eso significa que 11 / 1,000 = 0.011 de representatividad en ese dataset de 1,000 registros.  



Ahora, al dividir los registros totales de 'OneSegmentShipCountryProd' entre 10,000, observamos que obtenemos un valor muy cercano a la representatividad del dataset original 

In [599]:
OneSegmentShipCountryProd.shape[0] / 10000


0.0104

In [600]:
salePriceStats = simulation_extended.loc[ 
    ( simulation_extended['segment'] == segment )
    &
    ( simulation_extended['ship_mode'] == ship_m )
    &
    ( simulation_extended['country'] == country )
    &
    ( simulation_extended['products_cat'] == p_cat )
, : ].groupby(
    [ "segment" , "ship_mode", 'country', 'products_cat']
    , as_index = False
).agg(
    {
        "sale price": ["min","max","mean","std"]
    }
)

salePriceStats.columns = ['segment', 'ship_mode', 'country', 'products_cat', 'min', 'max', 'mean', 'std']

salePriceStats

Unnamed: 0,segment,ship_mode,country,products_cat,min,max,mean,std
0,Consumer,First Class,HON,Chairs,70.442212,732.498553,345.331786,256.049594


In [601]:
data = generate_truncated_normal_data(
    salePriceStats["min"][0]
    , salePriceStats["max"][0]
    , salePriceStats["mean"][0]
    , salePriceStats["std"][0]
    , OneSegmentShipCountryProd.shape[0]
)

data

array([225.19758387, 187.16514386, 400.10220332, 437.39162994,
       218.18276565, 147.75585743,  94.94906679, 112.38406698,
       536.51336265, 600.872349  , 503.89263717, 187.77616269,
       509.9245206 , 409.26197886, 362.81162466, 228.8819625 ,
       201.32548449, 697.26494745, 584.71023792, 594.70495532,
       187.69534159, 334.69361132, 623.84714444, 661.27406266,
       418.73378161, 406.97211675, 420.69211344, 366.54077152,
       466.28737379, 412.61593056, 319.5925922 , 318.13149197,
       236.71758096, 113.38213435, 300.98981353, 283.47858767,
       659.05912325, 399.12373537, 536.81490741, 299.05846102,
       626.26000381, 616.09953314, 256.20846273, 246.72376911,
       348.35263895, 243.57201836, 505.15843215, 621.3619561 ,
       138.20288927, 531.52018003, 530.19577905, 566.1351591 ,
       360.77283725, 173.14211446, 567.80026403, 289.96552952,
       201.98514171, 714.81572777, 230.19493865, 165.72691753,
       119.79202688, 472.38148554, 356.93301842, 254.72

In [602]:
OneSegmentShipCountryProd['quantity'] = data

OneSegmentShipCountryProd

Unnamed: 0,segment,ship_mode,country,products_cat,quantity
2,Consumer,First Class,HON,Chairs,225.197584
2,Consumer,First Class,HON,Chairs,187.165144
2,Consumer,First Class,HON,Chairs,400.102203
2,Consumer,First Class,HON,Chairs,437.391630
2,Consumer,First Class,HON,Chairs,218.182766
...,...,...,...,...,...
2,Consumer,First Class,HON,Chairs,136.759867
2,Consumer,First Class,HON,Chairs,604.675816
2,Consumer,First Class,HON,Chairs,73.117242
2,Consumer,First Class,HON,Chairs,527.911377


In [603]:
categories = ['segment', 'ship_mode', 'country', 'products_cat']

simulated = aggregation.loc[randIndex, categories]

column_name = 'quantity'

## Creación del dataset simulado

In [604]:
def get_categorical_dataset_simulated(simulation_extended, category_cols, size_):
    # Encontramos las diferentes combinaciones entre las columnas categóricas seleccionadas
    simulation_extended['n'] = 1

    newAgg = simulation_extended.groupby(
        category_cols, 
        as_index = False
    ).agg(
        {
            'n': ['count']
        }
    )

    cols = [c for c in category_cols]
    cols.extend(['count'])
    newAgg.columns = cols

    # Calculamos las probabilidades de cada combinación
    newAgg['prob'] = newAgg['count'] / simulation_extended.shape[0]

    # Creamos una lista de 100,000 elementos, dichos elementos son índices calculados a partir de las diferentes combinaciones y usando sus probabilidades
    randIndex = np.random.choice(
        aggregation.index,
        size=size_,
        p= list(newAgg['prob'])
    )

    # Creamos el dataset simulado seleccionando desde newAgg, los índices que aparecen en randIndex y eligiendo unicamente las columnas categóricas búscadas
    simulated = newAgg.loc[randIndex, category_cols]

    return simulated

In [605]:
category_cols = ['segment', 'ship_mode', 'country', 'products_cat']
size = 100000

final_simulation = get_categorical_dataset_simulated(simulation_extended, category_cols, size)

final_simulation.shape

(100000, 4)

## Generando los valores de las columnas numéricas con la función utilizada en clase

In [606]:
def get_numeric_column_simulated(simulated, df_origin, categories, column_name):
    agg = df_origin.groupby(
        categories
        , as_index = False
    ).agg(
        {
            column_name: ["min","max","mean","std"]
        }
    )
    nc = [ c for c in categories ]
    nc.extend( ["min" , "max" , "mean" , "std"] )
    agg.columns = nc

    ColumnSimulated = pd.DataFrame()
    for i in agg.index:
        rs = agg.loc[i]
        OneSegmentShipCountryProd = simulated.loc[i].copy()

        print(f"Valores - min: {rs['min']}, max: {rs['max']}, mean: {rs['mean']}, std: {rs['std']}")
        
        if np.isnan(rs['std']):
            print(f"std: {rs['std']}")
    
        data = generate_truncated_normal_data(
            rs["min"] - 1 if rs["std"] == 0 or np.isnan(rs['std']) else rs["min"]
            , rs["max"] + 1 if rs["std"] == 0 or np.isnan(rs['std']) else rs["max"], 
            rs["mean"]
            , 1 if (rs["std"] <= 0 or np.isnan(rs['std'])) else rs["std"]
            , OneSegmentShipCountryProd.shape[0]
        )
    
        OneSegmentShipCountryProd[column_name] = data
    
        ColumnSimulated = pd.concat( [ ColumnSimulated , OneSegmentShipCountryProd  ] )

    return ColumnSimulated.reset_index(drop=True)

In [607]:
numeric_columns = ["quantity","sale price"]

# final_simulation = simulated.sort_index().reset_index(drop=True).copy()

for nc in numeric_columns:
    ncdf = get_numeric_column_simulated( final_simulation , simulation_extended , category_cols , nc )

    final_simulation = pd.merge( final_simulation , ncdf.loc[ : , [nc] ] , left_index=True , right_index=True )

Valores - min: 1, max: 14, mean: 8.619047619047619, std: 3.9934470132479594
Valores - min: 2, max: 14, mean: 7.1875, std: 4.505089714238034
Valores - min: 1, max: 12, mean: 7.909090909090909, std: 3.1766191290283907
Valores - min: 3, max: 14, mean: 7.5, std: 3.5032452487268535
Valores - min: 1, max: 14, mean: 8.0, std: 4.422166387140534
Valores - min: 1, max: 14, mean: 7.2, std: 4.137123333148797
Valores - min: 1, max: 14, mean: 7.571428571428571, std: 4.327271048279125
Valores - min: 4, max: 14, mean: 9.3, std: 3.0568684048294332
Valores - min: 2, max: 13, mean: 7.2631578947368425, std: 3.739312254994343
Valores - min: 1, max: 14, mean: 8.857142857142858, std: 3.43862993417085
Valores - min: 1, max: 14, mean: 7.933333333333334, std: 4.636295729916081
Valores - min: 1, max: 14, mean: 6.65, std: 4.2087002619261025
Valores - min: 1, max: 14, mean: 8.916666666666666, std: 4.294993561924127
Valores - min: 2, max: 14, mean: 7.2, std: 3.6147844564602556
Valores - min: 2, max: 13, mean: 7.75,