# Modelos de datos en el dataset
 - Unique : ID único de 16 caracteres.
 - category : se deben proporcionar los valores categóricos
 - foreign : se debe especificar el dataset y la columna dataset.columna
 - date: fecha máxima:
 - numeric: tipo de dato numérico

**random**: Esto significa que el dataset tendrá como número máximo de registros la cantidad de valores en la columna con el mayor número de valores.

In [818]:
import pandas as pd
import numpy as np
import random
import uuid
from scipy.stats import truncnorm
from datetime import datetime

In [820]:
d1 = {
  "ds": "dataset1",
  "columns": [
    {
      "name": "departamento",
      "type": "category",
      "values": ["Venta", "Marketing", "Desarrollo", "Soporte"]
    },
    {
      "name": "id_empleados",
      "type": "unique"
    },
    {
      "name": "fecha_inicio",
      "type": "date",
      "values": {
          "min": "2010-12-31",
        "max": "2023-12-31"
      }
    },
    {
      "name": "sueldo",
      "type": "numeric",
      "values": {
        "min": 1200,
        "max": 70000
      }
    }
  ],
  "random": True,
  "random_rows": 1000
}

d2 = {
  "ds": "dataset2",
  "columns": [
    {
      "name": "region",
      "type": "category",
      "values": ["Norte", "Sur", "Este", "Oeste"]
    },
    {
      "name": "id_producto",
      "type": "unique"
    },
    {
      "name": "categoria_producto",
      "type": "category",
      "values": ["Electronica", "Mueble", "Ropa", "Comida"]
    },
    {
      "name": "Fecha_venta",
      "type": "date",
      "values": {
          "min": "2024-06-02",
        "max": "2024-06-30"
      }
    }
  ],
  "random": True,
  "random_rows": 1000
}



d3 = {
  "ds": "dataset3",
  "columns": [
    {
      "name": "Proyecto",
      "type": "category",
      "values": ["Alpha", "Beta", "Gamma", "Delta"]
    },
    {
      "name": "id_proyecto",
      "type": "unique"
    },
    {
      "name": "fecha_inicio",
      "type": "date",
      "values": {
        "min": "2024-12-01",
        "max": "2024-12-31"
      }
    },
    {
      "name": "presupuesto",
      "type": "numeric",
      "values": {
        "min": 100000,
        "max": 500000
      }
    },
    {
      "name": "id_administrador",
      "type": "foreign",
      "values": "dataset1.id_empleados"
    }
  ],
  "random": False,
}

d4={
  "ds": "dataset4",
  "columns": [
    {
      "name": "locacion",
      "type": "category",
      "values": ["Tegucigalpa", "Catacamas", "Danli", "Santa Rosa"]
    },
    {
      "name": "location_id",
      "type": "unique"
    },
    {
      "name": "fecha_establecimiento",
      "type": "date",
      "values": {
        "min":"2020-01-01",
        "max": "2020-02-01"
      }
    },
    {
      "name": "num_empleados",
      "type": "numeric",
      "values": {
        "min": 10,
        "max": 500
      }
    }
  ],
  "random": True,
  "random_rows": 1000
}
d5 = {
  "ds": "dataset5",
  "columns": [
      
    
    {
      "name": "producto_comprado",
      "type": "foreign",
      "values": "dataset2.categoria_producto"
    },
    {
      "name": "metodo_pago",
      "type": "category",
      "values": ["Tarjeta", "Efectivo", "Transferencia"]
    },
      {
      "name": "tipo_cliente",
      "type": "category",
      "values": ["Regular", "Nuevo", "Premium"]
    },
      {
          "name":"ubicacion",
          "type":"foreign",
          "values":"dataset2.region"
      }
  ,
    {
      "name": "total",
      "type": "numeric",
      "values": {
        "min": 100,
        "max": 500000
      }
    },
    
    {
      "name": "descuento",
      "type": "numeric",
      "values": {
        "min": 0,
        "max": 500
      }
    }],
  "random": True,
  "random_rows": 500
  
}



# Funciones 

In [822]:
#Esta función encuentra el tamaño máximo basado en la configuración proporcionada..

def findMax(config):
    size=0
    
    for column in config["columns"] :
        if column["type"] in ["date","numeric","category"]:
            if config["random"]:
                    size=config["random_rows"]
            else: 
                
                if column["type"]=="date":
                    
                    dateMin=datetime.strptime(column["values"]["min"],'%Y-%m-%d')
                    dateMax=datetime.strptime(column["values"]["max"],'%Y-%m-%d')
                    days=(dateMax-dateMin).days
                    if(days>size):
                        
                        size=days
                elif column["type"]=="category" :
                    
                    if len(column["values"])>size:
                        
                        size=len(column["values"])
                else:
                    if column["values"]["max"]!=None and column["values"]["max"]>size:
                        
                        size=column["values"]["max"]
                
                    
                
    return size
    
# Esta funcion genera n cantidad de ID de 16 caracteres
def generateID(n):
    list_id=[]
    for i in range(n):
        unique_id = uuid.uuid4().hex
        unique_id[16:]
        list_id.append(unique_id)
    return list_id
                
# Esta funcion genera n cantidad de fechas aleatorias en un rango determinado
def get_random_dates( min , max , n ):
    items = pd.date_range( start = min , end = max , freq = 'D' )
    return random.choices( items , k=n )                
                
            
# Esta funcion genera, una lista de tamanio n, dada una lista predeterminada     
def get_random_category(items,n):
    return random.choices( items , k=n )
        
# Esta funcion genera, n cantidad de valores numericos que siguen una funcion normal Truncada
  
def generate_truncated_normal_data(mean, std, min_val, max_val, size):
    # Calcular los parámetros de la distribución normal truncada
    a, b = (min_val - mean) / std, (max_val - mean) / std
    data = truncnorm(a, b, loc=mean, scale=std).rvs(size)
    return data  
# Esta funcion genera, n cantidad de elementos que siguen la distribucion normal

def simpleNormal(min,max,n):
    list=[]
    mean=(min+max)/2
    std=(max-min)/6
    return np.random.normal(mean,std,n)


# Esta funcion, determina si existe un dataset y una determinada columna en el dataset
# Retorna la posicion del dataset en el config_list en caso de que exista
# Si no existe devuele un error

def searchDataset(config_list,name,column_name):
    for i in range(len(config_list)):
        if config_list[i]["ds"]==name:
            columns=[]
            for column in config_list[i]["columns"]:
                
                if column["name"]==column_name:
                    return i
            mensaje=f"No existe la columna \'{column_name}\' en el dataset  \'{name}\' las columnas que podria utilizar son : \n"+ str([ c["name"] for c in config_list[i]["columns"] ] )
            raise ValueError(mensaje)
    raise ValueError("No existe el \' dataset \' "+name)


In [824]:
#Esta funcion permite, construir un dataFrame  a partir de los archivos de configuracion
# recibe la lista de configuracion, la lista para los dataframe, la configuracion actual, y el tamaño del mismo
def build_dataframe(config_list,dataFrame_list,config):
    dataElement={}
    
    
    size=findMax(config)
    
    for column in config["columns"]: 
        if column["type"] in ["unique","category","foreign","date","numeric"]:

            if column["type"]=="foreign" :
                
                names=column["values"].split(".")
                
                index=searchDataset(config_list,names[0],names[1])

                if(dataFrame_list[index] is None):
                    dataFrame_list[index]=build_dataframe(config_list,dataFrame_list,config_list[index])
           
                dataElement[column["name"]]=random.choices(list(dataFrame_list[index][names[1]]),k=size )
                
            elif column["type"]=="unique" :
                    dataElement[column["name"]]=generateID(size)
                
            elif column["type"]== "date" :
                    dataElement[column["name"]]=get_random_dates(column["values"]["min"],column["values"]["max"],size)
                
            elif column["type"]=="category" :
                    dataElement[column["name"]]=get_random_category(column["values"],size)
                
            elif column["type"]=="numeric":
                if "mean" in column["values"].keys():
                    dataElement[column["name"]]=generate_truncated_normal_data(
                            column["values"]["mean"],column["values"]["std"],column["values"]["min"],column["values"]["max"],size)
                else:
                        dataElement[column["name"]]=simpleNormal(column["values"]["min"],column["values"]["max"],size)
                        
    return pd.DataFrame(dataElement)
    

In [826]:
def build_dataframes(config_list):
    dataFrameList=h=np.full(len(config_list),None)

    for i in range(len(config_list)):
        
        if dataFrameList[i] is None :
            dataFrameList[i]=build_dataframe(config_list,dataFrameList,config_list[i])
            
    return dataFrameList


    

In [828]:
config_list=[d1,d2,d3,d4,d5]

dataFrame_list=build_dataframes(config_list)



In [829]:
simulated_extended=dataFrame_list[4]

# Analisis de datos

In [830]:
simulated_extended

Unnamed: 0,producto_comprado,metodo_pago,tipo_cliente,ubicacion,total,descuento
0,Electronica,Efectivo,Regular,Este,246822.970722,275.534092
1,Mueble,Tarjeta,Regular,Este,275182.589452,81.457538
2,Electronica,Transferencia,Premium,Este,218677.720283,134.503182
3,Electronica,Transferencia,Regular,Norte,125960.898135,216.982289
4,Electronica,Tarjeta,Premium,Oeste,254963.027195,325.589329
...,...,...,...,...,...,...
495,Mueble,Transferencia,Premium,Este,238845.796376,87.029141
496,Comida,Efectivo,Regular,Oeste,162010.907741,185.228223
497,Electronica,Tarjeta,Regular,Norte,247353.859450,406.066212
498,Mueble,Efectivo,Premium,Norte,326845.501869,147.468671


In [834]:
firstAgg = (
  simulated_extended

    .groupby( [
        "producto_comprado"
        , "metodo_pago"
        ,"tipo_cliente"
    ] , as_index=False )

    .agg({
        "ubicacion": ["count"]
    })
)

firstAgg.columns=["producto_comprado","metodo_pago","tipo_cliente","count"]


In [836]:
firstAgg['probs']=firstAgg['count']/simulated_extended.shape[0]
firstAgg.head(5)

Unnamed: 0,producto_comprado,metodo_pago,tipo_cliente,count,probs
0,Comida,Efectivo,Nuevo,15,0.03
1,Comida,Efectivo,Premium,7,0.014
2,Comida,Efectivo,Regular,19,0.038
3,Comida,Tarjeta,Nuevo,10,0.02
4,Comida,Tarjeta,Premium,18,0.036


In [838]:
k=10000


In [840]:
randIndex=np.random.choice(
firstAgg.index,
size=k,
p=list(firstAgg['probs'])
)



In [842]:
segment=firstAgg.loc[ randIndex ,["producto_comprado","metodo_pago","tipo_cliente" ]].loc[0]
segment

Unnamed: 0,producto_comprado,metodo_pago,tipo_cliente
0,Comida,Efectivo,Nuevo
0,Comida,Efectivo,Nuevo
0,Comida,Efectivo,Nuevo
0,Comida,Efectivo,Nuevo
0,Comida,Efectivo,Nuevo
...,...,...,...
0,Comida,Efectivo,Nuevo
0,Comida,Efectivo,Nuevo
0,Comida,Efectivo,Nuevo
0,Comida,Efectivo,Nuevo


In [844]:
simulated_extended.loc[
    (simulated_extended["producto_comprado"]=="Comida") 
&
(simulated_extended["metodo_pago"]=="Efectivo")
&
(simulated_extended["tipo_cliente"]=="Nuevo")
, :]



Unnamed: 0,producto_comprado,metodo_pago,tipo_cliente,ubicacion,total,descuento
14,Comida,Efectivo,Nuevo,Norte,142285.996247,252.694357
49,Comida,Efectivo,Nuevo,Oeste,125546.484062,251.002361
53,Comida,Efectivo,Nuevo,Sur,304574.595066,236.091142
91,Comida,Efectivo,Nuevo,Oeste,313796.813166,310.766976
100,Comida,Efectivo,Nuevo,Norte,102396.224517,239.886147
120,Comida,Efectivo,Nuevo,Oeste,107577.402762,367.401657
170,Comida,Efectivo,Nuevo,Norte,147705.429878,274.564714
211,Comida,Efectivo,Nuevo,Norte,82414.957263,273.933154
226,Comida,Efectivo,Nuevo,Este,161252.523359,157.975187
251,Comida,Efectivo,Nuevo,Oeste,334596.196737,343.62434


In [846]:
simulated_extended.loc[
    (simulated_extended["producto_comprado"]=="Comida") 
&
(simulated_extended["metodo_pago"]=="Efectivo")
&
(simulated_extended["tipo_cliente"]=="Nuevo")
, :].shape[0]/simulated_extended.shape[0]

0.03

# aproximación para las estadisticas

In [848]:
segment.shape[0]/k

0.0298

# para las demas columnas 

In [850]:
def get_numeric_column_simulated( df_origin , categories , column_name,size ):
    
    randIndex=np.random.choice(
    firstAgg.index,
    size=size,
    p=list(firstAgg['probs'])
    )
    simulated=firstAgg.loc[randIndex,categories]

    a1 = df_origin.groupby(
        categories
        , as_index = False
    ).agg(
        {
            column_name: ["min","max","mean","std"]
        }
    )
    nc = [ c for c in categories ]
    nc.extend( ["Min" , "Max" , "Mean" , "Std"] )
    a1.columns = nc

    ColumnSimulated = pd.DataFrame()
    for i in a1.index:
        rs = a1.loc[i]
        OneSegmnetCountryProduct = simulated.loc[i].copy()    
    
        data = generate_truncated_normal_data(
            rs["Mean"]
            , 1 if rs["Std"] == 0 else rs["Std"]
            , rs["Min"] - 1 if rs["Std"] == 0 else rs["Min"]
            , rs["Max"] + 1 if rs["Std"] == 0 else rs["Max"]
            , OneSegmnetCountryProduct.shape[0]
        )
    
        OneSegmnetCountryProduct[column_name] = data
    
        ColumnSimulated = pd.concat( [ ColumnSimulated , OneSegmnetCountryProduct  ] )

    return ColumnSimulated.reset_index(drop=True)
    

In [856]:
k=5000

In [858]:
categories = [ "producto_comprado" , "metodo_pago" , "tipo_cliente" ]
numeric_columns = ["total","descuento"]

final_simulation = simulated.sort_index().reset_index(drop=True).copy()

for nc in numeric_columns:
    ncdf = get_numeric_column_simulated( simulated_extended , categories , nc,k )

    final_simulation = pd.merge( final_simulation , ncdf.loc[ : , [nc] ] , left_index=True , right_index=True )

final_simulation

Unnamed: 0,producto_comprado,metodo_pago,tipo_cliente,total,descuento
0,Comida,Efectivo,Nuevo,180553.779709,175.611768
1,Comida,Efectivo,Nuevo,164502.120839,307.027274
2,Comida,Efectivo,Nuevo,296097.408260,225.892727
3,Comida,Efectivo,Nuevo,325052.487645,196.428458
4,Comida,Efectivo,Nuevo,341825.037956,187.118585
...,...,...,...,...,...
4995,Electronica,Transferencia,Regular,265828.627152,191.500776
4996,Electronica,Transferencia,Regular,209604.909399,219.149851
4997,Electronica,Transferencia,Regular,284811.723288,243.998616
4998,Electronica,Transferencia,Regular,269921.324622,321.390000
