In [21]:
import pandas as pd
import uuid
import random
import datetime

In [22]:
num_users = 100000

In [23]:
# A list of 5 features
features = [
    "ID",
    "Fecha_Déposito",
    "valor",
    "Banco",
    "Num_Cuenta",
]# Creating a DF for these features
df = pd.DataFrame(columns=features)

**ID DE PAGO**

Para empezar en los registros de pagos tenemos un ID, esta es esencial para el monitoreo que realiza el MIES, esta sera de tipo alfanúmerico diferenciadose de los demas identificadores. 

In [24]:
Dominio='IDPay'                                                                           #Creamos un string para concatenarlo con la ID
df['ID'] = [Dominio+str((random.sample(range(1,10000),1))) for i in range(num_users)]    #Asignamos al apartado de ID  el dominio inicial y concatenamos
                                                                                         #con str el numero aleatorio que se va a generar

**FECHA DE PAGO**

Para la fecha de pago se la selecciono de manera aleatoria ya que la entidad del MIES que es la encargada de generar los bonos posee fechas diferentes para realizar el déposito del bono a cada respectivo beneficiario. Para generar este atributo se necesito importar la libreria  datetime que proporciona clases para manipular fechas y horas

In [25]:
def randomtimes(start, end, n):
    """
    Generates random time stamps based on a given amount between two time periods.
    """
    # The timestamp format
    frmt = "%Y-%m-%d %H:%M:%S"
    
    # Formatting the two time periods
    stime = datetime.datetime.strptime(start, frmt)
    etime = datetime.datetime.strptime(end, frmt)
    
    # Creating the pool for random times
    td = etime - stime
    
    # Generating a list with the random times
    times = [(random.random() * td + stime).strftime(frmt) for _ in range(n)]
    
    return times

# Setting the start and end times
start = "2022-11-01 00:00:00"

end = "2022-11-30 00:00:00"

df['Fecha_Déposito'] = randomtimes(start, end, num_users)

**VALOR DÉPOSITADO**

Este atributo corresponde al valor depositado por el MIES este valor esta regulado y tabulado, dependiendo del tipo del Grupo al que el beneficiario pertenece. Durante la investigación se tienen los valores fijos para cada grupo pero para el grupo de hogares pobres extremos con hijos menores de edad existen valores extra que son calculados por el número de hijos. Desafortunadamente para este proyecto no se pudo obtener el valor extra por cada hijo. Esto se debe a que para obtener este valor es necesario realizar la encuesta del Registro Social. Se ha decidido tener un valor extra de 7 dólares mas por hijo y se permiten hasta tres hijos para poder tener datos variados.

In [26]:
# The different ratings available
ratings = [50,57,64,71,600,100]# Weighted ratings with a skew towards the ends
df['valor'] = random.choices(
    ratings, 
    weights=(50,30,20,10,5,40), 
    k=num_users
)

**NOMBRE BANCARIA**

El nombre del Banco es un atributo escencial que se necesita para el depósito mensual del bono, el beneficiario puede poseer una cuenta en cualquier entidad Bancaria esto implica que nuestra base de datos debe poseer un registro o constancia que la mayoria de bancos accesibles para la población. Para crear este atributo se escogieron algunos de los principales y reconocidos bancos.

-Banco Pichincha

-Produbanco

-Banco Solidario

-Banco Bolivariano

-Banco del Pacífico

-Banco de Guayaquil 

-Banco Rumiñahui

-Banco del Austro 

-Banco Internacional

-Banco de Loja

In [27]:
bancos = ["Banco Pichincha", "Produbanco", "Banco Solidario","Banco Bolivariano","Banco del Pacífico","Banco de Guayaquil","Banco Rumiñahui","Banco del Austro","Banco Internacional","Banco de Loja"]

In [30]:
df['Banco'] = random.choices(
    bancos, 
    weights=(30,10,10,10,10,20,10,10,12,10), 
    k=num_users
)

**Número de Cuenta**

Generamos una serie de numeros aleatorios de 10 digítos. Al poseer un atributo con varios bancos los números de cuenta pueden varias en sus patrones.

In [32]:
df['Num_Cuenta'] = [(random.sample(range(2210000000,5670000000),1)) for i in range(num_users)]

In [33]:
df

Unnamed: 0,ID,Fecha_Déposito,valor,Banco,Num_Cuenta
0,IDPay[3200],2022-11-24 04:56:04,50,Banco Rumiñahui,[4114654102]
1,IDPay[9789],2022-11-12 17:10:20,50,Banco Bolivariano,[2401090382]
2,IDPay[4827],2022-11-06 07:00:43,100,Banco Pichincha,[4801589863]
3,IDPay[1494],2022-11-27 10:30:55,50,Banco del Austro,[3033891951]
4,IDPay[5381],2022-11-10 09:08:19,100,Banco Internacional,[4048331916]
...,...,...,...,...,...
99995,IDPay[2489],2022-11-11 21:27:53,100,Banco Pichincha,[4187854506]
99996,IDPay[4368],2022-11-04 03:05:42,57,Banco de Loja,[5156212698]
99997,IDPay[4276],2022-11-18 05:47:09,50,Banco Solidario,[3304780246]
99998,IDPay[7595],2022-11-25 17:54:38,100,Banco Solidario,[5618322959]
