# Conjunto de datos para la entidad "Personal"




In [57]:
# Uso del Pip install para poder importar la librería faker
!pip install faker

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [58]:
# Importar librería pandas para manejar y analizar datos
import pandas as pd
# Importar librería uuid para crear identificadores únicos.
import uuid
# Importar librería random para generar datos aleatorios.
import random
# Importar el paquete faker para generar datos fasos.
from faker import Faker
# Importar ka librería datetime para manejar fechas.
import datetime

In [59]:
# Delimitación del rango del número de elementos.
num_users = 5000

In [79]:
# Una lista de 7 características de la entidad personal
features = [
    "id",
    "gender",
    "name",
    "email",
    "dob",
    "profession",
    "doe"
]
# Creación de un DF para estas características
df = pd.DataFrame(columns=features)

In [80]:
# Id del personal
df['id'] = [uuid.uuid4().hex for i in range(num_users)]
"""
Uso de la biblioteca uuid para generar una cadena aleatoria de caracteres 5000 veces.
Por consigiente, se lo asigna al atributo ID en el marco de datos.
"""

'\nUso de la biblioteca uuid para generar una cadena aleatoria de caracteres 5000 veces.\nPor consigiente, se lo asigna al atributo ID en el marco de datos.\n'

In [81]:
"""
En caso de desear asegurarse de que no se repitieron las ID,
puede realizar una verificación simple en el marco de datos con lo siguiente:
"""
print(df['id'].nunique()==num_users)

True


In [82]:
# Género del personal
genders = ["male", "female", "na"]

In [84]:
df['gender'] = random.choices(
    genders, 
    weights=(47,47,6), 
    k=num_users
)
"""
Con la lista generada de las opciones de género, se proporciona la función de opciones
pesos para cada función y la cantidad de opciones hacer representadas por "k".
Por consiguiente, se asignó al atributo de "gender" del marco de datos.
"""

'\nCon la lista generada de las opciones de género, se proporciona la función de opciones\npesos para cada función y la cantidad de opciones hacer representadas por "k".\nPor consiguiente, se asignó al atributo de "gender" del marco de datos.\n'

In [85]:
# Nombre del personal
# Creación de instancias de falsificador
faker = Faker()

def name_gen(gender):
    """
    Genera rápidamente un nombre basado en el género
    """
    if gender=='male':
        return faker.name_male()
    elif gender=='female':
        return faker.name_female()
    
    return faker.name()
    
# Generación de nombres para cada usuario
df['name'] = [name_gen(i) for i in df['gender']]

In [86]:
# Email del personal
def emailGen(name, duplicateFound=False):
    """
    Genera una dirección de correo electrónico aleatoria basada en el nombre de la persona. 
    Agrega un número al final si se encontró una dirección duplicada.
    """
    # Nombre de dominio falso para usar
    dom = "@nasa.dod.com"
    
    # Mayúsculas y minúsculas
    name = name.lower().split(" ")
    
    # Carácter aleatorio para insertar en el nombre
    chars = [".", "_"]
    
    new_name = name[0] + random.choice(chars) + name[1] 
    
    # Distinguir aún más el correo electrónico si se encontró un duplicado
    if duplicateFound:
        
        # Número aleatorio para insertar al final
        num = random.randint(0,100)
        
        # Insertar al final
        new_name = new_name + str(num)
        
    # Devolver la dirección de correo electrónico con el nombre de dominio adjunto
    return new_name + dom

In [88]:
emails = []

for name in df['name']:
    
    # Generación del correo electrónico
    email = emailGen(name)
    
    # Bucle hasta que se genere un correo electrónico único
    while email in emails:
        
        # Crear un correo electrónico con un número aleatorio
        email = emailGen(name, duplicateFound=True)
    
    # Adjuntar el nuevo correo electrónico a la lista
    emails.append(email)
    
df['email'] = emails

In [89]:
# Fecha de nacimiento del personal
def random_dob(start, end, n):
    """
    Generar una lista de un número determinado de marcas de tiempo
    """
    
    # El formato de marca de tiempo
    frmt = "%Y-%m-%d"
    
    # Dar formato a los dos períodos de tiempo
    stime = datetime.datetime.strptime(start, frmt)
    etime = datetime.datetime.strptime(end, frmt)
    
    # Creación del grupo para tiempos aleatorios
    td = etime - stime
    
    # Generar una lista con los tiempos aleatorios
    times = [(random.random() * td + stime).strftime(frmt) for _ in range(n)]
    
    return times

df['dob'] = random_dob("1989-01-01", "1998-01-01", num_users)

In [90]:
# Profesión del personal
profession = ["Astronomy",
              "Physical",
              "Geology",
              "Aerospace_Engineering",
              "Environmental_Engineering",
              "Telecommunications_Engineering",
              "Electronic_Engineering",
              "Computer_Engineering",
              "Chemical_Engineering",
              "na"]

In [92]:
df['profession'] = random.choices(
    profession, 
    weights=(11,11,11,11,11,11,11,11,11,1), 
    k=num_users
)
"""
Con la lista generada de las opciones de profesión, se proporciona la función de opciones
pesos para cada función y la cantidad de opciones hacer representadas por "k".
Por consiguiente, se asignó al atributo de "profession" del marco de datos.
"""

'\nCon la lista generada de las opciones de profesión, se proporciona la función de opciones\npesos para cada función y la cantidad de opciones hacer representadas por "k".\nPor consiguiente, se asignó al atributo de "profession" del marco de datos.\n'

In [94]:
# Fecha de Ingreso del personal
def random_doe(start, end, n):
    """
    Generar una lista de un número determinado de marcas de tiempo
    """
    
    # El formato de marca de tiempo
    frmt = "%Y-%m-%d"
    
    # Dar formato a los dos períodos de tiempo
    stime = datetime.datetime.strptime(start, frmt)
    etime = datetime.datetime.strptime(end, frmt)
    
    # Creación del grupo para tiempos aleatorios
    td = etime - stime
    
    # Generar una lista con los tiempos aleatorios
    times = [(random.random() * td + stime).strftime(frmt) for _ in range(n)]
    
    return times

df['doe'] = random_doe("2022-01-01", "2022-12-31", num_users)

In [95]:
# Guardar el conjunto de datos
df.to_csv('dataset_users.csv')

In [96]:
# Mostrar el conjunto de datos
pd.read_csv('dataset_users.csv', index_col=0)

Unnamed: 0,id,gender,name,email,dob,profession,doe
0,6bd1039919814b36a285e495db84f519,female,Patricia Morgan,patricia.morgan@nasa.dod.com,1991-09-14,Aerospace_Engineering,2022-11-16
1,50417cdc29de4a65a951b7d47c006ece,na,Gabrielle Monroe,gabrielle.monroe@nasa.dod.com,1996-01-28,Geology,2022-10-15
2,41324a2fe0564c4ebea8e410f2bc4bc1,na,Carol Alexander,carol.alexander@nasa.dod.com,1996-03-15,Chemical_Engineering,2022-06-28
3,631fe93feffb4bceb208f74a89d87842,male,Bradley Navarro,bradley_navarro@nasa.dod.com,1989-01-18,Chemical_Engineering,2022-08-30
4,5cb5d5b152154e3ba9c58d1a51f147b9,male,Anthony Graham,anthony_graham@nasa.dod.com,1992-09-24,Astronomy,2022-04-15
...,...,...,...,...,...,...,...
4995,400caeef9302453783d2beacde3f12ba,female,Gloria Williams,gloria_williams@nasa.dod.com,1997-10-15,Computer_Engineering,2022-05-10
4996,26f406bba730488285155594e13be63a,male,Kevin Silva,kevin.silva@nasa.dod.com,1996-02-07,Chemical_Engineering,2022-09-12
4997,e5ff4eb0677e4feb8a94170d94a4847d,female,Elizabeth Shaffer,elizabeth_shaffer@nasa.dod.com,1989-07-01,Physical,2022-10-02
4998,49d94a45e7ce4502b34e9f09d4e1a3b0,female,Amanda Campbell,amanda_campbell@nasa.dod.com,1991-11-20,Telecommunications_Engineering,2022-03-19
