# Conjunto de datos para la entidad "Personal"




In [1]:
# Uso del Pip install para poder importar la librería faker
!pip install faker

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting faker
  Downloading Faker-15.3.4-py3-none-any.whl (1.6 MB)
[K     |████████████████████████████████| 1.6 MB 4.0 MB/s 
Installing collected packages: faker
Successfully installed faker-15.3.4


In [2]:
# Importar librería pandas para manejar y analizar datos
import pandas as pd
# Importar librería uuid para crear identificadores únicos.
import uuid
# Importar librería random para generar datos aleatorios.
import random
# Importar el paquete faker para generar datos fasos.
from faker import Faker
# Importar la librería datetime para manejar fechas.
import datetime
from datetime import date

In [3]:
# Delimitación del rango del número de elementos.
num_users = 5000

In [4]:
# Una lista de 7 características de la entidad personal
features = [
    "Id_per",
    "genero_per",
    "nombre_per",
    "email_per",
    "fecha_nac_per",
    "profesion_per",
    "Id_depar"
]
# Creación de un DF para estas características
df = pd.DataFrame(columns=features)

In [5]:
# Generar un identificador para cada  miembro del personal
def idm_gen(n):
    """
    Función que se encarga de crear un id unico con nomenclatura básica
    ...
    
    Parametros
    ----------
    n : int
        representa el numero de indice correspondiente al registro
    
    Return
    ------
    "MSL--"+str(n+1) : str
        nomenclatura única de identificación del personal correspondiente
    """
    return "PRS-"+str(n+1)

In [6]:
df['Id_per'] = [idm_gen(i) for i in range(num_users)]

In [7]:
# Género del personal
genders = ["male", "female"]

In [9]:
df['genero_per'] = random.choices(
    genders, 
    weights=(45,55), 
    k=num_users
)
"""
Con la lista generada de las opciones de género, se proporciona la función de opciones
pesos para cada función y la cantidad de opciones hacer representadas por "k".
Por consiguiente, se asignó al atributo de "genero_per" del marco de datos.
"""

'\nCon la lista generada de las opciones de género, se proporciona la función de opciones\npesos para cada función y la cantidad de opciones hacer representadas por "k".\nPor consiguiente, se asignó al atributo de "genero_per" del marco de datos.\n'

In [10]:
# Nombre del personal
# Creación de instancias de falsificador
faker = Faker()

def name_gen(gender):
    """
    Genera rápidamente un nombre basado en el género
    """
    if gender=='male':
        return faker.name_male()
    elif gender=='female':
        return faker.name_female()
    
    return faker.name()
    
# Generación de nombres para cada usuario
df['nombre_per'] = [name_gen(i) for i in df['genero_per']]

In [11]:
# Email del personal
def emailGen(name, duplicateFound=False):
    """
    Genera una dirección de correo electrónico aleatoria basada en el nombre de la persona. 
    Agrega un número al final si se encontró una dirección duplicada.
    """
    # Nombre de dominio falso para usar
    dom = "@nasa.dod.com"
    
    # Mayúsculas y minúsculas
    name = name.lower().split(" ")
    
    # Carácter aleatorio para insertar en el nombre
    chars = [".", "_"]
    
    new_name = name[0] + random.choice(chars) + name[1] 
    
    # Distinguir aún más el correo electrónico si se encontró un duplicado
    if duplicateFound:
        
        # Número aleatorio para insertar al final
        num = random.randint(0,100)
        
        # Insertar al final
        new_name = new_name + str(num)
        
    # Devolver la dirección de correo electrónico con el nombre de dominio adjunto
    return new_name + dom

In [12]:
emails = []

for name in df['nombre_per']:
    
    # Generación del correo electrónico
    email = emailGen(name)
    
    # Bucle hasta que se genere un correo electrónico único
    while email in emails:
        
        # Crear un correo electrónico con un número aleatorio
        email = emailGen(name, duplicateFound=True)
    
    # Adjuntar el nuevo correo electrónico a la lista
    emails.append(email)
    
df['email_per'] = emails

In [13]:
# Fecha de nacimiento del personal
def random_dob(start, end, n):
    """
    Generar una lista de un número determinado de marcas de tiempo
    """
    
    # El formato de marca de tiempo
    frmt = "%Y-%m-%d"
    
    # Dar formato a los dos períodos de tiempo
    stime = datetime.datetime.strptime(start, frmt)
    etime = datetime.datetime.strptime(end, frmt)
    
    # Creación del grupo para tiempos aleatorios
    td = etime - stime
    
    # Generar una lista con los tiempos aleatorios
    times = [(random.random() * td + stime).strftime(frmt) for _ in range(n)]
    
    return times

df['fecha_nac_per'] = random_dob("1989-01-01", "1998-01-01", num_users)

In [14]:
# Profesión del personal
profesion_per = ["Astronomy",
                 "Physical",
                 "Geology",
                 "Aerospace_Engineering",
                 "Environmental_Engineering",
                 "Telecommunications_Engineering",
                 "Electronic_Engineering",
                 "Computer_Engineering",
                 "Chemical_Engineering",
                 "other"]

In [16]:
df['profesion_per'] = random.choices(
    profesion_per, 
    weights=(11,11,11,11,11,11,11,11,11,1), 
    k=num_users
)
"""
Con la lista generada de las opciones de profesión, se proporciona la función de opciones
pesos para cada función y la cantidad de opciones hacer representadas por "k".
Por consiguiente, se asignó al atributo de "profesion_per" del marco de datos.
"""

'\nCon la lista generada de las opciones de profesión, se proporciona la función de opciones\npesos para cada función y la cantidad de opciones hacer representadas por "k".\nPor consiguiente, se asignó al atributo de "profesion_per" del marco de datos.\n'

In [17]:
# Fk "Id_depar"
def idm_gen(n):
    """
    Función que se encarga de crear un id unico con nomenclatura básica
    ...
    
    Parametros
    ----------
    n : int
        representa el numero de indice correspondiente al registro
    
    Return
    ------
    "MSL--"+str(n+1) : str
        nomenclatura única de identificación del departamento correspondiente
    """
    return "DPTO-"+str(n+1)

In [18]:
df['Id_depar'] = [idm_gen(i) for i in range(num_users)]

In [19]:
# Guardar el conjunto de datos
df.to_csv('dataset_users.csv')

In [20]:
# Mostrar el conjunto de datos
pd.read_csv('dataset_users.csv', index_col=0)

Unnamed: 0,Id_per,genero_per,nombre_per,email_per,fecha_nac_per,profesion_per,Id_depar
0,PRS-1,male,Daniel Wilson,daniel.wilson@nasa.dod.com,1992-08-08,Environmental_Engineering,DPTO-1
1,PRS-2,female,Amy Mcintyre,amy.mcintyre@nasa.dod.com,1990-04-30,Environmental_Engineering,DPTO-2
2,PRS-3,male,Nicholas Reyes,nicholas_reyes@nasa.dod.com,1993-10-13,Computer_Engineering,DPTO-3
3,PRS-4,female,Haley Carr,haley.carr@nasa.dod.com,1993-07-06,Environmental_Engineering,DPTO-4
4,PRS-5,male,David Lin,david.lin@nasa.dod.com,1990-12-29,Physical,DPTO-5
...,...,...,...,...,...,...,...
4995,PRS-4996,male,Paul Davis,paul_davis@nasa.dod.com,1994-02-26,Aerospace_Engineering,DPTO-4996
4996,PRS-4997,male,Patrick Williams,patrick.williams@nasa.dod.com,1989-09-01,Computer_Engineering,DPTO-4997
4997,PRS-4998,male,Daniel Phelps,daniel.phelps@nasa.dod.com,1996-01-20,Computer_Engineering,DPTO-4998
4998,PRS-4999,male,Charles Rivera,charles_rivera@nasa.dod.com,1994-05-16,Physical,DPTO-4999
