In [110]:
"""

Importación de librerías y módulos requeridos para la generación de datos
Pandas es una librería utilizada para el análisis de datos
Faker es una librería que permite generar datos sintéticos o falsos
uuid es una librería que permite crear id's
numpy es una librería que permite gestionar matrices multidimensionales, y utilizar funciones matematicas
random es una librería que permite generar números aleatorios
datetime es una librería que permite crear horas y fechas
Factory es un módulo de la librería faker que permite crear un objeto de tipo Faker y agregar el idioma regional que se desea utilizar

"""
#Instalar librería Faker para la generación de datos sintéticos
!pip install Faker
import pandas as pd
from faker import Faker
import uuid
import numpy as np
import random
import datetime
from faker import Factory
# Cambiar la traducción de los datos sintéticos generados con la librería Faker
fake = Factory.create("es-ES")

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [111]:
"""
Creación de dataframes utilizando la librería pandas
DataFrame es un método que recibe uno o más parámetros según sea necesario. 

Parámetros:
--------------------------------------------------------------------------

columns:
    Columnas del dataframe a crear

Retorno:
--------------------------------------------------------------------------
    Se retorna un archivo de tipo dataframe de dos dimensiones.
"""
# Crear el dataframe con 7 columnas
df = pd.DataFrame(columns=[
    "id_aspirante",
    "nombres_aspirante",
    "apellidos_aspirante",
    "correo_aspirante",
    "genero",
    "telefono_aspirante",
    "fecha_nacimiento",
    "estado_aspirante"  
])

In [112]:
"""
UUID1 permite generar un ID único a partir de una secuencia de números y el tiempo actual.

Parámetros:
------------------------------------------------------------------------------------------
    No se envió parámetros

Retorno: 
------------------------------------------------------------------------------------------
    Secuencia de número de 14-bits
"""
# Asignar a una variable la cantidad de datos a generar
numeroDatosSinteticos = 5000
# Generar los 5000 IDs para los datos sintéticos y guardarlos en la columna del DataFrame
df.id_aspirante = [uuid.uuid1() for i in range(numeroDatosSinteticos)]

In [113]:
"""

first_name_male es un módulo de la librería Faker que permite  generar un primer nombre aleatorio para hombre

Parámetros:
------------------------------------------------------------------------------------------
    No se enviaron parámetros

Retorno: 
------------------------------------------------------------------------------------------
    Cadena de caracteres que incluye el primer nombre para hombre
    
last_name_male es un módulo de la librería Faker que permite  generar un apellido aleatorio para hombre

Parámetros:
------------------------------------------------------------------------------------------
    No se enviaron parámetros

Retorno: 
------------------------------------------------------------------------------------------
    Cadena de caracteres que incluye el apellido para hombre

first_name_female es un módulo de la librería Faker que permite  generar un primer nombre aleatorio para mujer

Parámetros:
------------------------------------------------------------------------------------------
    No se enviaron parámetros

Retorno: 
------------------------------------------------------------------------------------------
    Cadena de caracteres que incluye el primer nombre para mujer
    
last_name_female es un módulo de la librería Faker que permite  generar un apellido aleatorio para mujer

Parámetros:
------------------------------------------------------------------------------------------
    No se enviaron parámetros

Retorno: 
------------------------------------------------------------------------------------------
    Cadena de caracteres que incluye el apellido para mujer

lower es un módulo de la librería estandar de Python que permite convertir un texto completo a letras minúsculas

Parámetros:
------------------------------------------------------------------------------------------
    No se enviaron parámetros

Retorno: 
------------------------------------------------------------------------------------------
    Cadena de caracteres con todas las letras en minúsculas
"""
# Crear una variable e inicializarla
sexo = ""
# Generar los nombres y apellidos, y el email aleatorio, así como el género del aspirante
for i in range(numeroDatosSinteticos):
  # Seleccionar de forma aleatoria un valor entre M para Male o hombre, y F para Female o mujer
  sexo = np.random.choice(["M", "F"], p=[0.5, 0.5])
  # Convertir el género del aspirante a tipo string
  df.genero[i] = str(sexo)
  # Generar nombres y apellidos en base al género del aspirante, en este caso para hombre
  if sexo == "M":
    # Generar el primer nombre y guardarlo en una variable
    primer_nombre = fake.first_name_male()
    # Generar el segundo nombre y guardarlo en una variable
    segundo_nombre = fake.first_name_male()
    # Generar el primer apellido y guardarlo en una variable
    primer_apellido = fake.last_name_male()
    # Generar el segundo apellido y guardarlo en una variable
    segundo_apellido = fake.last_name_male()
  # Generar nombres y apellidos en base al género del aspirante, en este caso para mujer
  elif sexo == "F":
    # Generar el primer nombre y guardarlo en una variable
    primer_nombre = fake.first_name_female()
    # Generar el segundo nombre y guardarlo en una variable
    segundo_nombre = fake.first_name_female()
    # Generar el primer apellido y guardarlo en una variable
    primer_apellido = fake.last_name_female()
    # Generar el segundo apellido y guardarlo en una variable
    segundo_apellido = fake.last_name_female()
  # Generar un correo electronico a partir del primer nombre y del primer apellido
  email = f"{primer_nombre}.{primer_apellido}@hotmail.com"
  # Concatenar el primer nombre y el segundo nombre para guardarlo en una variable llamado nombres
  df.nombres_aspirante[i] = primer_nombre + ' ' + segundo_nombre
  # Concatenar el primer apellido y el segundo apellido para guardarlo en una variable llamado nombres
  df.apellidos_aspirante[i] = primer_apellido + ' ' + segundo_apellido
  # Transformar el correo electronico a minúsculas
  df.correo_aspirante[i] = email.lower()
  

In [114]:
"""

randint es un módulo de la librería random que permite  generar un valor aleatorio numérico de tipo entero

Parámetros:
------------------------------------------------------------------------------------------
    valorInicial: El valor inicial del rango
    valorFinal: El valor final del rango

Retorno: 
------------------------------------------------------------------------------------------
    Un número entero aleatorio

"""
# Generar los números de teléfono aleatorios
for i in range(numeroDatosSinteticos):
  # Colocar los dos primeros números que son comúnes en Ecuador
  telefono = '09'
  # Generar los números restantes seguidos del 09 que puede ser cualquier dígito entre 0 y 9
  for _ in range(2, 10):
    # Generar un dígito aleatorio entre 0 y 9 y concatenarlo con los dígitos anteriores
    telefono = telefono + str(random.randint(0, 9))
  # Guardar los valores del telefono en el DataFrame
  df.telefono_aspirante[i]=telefono

In [115]:
"""

date_between es un módulo de la librería Faker que permite seleccionar una fecha al azar entre un rango de fechas determinadas.

Parámetros:
------------------------------------------------------------------------------------------
    Fecha_inicio: Fecha de inicio del rango 
    Fecha_fin: Fecha de fin del rango

Retorno: 
------------------------------------------------------------------------------------------
    Fecha de tipo datetime

"""
# Ciclo for para generar las fechas sintéticas
for i in range(numeroDatosSinteticos):
  # Generar una fecha entre enero 01 de 1980 y enero 01 de 2007
  fecha_nacimiento = fake.date_between(datetime.date(1980, 1, 1), datetime.date(2007, 1, 1))
  # Guardar la fecha en el DataFrame
  df.fecha_nacimiento[i]=fecha_nacimiento

In [116]:
"""

Choice es un módulo de la librería NumPy que permite seleccionar, de entre varias opciones, un valor al azar con una probabilidad determinada

Parámetros:
------------------------------------------------------------------------------------------
    estadoOpciones: Valores que puede tomar el estado

Retorno: 
------------------------------------------------------------------------------------------
    Cadena de caracteres que incluye el estado del aspirante


"""
#Crear las opciones de estado
estadoOpciones = ["Activo", "Inactivo"]
# Generar los estados sintéticos
for i in range(numeroDatosSinteticos):
  # Seleccionar de forma aleatoria uno de los estados
  estado = random.choice(estadoOpciones)
  # Guardar el estado en el DataFrame
  df.estado_aspirante[i]=estado

In [117]:
# Crear el CSV a partir del DataFrame
df.to_csv('aspirantes.csv')