**Entidad universidades**

In [96]:
#Instalamos la libreria faker para la generación de nombres aleatorios. 
!pip install Faker

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [97]:
#Importamos las librerias necesarias para la generación de datos.
#Importamos la libreria pandas para el manejo y estructuración de los datos sinteticos
import pandas as pd
#Importamos la libreria uuid para la generacion de codigos Ids propios
import uuid
#Importamos la libreria random para generacion de numeros randomicos
import random
#Importamos la libreria faker para generacion de nombres aleatorios
from faker import Faker
#Importamos la libreria datetime para las fechas
import datetime

In [98]:
#Variable para la creación de los 5000 datos.
num_aspirantes = 5000

In [99]:
# Una lista de 6 atributos
atributos = [
    "IdUn",
    "NombreUn",
    "TelefonoUn",
    "CorreoUn",
    "DescripcionUn",
    "StatusUn",
]# Creamos un DF de los atributos
df = pd.DataFrame(columns=atributos)

In [100]:
#Guardamos en la columna IdUn del df los ids representativos de cada universidad
df['IdUn'] = [uuid.uuid4().hex for i in range(num_aspirantes)]

In [101]:
#Hacer que los ids sean unicos para cada universidad, y en caso de ser así 
#retornar True.
print(df['IdUn'].nunique()==num_aspirantes)

True


In [102]:
#Variable para los dos géneros a manejar para la creación de los nombre de las universidades.
genero = ["male", "female"]

In [103]:
#Columna genero que nos servirá para crear los nombre de las universidades.
df['genero']= random.choices(
    genero, 
    weights=(70,30), 
    k=num_aspirantes
)

In [104]:
#Instancia Faker
faker = Faker()
#Creamos una función.
def name_gen(genero):
    """
    Generamos los distintos nombres de las universidades dependiendo el genero 
    asignado mediante la instancia faker.

    Parámetros
    -------
      genero: str
        Género para asignar un nombre a una universidad.
    
    Return
    -------
    Retorna los nombres de las universidades.
    """
    #En caso de que el genero sea hombre nos retornara un nombre masculino
    if genero=='male':
        return faker.name_male()
    #En caso de que el genero sea mujer nos retornara un nombre femenino
    elif genero=='female':
        return faker.name_female()
    
    return faker.name()#Generamos los nombres para cada universidad
#Guardamos los nombres de la universidad en todo el atributo NombreUn
df['NombreUn'] = ['Universidad '+name_gen(i) for i in df['genero']]

In [105]:
#From datetime para la generación de números en cada uno de los 5 mil datos.
from datetime import datetime
#Variable numero como string y size siendo la cantidad de números que formaran
#la cadena de números.
numero=[]
size = 10


for i in range(0, num_aspirantes): #Generación de números de teléfonos
  random.seed(datetime.now())
  valores = [0,1,2,3,4,5,6,7,8,9] #Números por los cual puede formarse la cadena
  numero=(''.join([str(random.choice(valores)) for i in range(size)]))#Creación de los numeros
  df.TelefonoUn[i]=numero #Guardamos los numeros generados en el atributo TelefonoUn

In [106]:
#Creación de función
def emailGen(name, duplicateFound=False):
    """
    Genera una dirección de correo electrónico aleatoria basada en el nombre dado.
     Agrega un número al final si se encuentra una dirección duplicada.

    Parámetros
    -------
      name: str
        Nombre de la universidad
      duplicateFound: 

    Return
    -------
    Retorna el nombre de la universidad junto con un caracter especial y el 
    dominio especificado edu.ec
    """
    # Dominio para usar
    dom = "@edu.ec"
    
    # Minusculas y division
    name = name.lower().split(" ")
    
    #Caracteres random en el correo
    chars = [".", "_"]
    
    new_name = name[0] + random.choice(chars) + name[1] 
    
    #Distinguir para los duplicados de los correos
    if duplicateFound:
        
        #Numero aleatorio para insertar al final
        num = random.randint(0,100)
        
        #Insertar al final
        new_name = new_name + str(num)
        
    #Devolver la dirección de correo electrónico con el nombre de dominio adjunto
    return new_name + dom

In [107]:
#Variable para los correos electrónicos como string
emails = []

for NombreUn in df['NombreUn']: 
    
    # Generamos el correo
    email = emailGen(NombreUn)
    
    # Bucle hasta que se genera un correo electrónico único
    while email in emails:
        
        # Crear un correo electrónico con un número aleatorio
        email = emailGen(NombreUn, duplicateFound=True)
    
    # Adjuntar el nuevo correo electrónico a la lista
    emails.append(email)
    
df['CorreoUn'] = emails #Guardamos los correos electrónicos en el atributo CorreoUn

In [108]:
#Importamos las libreria string para la creación de una cadena de caracteres que representan texto
import string
#Creamos la variale para la descripción de tipo string junto con su longitud de 
#cadena de caracteres
bio=[]
length_of_string = 20

for i in range(0, num_aspirantes):#Creamos la descripcion de la universidad
  random.seed(datetime.now())
  #La descripcion contendra todo tipo de caracteres.
  bio=(''.join(random.SystemRandom().choice(string.ascii_letters + string.digits) for i in range(length_of_string)))
  #Guardamos la descripcion en el atributo DescripcionUn
  df.DescripcionUn[i] =bio

In [109]:
#Variable para los dos estados a manejar.
StatusUn = ["Activo", "Desactivo"]

In [110]:
#Guardamos el estado generado aleatoriamente en el atributo StatusUn
df['StatusUn']= random.choices(
    StatusUn, 
    weights=(70,30), 
    k=num_aspirantes
)

In [111]:
#Borramos de nuestra tabla el genero ya que no es necesario saber en nuestros 
#datos sintéticos
del(df['genero'])


In [112]:
#Guardamos todos los datos junto con sus atributos en un archivo csv.
df.to_csv('universidad.csv')