# USUARIOS - "The Club Benefits Programme" FIFA

Crearemos los usuarios que utilizaran la plataforma para almacenar el monto que cada uno de los jugadores acumule.

# Construcción del conjunto de datos

Para codificar, comience importando las siguientes bibliotecas:

In [1]:
#Instalamos Faker debido a que no viene instalado por defecto en Colab
!pip install Faker
#Importamos pandas para manejo de dataframes
import pandas as pd
#Importamos uuid para que solo exista 1 ID
import uuid
#Importamos random para la asignacion de datos randómicos
import random
#Importamos Faker para hacer uso de su recreacion de datos
from faker import Faker
#Importamos fecha para el manejo de fechas
import datetime

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting Faker
  Downloading Faker-15.3.3-py3-none-any.whl (1.6 MB)
[K     |████████████████████████████████| 1.6 MB 4.2 MB/s 
Installing collected packages: Faker
Successfully installed Faker-15.3.3


**Size**

El tamaño del conjunto de datos será de 5000 puntos de datos. Asigné esta cantidad a una variable constante, que usé en todo momento:

In [2]:
num_users = 5000

**Características**

Elegí 8 características para cada usuario que vaya a interactuar con el sistema. Estas características y los respectivos tipos de datos son:

     - ID: una cadena única de caracteres para identificar a cada usuario.
     - Gender (Sexo:) tipo de datos de cadena de tres opciones.
     - Role (Rol:) tipo de dato de cadena con 3 opciones: Administrador, trabajador y técnico.  
     - status (Estado:) una opción binaria Verdadero/Falso de su estado de actividad.
     - Name (Nombre:) tipo de datos de cadena del nombre y apellido del usuario.
     - Email (Correo electrónico:) tipo de datos de cadena de la dirección de correo electrónico del usuario.
     - Last Login (Último inicio de sesión:) tipo de datos de cadena de la última hora de inicio de sesión.
     - Date of Birth (Fecha de nacimiento:) formato de cadena de año-mes-día.

Ingresé lo anterior como una lista de características para inicializar un marco de datos de Pandas:

In [3]:
# Lista de 8 atributos/features para los usuarios
features = [
    #ID: una cadena única de caracteres para identificar a cada usuario.
    "id",
    #Gender (Sexo:) tipo de datos de cadena de tres opciones. Masculino, Femenino y No binario
    "gender",
    #Role (Rol:) tipo de dato de cadena con 3 opciones: Administrador, trabajador y técnico.
    "role",
    #status (Estado:) una opción binaria Verdadero/Falso de su estado de actividad.
    "status",
    #Name (Nombre:) tipo de datos de cadena del nombre y apellido del usuario.
    "name",
    #Email (Correo electrónico:) tipo de datos de cadena de la dirección de correo electrónico del usuario.
    "email",
    #Last Login (Último inicio de sesión:) tipo de datos de cadena de la última hora de inicio de sesión.
    "last_login",
    #Date of Birth (Fecha de nacimiento:) formato de cadena de año-mes-día.
    "dob"
]# Generemos el dataframe donde estarán presentes
df = pd.DataFrame(columns=features)

**Creación de datos**

**IDs**

Para el atributo ID, utilicé la biblioteca uuid para generar una cadena aleatoria de caracteres 100 000 veces. Luego, lo asigné al atributo ID en el marco de datos.

In [4]:
# Definimos en ID la función uuid para el análisis de cada uno de los 5000 datos
df['id'] = [uuid.uuid4().hex for i in range(num_users)]

**UUID es una gran biblioteca para generar identificaciones únicas para cada usuario debido a su posibilidad astronómicamente baja de duplicar una identificación.** Es una gran opción cuando se trata de generar conjuntos de caracteres de identificación únicos. Pero, si desea asegurarse de que no se repitieron las ID, puede realizar una verificación simple en el marco de datos con lo siguiente:

In [5]:
print(df['id'].nunique()==num_users)

True


Esto devolverá True si todas las ID en el conjunto de datos son únicas.

**Gender**

**Este atributo es uno de los casos en los que probablemente no se debería utilizar una elección igualmente aleatoria. Porque se puede suponer con seguridad que cada elección no tiene la misma probabilidad de ocurrir.**

Para el género, proporcioné tres opciones: masculino, femenino y No binario.

In [6]:
genders = ["Hombre", "Mujer", "No Binario"]

In [7]:
df['gender'] = random.choices(
    genders, 
    weights=(47,47,6), 
    k=num_users
)

**Role**

Se generaron los roles que pueden tomar cada uno de los usuarios mediante una asignación randómica. Estos siendo administrador del sistema, un trabajador común y el técnico del sistema.

In [8]:
roles = ["Administrador", "Trabajador", "Tecnico"]

In [9]:
df['role'] = random.choices(
    roles, 
    weights=(30,60,10), 
    k=num_users
)

**Status**

Para este atributo, las opciones se pueden seleccionar aleatoriamente entre Verdadero y Falso. Determinando su actividad en el trabajo.

In [10]:
choice = [True, False]
df['status'] = random.choices(
    choice, 
    k=num_users
)

**Name**

Aquí usé la biblioteca Faker para crear miles de nombres para todos estos usuarios. **La biblioteca Faker es excelente en esta situación porque tiene una opción para nombres masculinos y femeninos.**}} Para procesar los nombres de género, creé una función para asignar nombres en función de un género determinado.

In [11]:
# Instantiating faker
faker = Faker()

def name_gen(gender):
    """
    Parametros
    ----------
    genero
        Recibe el genero 
    Procedimiento
    -------------
        Genera un nombre en base a si el dato es masculino o femenino
    Retorna
    -------
        El nombre asignado
    """
    #Condicional para determinar si es hombre o mujer
    if gender=='Hombre':
        return faker.name_male()
    elif gender=='Mujer':
        return faker.name_female()
    
    return faker.name()# Genera los nombres para cada usuario
# Guarda los datos en el data frame en base a los generos asignados
df['name'] = [name_gen(i) for i in df['gender']]

Usé mi función simple para producir rápidamente una lista de nombres basada en los datos del atributo "Género" antes y la asigné al marco de datos.

**Email**

Se creo una nueva función que daría formato a los nombres en direcciones de correo electrónico con un nombre de dominio predeterminado. La asignación del dominio sería exclusivo de la FIFA. También manejaría direcciones duplicadas simplemente agregando un número aleatorio al final del nombre formateado:

In [12]:
def emailGen(name, duplicateFound=False):
    """
    Generates a random email address based on the given name. 
    Adds a number at the end if a duplicate address was found.
    """
    # Fake domain name to use
    dom = "@fifa.org"
    
    # Lowercasing and splitting
    name = name.lower().split(" ")
    
    # Random character to insert in the name
    chars = [".", "_"]
    
    new_name = name[0] + random.choice(chars) + name[1] 
    
    # Further distinguishing the email if a duplicate was found
    if duplicateFound:
        
        # Random number to insert at the end
        num = random.randint(0,100)
        
        # Inserting at the end
        new_name = new_name + str(num)
        
    # Returning the email address with the domain name attached
    return new_name + dom

Ahora, para aprovechar adecuadamente el propósito de esta función, creé un ciclo que volvería a ejecutar la función cuando fuera necesario mientras iteraba a través del atributo "Nombre". El ciclo seguiría volviendo a ejecutar la función hasta que se creara un nombre de correo electrónico único.

In [13]:
emails = []

for name in df['name']:
    
    # Generating the email
    email = emailGen(name)
    
    # Looping until a unique email is generated
    while email in emails:
        
        # Creating an email with a random number
        email = emailGen(name, duplicateFound=True)
    
    # Attaching the new email to the list
    emails.append(email)
    
df['email'] = emails

Después de generar todos los correos electrónicos, los asigné al atributo "Correo electrónico" del marco de datos. También puede hacer una verificación opcional para ver que cada correo electrónico sea único con el mismo método que las ID.

**Last Login**

Este atributo ahora requiere un formato específico que se hizo más fácil con la utilización de la biblioteca de fecha y hora. Aquí quería que los usuarios tuvieran un historial de inicio de sesión durante el último mes más o menos. Usé otra función personalizada para ayudar:

In [14]:
def randomtimes(start, end, n):
    """
    Generates random time stamps based on a given amount between two time periods.
    """
    # The timestamp format
    frmt = "%Y-%m-%d %H:%M:%S"
    
    # Formatting the two time periods
    stime = datetime.datetime.strptime(start, frmt)
    etime = datetime.datetime.strptime(end, frmt)
    
    # Creating the pool for random times
    td = etime - stime
    
    # Generating a list with the random times
    times = [(random.random() * td + stime).strftime(frmt) for _ in range(n)]
    
    return times

# Setting the start and end times
start = "2021-08-01 00:00:00"

end = "2021-08-24 00:00:00"

df['last_login'] = randomtimes(start, end, num_users)

La función básicamente genera una lista de marcas de tiempo entre dos horas dadas. Generó una lista de marcas de tiempo aleatorias para asignar al marco de datos.

**Date of Birth**

Se cambio el formato de la hora eliminando la hora, los minutos y los segundos. Usando datetime nuevamente para ayudar a elegir aleatoriamente una fecha para cada usuario, pero esta vez el rango de tiempo comenzó desde 1970 hasta 1990 para obtener una buena distribución aleatoria de edades. El siguiente código es prácticamente el mismo que antes, pero con un formato y un intervalo de fechas diferentes:

In [15]:
def random_dob(start, end, n):
    """
    Generating a list of a set number of timestamps
    """
    
    # The timestamp format
    frmt = "%Y-%m-%d"
    
    # Formatting the two time periods
    stime = datetime.datetime.strptime(start, frmt)
    etime = datetime.datetime.strptime(end, frmt)
    
    # Creating the pool for random times
    td = etime - stime
    
    # Generating a list with the random times
    times = [(random.random() * td + stime).strftime(frmt) for _ in range(n)]
    
    return times

df['dob'] = random_dob("1970-01-01", "1990-01-01", num_users)

Usé la función random.choices() una vez más pero con los pesos sesgados hacia 1 y 5.

**Saving the Dataset**

Ahora que los datos están completos y si estaba codificando, siéntase libre de ver el marco de datos antes de decidir guardarlo. Si todo se ve bien, guarde el marco de datos como un archivo .csv con este simple comando:

In [16]:
df.to_csv('dataset_users.csv')