# CONTINENTES - "The Club Benefits Programme" FIFA

Generaremos los continentes que existen alrededor del mundo junto a su participación en el mundial.

# Construcción del conjunto de datos

Para codificar, comience importando las siguientes bibliotecas:

In [1]:
!pip install Faker
import pandas as pd
import uuid
import random
from faker import Faker
import datetime

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting Faker
  Downloading Faker-15.3.2-py3-none-any.whl (1.6 MB)
[K     |████████████████████████████████| 1.6 MB 7.2 MB/s 
Installing collected packages: Faker
Successfully installed Faker-15.3.2


**Size**

El tamaño del conjunto de datos será de 7 por cada continente y región, en este caso: Asia, África, América del Norte, América del Sur, Antártida, Europa y Oceanía.

In [2]:
num_continents = 7

**Características**

Elegí 4 características que esperaba que engloben lo necesario de cada continente. Estas características y los respectivos tipos de datos son:

     - ID: una cadena única de caracteres para identificar a cada usuario.
     - Assist (Asistencia:) una opción binaria Verdadero/Falso de su estado de participación.
     - Name (Nombre:) tipo de datos de cadena del nombre del Continente.
     - Representative (Representantes) tipo entero que determina su numero de paises representantes en el torneo.

Ingresé lo anterior como una lista de características para inicializar un marco de datos de Pandas:

In [3]:
# A list of 10 features
features = [
    "id",
    "assist",
    "name",
    "representative",
]# Creating a DF for these features
df = pd.DataFrame(columns=features)

**Creación de datos**

**IDs**

Para el atributo ID, utilicé la biblioteca uuid para generar una cadena aleatoria de caracteres 100 000 veces. Luego, lo asigné al atributo ID en el marco de datos.

In [4]:
df['id'] = [uuid.uuid4().hex for i in range(num_continents)]

**UUID es una gran biblioteca para generar identificaciones únicas para cada usuario debido a su posibilidad astronómicamente baja de duplicar una identificación.** Es una gran opción cuando se trata de generar conjuntos de caracteres de identificación únicos. Pero, si desea asegurarse de que no se repitieron las ID, puede realizar una verificación simple en el marco de datos con lo siguiente:

In [5]:
print(df['id'].nunique()==num_continents)

True


Esto devolverá True si todas las ID en el conjunto de datos son únicas.

**Assist**

Para este atributo, las opciones se pueden seleccionar aleatoriamente entre Verdadero y Falso. A pesar de que se sabe siempre desde un inicio qué continentes asistirán, se recreo este proceso para hacer uso de datos sinteticos.

In [6]:
choice = [True, False]
df['assist'] = random.choices(
    choice,
    weights=(80,20), 
    k=num_continents
)

**Name**

Declaramos los continentes antes mencionados.

In [7]:
df['name'] = ['Europa', 'Asia', 'África', 'América del Norte', 'América del Sur', 'Antártida', 'Oceanía']

**Representative**

Aqui se seleccionarán a los representantes que presentarán los continentes. Una vez mas, esto con el afán de usar datos sintéticos ya que se sabe desde un inicio siempre los representantes de cada continente. Pero para su correcto uso, utilizamos un condicional que evite asignar representantes en caso de que dicho país no asista al mundial.

In [8]:
def repre_none(assist):
    """
    Ponemos en 0 los representantes en caso de que no vaya al mundial
    """
    if assist== False:
        return 0
    else:
        return random.choices([4,5,13], weights=(40,50,10), k=1)[0]

df['representative'] = [repre_none(i) for i in df['assist']]

Usando la función random.choices() una vez más pero con los representantes de 4,5 o 13. Dado que es así para los continentes segun la FIFA.

**Saving the Dataset**

Ahora que los datos están completos y si estaba codificando, siéntase libre de ver el marco de datos antes de decidir guardarlo. Si todo se ve bien, guarde el marco de datos como un archivo .csv con este simple comando:

In [9]:
df.to_csv('dataset_continents.csv')