# Conjunto de datos personalizado

In [38]:
!pip install Faker

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


En situaciones en las que los datos no están fácilmente disponibles pero son necesarios, **tendrá que recurrir a recopilar los datos usted mismo.** Hay muchos métodos que puede usar para adquirir estos datos, desde webscraping hasta API. Pero a veces, terminará necesitando crear **datos falsos o "ficticios".** Los datos ficticios pueden ser útiles en momentos en los que conoce las funciones exactas que utilizará y los tipos de datos incluidos, pero simplemente no tiene los datos en sí.

Aquí, le mostraré **cómo creé 100 000 filas de datos ficticios.** Estos datos tampoco son puramente aleatorios. Si lo fuera, construirlo habría sido mucho más fácil. A veces, al crear datos ficticios desde cero, deberá desarrollar tendencias o patrones dentro de los datos que puedan reflejar el comportamiento del mundo real. 

# **La necesidad de construir un conjunto de datos**

**Supongamos que está creando una aplicación desde cero y necesita establecer una gran base de usuarios para, por ejemplo, realizar pruebas.** Se le proporciona una lista de características y sus respectivos tipos de datos.

**Esta base de usuarios también debe reflejar con cierta precisión los usuarios y las tendencias del mundo real, por lo que no puede ser completamente aleatoria.** Por ejemplo, no desea que un usuario tenga un título universitario y también tenga 10 años. Además, es posible que no desee una sobrerrepresentación de un punto de datos específico, como más hombres que mujeres. Todos estos son puntos a tener en cuenta a la hora de crear su conjunto de datos.

**Dado que los datos del mundo real rara vez son verdaderamente aleatorios, un conjunto de datos como este sería una excelente simulación para otros conjuntos de datos que manejará en el futuro.**

# Construcción del conjunto de datos

Para codificar, comience importando las siguientes bibliotecas:

In [39]:
import pandas as pd
import uuid
import random
from faker import Faker
import datetime

**Size**

El tamaño del conjunto de datos será de 100 000 puntos de datos (puede hacer más, pero el procesamiento puede demorar más). Asigné esta cantidad a una variable constante, que usé en todo momento:

In [40]:
num_users = 5000

**Características**

**ENTIDAD: Ministerio**

Se eligio 2 atributos los cuales e consideran que son los mas importante y que se espera que fueran las más comunes en un conjunto de datos regular de usuarios. Estas características y los respectivos tipos de datos son:

     - Id: Es una cadena única de caracteres que vendria a ser el ID´s para identificar a cada ministerio.
     - Nombre (Nombre del ministerio:) tipo de datos de cadena de dos opciones.

Ingresé lo anterior como una lista de características para inicializar un marco de datos de Pandas:

In [41]:
# A list of 10 features
features = [
    "id",
    "nombre"
]# Creating a DF for these features
df = pd.DataFrame(columns=features)

**Creación de ID´s del ministerio**

Para el atributo CI, se utilizo la biblioteca random para generar una cadena aleatoria de caracteres 5 0000 veces. Luego, lo asigné al atributo CI en el marco de datos.

In [42]:
df['id'] = [(random.randrange(8800000000, 9999999999)) for i in range(num_users)]

**Random es una gran biblioteca para generar identificaciones aleatorias unicas para cada usuario.** Es una gran opción cuando se trata de generar conjuntos de caracteres de identificación únicos. Pero, si desea asegurarse de que no se repitieron las ID, puede realizar una verificación simple en el marco de datos con lo siguiente:

**Función para verificar si los ID´s generadas son unicas**

In [43]:
print(df['id'].nunique()==num_users)

True


Esto devolverá True si todas las ID en el conjunto de datos son únicas.

**Generación de nombre del ministerio**

**Este atributo es uno de los casos en los que probablemente no se debería utilizar una elección igualmente aleatoria. Porque se puede suponer con seguridad que cada elección no tiene la misma probabilidad de ocurrir.**

En este caso para el nombre del miniterio, se preporciono tres opciones. Sin embargo, si tuviera que usar la biblioteca aleatoria de Python, cada opción podría mostrarse igualmente en el conjunto de datos. En realidad, habría significativamente más opciones masculinas y femeninas que na. Así que decidí mostrar ese desequilibrio en los datos:

In [44]:
nombres = ["Ministerio de salud Publica", "Ministerio de educacion"]

In [45]:
df['nombre'] = random.choices(
    nombres, 
    weights=(100,0), 
    k=num_users
)

Al usar la biblioteca aleatoria, proporcioné la función de opciones/choices () con la lista de opciones de género, pesos para cada opción y cuántas opciones hacer representadas por "k". Luego se asignó al atributo de "género" del marco de datos. El desequilibrio que describí antes está representado en la sección de ponderaciones con una opción "na" que aparece aproximadamente el 6% de las veces.

In [46]:
df.to_csv('dataset_users.csv')