# Conjunto de datos para la entidad "Componentes"

In [61]:
# Uso del Pip install para poder importar la librería faker
!pip install faker

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [62]:
# Importar librería pandas para manejar y analizar datos
import pandas as pd
# Importar librería uuid para crear identificadores únicos.
import uuid
# Importar librería random para generar datos aleatorios.
import random
# Importar el paquete faker para generar datos fasos.
from faker import Faker

In [63]:
# Delimitación del rango del número de elementos.
num_componentes = 5000

In [64]:
# Una lista de 4 características para la entidad componentes
features = [
    "id",
    "name",
    "kind",
    "institution"
]
# Creación de un DF para estas características
df = pd.DataFrame(columns=features)

In [65]:
# Id del componente
df['id'] = [uuid.uuid4().hex for i in range(num_componentes)]
"""
Uso de la biblioteca uuid para generar una cadena aleatoria de caracteres 5000 veces.
Por consigiente, se lo asigna al atributo ID en el marco de datos.
"""

'\nUso de la biblioteca uuid para generar una cadena aleatoria de caracteres 5000 veces.\nPor consigiente, se lo asigna al atributo ID en el marco de datos.\n'

In [66]:
"""
En caso de desear asegurarse de que no se repitieron las ID,
puede realizar una verificación simple en el marco de datos con lo siguiente:
"""
print(df['id'].nunique()==num_componentes)

True


In [67]:
# Institución destino del componente
institution = ["Nasa", "DoD"]

In [68]:
df['institution'] = random.choices(
    institution, 
    weights=(47,53), 
    k=num_componentes
)
"""
Con la lista generada de las opciones de institución, se proporciona la
función de opciones pesos para cada función y la cantidad de opciones hacer representadas
por "k". Por consiguiente, se asignó al atributo de "institution" del marco de datos.
"""

'\nCon la lista generada de las opciones de institución, se proporciona la\nfunción de opciones pesos para cada función y la cantidad de opciones hacer representadas\npor "k". Por consiguiente, se asignó al atributo de "institution" del marco de datos.\n'

In [73]:
# Nombre del componente
# Creación de instancias de falsificador
faker = Faker()

def name_gen(institution):
    """
    Genera rápidamente un nombre del componente
    """
    faker.nic_handle()
        
    return faker.nic_handle()
    
# Generación de nombres para cada usuario
df['name'] = ['Component '+name_gen(i) for i in df['institution']]

In [74]:
# Tipo de componente
kind = ["Electronics",
       "Chemistry",
       "na"]

In [75]:
df['kind'] = random.choices(
    kind, 
    weights=(35,35,30), 
    k=num_componentes
)
"""
Con la lista generada de las opciones de tipos de componente, se proporciona la
función de opciones pesos para cada función y la cantidad de opciones hacer representadas
por "k". Por consiguiente, se asignó al atributo de "kind" del marco de datos.
"""

'\nCon la lista generada de las opciones de tipos de componente, se proporciona la\nfunción de opciones pesos para cada función y la cantidad de opciones hacer representadas\npor "k". Por consiguiente, se asignó al atributo de "kind" del marco de datos.\n'

In [76]:
# Guardar el conjunto de datos
df.to_csv('dataset_componentes.csv')

In [77]:
# Mostrar el conjunto de datos
pd.read_csv('dataset_componentes.csv', index_col=0) 

Unnamed: 0,id,name,kind,institution
0,78eee145f43748dda6b24b52df394217,Component YIRH942-FAKE,Electronics,Nasa
1,d7ec7f07aff24279bcbd4827f7b47062,Component IAHB3-FAKE,na,Nasa
2,63def48f05254a7b8df5f5bcd1225ae5,Component RMK398-FAKE,Chemistry,DoD
3,0d39daddef554b3db83ccffe0d12c2b9,Component TJS2-FAKE,Chemistry,Nasa
4,b124338eb0084092b0fb7c4ae9f016fc,Component PHG86554-FAKE,Chemistry,Nasa
...,...,...,...,...
4995,f5e9fe7c3b82469597642fff4cd1e633,Component MCAM11-FAKE,na,Nasa
4996,03520b23bc944ba8bb474b76d84a0f1d,Component FID33-FAKE,na,DoD
4997,62f428fe7bd7413abb00b26166dd7c8c,Component XIAT651-FAKE,Electronics,DoD
4998,6a19fd98cc054e6ca97f63b1fba03f45,Component MNXH63713-FAKE,Chemistry,DoD
