In [1]:
"""

Importación de librerías y módulos requeridos para la generación de datos
Pandas es una librería utilizada para el análisis de datos
Faker es una librería que permite generar datos sintéticos o falsos
uuid es una librería que permite crear id's
numpy es una librería que permite gestionar matrices multidimensionales, y utilizar funciones matematicas
random es una librería que permite generar números aleatorios
Factory es un módulo de la librería faker que permite crear un objeto de tipo Faker y agregar el idioma regional que se desea utilizar

"""
#Instalar librería Faker para la generación de datos sintéticos
!pip install Faker

import pandas as pd
from faker import Faker
import uuid
import numpy as np
import random
from faker import Factory
# Cambiar la traducción de los datos sintéticos generados con la librería Faker
fake = Factory.create("es-ES")

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting Faker
  Downloading Faker-15.3.2-py3-none-any.whl (1.6 MB)
[K     |████████████████████████████████| 1.6 MB 6.1 MB/s 
Installing collected packages: Faker
Successfully installed Faker-15.3.2


In [2]:
"""
Creación de dataframes utilizando la librería pandas
DataFrame es un método que recibe uno o más parámetros según sea necesario. 

Parámetros:
--------------------------------------------------------------------------

columns:
    Columnas del dataframe a crear

Retorno:
--------------------------------------------------------------------------
    Se retorna un archivo de tipo dataframe de dos dimensiones.
"""
# Crear el dataframe con 7 columnas
df = pd.DataFrame(columns=[
    "IdInsti",
    "NomInstituto",
    "CorreoInstituto",
    "TelefonoInstituto",
    "DescripcionInstituto",
    "EstadoInstituto",
    "URL"
])

In [3]:
"""
UUID1 permite generar un ID único a partir de una secuencia de números y el tiempo actual.

Parámetros:
------------------------------------------------------------------------------------------
    No se envió parámetros

Retorno: 
------------------------------------------------------------------------------------------
    Secuencia de número de 14-bits
"""
# Asignar a una variable la cantidad de datos a generar
numeroDatosSinteticos = 5000
# Generar los 5000 IDs para los datos sintéticos y guardarlos en la columna del DataFrame
df.IdInsti = [uuid.uuid1() for i in range(numeroDatosSinteticos)]

In [4]:
"""

first_name es un módulo de la librería Faker que permite  generar un primer nombre aleatorio

Parámetros:
------------------------------------------------------------------------------------------
    No se enviaron parámetros

Retorno: 
------------------------------------------------------------------------------------------
    Cadena de caracteres que incluye el primer nombre
    
last_name es un módulo de la librería Faker que permite  generar un apellido aleatorio

Parámetros:
------------------------------------------------------------------------------------------
    No se enviaron parámetros

Retorno: 
------------------------------------------------------------------------------------------
    Cadena de caracteres que incluye el apellido

lower es un módulo de la librería estandar de Python que permite convertir un texto completo a letras minúsculas

Parámetros:
------------------------------------------------------------------------------------------
    No se enviaron parámetros

Retorno: 
------------------------------------------------------------------------------------------
    Cadena de caracteres con todas las letras en minúsculas
     
"""
#Crear e inicializar las variables
nombre = ''
apellido = ''
# Crear los 5000 datos sintéticos
for i in range(5000):
  # Generar un nombre
  nombre = fake.first_name()
  # Generar un apellido
  apellido = fake.last_name()
  # Generar un nombre de un instituto concatenando el nombre y el apellido
  df.NomInstituto[i] = 'Instituto ' + nombre + ' ' + apellido
  # Generar un email a partir del nombre y el apellido
  email = f"{nombre}.{apellido}@hotmail.com"
  # Transformar el email a lowercase (letras minusculas)
  email = email.lower()
  # Guardar el valor del email
  df.CorreoInstituto[i] = email
  # Generar un URl a partir del nombre y el apellido y dos cadenas de caracteres
  url = "universidad" + nombre + apellido + ".com"
  # Transformar el URL a lowercase (letras minusculas)
  url = url.lower()
  # Guardar el valor del URL en el DataFrame
  df.URL[i] = url

In [5]:
"""

randint es un módulo de la librería random que permite  generar un valor aleatorio numérico de tipo entero

Parámetros:
------------------------------------------------------------------------------------------
    valorInicial: El valor inicial del rango
    valorFinal: El valor final del rango

Retorno: 
------------------------------------------------------------------------------------------
    Un número entero aleatorio

"""
# Generar los 5000 datos sintéticos del teléfono
for i in range(numeroDatosSinteticos):
  # Colocar los dos primeros números que son comúnes en Ecuador
  telefono = '09'
  # Generar los números restantes seguidos del 09 que puede ser cualquier dígito entre 0 y 9
  for _ in range(2, 10):
    # Generar un dígito aleatorio entre 0 y 9 y concatenarlo con los dígitos anteriores
    telefono = telefono + str(random.randint(0, 9))
  # Guardar los valores del telefono en el DataFrame
  df.TelefonoInstituto[i]=telefono

In [6]:
"""

Choice es un módulo de la librería NumPy que permite seleccionar, de entre varias opciones, un valor al azar con una probabilidad determinada

Parámetros:
------------------------------------------------------------------------------------------
    estadoOpciones: Valores que puede tomar el estado

Retorno: 
------------------------------------------------------------------------------------------
    Cadena de caracteres que incluye el estado del instituto


"""
#Crear las opciones de estado
estadoOpciones = ["Activo", "Inactivo"]
# Generar los estados sintéticos
for i in range(numeroDatosSinteticos):
  # Seleccionar de forma aleatoria uno de los estados
  estado = random.choice(estadoOpciones)
  # Guardar el estado en el DataFrame
  df.EstadoInstituto[i]=estado

In [7]:
"""

Paragraph es un módulo de la librería Faker que permitegenerar párrafos con una o más oraciones sintéticas

Parámetros:
------------------------------------------------------------------------------------------
    nb_sentences: El número de oraciones que se desea generar.

Retorno: 
------------------------------------------------------------------------------------------
    Cadena de caracteres que incluye la descripción de la carrera en formato de Lorem Ipsum

"""
# Generar las descripciones sintéticas
for i in range(numeroDatosSinteticos):
  # Crear un párrafo con tres oraciones
  descripcion = fake.paragraph(nb_sentences=3)
  #Guardar la descripción en el DataFrame
  df.DescripcionInstituto[i]=descripcion

In [8]:
# Crear el CSV a partir del DataFrame
df.to_csv('institutos.csv')