In [1]:
# Importa las librerías necesarias
import pandas as pd          # Para trabajar con estructuras de datos (DataFrames)
import numpy as np           # Para operaciones numéricas y generación de datos aleatorios
from faker import Faker      # Para generar datos sinteticos
import random                # Para operaciones aleatorias 
import sqlite3               # Para crear y manipular una base de datos SQLite

In [None]:
# Inicializa la librería Faker
faker = Faker()

# Establece semillas para asegurar que los resultados sean reproducibles
Faker.seed(0)                # Fija la semilla para faker
np.random.seed(0)           # Fija la semilla para NumPy (aleatoriedad)
random.seed(0)              # Fija la semilla para random

# Lista de productos posibles que se venden
productos = ['CPU Intel i5', 'Laptop Lenovo', 'Monitor Samsung', 'Laptop HP',
             'Impresora HP', 'Tablet Apple', 'CPU AMD Ryzen', 'Impresora Epson']

# Lista de canales de venta disponibles
canales = ['Online', 'Tienda Física']

# Lista de ciudades donde ocurren las ventas
ciudades = ['Quito', 'Guayaquil', 'Cuenca', 'Loja', 'Ambato']

# Define el número de registros a generar
n = 10000

# Genera un diccionario con los campos del dataset
data = {
    "producto": np.random.choice(productos, n),  # Escoge aleatoriamente un producto para cada fila
    "fecha_venta": [faker.date_between(start_date='-1y', end_date='today') for _ in range(n)],  # Fechas de venta
    "cantidad": np.random.randint(1, 50, n),      # Cantidad vendida entre 1 y 49
    "precio_unitario": np.round(np.random.uniform(100, 1500, n), 2),  # Precio entre $100 y $1500 con 2 decimales
    "canal_venta": np.random.choice(canales, n),  # Canal aleatorio: Online o Tienda Física
    "cliente_id": [f"CL-{str(i).zfill(4)}" for i in np.random.randint(1, 200, n)],  # ID ficticio del cliente
    "ciudad": np.random.choice(ciudades, n)       # Ciudad de la venta
}

# Crea un DataFrame de pandas con los datos generados
ventas_df = pd.DataFrame(data)

# Guarda el DataFrame en un archivo CSV (separado por comas) sin índice
ventas_df.to_csv("datasets/ventas_tecnologia_10000.csv", index=False)

In [None]:
# Inicializa faker para generación de datos sinteticos
faker = Faker()

# Establece semillas para reproducibilidad (resultados consistentes)
Faker.seed(0)
np.random.seed(0)

# Define listas base (reutilizadas del dataset de ventas)
productos = ['CPU Intel i5', 'Laptop Lenovo', 'Monitor Samsung', 'Laptop HP',
             'Impresora HP', 'Tablet Apple', 'CPU AMD Ryzen', 'Impresora Epson']
ciudades = ['Quito', 'Guayaquil', 'Cuenca', 'Loja', 'Ambato']

# Define las bodegas de origen posibles
bodegas = ['Bodega Norte', 'Bodega Sur']

# Define los tipos de transporte usados en las entregas
transportes = ['Aéreo', 'Terrestre']

# Número de registros a generar
n = 10000

# Genera un diccionario con los datos de entregas
data = {
    "producto": np.random.choice(productos, n),  # Producto entregado aleatoriamente
    "fecha_entrega": [faker.date_between(start_date='-1y', end_date='today') for _ in range(n)],  # Fechas realistas
    "cantidad_entregada": np.random.randint(1, 50, n),  # Cantidades entre 1 y 49
    "bodega_origen": np.random.choice(bodegas, n),  # Selecciona la bodega de origen
    "ciudad_entrega": np.random.choice(ciudades, n),  # Ciudad de entrega
    "tipo_transporte": np.random.choice(transportes, n)  # Transporte usado
}

# Crea un DataFrame con los datos de entregas
entregas_df = pd.DataFrame(data)

# Conecta o crea una base de datos SQLite
conn = sqlite3.connect("datasets/entregas_tecnologia_10000.db")

# Guarda el DataFrame como una tabla llamada 'entregas' dentro de la base de datos
entregas_df.to_sql("entregas", conn, index=False, if_exists='replace')

# Cierra la conexión con la base de datos
conn.close()

