In [None]:
import csv
import random
from faker import Faker
from datetime import datetime, timedelta

# Configurar Faker para generar datos en español de España
fake = Faker('es_ES')

# Ruta para guardar los archivos CSV
output_dir = 'C:/tienda/Dataset/CSV/'

# Definir nombres de productos para cada categoría
product_data = {
    'gran_electro': [('Aspirador escoba', 105, 76.65), ('Frigorífico dos puertas', 199, 157.21), ('Horno multifunción', 275, 217.25), ('Lavadora', 320, 243.2), ('Lavadora-secadora', 490, 372.4), ('Lavavajillas', 370, 307.1), ('Microondas', 80, 64.8), ('Microondas integrable', 150, 121.5), ('Placa de inducción', 150, 115.5), ('Secadora', 259, 186.48)],
    'electronica': [('Camara de Accion', 230, 163.3), ('Cámara de fotos instantánea', 80, 57.6), ('Impresora', 179, 143.2), ('Móvil alta gama', 839, 612.47), ('Movil gama media', 350, 248.5), ('PC de sobremesa', 459, 344.25), ('Portátil', 350, 266), ('Portatil gaming', 999, 799.2), ('Tablet', 210, 155.4), ('Televisor 32"', 240, 201.6)],
    'mueble': [('Armario dos puertas', 99.99, 72.99), ('Cama individual', 120, 92.4), ('Cama Matrimonial', 189, 153.09), ('Escritorio', 75, 54), ('Espejo de pared', 25, 18.25), ('Mesa de luz básica con cajon', 39.99, 31.19), ('Mesa madera extensible', 139, 102.86), ('Silla Escritorio', 100, 74), ('Silla nórdica', 55, 41.8), ('Silla Premium', 160, 118.4)],
    'jardineria': [('Bordeadora', 79, 66.36), ('Cortadora de césped', 140, 102.2), ('Guantes de Proteccion', 9.99, 8.19), ('Hidrolimpiadora', 160, 115.2), ('Manguera', 12.99, 10.13), ('Motosierra', 59.99, 50.39), ('Podadora', 105, 73.5), ('Regadera', 7.99, 6.15), ('Tijeras de podar', 25, 19.5), ('Tumbona de jardín', 50, 37.5)],
    'pequeño_electro': [('Batidora de mano', 38, 26.98), ('Batidora de vaso', 80, 64.8), ('Cafetera Espresso', 70, 56.7), ('Cafetera Volturno', 35, 24.85), ('Grill', 36, 27.36), ('Hervidor', 20, 15.4), ('Licuadora', 45, 33.75), ('Plancha a vapor', 50, 40), ('Procesador de alimentos', 120, 97.2), ('Tostadora', 25, 19.25)]
}
# Lista de pares de ciudad, estado y código postal de España
ciudades_estados_codigos = [
    ('Madrid', 'Madrid', '28001'),
    ('Barcelona', 'Cataluña', '08001'),
    ('Valencia', 'Comunidad Valenciana', '46001'),
    ('Sevilla', 'Andalucía', '41001'),
    ('Zaragoza', 'Aragón', '50001'),
    ('Málaga', 'Andalucía', '29001'),
    ('Murcia', 'Región de Murcia', '30001'),
    ('Palma', 'Islas Baleares', '07001'),
    ('Las Palmas', 'Canarias', '35001'),
    ('Bilbao', 'País Vasco', '48001'),
    ('Alicante', 'Comunidad Valenciana', '03001'),
    ('Córdoba', 'Andalucía', '14001'),
    ('Valladolid', 'Castilla y León', '47001'),
    ('Vigo', 'Galicia', '36201'),
    ('Gijón', 'Asturias', '33201'),
    ('L\'Hospitalet de Llobregat', 'Cataluña', '08901'),
    ('A Coruña', 'Galicia', '15001'),
    ('Granada', 'Andalucía', '18001'),
    ('Vitoria-Gasteiz', 'País Vasco', '01001'),
    ('Elche', 'Comunidad Valenciana', '03201'),
    ('Oviedo', 'Asturias', '33001'),
    ('Santa Cruz de Tenerife', 'Canarias', '38001'),
    ('Badalona', 'Cataluña', '08910'),
    ('Cartagena', 'Región de Murcia', '30201'),
    ('Terrassa', 'Cataluña', '08220'),
    ('Jerez de la Frontera', 'Andalucía', '11401'),
    ('Sabadell', 'Cataluña', '08200'),
    ('Móstoles', 'Madrid', '28931'),
    ('Alcalá de Henares', 'Madrid', '28801'),
    ('Pamplona', 'Navarra', '31001')
]
# Filtrar clientes de Cataluña debido a que precisamos que las ordenes que hayan sido " En tienda " sean de Cataluña
clientes_cataluña = [(i + 1, *data) for i, data in enumerate(ciudades_estados_codigos) if data[1] == 'Cataluña']

# Función para generar fechas aleatorias entre 1 de enero de 2024 y 30 de junio de 2024
def random_date_within_range(start, end, order_type):
    delta = end - start
    random_days = random.randrange(delta.days)
    date = start + timedelta(days=random_days)
    # Definimos un rango de horario para las ordenes creadas en 'Tienda'
    if order_type == 'Tienda Fisica':
        hour = random.randint(9, 20)  # 9 AM to 9 PM Horario de funcionamiento de la tienda fisica.
        minute = random.randint(0, 59)
        second = random.randint(0, 59)
        date = datetime.combine(date, datetime.min.time()) + timedelta(hours=hour, minutes=minute, seconds=second)
    else:
        hour = random.randint(0, 23)
        minute = random.randint(0, 59)
        second = random.randint(0, 59)
        date = datetime.combine(date, datetime.min.time()) + timedelta(hours=hour, minutes=minute, seconds=second)

    return date
# Limite de fechas para las ordenes
start_date = datetime(2024, 1, 1)
end_date = datetime(2024, 6, 30)

# Archivo order.csv
order_file = output_dir + 'order.csv'
with open(order_file, 'w', newline='') as csvfile:
    fieldnames = ['order_id', 'order_type_num', 'order_type', 'customer_id', 'product_id', 'seller_id', 'order_time', 'quantity_purchased', 'payment_type', 'delivery_type'] #No se crea la columna total_price ya que la misma le asignara valor en SQL
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()

    order_id = 1
    for month in range(1, 7):  # De enero a junio (6 meses)
        num_orders = random.randint(1000, 1400) # Generar entre 1000 y 1400 oredenes por mes.
        for _ in range(num_orders):
            order_type_num = random.randint(1, 2) # Se crea una variable 1 y 2 para asignar Online / Tienda a cada una de las ordenes.
            order_type = 'Tienda Online' if order_type_num == 1 else 'Tienda Fisica'
            order_time = random_date_within_range(datetime(2024, month, 1), datetime(2024, month, 28 if month == 2 else 30), order_type).strftime('%Y-%m-%d %H:%M:%S')
            quantity_purchased = random.randint(1, 3)
            # Si el tipo de ordenes es Tienda Online solo se puede abonar con Tarjeta / Paypal y el vendedor siempre será 11 -> Tienda Online .
            if order_type == 'Tienda Online':
                delivery_type = 'Enviado por correo' if random.random() < 0.8 else 'Entrega en Tienda' # Limitamos la cantidad de ordenes que eran entregadas en tienda
                seller_id = '11'
                payment_type = random.choice(['Tarjeta', 'Paypal'])
                customer_id = random.randint(1, 101)
            else:
                delivery_type = 'Entrega en Tienda'
                seller_id = random.randint(1, 10)
                payment_type = random.choice(['Tarjeta', 'Paypal', 'Efectivo'])
                customer_id = random.choice(clientes_cataluña)[0]

            # Si la entrega es en tienda el cliente debe ser de Cataluña
            if delivery_type == 'Entrega en Tienda':
                customer_id = random.choice(clientes_cataluña)[0]

            writer.writerow({
                'order_id': order_id,
                'order_type_num': order_type_num,
                'order_type': order_type,
                'customer_id': customer_id,
                'product_id': random.randint(1, 51),
                'seller_id': seller_id,
                'order_time': order_time,
                'quantity_purchased': quantity_purchased,
                'payment_type': payment_type,
                'delivery_type': delivery_type
            })
            order_id += 1

# Archivo customer.csv . Utilizando la libreria fake, se le asigna un nombre aleatorio al cliente  y para evitar incongruencias de datos utilizando la lista anteriormente creada
# donde manualmente asignamos valores
customer_file = output_dir + 'customer.csv'
with open(customer_file, 'w', newline='') as csvfile:
    fieldnames = ['customer_id', 'customer_name', 'gender', 'edad', 'direccion', 'ciudad', 'estado', 'postal_code']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    for i in range(1, 101):
        ciudad, estado, codigo_postal = random.choice(ciudades_estados_codigos)
        writer.writerow({
            'customer_id': i,
            'customer_name': fake.name(),
            'gender': random.choice(['Masculino', 'Femenino']),
            'edad': random.randint(18, 80),
            'direccion': fake.street_address(),
            'ciudad': ciudad,
            'estado': estado,
            'postal_code': codigo_postal
        })

# Archivo products.csv Para evitar incogruencia en los datos realizamos una busqueda manual de precios y creamos un diccionario con los valores deseados.
product_file = output_dir + 'products.csv'
with open(product_file, 'w', newline='') as csvfile:
    fieldnames = ['product_id', 'product_category', 'product_name', 'unit_price', 'supplier_price', 'revenue']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    product_id = 1
    for category, products in product_data.items():
        for name, unit_price, supplier_price in products:
            revenue = unit_price - supplier_price
            writer.writerow({
                'product_id': product_id,
                'product_category': category,
                'product_name': name,
                'unit_price': unit_price,
                'supplier_price': supplier_price,
                'revenue': revenue
            })
            product_id += 1

# Archivo sellers.csv. Al igual que con los clientes, utilizando la libreria faker creamos un listado aleatorio de nombres.
seller_file = output_dir + 'sellers.csv'
with open(seller_file, 'w', newline='') as csvfile:
    fieldnames = ['seller_id', 'seller_name']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    writer.writeheader()
    for i in range(1, 11):
        writer.writerow({
            'seller_id': i,
            'seller_name': fake.name()
        })
    # Añadir Tienda Online con seller_id 11
    writer.writerow({
        'seller_id': 11,
        'seller_name': 'Tienda Online'
    })
