* Librerías a utilizar

In [1]:
import mysql.connector as con
import pandas as pd
import random
import datetime
import pymysql
import sqlalchemy
from sqlalchemy import create_engine
from datetime import datetime, timedelta

print(con.__version__)

9.1.0


##### 1. Crear base de datos

- Crear con código SQL una base de datos llamada supermercado
- Crear 7 tablas

        tiendas

    id_tienda (CLAVE PRIMARIA)
    nombre_tienda
    direccion
    ciudad

        empleados

    id_empleado (CLAVE PRIMARIA)
    nombre_empleado
    puesto (ej.: Cajero, Gerente, Reponedor)
    id_tienda (CLAVE EXTRANJERA que hace referencia a tiendas.id_tienda)

        categorías

    id_categoria (CLAVE PRIMARIA)
    nombre_categoria

        productos

    id_producto (CLAVE PRIMARIA)
    nombre_producto
    precio
    existencias
    id_categoria (CLAVE EXTRANJERA que hace referencia a categorias.id_categoria)

        clientes

    id_cliente (CLAVE PRIMARIA)
    nombre de pila
    apellido
    correo electrónico
    codigo_postal

        órdenes

    id_orden (CLAVE PRIMARIA)
    id_cliente (CLAVE EXTRANJERA que hace referencia a clientes.id_cliente)
    id_empleado (CLAVE EXTRANJERA que hace referencia a empleados.id_empleado)
    fecha_orden
    metodo_pago (una enumeración que solo admite tres valores Tarjeta, Efectivo)

        detalle_orden

    id_detalle (CLAVE PRIMARIA)
    id_orden (CLAVE EXTRANJERA que hace referencia a ordenes.id_orden) NOT NULL
    id_producto (CLAVE EXTRANJERA que hace referencia a productos.id_producto) NOT NULL
    cantidad
    precio_unitario: mismo precio que en la tabla producto
    descuento (podría ser NULL si no se aplica)

In [2]:
sql = """
DROP DATABASE IF EXISTS supermercado;

CREATE DATABASE IF NOT EXISTS supermercado;

USE supermercado;

CREATE TABLE IF NOT EXISTS tiendas (
    id_tienda INT AUTO_INCREMENT PRIMARY KEY,
    nombre_tienda VARCHAR(100),
    direccion VARCHAR(100),
    ciudad VARCHAR(100)
);
CREATE TABLE IF NOT EXISTS empleados (
    id_empleado INT AUTO_INCREMENT PRIMARY KEY,
    nombre_empleado VARCHAR(100),
    puesto VARCHAR(100),
    id_tienda INT NOT NULL,
    FOREIGN KEY (id_tienda) REFERENCE tiendas (id_tienda)
);
CREATE TABLE IF NOT EXISTS categorias (
    id_categoria INT AUTO_INCREMENT PRIMARY KEY,
    nombre_categoria VARCHAR(100),
);
CREATE TABLE IF NOT EXISTS productos (
    id_producto INT AUTO_INCREMENT PRIMARY KEY,
    nombre_producto VARCHAR(100),
    precio DECIMAL (5, 2),
    existencias INT,
    id_categoria INT NOT NULL,
    FOREIGN KEY (id_categoria) REFERENCE categorias (id_categoria)
);
CREATE TABLE IF NOT EXISTS clientes (
    id_cliente INT AUTO_INCREMENT PRIMARY KEY,
    first_name VARCHAR(100),
    last_name VARCHAR(100),
    email VARCHAR(100),
    codigo_postal INT
);
CREATE TABLE IF NOT EXISTS ordenes (
    id_orden INT AUTO_INCREMENT PRIMARY KEY,
    id_cliente INT NOT NULL,
    id_empleado INT NOT NULL,
    fecha_orden DATETIME,
    metodo_pago ENUM(Tarjeta, Efectivo),
    FOREIGN KEY (id_cliente) REFERENCE clientes (id_cliente),
    FOREIGN KEY (id_empleado) REFERENCE empleados (id_empleado)
);
CREATE TABLE IF NOT EXISTS detalle_orden (
    id_detalle INT AUTO_INCREMENT PRIMARY KEY,
    id_orden INT NOT NULL,
    id_producto INT NOT NULL,
    cantidad INT,
    precio_unitario DECIMAL (5, 2),
    descuento DECIMAL (3, 2),
    FOREIGN KEY (id_orden) REFERENCE ordenes (id_orden),
    FOREIGN KEY (id_producto) REFERENCE productos (id_producto)
);     
"""

- Código Python con conector mysql que ejecuta el SQL para borrar y generar la base de datos vacía

In [3]:
connection = con.connect(
    host='localhost',
    port='3306',
    user='root',
    password='admin'
)

cursor = connection.cursor()
cursor.execute(sql)
cursor.close()
connection.close()

##### 2. Generar datos de demostración desde Python

- Generar datos aleatorios en listas con Python similares a los realizados en clase.

   Uso de datetime, timedelta, random para generar datos aleatorios

- Pasar los datos a DataFrames de Pandas

- Pasar los DataFrames de Pandas a MySQL usando la función to_sql de Pandas con SQLAlchemy o usando MySQL Connector con sentencias INSERT.

TABLA TIENDAS

In [4]:
tiendas = ["Super1", "Super2", "Super3", "Super4", "Super5", "Super6", "Super7", "Super8"]
direccion = ["Calle Vicente Ferrer, Nº21", "Plaza Einstein, Nº6", "Calle Parras, Nº15", "Calle Linares, Nº12", "Plaza Constitución, Nº29", "Avenida Europa, Nº18", "Avenida Deportes, Nº11", "Calle Elvira, Nº30"]
ciudad = ["Jaén", "Granada", "Málaga", "Almería", "Sevilla", "Córdoba", "Cádiz", "Huelva"]

df_tiendas = pd.DataFrame(zip(tiendas, direccion, ciudad), columns=["nombre_tienda", "direccion", "ciudad"])

df_tiendas = df_tiendas.reset_index().rename({'index': 'id_tienda'}, axis=1)
df_tiendas['id_tienda'] = df_tiendas['id_tienda'] + 1
df_tiendas

Unnamed: 0,id_tienda,nombre_tienda,direccion,ciudad
0,1,Super1,"Calle Vicente Ferrer, Nº21",Jaén
1,2,Super2,"Plaza Einstein, Nº6",Granada
2,3,Super3,"Calle Parras, Nº15",Málaga
3,4,Super4,"Calle Linares, Nº12",Almería
4,5,Super5,"Plaza Constitución, Nº29",Sevilla
5,6,Super6,"Avenida Europa, Nº18",Córdoba
6,7,Super7,"Avenida Deportes, Nº11",Cádiz
7,8,Super8,"Calle Elvira, Nº30",Huelva


TABLA EMPLEADOS

In [5]:
nombres = ["Carmen", "Manuel", "Fátima", "Marcos", "Noelia", "Hugo", "Rocío", "Javier", "Lucía", "Antonio", "María", "Francisco", "Carmela", "Izan", "Natalia", "Daniel", "Mónica", "Carlos", "Rosa", "Diego"]
apellidos = ["Barranco", "Cazalla", "Mantas", "García", "Ortega", "Pérez", "Estévez", "Ramírez", "Armenteros", "Cámara","Anguita", "Arjona", "Arroyo", "Liébana", "López", "Montijano", "Damas", "González", "Montiel", "Morillas" ]
puestos = ["Gerente", "Cajero", "Reponedor", "Vendedor", "Limpieza"]
empleados = list()

def dist_puesto(num, puestos):
    if num < 5:
        return puestos [1]
    if num < 10:
        return puestos [2]
    if num < 15:
        return puestos [3]
    if num < 19:
        return puestos [4]
    else:
        return puestos [0]

for tienda in tiendas:
    for num in range(20):
       nombre = f"{random.choice(nombres)} {random.choice(apellidos)}"
       puesto = dist_puesto(num, puestos) 
       empleados.append([nombre, puesto, tienda])
       
df_empleados = pd.DataFrame(empleados, columns=["nombre_empleado", "puesto", "id_tienda"])
df_empleados = df_empleados.reset_index().rename({'index': 'id_empleado'}, axis=1)
df_empleados['id_empleado'] = df_empleados['id_empleado'] + 1
df_empleados

Unnamed: 0,id_empleado,nombre_empleado,puesto,id_tienda
0,1,Noelia Liébana,Cajero,Super1
1,2,Francisco Anguita,Cajero,Super1
2,3,Carlos Armenteros,Cajero,Super1
3,4,Carmela Estévez,Cajero,Super1
4,5,Rosa Ortega,Cajero,Super1
...,...,...,...,...
155,156,Hugo Montijano,Limpieza,Super8
156,157,Rosa Cámara,Limpieza,Super8
157,158,Daniel Armenteros,Limpieza,Super8
158,159,Diego Ortega,Limpieza,Super8


TABLA CATEGORÍAS

In [6]:
categorias = ["Pescadería","Frutería","Carnicería","Droguería","Lácteos","Bebidas","Charcutería","Aperitivos","Congelados","Panadería"]

df_categorias = pd.DataFrame(categorias, columns=["nombre_categoria"])
df_categorias = df_categorias.reset_index().rename({'index': 'id_categoria'}, axis=1)
df_categorias['id_categoria'] = df_categorias['id_categoria'] + 1
df_categorias

Unnamed: 0,id_categoria,nombre_categoria
0,1,Pescadería
1,2,Frutería
2,3,Carnicería
3,4,Droguería
4,5,Lácteos
5,6,Bebidas
6,7,Charcutería
7,8,Aperitivos
8,9,Congelados
9,10,Panadería


TABLA PRODUCTOS

In [7]:
productos = {
    1: ["Bacalao", "Salmón", "Trucha", "Calamares"],
    2: ["Plátanos", "Mandarinas", "Manzanas", "Tomates"],
    3: ["Pollo", "Ternera", "Cerdo", "Pavo"],
    4: ["Lejía", "Ambientador", "Balleta", "Lavaplatos"],
    5: ["Leche", "Yogur", "Margarina", "Queso"],
    6: ["Refresco", "Agua", "Zumos", "Vino"],
    7: ["Choped", "Salchichón", "Jamón", "Lomo"],
    8: ["Aceitunas", "Patatas", "Almendras", "Avellanas"],
    9: ["Verdura", "Arroz", "Cubitos", "Helados"],
    10: ["Pan", "Donuts", "Ensaimada", "Napolitana"]
}

producto_terminado = []
for categoria in df_categorias["id_categoria"]:
    for producto in productos[categoria]:
        precio = round(random.uniform(0.50, 20.00), 2)
        existencias = random.randint(0, 500)
        producto_terminado.append([producto, precio, existencias, categoria])

df_productos = pd.DataFrame(producto_terminado, columns=["nombre_producto", "precio", "existencias", "id_categoria"])
df_productos = df_productos.reset_index().rename({'index': 'id_producto'}, axis=1)
df_productos['id_producto'] = df_productos['id_producto'] + 1
df_productos

Unnamed: 0,id_producto,nombre_producto,precio,existencias,id_categoria
0,1,Bacalao,14.01,467,1
1,2,Salmón,10.57,162,1
2,3,Trucha,1.07,470,1
3,4,Calamares,1.67,200,1
4,5,Plátanos,1.18,25,2
5,6,Mandarinas,10.68,126,2
6,7,Manzanas,12.37,465,2
7,8,Tomates,12.0,34,2
8,9,Pollo,17.88,198,3
9,10,Ternera,7.15,287,3


TABLA CLIENTES

In [8]:
nombres = ["Carmen", "Manuel", "Fátima", "Marcos", "Noelia", "Hugo", "Rocío", "Javier", "Lucía", "Antonio", "María", "Francisco", "Carmela", "Izan", "Natalia", "Daniel", "Mónica", "Carlos", "Rosa", "Diego"]
apellidos = ["Barranco", "Cazalla", "Mantas", "García", "Ortega", "Pérez", "Estévez", "Ramírez", "Armenteros", "Cámara","Anguita", "Arjona", "Arroyo", "Liébana", "López", "Montijano", "Damas", "González", "Montiel", "Morillas" ]
emails = ["@gmail.com", "@hotmail.com", "@outlook.com"]

cliente = []

for num in range(2000):
    nombre = f"{random.choice(nombres)}"
    apellido = f"{random.choice(apellidos)}"
    email = f"{nombre}{apellido}{emails}"
    codigo_postal = random.randint(23000, 24000)
    cliente.append([nombre, apellido, email, codigo_postal])
   
df_clientes = pd.DataFrame(cliente, columns=["firs_name", "last_name", "email", "codigo_postal"])
df_clientes = df_clientes.reset_index().rename({'index': 'id_cliente'}, axis=1)
df_clientes['id_cliente'] = df_clientes['id_cliente'] + 1
df_clientes

Unnamed: 0,id_cliente,firs_name,last_name,email,codigo_postal
0,1,Hugo,Cazalla,"HugoCazalla['@gmail.com', '@hotmail.com', '@ou...",23971
1,2,Francisco,Pérez,"FranciscoPérez['@gmail.com', '@hotmail.com', '...",23743
2,3,Carlos,Mantas,"CarlosMantas['@gmail.com', '@hotmail.com', '@o...",23800
3,4,Hugo,Barranco,"HugoBarranco['@gmail.com', '@hotmail.com', '@o...",23095
4,5,Izan,Montiel,"IzanMontiel['@gmail.com', '@hotmail.com', '@ou...",23404
...,...,...,...,...,...
1995,1996,Manuel,Damas,"ManuelDamas['@gmail.com', '@hotmail.com', '@ou...",23285
1996,1997,Fátima,Ortega,"FátimaOrtega['@gmail.com', '@hotmail.com', '@o...",23489
1997,1998,Mónica,López,"MónicaLópez['@gmail.com', '@hotmail.com', '@ou...",23245
1998,1999,Mónica,Cazalla,"MónicaCazalla['@gmail.com', '@hotmail.com', '@...",23433


TABLA ÓRDENES

In [9]:
clientes = df_clientes["id_cliente"]
empleados = df_empleados["id_empleado"]
fecha_apertura = datetime(year=2020, month=1, day=7, hour=9, minute=30)

ordenes = []
for orden in range (10000):
    cliente = int(random.choice(clientes))
    empleado = int(random.choice(empleados))
    pago = random.choice(["Tarjeta", "Efectivo"])
    fecha = fecha_apertura + timedelta(minutes=10*orden)
    ordenes.append([cliente, empleado,fecha, pago])
    
df_ordenes = pd.DataFrame(ordenes, columns=["id_cliente", "id_empleado", "fecha_orden", "metodo_pago"])
df_ordenes = df_ordenes.reset_index().rename({'index': "id_orden"}, axis=1)
df_ordenes['id_orden'] = df_ordenes['id_orden'] + 1
df_ordenes

Unnamed: 0,id_orden,id_cliente,id_empleado,fecha_orden,metodo_pago
0,1,1441,55,2020-01-07 09:30:00,Efectivo
1,2,326,151,2020-01-07 09:40:00,Tarjeta
2,3,1027,10,2020-01-07 09:50:00,Tarjeta
3,4,55,7,2020-01-07 10:00:00,Tarjeta
4,5,1173,160,2020-01-07 10:10:00,Efectivo
...,...,...,...,...,...
9995,9996,117,80,2020-03-16 19:20:00,Tarjeta
9996,9997,1965,26,2020-03-16 19:30:00,Tarjeta
9997,9998,1520,4,2020-03-16 19:40:00,Efectivo
9998,9999,1795,156,2020-03-16 19:50:00,Efectivo


TABLA DETALLE_ORDEN

In [10]:
productos = df_productos["id_producto"]
ordenes = df_ordenes["id_cliente"]

detalle_ordenes = []
for orden in ordenes:
    for num in range (1, 15):
        producto = int(random.choice(productos))
        cantidad = random.randint(1, 20)
        precio = float(round(df_productos["precio"][df_productos["id_producto"] == producto].iloc[0]))
        descuento = float(round(random.uniform(0, 5.0), 2))
        detalle_ordenes.append([orden, producto, cantidad, precio, descuento, ])
    
df_detalle_ordenes = pd.DataFrame(detalle_ordenes, columns=["id_orden", "id_producto", "cantidad", "precio_unitario", "descuento"])
df_detalle_ordenes = df_detalle_ordenes.reset_index().rename({'index': "id_detalle_ordenes"}, axis=1)
df_detalle_ordenes['id_orden'] = df_detalle_ordenes['id_detalle_ordenes'] + 1
df_detalle_ordenes

Unnamed: 0,id_detalle_ordenes,id_orden,id_producto,cantidad,precio_unitario,descuento
0,0,1,13,2,11.0,3.80
1,1,2,12,6,8.0,0.41
2,2,3,11,4,1.0,4.68
3,3,4,37,13,15.0,1.14
4,4,5,14,10,4.0,0.78
...,...,...,...,...,...,...
139995,139995,139996,19,8,8.0,4.00
139996,139996,139997,3,5,1.0,1.76
139997,139997,139998,37,12,15.0,3.43
139998,139998,139999,33,10,9.0,1.12


CONEXIÓN

In [11]:
user = "root"
password = "admin"
database = "supermercado"
engine = create_engine(f"mysql+pymysql://{user}:{password}@localhost:3306/{database}")
connection.close()

CARGA DE DATOS EN MYSQL

In [12]:
df_tiendas.to_sql("tiendas", con= engine, if_exists="append", index= False)
df_empleados.to_sql("empleados", con= engine, if_exists="append", index= False)
df_categorias.to_sql("categorias", con= engine, if_exists="append", index= False)
df_productos.to_sql("productos", con= engine, if_exists="append", index= False)
df_clientes.to_sql("clientes", con= engine, if_exists="append", index= False)
df_ordenes.to_sql("ordenes", con= engine, if_exists="append", index= False)
df_detalle_ordenes.to_sql("detalle_ordenes", con= engine, if_exists="append", index= False)

140000

##### 3. Consultas SQL 

1. Listado de órdenes con detalles de cliente y empleado
    
    
    Muestra el ID de la orden, la fecha, el nombre del cliente, el nombre del empleado que asistió a la compra y el método de pago.
    Utiliza un JOIN entre las tablas de pedidos, clientes y empleados.

2. Productos con stock bajo


    Filtra aquellos productos cuyo stock sea menor a 10.
    Muestra nombre del producto, categoría y stock.

3. Ventas totales por categoría


    Muestra el nombre de la categoría y la suma total de las ventas (ej.: multiplicando cantidad * precio_unitario) para cada categoría.
    Realiza el JOIN con detalle_orden, productos y categorías.
    Utilización de agrupación (GROUP BY).

4. Clientes con mayores gastos acumulados


    Muestra el nombre del cliente y el monto total que ha gastado (suma de todas sus órdenes).
    Asegúrese de tener en cuenta posibles descuentos (descuento) si se ha definido. Por ejemplo, la fórmula podría ser (cantidad * precio_unitario) - descuento.
    Ordena el resultado de mayor a menor gasto acumulado.

5. Empleados y número de órdenes gestionadas


    Muestra el nombre del empleado, el puesto y la cantidad de órdenes que ha gestionado.
    Utilice GROUP BY y COUNT.

6. Ordenes filtradas por fecha y tienda


    Muestra todas las órdenes que se realizaron en un rango de fechas determinadas (ej.: del 1 de enero de 2025 al 31 de enero de 2025) y en una tienda específica.
    Incluye datos de la tienda y del cliente.

7. Ranking de productos más vendidos en cada tienda


    Para cada tienda, muestra los 3 productos más vendidos (en términos de cantidad total).
    Tendrás que unir tiendas, empleados, pedidos y detalle_orden, además de productos.
    Usa GROUP BY y ordena por la cantidad sumada (y opcionalmente, un LIMIT 3).

##### Opcional: agregar alguna consulta con subconsultas o algo que no se abarque en las consultas anteriores.