In [67]:
import pandas as pd
import random
import mysql.connector as con
import mysql
import pymysql 
import sqlalchemy 
from sqlalchemy import create_engine

In [68]:
### 1. Crear base de datos

In [69]:
schema = '''DROP DATABASE IF EXISTS supermercado;

CREATE DATABASE IF NOT EXISTS supermercado;

USE supermercado;

CREATE TABLE IF NOT EXISTS tiendas(
    id_tienda INT AUTO_INCREMENT PRIMARY KEY,
    tienda VARCHAR (25) NOT NULL,
    direccion VARCHAR (255),
    ciudad VARCHAR(25));

CREATE TABLE IF NOT EXISTS empleados(
    id_empleado INT AUTO_INCREMENT PRIMARY KEY,
    empleado VARCHAR (255) NOT NULL,
    puesto VARCHAR (25) NOT NULL, 
    id_tienda INT,
    FOREIGN KEY (id_tienda) REFERENCES tiendas(id_tienda));

CREATE TABLE IF NOT EXISTS categorias(
    id_categoria INT AUTO_INCREMENT PRIMARY KEY,
    categoria VARCHAR (25) NOT NULL);

CREATE TABLE IF NOT EXISTS productos(
    id_producto INT AUTO_INCREMENT PRIMARY KEY,
    producto VARCHAR (255) NOT NULL,
    precio DECIMAL (6, 2) NOT NULL,
    stock INT NOT NULL,
    id_categoria INT,
    FOREIGN KEY (id_categoria) REFERENCES categorias(id_categoria)
    );

CREATE TABLE IF NOT EXISTS clientes(
    id_cliente INT AUTO_INCREMENT PRIMARY KEY,
    nombre VARCHAR (50) NOT NULL,
    apellido VARCHAR (50) NOT NULL,
    email VARCHAR (255),
    codigo_postal VARCHAR (5)
    );

CREATE TABLE IF NOT EXISTS ordenes(
    id_orden INT AUTO_INCREMENT PRIMARY KEY,
    id_cliente INT NOT NULL,
    id_empleado INT NOT NULL, 
    fecha_orden DATE NOT NULL,
    metodo_pago ENUM ('tarjeta', 'efectivo'),
    FOREIGN KEY (id_cliente) REFERENCES clientes(id_cliente),
    FOREIGN KEY (id_empleado) REFERENCES empleados(id_empleado)
    );

CREATE TABLE IF NOT EXISTS detalle_orden(
    id_detalle INT AUTO_INCREMENT PRIMARY KEY,
    id_orden INT NOT NULL,
    id_producto INT NOT NULL,
    cantidad INT NOT NULL,
    precio_unitario DECIMAL (6, 2) NOT NULL,
    descuento DECIMAL (4,2) DEFAULT NULL,
    FOREIGN KEY (id_orden) REFERENCES ordenes(id_orden),
    FOREIGN KEY (id_producto) REFERENCES productos(id_producto)
    );'''

In [70]:
connection = con.connect(
    host="localhost",
    port= "3306",
    user= "root",
    password= "admin"
)
cursor = connection.cursor()
cursor.execute(schema)
cursor.close()
connection.close()

In [71]:
### 2. Generar datos demo desde Python

In [72]:
user = "root"
password = "admin"
database = "supermercado"

engine = create_engine(f"mysql+pymysql://{user}:{password}@localhost/{database}")
connection = engine.connect()
connection.close()

In [73]:
## tiendas

data = {"tienda" : ['Super Cesta', 'Super Cistella', 'Super Saskia', 'Cesta Norte', 'Cesta Sur', 'Cesta Mancha'],
        "direccion": ['Calle Gran Via 44', 
            'Av Las Ramblas 11', 
            'Calle 31 de agosto 55', 
            'Rua do Franco 88', 
            'Calle Larios 33',
            'Av Don Quijote, 77'],
        "ciudad":['Madrid', 'Barcelona', 'San Sebastian', 'Pontevedra', 'Malaga', 'Albacete']}

df_tiendas = pd.DataFrame(data)
df_tiendas.to_sql(name = "tiendas", con = engine, if_exists = "append", index = False)

6

In [74]:
## empleados

nombres = ['Juan', 'Maria', 'Pedro', 'Ana', 'Luis', 'Laura', 'Carlos', 
           'Marta', 'Javier', 'Carmen', 'Ricardo', 'Joaquin', 'Beatriz', 'Isabel', 'Emilio', 'Francisco']
apellidos = ['Garcia', 'Perez', 'Martinez', 'Gil', 'Lopez', 'Gomez','Molina', 'Castillo', 'Sanchez', 'Rodriguez', 'Ruiz']
puestos = {
    'Gerente': 2,
    'Cajero': 8,
    'Limpiador': 2,
    'Reponedor': 8}
empleados = []
nombres_generados= set()

for tienda in range(1,7):
    for puesto, cantidad in puestos.items():
        for _ in range(cantidad):
            while True:
                nombre_empleado = f"{random.choice(nombres)} {random.choice(apellidos)}"
                if nombre_empleado not in nombres_generados: # Evitar duplicados, primero con el set nombres_generados antes de empleados 
                    nombres_generados.add(nombre_empleado)
                    empleados.append({'empleado': nombre_empleado, 'puesto': puesto, 'id_tienda': tienda})
                    break
df_empleados = pd.DataFrame(empleados)
df_empleados.to_sql(name = "empleados", con = engine, if_exists = "append", index = False)

120

In [75]:
## categorias

categorias = {"categoria": ['Frutas','Verduras','Panaderia','Limpieza','Higiene','Congelados',
                            'Bebidas','Snacks','Legumbres','Conservas']}
df_categorias = pd.DataFrame(categorias)
df_categorias.to_sql(name = "categorias", con = engine, if_exists = "append", index = False)

10

In [76]:
## productos

productos = [
    # Frutas
    ('Manzana 500 gr', '1.20', '100', '1'),
    ('Naranja 1200 gr', '2.50', '50', '1'),
    ('Platano 1000 gr', '1.80', '75', '1'),
    ('Mandarina 750 gr', '2.20', '150', '1'),
    # Verduras
    ('Zanahoria 500 gr', '0.90', '325', '2'),
    ('Cebolla 750 gr', '1.50', '450', '2'),
    ('Calabacin', '0.75', '275', '2'),
    ('Patata 3000 gr', '4.95', '300', '2'),
    # Panadería
    ('Barra pan', '0.65', '200', '3'),
    ('Magdalenas', '2.50', '185', '3'),
    ('Donuts', '1.45', '200', '3'),
    ('Galletas', '1.95', '400', '3'),
    # Limpieza
    ('Detergente', '3.95', '450', '4'),
    ('Multiusos spray', '1.75', '250', '4'),
    ('Lavavajillas', '1.90', '210', '4'),
    ('Lejia', '1.20','350','4'),
    # Higiene
    ('Champu','2.95','300','5'), 
    ('Gel de ducha','1.50','250','5'), 
    ('Dentrifico','2.15','185','5'), 
    ('Desodorante','2.50','120','5'), 
    # Congelados
    ('Patatas prefritas','2.25','170','6'), 
    ('Croquetas','2.95','145','6'), 
    ('Pizza margarita','3.15','140','6'), 
    ('Churros','1.90','150','6'), 
    # Bebidas 
    ('Agua mineral','0.75','490','7'), 
    ('Refresco cola','2.40','450','7'), 
    ('Zumo naranja','1.70','340','7'), 
    ('Bebida avena','1.20','480','7'), 
    # Snacks 
    ('Patatas fritas', '1.50', '260', '8'), 
    ('Frutos secos', '3.40', '180', '8'), 
    ('Palomitas', '1.00', '240', '8'), 
    ('Aceitunas', '1.80', '160', '8'),
    # Legumbres 
    ('Garbanzo cocido', '0.90', '150', '9'), 
    ('Lenteja pardina', '2.45', '110', '9'), 
    ('Alubias rojas', '2.90', '100', '9'), 
    ('Soja texturizada', '3.75', '100', '9'),
    # Conservas 
    ('Caldo verduras', '1.20', '150', '10'),  
    ('Guisantes', '1.45', '310', '10'),  
    ('Tomate frito', '1.65', '500', '10'),  
    ('Maiz dulce', '1.65', '400', '10')]

In [77]:
df_productos = pd.DataFrame(productos, columns=["producto", "precio", "stock", "id_categoria"])
df_productos.to_sql(name = "productos", con = engine, if_exists = "append", index = False)

40

In [78]:
## clientes

nombres= [f'nombre{numero}' for numero in range(1,2001)] 
apellidos= [f'apellido{numero}' for numero in range(1,2001)] 
email = [f'{nombre}.{apellido}@gmail.com' for nombre, apellido in zip(nombres, apellidos)]
codigo_postal= [random.choice(['28001','08002','20003','36004','29005','02006']) for _ in range(1,2001)]
df_clientes = pd.DataFrame(zip(nombres, apellidos, email, codigo_postal), columns=["nombre", "apellido", "email", "codigo_postal"])
df_clientes.to_sql(name = "clientes", con = engine, if_exists = "append", index = False)

2000

In [79]:
## ordenes

id_cliente = pd.read_sql("SELECT id_cliente FROM clientes", con=engine)
lista_id_cliente = id_cliente['id_cliente'].tolist()
id_empleado= pd.read_sql("SELECT id_empleado FROM empleados WHERE puesto = 'Cajero';", con=engine) # Las ordenes solo las gestionan los empleados con puesto cajero
lista_id_empleado= id_empleado['id_empleado'].tolist()
fechas_orden = pd.date_range(start='2024-01-01', end='2025-01-31').tolist()

ordenes = []

for i in range(1,10001):  
    id_cliente = random.choice(lista_id_cliente)
    id_empleado = random.choice(lista_id_empleado)
    fecha_orden = random.choice(fechas_orden)
    metodo_pago = random.choice(["tarjeta", "efectivo"])
    ordenes.append({
        'id_cliente': id_cliente,
        'id_empleado': id_empleado,
        'fecha_orden': fecha_orden,
        'metodo_pago': metodo_pago
    })

df_ordenes = pd.DataFrame(ordenes)
df_ordenes.to_sql(name="ordenes", con=engine, if_exists="append", index=False)

10000

In [80]:
## detalle_orden

id_orden = pd.read_sql("SELECT id_orden FROM ordenes", con=engine)
lista_id_orden = id_orden['id_orden'].tolist()
pd_data_producto= pd.read_sql("SELECT * FROM productos", con=engine)
lista_id_producto= pd_data_producto['id_producto'].tolist()

detalle_ordenes = []

for id_detalle_orden in range(1,30001):
    id_orden = random.choice(lista_id_orden)
    id_producto = random.choice(lista_id_producto)
    cantidad = random.randint(1, 20)
    precio_unitario = pd_data_producto.loc[pd_data_producto['id_producto'] == id_producto, 'precio'].values[0]
    if 10 <= cantidad < 15: # Descuento por cantidad, máximo 4€ 
        descuento = cantidad * 0.10
    elif 15 <= cantidad <=20:
      descuento = cantidad * 0.20
    else:
        descuento =0.00
    detalle_ordenes.append({
    'id_orden': id_orden,
    'id_producto': id_producto,
    'cantidad': cantidad,
    'precio_unitario': precio_unitario,
    'descuento': descuento
})
df_detalle_orden = pd.DataFrame(detalle_ordenes)
df_detalle_orden.to_sql(name="detalle_orden", con=engine, if_exists="append", index=False)

30000

In [81]:
### 3. Consultas SQL

In [82]:
# 1. Listado de órdenes con detalles de cliente y empleado
# Muestra el ID de la orden, la fecha, el nombre del cliente, el nombre del empleado que atendió la compra y el método de pago.
# Utiliza un JOIN entre las tablas ordenes, clientes y empleados.

query1 = '''SELECT o.id_orden, o.fecha_orden, o.metodo_pago, c.nombre, c.apellido, e.empleado
FROM ordenes o
INNER JOIN clientes c ON o.id_cliente = c.id_cliente
INNER JOIN empleados e ON o.id_empleado = e.id_empleado;'''

df1 = pd.read_sql_query(sql = query1, con = engine)
df1

Unnamed: 0,id_orden,fecha_orden,metodo_pago,nombre,apellido,empleado
0,110,2024-08-12,efectivo,nombre1168,apellido1168,Luis Sanchez
1,155,2024-03-17,efectivo,nombre1026,apellido1026,Luis Sanchez
2,199,2025-01-24,efectivo,nombre1454,apellido1454,Luis Sanchez
3,215,2024-05-04,efectivo,nombre1462,apellido1462,Luis Sanchez
4,345,2024-02-06,tarjeta,nombre1059,apellido1059,Luis Sanchez
...,...,...,...,...,...,...
9995,9847,2024-09-16,tarjeta,nombre1706,apellido1706,Joaquin Garcia
9996,9858,2024-01-14,tarjeta,nombre375,apellido375,Joaquin Garcia
9997,9879,2024-05-10,tarjeta,nombre1910,apellido1910,Joaquin Garcia
9998,9942,2024-07-06,tarjeta,nombre427,apellido427,Joaquin Garcia


In [83]:
# 2. Productos con stock bajo
# Filtra aquellos productos cuyo stock sea menor a 10.
# Muestra nombre del producto, categoría y stock.

query2 = '''SELECT p.producto, c.categoria, p.stock
FROM productos p
INNER JOIN categorias c ON p.id_categoria = c.id_categoria
WHERE stock <10;'''

df2 = pd.read_sql_query(sql = query2, con = engine)
df2

Unnamed: 0,producto,categoria,stock


In [84]:
# 3. Ventas totales por categoría
# Muestra el nombre de la categoría y la suma total de las ventas 
# (ej.: multiplicando cantidad * precio_unitario) para cada categoría.
# Realiza el JOIN con detalle_orden, productos y categorias.
# Utiliza agrupación (GROUP BY).

query3 = '''SELECT c.categoria, SUM(do.cantidad * do.precio_unitario) AS total_ventas
FROM detalle_orden do
INNER JOIN productos p ON do.id_producto = p.id_producto
INNER JOIN categorias c ON p.id_categoria = c.id_categoria
GROUP BY c.categoria;'''

df3 = pd.read_sql_query(sql = query3, con = engine)
df3

Unnamed: 0,categoria,total_ventas
0,Frutas,61075.3
1,Verduras,64890.6
2,Panaderia,51882.35
3,Limpieza,68678.7
4,Higiene,73854.9
5,Congelados,79993.3
6,Bebidas,47925.75
7,Snacks,60133.2
8,Legumbres,80934.15
9,Conservas,45344.7


In [85]:
# 4. Clientes con mayores gastos acumulados
# Muestra el nombre del cliente y el monto total que ha gastado (suma de todas sus órdenes).
# Asegúrate de tener en cuenta posibles descuentos (descuento) si se ha definido. 
# Por ejemplo, la fórmula podría ser (cantidad * precio_unitario) - descuento.
# Ordena el resultado de mayor a menor gasto acumulado.

query4 = '''SELECT c.nombre, SUM((do.cantidad * do.precio_unitario) - do.descuento) AS total_gasto
FROM detalle_orden do
INNER JOIN ordenes o ON do.id_orden = o.id_orden
INNER JOIN clientes c ON o.id_cliente = c.id_cliente
GROUP BY c.nombre
ORDER BY total_gasto DESC;'''

df4 = pd.read_sql_query(sql = query4, con = engine)
df4

Unnamed: 0,nombre,total_gasto
0,nombre1251,1014.80
1,nombre1659,992.10
2,nombre312,987.40
3,nombre752,900.70
4,nombre360,872.85
...,...,...
1976,nombre1187,16.90
1977,nombre473,11.25
1978,nombre1285,10.40
1979,nombre77,9.90


In [86]:
# 5. Empleados y número de órdenes gestionadas
# Muestra el nombre del empleado, el puesto y la cantidad de órdenes que ha gestionado.
# Utiliza GROUP BY y COUNT.

query5 = '''SELECT e.empleado, e.puesto, COUNT(o.id_orden) AS ordenes_gestionadas
FROM ordenes o
INNER JOIN empleados e ON o.id_empleado = e.id_empleado
GROUP BY e.empleado, e.puesto;'''

df5 = pd.read_sql_query(sql = query5, con = engine)
df5

Unnamed: 0,empleado,puesto,ordenes_gestionadas
0,Luis Sanchez,Cajero,196
1,Ana Martinez,Cajero,216
2,Francisco Martinez,Cajero,208
3,Beatriz Molina,Cajero,222
4,Emilio Gomez,Cajero,204
5,Marta Gomez,Cajero,213
6,Joaquin Ruiz,Cajero,208
7,Maria Garcia,Cajero,213
8,Ricardo Castillo,Cajero,196
9,Ricardo Rodriguez,Cajero,221


In [87]:
# 6. Ordenes filtradas por fecha y tienda
# Muestra todas las órdenes que se realizaron en un rango de fechas determinado 
# (ej.: del 1 de enero de 2025 al 31 de enero de 2025) y en una tienda específica.
# Incluye datos de la tienda y del cliente.

query6 = '''SELECT o.id_orden, o.fecha_orden, t.tienda, c.nombre, c.apellido
FROM ordenes o
INNER JOIN empleados e ON o.id_empleado = e.id_empleado
INNER JOIN tiendas t ON t.id_tienda = e.id_tienda  
INNER JOIN clientes c ON c.id_cliente = o.id_cliente
WHERE o.fecha_orden BETWEEN "2024-01-01" AND "2025-01-31" AND t.id_tienda = "3"
ORDER BY o.fecha_orden ASC;'''

df6 = pd.read_sql_query(sql = query6, con = engine)
df6

Unnamed: 0,id_orden,fecha_orden,tienda,nombre,apellido
0,1825,2024-01-01,Super Saskia,nombre886,apellido886
1,2568,2024-01-01,Super Saskia,nombre950,apellido950
2,3442,2024-01-01,Super Saskia,nombre609,apellido609
3,2246,2024-01-02,Super Saskia,nombre164,apellido164
4,7012,2024-01-02,Super Saskia,nombre1532,apellido1532
...,...,...,...,...,...
1649,5996,2025-01-31,Super Saskia,nombre671,apellido671
1650,4504,2025-01-31,Super Saskia,nombre299,apellido299
1651,7495,2025-01-31,Super Saskia,nombre1768,apellido1768
1652,7638,2025-01-31,Super Saskia,nombre637,apellido637


In [88]:
# 7. Ranking de productos más vendidos en cada tienda
# Para cada tienda, muestra los 3 productos más vendidos (en términos de cantidad total).
# Tendrás que unir tiendas, empleados, ordenes y detalle_orden, además de productos.
# Usa GROUP BY y ordena por la cantidad sumada (y opcionalmente, un LIMIT 3).

query7 = '''SELECT sub1.producto, sub1.tienda, sub1.cantidad_total 
FROM (
    SELECT p.producto, t.tienda, SUM(do.cantidad) AS cantidad_total
    FROM
        tiendas t
    JOIN empleados e ON t.id_tienda = e.id_tienda
    JOIN ordenes o ON e.id_empleado = o.id_empleado
    JOIN detalle_orden do ON o.id_orden = do.id_orden
    JOIN productos p ON do.id_producto = p.id_producto
    GROUP BY p.producto, t.tienda
) sub1
WHERE ( 
    SELECT COUNT(*)
        FROM (
            SELECT p.producto, t.tienda, SUM(do.cantidad) AS cantidad_total
            FROM tiendas t
            JOIN empleados e ON t.id_tienda = e.id_tienda
            JOIN ordenes o ON e.id_empleado = o.id_empleado
			JOIN detalle_orden do ON o.id_orden = do.id_orden
			JOIN productos p ON do.id_producto = p.id_producto
            GROUP BY p.producto, t.tienda
        ) sub2
        WHERE sub2.tienda = sub1.tienda 
        AND sub2.cantidad_total > sub1.cantidad_total       
    ) < 3 
ORDER BY sub1.tienda, sub1.cantidad_total DESC;'''

df7 = pd.read_sql_query(sql = query7, con = engine)
df7

Unnamed: 0,producto,tienda,cantidad_total
0,Desodorante,Cesta Mancha,1621.0
1,Champu,Cesta Mancha,1494.0
2,Magdalenas,Cesta Mancha,1489.0
3,Zumo naranja,Cesta Norte,1588.0
4,Pizza margarita,Cesta Norte,1573.0
5,Alubias rojas,Cesta Norte,1541.0
6,Lejia,Cesta Sur,1567.0
7,Lenteja pardina,Cesta Sur,1557.0
8,Zanahoria 500 gr,Cesta Sur,1518.0
9,Patatas fritas,Super Cesta,1603.0


![image.png](attachment:image.png)

In [89]:
# 8. Encontrar el día que hubo más ingresos y el que menos.

query8 = '''SELECT o.fecha_orden, SUM((do.cantidad * do.precio_unitario) - do.descuento) AS total_ventas
FROM ordenes o
JOIN detalle_orden do ON o.id_orden = do.id_orden
GROUP BY o.fecha_orden
ORDER BY total_ventas DESC LIMIT 1;'''
query8b = '''SELECT o.fecha_orden, SUM((do.cantidad * do.precio_unitario) - do.descuento) AS total_ventas
FROM ordenes o
JOIN detalle_orden do ON o.id_orden = do.id_orden
GROUP BY o.fecha_orden
ORDER BY total_ventas ASC LIMIT 1;'''
df8 = pd.read_sql_query(sql = query8, con = engine)
df8b = pd.read_sql_query(sql = query8b, con = engine)
resultado= pd.concat([df8, df8b])
resultado.index = ['max', 'min']
resultado

Unnamed: 0,fecha_orden,total_ventas
max,2024-08-02,2779.0
min,2025-01-04,516.65


In [90]:
# 9 Visualizar el mes con más ingresos y el que menos.

query9 = '''SELECT DATE_FORMAT(o.fecha_orden, '%%Y-%%m') AS mes, SUM((do.cantidad * do.precio_unitario) - do.descuento) AS total_ventas 
FROM ordenes o 
JOIN detalle_orden do ON o.id_orden = do.id_orden 
GROUP BY mes 
ORDER BY total_ventas DESC LIMIT 1;'''
query9b = '''SELECT DATE_FORMAT(o.fecha_orden, '%%Y-%%m') AS mes, SUM((do.cantidad * do.precio_unitario) - do.descuento) AS total_ventas 
FROM ordenes o 
JOIN detalle_orden do ON o.id_orden = do.id_orden 
GROUP BY mes 
ORDER BY total_ventas ASC LIMIT 1;'''
df9 = pd.read_sql_query(sql = query9, con=engine)
df9b = pd.read_sql_query(sql = query9b, con=engine)
resultado = pd.concat([df9, df9b])
resultado.index = ['mes_max', 'mes_min']
resultado

Unnamed: 0,mes,total_ventas
mes_max,2024-07,48239.45
mes_min,2024-04,43480.55
