# IMPORTAR LIBRERIAS

In [1]:
import mysql.connector as con
import pandas as pd
import pymysql # Para ver la versión
import sqlalchemy # Para ver la versión
from sqlalchemy import create_engine

In [None]:
print(f"Conector: {con.__version__}")
print(f"Pandas: {pd.__version__}")
print(f"pymysql: {pymysql.__version__}")
print(f"sqlalchemy: {sqlalchemy.__version__}")

# PARTE 1: CREAR BASE DE DATOS Y CREAR TABLAS

Código SQL para la creacion de base de datos y tablas

In [3]:
sql_creacion = """ 
DROP DATABASE IF EXISTS supermercado;

CREATE DATABASE IF NOT EXISTS supermercado;

USE supermercado;

CREATE TABLE IF NOT EXISTS tiendas (
    id_tienda INT AUTO_INCREMENT PRIMARY KEY,
    nombre_tienda VARCHAR(100),
    direccion VARCHAR(255),
    ciudad VARCHAR(50)
);

CREATE TABLE IF NOT EXISTS empleados (
    id_empleado INT AUTO_INCREMENT PRIMARY KEY,
    nombre_empleado VARCHAR(100),
    puesto VARCHAR(50),
    id_tienda INT NOT NULL,
    FOREIGN KEY (id_tienda) REFERENCES tiendas (id_tienda)
);

CREATE TABLE IF NOT EXISTS categorias (
    id_categoria INT AUTO_INCREMENT PRIMARY KEY,
    nombre_categoria VARCHAR(50)
);

CREATE TABLE IF NOT EXISTS productos (
    id_producto INT AUTO_INCREMENT PRIMARY KEY,
    nombre_producto VARCHAR(100),
    precio DECIMAL(5, 2),
    stock INT,
    id_categoria INT NOT NULL,
    FOREIGN KEY (id_categoria) REFERENCES categorias (id_categoria)
);

CREATE TABLE IF NOT EXISTS clientes (
    id_cliente INT AUTO_INCREMENT PRIMARY KEY,
    first_name VARCHAR(50),
    last_name VARCHAR(50),
    email VARCHAR(255),
    codigo_postal INT(5)
);

CREATE TABLE IF NOT EXISTS ordenes (
    id_orden INT AUTO_INCREMENT PRIMARY KEY,
    id_cliente INT NOT NULL,
    id_empleado INT NOT NULL,
    fecha_orden DATETIME,
    metodo_pago ENUM('Tarjeta', 'Efectivo'),
    FOREIGN KEY (id_cliente) REFERENCES clientes (id_cliente),
    FOREIGN KEY (id_empleado) REFERENCES empleados (id_empleado)
);

CREATE TABLE IF NOT EXISTS detalle_orden (
    id_detalle INT AUTO_INCREMENT PRIMARY KEY,
    id_orden INT NOT NULL,
    id_producto INT NOT NULL,
    cantidad INT,
    precio_unitario DECIMAL(5, 2), -- mismo precio que en la tabla producto
    descuento DECIMAL(3, 2),
    FOREIGN KEY (id_orden) REFERENCES ordenes (id_orden),
    FOREIGN KEY (id_producto) REFERENCES productos (id_producto)
);
"""

Conexión a MySQL y ejecución de codigo de creacion

In [4]:
connection = con.connect(
    host="localhost",
    port= "3306",
    user= "root",
    password= "admin"
)

cursor = connection.cursor()
cursor.execute(sql_creacion)
cursor.close()
connection.close()

# PARTE 2: GENERAR DATOS DEMO DESDE PYTHON

In [5]:
import random

## TIENDAS

In [None]:
ciudades = ['Málaga', 'Madrid', 'San Sebastian']
brand = 'SUPER24H'
tipo_via = ['Plaza', 'Calle', 'Avenida']
nombres_calle = ['Costitución', 'Libertad', 'Conocimiento', 'Pacífico', 'América']
tienda = []
for ciudad in ciudades:
    for num in range(1,6):
        direccion = f"{random.choice(tipo_via)}, {random.choice(nombres_calle)}, {random.randint(1, 150)}"
        tienda.append([f'{brand}_{ciudad}_{num}', direccion, ciudad])

df_tienda = pd.DataFrame(tienda, columns=['nombre_tienda', 'direccion', 'ciudad'])
df_tienda=df_tienda.reset_index().rename({'index': 'id_tienda'}, axis=1)
df_tienda['id_tienda'] = df_tienda['id_tienda'] + 1
df_tienda

## EMPLEADOS

In [None]:
def selec_puesto(num, puestos):
    if num < 5:
        return puestos[0]
    elif num < 10:
        return puestos[1]
    elif num < 15:
        return puestos[2]
    elif num < 19:
        return puestos[3]
    else:
        return puestos[4]

puestos = ['Cajero', 'Reponedor', 'Mozo de Almacen', 'Jefe de Seccion', 'Gerente']
nombres = ['Carolina', 'Cecilia', 'Alan', 'Kike', 'Panchi', 'Carlos', 'Carmen', 'Emilio', 'Jose Ignacio', 'Luis', 'Maria', 'Marino','Nerea','Noelia', 'Oscar', 'Pablo', 'Rafael']
apellidos = ['García', 'Martínez', 'López', 'Hernández', 'González', 'Pérez', 'Rodríguez', 'Sánchez', 'Ramírez', 'Torres', 'Flores', 'Rivera', 'Díaz', 'Cruz', 'Morales']
tiendas = df_tienda['id_tienda']
empleados = []

for tienda in tiendas:
    for num in range(20):
        nombre = f'{random.choice(nombres)} {random.choice(apellidos)} {random.choice(apellidos)}'
        puesto = selec_puesto(num, puestos)
        empleados.append([nombre, puesto, tienda])
        
df_empleados = pd.DataFrame(empleados, columns=['nombre_empleado', 'puesto', 'id_tienda'])
df_empleados=df_empleados.reset_index().rename({'index': 'id_empleado'}, axis=1)
df_empleados['id_empleado'] = df_empleados['id_empleado'] + 1
df_empleados

## CATEGORIAS

In [None]:
categorias = [
    'Frutería',
    'Carnicería',
    'Pescadería',
    'Panadería y Pastelería',
    'Lácteos y Huevos',
    'Bebidas',
    'Droguería y Limpieza',
    'Conservas y Alimentos enlatados',
    'Congelados',
    'Alimentos Secos y Básicos'
]

df_categorias = pd.DataFrame(categorias, columns=['nombre_categoria'])
df_categorias=df_categorias.reset_index().rename({'index': 'id_categoria'}, axis=1)
df_categorias['id_categoria'] = df_categorias['id_categoria'] + 1
df_categorias

## PRODUCTOS

In [None]:
productos = {
    1: ['Manzanas', 'Plátanos', 'Naranjas', 'Lechugas'],  # Frutería
    2: ['Pollo', 'Ternera', 'Cerdo', 'Cordero'],           # Carnicería
    3: ['Merluza', 'Salmón', 'Atún', 'Calamares'],         # Pescadería
    4: ['Pan integral', 'Croissants', 'Donuts', 'Baguette'], # Panadería y Pastelería
    5: ['Leche', 'Queso', 'Yogur', 'Huevos'],              # Lácteos y Huevos
    6: ['Agua', 'Refrescos', 'Vino tinto', 'Cerveza'],     # Bebidas
    7: ['Detergente', 'Esponjas', 'Desinfectante', 'Papel higiénico'], # Droguería y Limpieza
    8: ['Atún enlatado', 'Sopa de tomate', 'Maíz dulce', 'Guisantes en conserva'], # Conservas y Alimentos enlatados
    9: ['Pizza congelada', 'Helado', 'Verduras congeladas', 'Nuggets de pollo'], # Congelados
    10: ['Arroz', 'Pasta', 'Lentejas', 'Harina']          # Alimentos Secos y Básicos
}

producto_completo = []

for categoria in df_categorias['id_categoria']:
    for producto in productos[categoria]:
        precio = round(random.uniform(0.50, 150.00), 2)
        stock = random.randint(0,500)
        producto_completo.append([producto, precio, stock, categoria])
        
df_productos = pd.DataFrame(producto_completo, columns=['nombre_producto','precio','stock', 'id_categoria'])
df_productos=df_productos.reset_index().rename({'index': 'id_producto'}, axis=1)
df_productos['id_producto'] = df_productos['id_producto'] + 1
df_productos

## CLIENTES

In [None]:
nombres = ['Carolina', 'Cecilia', 'Alan', 'Kike', 'Panchi', 'Carlos', 'Carmen', 'Emilio', 'Jose Ignacio', 'Luis', 'Maria', 'Marino','Nerea','Noelia', 'Oscar', 'Pablo', 'Rafael']
apellidos = ['García', 'Martínez', 'López', 'Hernández', 'González', 'Pérez', 'Rodríguez', 'Sánchez', 'Ramírez', 'Torres', 'Flores', 'Rivera', 'Díaz', 'Cruz', 'Morales']
emails = ['gmail', 'yahoo', 'hotmail']
codigo_postal = [29000, 28000, 20000]

cliente = []

for num in range (2000):
    nombre = f'{random.choice(nombres)}'
    apellido = f'{random.choice(apellidos)} {random.choice(apellidos)}'
    email = f'{nombre.lower()}.{apellido.split()[0][:1].lower()}{apellido.split()[1][:1].lower()}@{random.choice(emails)}.com'
    cp = random.choice(codigo_postal) + random.randint(1, 25)
    cliente.append([nombre, apellido, email, cp])
    
df_clientes = pd.DataFrame(cliente, columns=['first_name','last_name','email','codigo_postal'])
df_clientes=df_clientes.reset_index().rename({'index': 'id_cliente'}, axis=1)
df_clientes['id_cliente'] = df_clientes['id_cliente'] + 1
df_clientes

## ORDENES

In [None]:
import datetime
from datetime import datetime, timedelta

clientes = df_clientes['id_cliente']
empleados = df_empleados['id_empleado']
ordenes = []

fecha_inicial = datetime(year=2017, month=1, day=2, hour=9, minute=00)
for orden in range (10000):
    cliente = int(random.choice(clientes))
    empleado = int(random.choice(empleados))
    fecha = fecha_inicial + timedelta(minutes=30*orden)
    metodo = random.choice(['Tarjeta', 'Efectivo'])
    ordenes.append([cliente, empleado, fecha, metodo])
    
df_ordenes = pd.DataFrame(ordenes, columns=['id_cliente','id_empleado', 'fecha_orden', 'metodo_pago'])
df_ordenes=df_ordenes.reset_index().rename({'index': 'id_orden'}, axis=1)
df_ordenes['id_orden'] = df_ordenes['id_orden'] + 1
df_ordenes

## DETALLE ORDEN

In [None]:
productos = df_productos['id_producto']
ordenes = df_ordenes['id_orden']
detalles = []

for orden in ordenes:
    for num in range(1, 4):
        producto = int(random.choice(productos))
        cantidad = random.randint(1,20)
        descuento = float(round(random.uniform(0.00, 5.00), 2))
        precio = float(round(df_productos['precio'][df_productos['id_producto'] == producto].iloc[0]*(1-(descuento/100)),2))
        detalles.append([orden, producto, cantidad, precio, descuento])
        
df_detalles_orden = pd.DataFrame(detalles, columns=['id_orden','id_producto', 'cantidad', 'precio_unitario', 'descuento'])
df_detalles_orden=df_detalles_orden.reset_index().rename({'index': 'id_detalle'}, axis=1)
df_detalles_orden['id_detalle'] = df_detalles_orden['id_detalle'] + 1
df_detalles_orden

## CARGA DE DATOS CON PANDAS

Crear la conexion

In [13]:
user = "root"
password = "admin"
database = "supermercado"

# Crear la conexión
engine = create_engine(f"mysql+pymysql://{user}:{password}@localhost/{database}")

# Abrir una conección
connection = engine.connect()

# Cerrar la conección
connection.close()

Carga de datos

In [None]:
df_tienda.to_sql(name = "tiendas", con = engine, if_exists = "append", index = False)
df_empleados.to_sql(name = "empleados", con = engine, if_exists = "append", index = False)
df_categorias.to_sql(name = "categorias", con = engine, if_exists = "append", index = False)
df_productos.to_sql(name = "productos", con = engine, if_exists = "append", index = False)
df_clientes.to_sql(name = "clientes", con = engine, if_exists = "append", index = False)
df_ordenes.to_sql(name = "ordenes", con = engine, if_exists = "append", index = False)
df_detalles_orden.to_sql(name = "detalle_orden", con = engine, if_exists = "append", index = False)

# PARTE 3: CONSULTAS SQL

1. Listado de órdenes con detalles de cliente y empleado
* Muestra el ID de la orden, la fecha, el nombre del cliente, el nombre del empleado que atendió la compra y el método de pago.
* Utiliza un JOIN entre las tablas ordenes, clientes y empleados.

In [None]:
sql = """ 
SELECT 
	o.id_orden, 
    o.fecha_orden, 
    concat(c.first_name, ' ', c.last_name) AS nombre_cliente,
    e.nombre_empleado,
    o.metodo_pago
FROM
	ordenes o
JOIN
	clientes c on o.id_cliente = c.id_cliente
JOIN
	empleados e on o.id_empleado = e.id_empleado;
"""

df = pd.read_sql(sql, engine)

df


2. Productos con stock bajo
* Filtra aquellos productos cuyo stock sea menor a 10.
* Muestra nombre del producto, categoría y stock.

In [None]:
sql = """ 
SELECT 
	p.nombre_producto, 
    c.nombre_categoria, 
    p.stock
FROM 
	productos p
JOIN
	categorias c on p.id_categoria = c.id_categoria
WHERE p.stock < 10;
"""

df = pd.read_sql(sql, engine)

df

3. Ventas totales por categoría
* Muestra el nombre de la categoría y la suma total de las ventas (ej.: multiplicando cantidad * precio_unitario) para cada categoría.
* Realiza el JOIN con detalle_orden, productos y categorias.
* Utiliza agrupación (GROUP BY).

In [None]:
sql = """ 
SELECT
	c.nombre_categoria, sum(d.precio_unitario*d.cantidad) as Venta_Total
FROM
	productos p
JOIN
	categorias c on p.id_categoria = c.id_categoria
JOIN
	detalle_orden d on p.id_producto = d.id_producto
GROUP BY c.nombre_categoria
"""

df = pd.read_sql(sql, engine)

df

4. Clientes con mayores gastos acumulados
* Muestra el nombre del cliente y el monto total que ha gastado (suma de todas sus órdenes).
* Asegúrate de tener en cuenta posibles descuentos (descuento) si se ha definido. Por ejemplo, la fórmula podría ser (cantidad * precio_unitario) - descuento.
* Ordena el resultado de mayor a menor gasto acumulado.

In [None]:
sql = """ 
SELECT 
	concat(c.first_name, ' ', c.last_name) AS nombre_cliente,
    sum(d.precio_unitario*d.cantidad) as Gasto_Total
FROM 
	ordenes o
JOIN
	clientes c on o.id_cliente = c.id_cliente
JOIN
	detalle_orden d on o.id_orden = d.id_orden
GROUP BY nombre_cliente
ORDER BY Gasto_Total DESC;
"""

df = pd.read_sql(sql, engine)

df

5. Empleados y número de órdenes gestionadas
* Muestra el nombre del empleado, el puesto y la cantidad de órdenes que ha gestionado.
* Utiliza GROUP BY y COUNT.

In [None]:
sql = """ 
SELECT
	e.nombre_empleado, 
    e.puesto, 
    count(o.id_empleado) as gestionadas
FROM 
	empleados e
JOIN
	ordenes o on e.id_empleado=o.id_empleado
GROUP BY e.nombre_empleado, e.puesto
"""

df = pd.read_sql(sql, engine)

df

6. Ordenes filtradas por fecha y tienda
* Muestra todas las órdenes que se realizaron en un rango de fechas determinado (ej.: del 1 de enero de 2025 al 31 de enero de 2025) y en una tienda específica.
* Incluye datos de la tienda y del cliente.

In [None]:
sql = """ 
SELECT 
	t.nombre_tienda, 
	concat(c.first_name, ' ', c.last_name) AS nombre_cliente,
    o.*
FROM 
	ordenes o
JOIN 
	clientes c on o.id_cliente = c.id_cliente
JOIN
	empleados e on o.id_empleado = e.id_empleado
JOIN
	tiendas t on e.id_tienda = t.id_tienda
WHERE o.fecha_orden > "2017-01-31 23:59:00" AND o.fecha_orden < "2017-03-01";
"""

df = pd.read_sql(sql, engine)

df

7. Ranking de productos más vendidos en cada tienda
* Para cada tienda, muestra los 3 productos más vendidos (en términos de cantidad total).
* Tendrás que unir tiendas, empleados, ordenes y detalle_orden, además de productos.
* Usa GROUP BY y ordena por la cantidad sumada (y opcionalmente, un LIMIT 3).

In [None]:
sql = """ 
SELECT
	nombre_tienda,
    nombre_producto,
    cantidad_total
FROM(
	SELECT 
		ROW_NUMBER() OVER (PARTITION BY t.nombre_tienda ORDER BY sum(d.cantidad) DESC) AS rn,
		t.nombre_tienda,
		p.nombre_producto,
		sum(d.cantidad) AS cantidad_total
	FROM
		tiendas t
	JOIN 
		empleados e on t.id_tienda = e.id_tienda
	JOIN
		ordenes o on e.id_empleado = o.id_empleado
	JOIN
		detalle_orden d on o.id_orden = d.id_orden
	JOIN
		productos p on d.id_producto = p.id_producto
	GROUP BY t.nombre_tienda, p.nombre_producto) as ranking
    WHERE rn <= 3
    ORDER BY nombre_tienda, cantidad_total DESC;
"""

df = pd.read_sql(sql, engine)

df