# IMPORTAR LIBRERIAS

In [119]:
import mysql.connector as con
import pandas as pd
import pymysql # Para ver la versión
import sqlalchemy # Para ver la versión
from sqlalchemy import create_engine

In [120]:
print(f"Conector: {con.__version__}")
print(f"Pandas: {pd.__version__}")
print(f"pymysql: {pymysql.__version__}")
print(f"sqlalchemy: {sqlalchemy.__version__}")

Conector: 9.1.0
Pandas: 2.2.3
pymysql: 1.4.6
sqlalchemy: 2.0.37


# PARTE 1: CREAR BASE DE DATOS Y CREAR TABLAS

Código SQL para la creacion de base de datos y tablas

In [121]:
sql_creacion = """ 
DROP DATABASE IF EXISTS supermercado;

CREATE DATABASE IF NOT EXISTS supermercado;

USE supermercado;

CREATE TABLE IF NOT EXISTS tiendas (
    id_tienda INT AUTO_INCREMENT PRIMARY KEY,
    nombre_tienda VARCHAR(100),
    direccion VARCHAR(255),
    ciudad VARCHAR(50)
);

CREATE TABLE IF NOT EXISTS empleados (
    id_empleado INT AUTO_INCREMENT PRIMARY KEY,
    nombre_empleado VARCHAR(100),
    puesto VARCHAR(50),
    id_tienda INT NOT NULL,
    FOREIGN KEY (id_tienda) REFERENCES tiendas (id_tienda)
);

CREATE TABLE IF NOT EXISTS categorias (
    id_categoria INT AUTO_INCREMENT PRIMARY KEY,
    nombre_categoria VARCHAR(50)
);

CREATE TABLE IF NOT EXISTS productos (
    id_producto INT AUTO_INCREMENT PRIMARY KEY,
    nombre_producto VARCHAR(100),
    precio DECIMAL(5, 2),
    stock INT,
    id_categoria INT NOT NULL,
    FOREIGN KEY (id_categoria) REFERENCES categorias (id_categoria)
);

CREATE TABLE IF NOT EXISTS clientes (
    id_cliente INT AUTO_INCREMENT PRIMARY KEY,
    first_name VARCHAR(50),
    last_name VARCHAR(50),
    email VARCHAR(255),
    codigo_postal INT(5)
);

CREATE TABLE IF NOT EXISTS ordenes (
    id_orden INT AUTO_INCREMENT PRIMARY KEY,
    id_cliente INT NOT NULL,
    id_empleado INT NOT NULL,
    fecha_orden DATETIME,
    metodo_pago ENUM('Tarjeta', 'Efectivo'),
    FOREIGN KEY (id_cliente) REFERENCES clientes (id_cliente),
    FOREIGN KEY (id_empleado) REFERENCES empleados (id_empleado)
);

CREATE TABLE IF NOT EXISTS detalle_orden (
    id_detalle INT AUTO_INCREMENT PRIMARY KEY,
    id_orden INT NOT NULL,
    id_producto INT NOT NULL,
    cantidad INT,
    precio_unitario DECIMAL(5, 2), -- mismo precio que en la tabla producto
    descuento DECIMAL(3, 2),
    FOREIGN KEY (id_orden) REFERENCES ordenes (id_orden),
    FOREIGN KEY (id_producto) REFERENCES productos (id_producto)
);
"""

Conexión a MySQL y ejecución de codigo de creacion

In [122]:
connection = con.connect(
    host="localhost",
    port= "3306",
    user= "root",
    password= "admin"
)

cursor = connection.cursor()
cursor.execute(sql_creacion)
cursor.close()
connection.close()

# PARTE 2: GENERAR DATOS DEMO DESDE PYTHON

In [123]:
import random

## TIENDAS

In [124]:
ciudades = ['Málaga', 'Madrid', 'San Sebastian']
brand = 'SUPER24H'
tipo_via = ['Plaza', 'Calle', 'Avenida']
nombres_calle = ['Costitución', 'Libertad', 'Conocimiento', 'Pacífico', 'América']
tienda = []
for ciudad in ciudades:
    for num in range(1,6):
        direccion = f"{random.choice(tipo_via)}, {random.choice(nombres_calle)}, {random.randint(1, 150)}"
        tienda.append([f'{brand}_{ciudad}_{num}', direccion, ciudad])

df_tienda = pd.DataFrame(tienda, columns=['nombre_tienda', 'direccion', 'ciudad'])
df_tienda=df_tienda.reset_index().rename({'index': 'id_tienda'}, axis=1)
df_tienda['id_tienda'] = df_tienda['id_tienda'] + 1
df_tienda

Unnamed: 0,id_tienda,nombre_tienda,direccion,ciudad
0,1,SUPER24H_Málaga_1,"Calle, Costitución, 106",Málaga
1,2,SUPER24H_Málaga_2,"Avenida, Conocimiento, 140",Málaga
2,3,SUPER24H_Málaga_3,"Calle, América, 135",Málaga
3,4,SUPER24H_Málaga_4,"Avenida, Costitución, 9",Málaga
4,5,SUPER24H_Málaga_5,"Calle, Libertad, 28",Málaga
5,6,SUPER24H_Madrid_1,"Calle, América, 104",Madrid
6,7,SUPER24H_Madrid_2,"Avenida, Costitución, 124",Madrid
7,8,SUPER24H_Madrid_3,"Plaza, Libertad, 22",Madrid
8,9,SUPER24H_Madrid_4,"Avenida, Pacífico, 89",Madrid
9,10,SUPER24H_Madrid_5,"Calle, Conocimiento, 131",Madrid


## EMPLEADOS

In [125]:
def selec_puesto(num, puestos):
    if num < 5:
        return puestos[0]
    elif num < 10:
        return puestos[1]
    elif num < 15:
        return puestos[2]
    elif num < 19:
        return puestos[3]
    else:
        return puestos[4]

puestos = ['Cajero', 'Reponedor', 'Mozo de Almacen', 'Jefe de Seccion', 'Gerente']
nombres = ['Carolina', 'Cecilia', 'Alan', 'Kike', 'Panchi', 'Carlos', 'Carmen', 'Emilio', 'Jose Ignacio', 'Luis', 'Maria', 'Marino','Nerea','Noelia', 'Oscar', 'Pablo', 'Rafael']
apellidos = ['García', 'Martínez', 'López', 'Hernández', 'González', 'Pérez', 'Rodríguez', 'Sánchez', 'Ramírez', 'Torres', 'Flores', 'Rivera', 'Díaz', 'Cruz', 'Morales']
tiendas = df_tienda['id_tienda']
empleados = []

for tienda in tiendas:
    for num in range(20):
        nombre = f'{random.choice(nombres)} {random.choice(apellidos)} {random.choice(apellidos)}'
        puesto = selec_puesto(num, puestos)
        empleados.append([nombre, puesto, tienda])
        
df_empleados = pd.DataFrame(empleados, columns=['nombre_empleado', 'puesto', 'id_tienda'])
df_empleados=df_empleados.reset_index().rename({'index': 'id_empleado'}, axis=1)
df_empleados['id_empleado'] = df_empleados['id_empleado'] + 1
df_empleados

Unnamed: 0,id_empleado,nombre_empleado,puesto,id_tienda
0,1,Carmen García Rodríguez,Cajero,1
1,2,Panchi Martínez Rivera,Cajero,1
2,3,Carlos González Díaz,Cajero,1
3,4,Carolina Cruz Cruz,Cajero,1
4,5,Emilio Morales Flores,Cajero,1
...,...,...,...,...
295,296,Oscar Cruz Torres,Jefe de Seccion,15
296,297,Noelia Torres González,Jefe de Seccion,15
297,298,Emilio Rivera Rivera,Jefe de Seccion,15
298,299,Panchi Morales Torres,Jefe de Seccion,15


## CATEGORIAS

In [126]:
categorias = [
    'Frutería',
    'Carnicería',
    'Pescadería',
    'Panadería y Pastelería',
    'Lácteos y Huevos',
    'Bebidas',
    'Droguería y Limpieza',
    'Conservas y Alimentos enlatados',
    'Congelados',
    'Alimentos Secos y Básicos'
]

df_categorias = pd.DataFrame(categorias, columns=['nombre_categoria'])
df_categorias=df_categorias.reset_index().rename({'index': 'id_categoria'}, axis=1)
df_categorias['id_categoria'] = df_categorias['id_categoria'] + 1
df_categorias

Unnamed: 0,id_categoria,nombre_categoria
0,1,Frutería
1,2,Carnicería
2,3,Pescadería
3,4,Panadería y Pastelería
4,5,Lácteos y Huevos
5,6,Bebidas
6,7,Droguería y Limpieza
7,8,Conservas y Alimentos enlatados
8,9,Congelados
9,10,Alimentos Secos y Básicos


## PRODUCTOS

In [127]:
productos = {
    1: ['Manzanas', 'Plátanos', 'Naranjas', 'Lechugas'],  # Frutería
    2: ['Pollo', 'Ternera', 'Cerdo', 'Cordero'],           # Carnicería
    3: ['Merluza', 'Salmón', 'Atún', 'Calamares'],         # Pescadería
    4: ['Pan integral', 'Croissants', 'Donuts', 'Baguette'], # Panadería y Pastelería
    5: ['Leche', 'Queso', 'Yogur', 'Huevos'],              # Lácteos y Huevos
    6: ['Agua', 'Refrescos', 'Vino tinto', 'Cerveza'],     # Bebidas
    7: ['Detergente', 'Esponjas', 'Desinfectante', 'Papel higiénico'], # Droguería y Limpieza
    8: ['Atún enlatado', 'Sopa de tomate', 'Maíz dulce', 'Guisantes en conserva'], # Conservas y Alimentos enlatados
    9: ['Pizza congelada', 'Helado', 'Verduras congeladas', 'Nuggets de pollo'], # Congelados
    10: ['Arroz', 'Pasta', 'Lentejas', 'Harina']          # Alimentos Secos y Básicos
}

producto_completo = []

for categoria in df_categorias['id_categoria']:
    for producto in productos[categoria]:
        precio = round(random.uniform(0.50, 150.00), 2)
        stock = random.randint(0,500)
        producto_completo.append([producto, precio, stock, categoria])
        
df_productos = pd.DataFrame(producto_completo, columns=['nombre_producto','precio','stock', 'id_categoria'])
df_productos=df_productos.reset_index().rename({'index': 'id_producto'}, axis=1)
df_productos['id_producto'] = df_productos['id_producto'] + 1
df_productos

Unnamed: 0,id_producto,nombre_producto,precio,stock,id_categoria
0,1,Manzanas,88.33,146,1
1,2,Plátanos,46.43,152,1
2,3,Naranjas,89.17,177,1
3,4,Lechugas,97.98,360,1
4,5,Pollo,16.31,362,2
5,6,Ternera,94.96,362,2
6,7,Cerdo,130.3,227,2
7,8,Cordero,121.71,407,2
8,9,Merluza,111.3,381,3
9,10,Salmón,26.3,117,3


## CLIENTES

In [128]:
nombres = ['Carolina', 'Cecilia', 'Alan', 'Kike', 'Panchi', 'Carlos', 'Carmen', 'Emilio', 'Jose Ignacio', 'Luis', 'Maria', 'Marino','Nerea','Noelia', 'Oscar', 'Pablo', 'Rafael']
apellidos = ['García', 'Martínez', 'López', 'Hernández', 'González', 'Pérez', 'Rodríguez', 'Sánchez', 'Ramírez', 'Torres', 'Flores', 'Rivera', 'Díaz', 'Cruz', 'Morales']
emails = ['gmail', 'yahoo', 'hotmail']
codigo_postal = [29000, 28000, 20000]

cliente = []

for num in range (2000):
    nombre = f'{random.choice(nombres)}'
    apellido = f'{random.choice(apellidos)} {random.choice(apellidos)}'
    email = f'{nombre.lower()}.{apellido.split()[0][:1].lower()}{apellido.split()[1][:1].lower()}@{random.choice(emails)}.com'
    cp = random.choice(codigo_postal) + random.randint(1, 25)
    cliente.append([nombre, apellido, email, cp])
    
df_clientes = pd.DataFrame(cliente, columns=['first_name','last_name','email','codigo_postal'])
df_clientes=df_clientes.reset_index().rename({'index': 'id_cliente'}, axis=1)
df_clientes['id_cliente'] = df_clientes['id_cliente'] + 1
df_clientes

Unnamed: 0,id_cliente,first_name,last_name,email,codigo_postal
0,1,Nerea,Rivera Flores,nerea.rf@hotmail.com,29009
1,2,Carolina,Ramírez García,carolina.rg@gmail.com,20008
2,3,Rafael,García Ramírez,rafael.gr@hotmail.com,29002
3,4,Maria,López Sánchez,maria.ls@yahoo.com,28013
4,5,Marino,López Ramírez,marino.lr@gmail.com,28015
...,...,...,...,...,...
1995,1996,Kike,Sánchez González,kike.sg@hotmail.com,20015
1996,1997,Carmen,Torres Sánchez,carmen.ts@yahoo.com,29002
1997,1998,Panchi,Torres Torres,panchi.tt@yahoo.com,29007
1998,1999,Pablo,Rivera Martínez,pablo.rm@gmail.com,20018


## ORDENES

In [129]:
import datetime
from datetime import datetime, timedelta

clientes = df_clientes['id_cliente']
empleados = df_empleados['id_empleado']
ordenes = []

fecha_inicial = datetime(year=2017, month=1, day=2, hour=9, minute=00)
for orden in range (10000):
    cliente = int(random.choice(clientes))
    empleado = int(random.choice(empleados))
    fecha = fecha_inicial + timedelta(minutes=30*orden)
    metodo = random.choice(['Tarjeta', 'Efectivo'])
    ordenes.append([cliente, empleado, fecha, metodo])
    
df_ordenes = pd.DataFrame(ordenes, columns=['id_cliente','id_empleado', 'fecha_orden', 'metodo_pago'])
df_ordenes=df_ordenes.reset_index().rename({'index': 'id_orden'}, axis=1)
df_ordenes['id_orden'] = df_ordenes['id_orden'] + 1
df_ordenes

Unnamed: 0,id_orden,id_cliente,id_empleado,fecha_orden,metodo_pago
0,1,172,87,2017-01-02 09:00:00,Efectivo
1,2,1900,72,2017-01-02 09:30:00,Tarjeta
2,3,1104,53,2017-01-02 10:00:00,Efectivo
3,4,1002,224,2017-01-02 10:30:00,Tarjeta
4,5,780,273,2017-01-02 11:00:00,Tarjeta
...,...,...,...,...,...
9995,9996,655,13,2017-07-29 14:30:00,Efectivo
9996,9997,1178,23,2017-07-29 15:00:00,Efectivo
9997,9998,838,43,2017-07-29 15:30:00,Efectivo
9998,9999,827,209,2017-07-29 16:00:00,Efectivo


## DETALLE ORDEN

In [130]:
productos = df_productos['id_producto']
ordenes = df_ordenes['id_orden']
detalles = []

for orden in ordenes:
    for num in range(1, 4):
        producto = int(random.choice(productos))
        cantidad = random.randint(1,20)
        descuento = float(round(random.uniform(0.00, 5.00), 2))
        precio = float(round(df_productos['precio'][df_productos['id_producto'] == producto].iloc[0]*(1-(descuento/100)),2))
        detalles.append([orden, producto, cantidad, precio, descuento])
        
df_detalles_orden = pd.DataFrame(detalles, columns=['id_orden','id_producto', 'cantidad', 'precio_unitario', 'descuento'])
df_detalles_orden=df_detalles_orden.reset_index().rename({'index': 'id_detalle'}, axis=1)
df_detalles_orden['id_detalle'] = df_detalles_orden['id_detalle'] + 1
df_detalles_orden

Unnamed: 0,id_detalle,id_orden,id_producto,cantidad,precio_unitario,descuento
0,1,1,21,12,1.11,4.43
1,2,1,25,17,12.77,2.63
2,3,1,9,11,108.42,2.59
3,4,2,27,4,18.12,0.77
4,5,2,18,13,20.42,3.96
...,...,...,...,...,...,...
29995,29996,9999,22,3,86.33,3.13
29996,29997,9999,29,12,84.76,4.75
29997,29998,10000,2,15,44.61,3.92
29998,29999,10000,38,2,16.37,3.38


## CARGA DE DATOS CON PANDAS

Crear la conexion

In [131]:
user = "root"
password = "admin"
database = "supermercado"

# Crear la conexión
engine = create_engine(f"mysql+pymysql://{user}:{password}@localhost/{database}")

# Abrir una conección
connection = engine.connect()

# Cerrar la conección
connection.close()

Carga de datos

In [132]:
df_tienda.to_sql(name = "tiendas", con = engine, if_exists = "append", index = False)
df_empleados.to_sql(name = "empleados", con = engine, if_exists = "append", index = False)
df_categorias.to_sql(name = "categorias", con = engine, if_exists = "append", index = False)
df_productos.to_sql(name = "productos", con = engine, if_exists = "append", index = False)
df_clientes.to_sql(name = "clientes", con = engine, if_exists = "append", index = False)
df_ordenes.to_sql(name = "ordenes", con = engine, if_exists = "append", index = False)
df_detalles_orden.to_sql(name = "detalle_orden", con = engine, if_exists = "append", index = False)

30000

# PARTE 3: CONSULTAS SQL