## M4- SQL

### BASE DE DATOS "MERCAZONA"

#### 1.- Creación Base de datos. Tiendas MercaZona

##### .-SQL de generación del esquema de la base de datos MercaZona y enviamos el archivo SQL a MySQL Workbench a través de Python.

In [6]:

""" SQL

DROP DATABASE IF EXISTS MercaZona;

CREATE DATABASE IF NOT EXISTS MercaZona;

USE MercaZona;


#tiendas

CREATE TABLE IF NOT EXISTS tiendas (
    id_tienda INT NOT NULL AUTO_INCREMENT,
    nombre_tienda VARCHAR(75) NOT NULL,
    direccion VARCHAR(150) NULL,
    ciudad VARCHAR(100) NULL,
    PRIMARY KEY (id_tienda));



#categorias

CREATE TABLE IF NOT EXISTS categorias (
    id_categoria INT NOT NULL AUTO_INCREMENT,
    nombre_categoria VARCHAR(100) NOT NULL,
    PRIMARY KEY (id_categoria));



#empleados

CREATE TABLE IF NOT EXISTS empleados (
    id_empleado INT NOT NULL AUTO_INCREMENT,
    nombre_empleado VARCHAR(200) NOT NULL,
    puesto VARCHAR(75) NULL,
    id_tienda INT NOT NULL,
    PRIMARY KEY (id_empleado),
    INDEX id_tienda_idx (id_tienda ASC) VISIBLE,
    CONSTRAINT id_tienda
        FOREIGN KEY (id_tienda)
        REFERENCES MercaZona.tiendas (id_tienda)
        ON DELETE NO ACTION
        ON UPDATE NO ACTION);


#productos

CREATE TABLE IF NOT EXISTS productos (
    id_producto INT NOT NULL AUTO_INCREMENT,
    nombre_producto VARCHAR(75) NOT NULL,
    precio DECIMAL(3,2) NOT NULL,
    stock INT NULL,
    id_categoria INT NOT NULL,
    PRIMARY KEY (id_producto),
    INDEX id_categoria_idx (id_categoria ASC) VISIBLE,
    CONSTRAINT id_categoria
        FOREIGN KEY (id_categoria)
        REFERENCES categorias (id_categoria)
        ON DELETE NO ACTION
        ON UPDATE NO ACTION);


#clientes

CREATE TABLE IF NOT EXISTS clientes (
    id_cliente INT NOT NULL AUTO_INCREMENT,
    first_name VARCHAR(75) NOT NULL,
    last_name VARCHAR(100) NULL,
    email VARCHAR(150) NOT NULL,
    telefono INT NULL,
    codigo_postal INT NOT NULL,
    id_tienda INT NOT NULL,
    PRIMARY KEY (id_cliente),
    UNIQUE INDEX email_UNIQUE (email ASC) VISIBLE);


#ordenes

CREATE TABLE IF NOT EXISTS ordenes (
    id_orden INT NOT NULL AUTO_INCREMENT,
    id_cliente INT NOT NULL,
    id_empleado INT NOT NULL,
    id_tienda INT NOT NULL,
    fecha_orden DATE NULL,
    hora_orden TIME NULL,
    metodo_de_pago ENUM('tarjeta', 'efectivo', 'vale') NOT NULL,
    PRIMARY KEY (id_orden),
    INDEX id_cliente_idx (id_cliente ASC) VISIBLE,
    INDEX id_empleado_idx (id_empleado ASC) VISIBLE);
    ;

#detalle_orden

CREATE TABLE IF NOT EXISTS detalle_orden (
    id_detalle INT NOT NULL AUTO_INCREMENT,
    id_orden INT NOT NULL,
    id_producto INT NOT NULL,
    cantidad INT NULL,
    precio_unitario DECIMAL(3,2) NOT NULL,
    descuento DECIMAL(3,2) NULL,
    PRIMARY KEY (id_detalle),
    INDEX id_orden_idx (id_orden ASC) VISIBLE,
    INDEX id_producto_idx (id_producto ASC) VISIBLE);
""" 

" SQL\n\nDROP DATABASE IF EXISTS MercaZona;\n\nCREATE DATABASE IF NOT EXISTS MercaZona;\n\nUSE MercaZona;\n\n\n#tiendas\n\nCREATE TABLE IF NOT EXISTS tiendas (\n    id_tienda INT NOT NULL AUTO_INCREMENT,\n    nombre_tienda VARCHAR(75) NOT NULL,\n    direccion VARCHAR(150) NULL,\n    ciudad VARCHAR(100) NULL,\n    PRIMARY KEY (id_tienda));\n\n\n\n#categorias\n\nCREATE TABLE IF NOT EXISTS categorias (\n    id_categoria INT NOT NULL AUTO_INCREMENT,\n    nombre_categoria VARCHAR(100) NOT NULL,\n    PRIMARY KEY (id_categoria));\n\n\n\n#empleados\n\nCREATE TABLE IF NOT EXISTS empleados (\n    id_empleado INT NOT NULL AUTO_INCREMENT,\n    nombre_empleado VARCHAR(200) NOT NULL,\n    puesto VARCHAR(75) NULL,\n    id_tienda INT NOT NULL,\n    PRIMARY KEY (id_empleado),\n    INDEX id_tienda_idx (id_tienda ASC) VISIBLE,\n    CONSTRAINT id_tienda\n        FOREIGN KEY (id_tienda)\n        REFERENCES MercaZona.tiendas (id_tienda)\n        ON DELETE NO ACTION\n        ON UPDATE NO ACTION);\n\n\n#produ

In [2]:
pip install mysql-connector-python

Collecting mysql-connector-python
  Downloading mysql_connector_python-9.2.0-cp312-cp312-win_amd64.whl.metadata (6.2 kB)
Downloading mysql_connector_python-9.2.0-cp312-cp312-win_amd64.whl (16.1 MB)
   ---------------------------------------- 0.0/16.1 MB ? eta -:--:--
   --- ------------------------------------ 1.3/16.1 MB 6.7 MB/s eta 0:00:03
   ------- -------------------------------- 2.9/16.1 MB 7.3 MB/s eta 0:00:02
   ----------- ---------------------------- 4.5/16.1 MB 7.3 MB/s eta 0:00:02
   --------------- ------------------------ 6.3/16.1 MB 7.4 MB/s eta 0:00:02
   ------------------ --------------------- 7.6/16.1 MB 7.6 MB/s eta 0:00:02
   ---------------------- ----------------- 8.9/16.1 MB 7.4 MB/s eta 0:00:01
   -------------------------- ------------- 10.7/16.1 MB 7.4 MB/s eta 0:00:01
   ------------------------------- -------- 12.6/16.1 MB 7.4 MB/s eta 0:00:01
   ---------------------------------- ----- 13.9/16.1 MB 7.4 MB/s eta 0:00:01
   ---------------------------------


[notice] A new release of pip is available: 24.2 -> 24.3.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [12]:

import mysql.connector as con

In [181]:
# Enviao el esquema de MercaZona estableciendo un try/except (lo que me faltó en el primer ejecicio) para manejar los errores y con connection.rollback() para deshacer los cambios en caso de error. (lo que me faltó en el primer ejecicio.)

try:
    with open('MercaZona_schema2.sql', mode='r', encoding='utf-8') as file:
        sql = file.read()
    
    connection = con.connect(
        host="localhost",
        port= "3306",
        user= "root",
        password= "admin"
    )
    cursor = connection.cursor()
    for statement in sql.split(';'):
        if statement.strip():
            cursor.execute(statement)
    print("TODO OK.")

except con.Error as e:
    print(f"Error al interactuar con la base de datos: {e}")
    if connection:
        connection.rollback()

finally:
    if 'cursor' in locals() and cursor:
        cursor.close()
    if 'connection' in locals() and connection.is_connected():
        connection.close()
    print("Recursos cerrados correctamente.")

TODO OK.
Recursos cerrados correctamente.


In [3]:
#Ejecución sin manejo de errores: Sin try/except y sin connection.rollback() | otra opción para enviar el esquema de la base de datos a mysql workbench.

with open(file ='MercaZona_schema2.sql', mode='r', encoding='utf-8') as file:
    sql = file.read()
    
connection = con.connect(
    host="localhost",
    port= "3306",
    user= "root",
    password= "admin"
)
cursor = connection.cursor()
cursor.execute(sql)
cursor.close()
connection.close()

### 2.- Generar datos demo desde Python para las tablas de la base de datos de MercaZona.

#### Creación de tablas.

In [13]:
import pandas as pd
import random
import datetime 

In [53]:
# Creacion de la tabla tiendas

tiendas = ['MZ_Madrid', 'MZ_Barcelona', 'MZ_Vigo', 'MZ_Sevilla', 'MZ_Bilbao', 'MZ_Valencia', 'MZ_Málaga', 'MZ_Toledo', 'MZ_Cádiz', 'MZ_Murcia']
direccion= ['Calle del Llano, 40', 'Carrer Splugat del Ferrer, 4', 'Rua da Trapallada , 20', 'Calle del Sobrao, 15', 'Harrizko kalea, 21', 'Carrer Sort, 23', 'Calle del Espeto, 2', 'Paseo Imperial, 43', 'Calle del Quillo, 6', 'Calle Queloqué, 1']
ciudad = ['Madrid', 'Barcelona', 'Vigo', 'Sevilla', 'Bilbao', 'Valencia', 'Málaga', 'Toledo', 'Cádiz', 'Murcia']

df_tiendas = pd.DataFrame(
    zip(tiendas, direccion, ciudad),
    columns=['nombre_tienda', 'direccion', 'ciudad']) 

df_tiendas = df_tiendas.reset_index().rename({'index': 'id_tienda'}, axis=1)
df_tiendas['id_tienda'] = df_tiendas['id_tienda'] + 1
df_tiendas.head (10)

Unnamed: 0,id_tienda,nombre_tienda,direccion,ciudad
0,1,MZ_Madrid,"Calle del Llano, 40",Madrid
1,2,MZ_Barcelona,"Carrer Splugat del Ferrer, 4",Barcelona
2,3,MZ_Vigo,"Rua da Trapallada , 20",Vigo
3,4,MZ_Sevilla,"Calle del Sobrao, 15",Sevilla
4,5,MZ_Bilbao,"Harrizko kalea, 21",Bilbao
5,6,MZ_Valencia,"Carrer Sort, 23",Valencia
6,7,MZ_Málaga,"Calle del Espeto, 2",Málaga
7,8,MZ_Toledo,"Paseo Imperial, 43",Toledo
8,9,MZ_Cádiz,"Calle del Quillo, 6",Cádiz
9,10,MZ_Murcia,"Calle Queloqué, 1",Murcia


In [131]:
#Creación tabla empleados.

puestos_por_tienda = {
    'Gerente': 1,
    'Encargada/o Tienda': 1,
    'Responsable Almacén': 1,
    'Atención al Cliente': 3,
    'Limpiador/a': 3,
    'Reponedor/a': 5,
    'Cajero/a': 6}

empleados_x_tienda = sum(puestos_por_tienda.values())
total_empleados = len(df_tiendas) * empleados_x_tienda

empleados = []
contador = 1

for id_tienda in df_tiendas['id_tienda']:
    for _ in range(empleados_x_tienda):
        empleados.append({'empleado': f'Emplead@{contador}', 'id_tienda': id_tienda})
        contador += 1

puestos = []
for id_tienda in df_tiendas['id_tienda']:
    for puesto, cantidad in puestos_por_tienda.items():
        for _ in range(cantidad):
            puestos.append({'puesto': puesto, 'id_tienda': id_tienda})

# Otra opción para crear las columnas de la tabla empleados
#df_empleados = pd.DataFrame({
    #'empleado_id': range(1, total_empleados + 1),
    #'empleado': [empleado['empleado'] for empleado in empleados],
    #'puesto': [puesto['puesto'] for puesto in puestos],
    #'id_tienda': [empleado['id_tienda'] for empleado in empleados]
#})

df_empleados = pd.DataFrame(
    zip([emp['empleado'] for emp in empleados], [puesto['puesto'] for puesto in puestos], [emp['id_tienda'] for emp in empleados]),
    columns=['nombre_empleado', 'puesto', 'id_tienda'])

df_empleados = df_empleados.reset_index().rename({'index': 'id_empleado'}, axis=1)
df_empleados['id_empleado'] = df_empleados['id_empleado'] + 1
df_empleados

df_empleados.head(30)

#df_empleados_caja= df_empleados['Cajero/a' == df_empleados['puesto']] #hice esto para ver si cuadraban los id de empleado con los que deben aparecer en la tabla órdenes, que han de ser sólo cajeros. Creo que sí cuadra, 😅)
#df_empleados_caja

Unnamed: 0,id_empleado,nombre_empleado,puesto,id_tienda
14,15,Emplead@15,Cajero/a,1
15,16,Emplead@16,Cajero/a,1
16,17,Emplead@17,Cajero/a,1
17,18,Emplead@18,Cajero/a,1
18,19,Emplead@19,Cajero/a,1
19,20,Emplead@20,Cajero/a,1
34,35,Emplead@35,Cajero/a,2
35,36,Emplead@36,Cajero/a,2
36,37,Emplead@37,Cajero/a,2
37,38,Emplead@38,Cajero/a,2


In [16]:
print(f'El número total de empleados en la cadena de supermercados MercaZona es de {total_empleados} empleados. \nEl número de empleados por tienda es de {empleados_x_tienda} empleados. \nLos puestos están dstribuidos de la siguiente manera: \n{puestos_por_tienda}')    

El número total de empleados en la cadena de supermercados MercaZona es de 200 empleados. 
El número de empleados por tienda es de 20 empleados. 
Los puestos están dstribuidos de la siguiente manera: 
{'Gerente': 1, 'Encargada/o Tienda': 1, 'Responsable Almacén': 1, 'Atención al Cliente': 3, 'Limpiador/a': 3, 'Reponedor/a': 5, 'Cajero/a': 6}


In [66]:
#Creación tabla categorias.

categorias = [
    "Alimentación Fresca",
    "Alimentación No Perecedera",
    "Platos Preparados",
    "Bebidas",
    "Congelados",
    "Panadería y Repostería",
    "Productos de Higiene",
    "Droguería y Limpieza",
    "Bebé y Puericultura",
    "Mascotas"
    
]

df_categoria = pd.DataFrame(categorias, columns=['nombre_categoria'])

df_categoria = df_categoria.reset_index().rename({'index': 'id_categoria'}, axis=1)
df_categoria['id_categoria'] = df_categoria['id_categoria'] + 1
df_categoria.head (11)




Unnamed: 0,id_categoria,nombre_categoria
0,1,Alimentación Fresca
1,2,Alimentación No Perecedera
2,3,Platos Preparados
3,4,Bebidas
4,5,Congelados
5,6,Panadería y Repostería
6,7,Productos de Higiene
7,8,Droguería y Limpieza
8,9,Bebé y Puericultura
9,10,Mascotas


In [191]:
#Creación tabla productos.
productos_X_cat = {
    "Alimentación Fresca": ["Manzana", "Lechuga", "Pollo", "Gambones"],
    "Alimentación No Perecedera": ["Arroz", "Pasta", "Lentejas", "Aceite"],
    "Platos Preparados": ["Lasagna", "Pizza", "Ensaladilla", "Canelones"],
    "Productos Bio": ["Kéfir", "Avena", "Té Matcha", "Seitan tofu"],
    "Bebidas": ["Agua", "Jugo", "Refresco", "Cerveza"],
    "Congelados": ["Helado", "Guisantes", "Medallones", "San Jacobos"],
    "Panadería y Repostería": ["Pan Integral", "Croissant", "Magdalena", "Rosquillas"],
    "Productos de Higiene": ["Jabón", "Champú", "Desodorante", "Pasta de dientes"],
    "Droguería y Limpieza": ["Detergente", "Lejía", "Suavizante", "Sanitol"],
    "Mascotas": ["Purina", "Advance", "Correa", "Arena"]
}

precios_X_producto= {"Manzana": 1.20, "Lechuga": 0.60, "Pollo": 3.65, "Gambones": 8.90,
    "Arroz":1.88, "Pasta": 1.25, "Lentejas": 0.80 ,"Aceite":7.69,
    "Lasagna": 5.11, "Pizza": 2.99, "Ensaladilla": 1.89, "Canelones": 3.99,
    "Kéfir":1.89 , "Avena": 2.39, "Té Matcha":2.79, "Seitan tofu": 4.98,
    "Agua": 0.70, "Jugo": 2.49, "Refresco":1.36, "Cerveza": 0.89,
    "Helado":3.20 , "Guisantes": 2.39, "Medallones": 4.34, "San Jacobos": 5.99,
    "Pan Integral": 1.10, "Croissant": 0.90, "Magdalena": 1.20,"Rosquillas" :1.59,
    "Jabón": 2.87, "Champú": 2.10, "Desodorante": 3.20, "Pasta de dientes": 4.50,
    "Detergente":7.30, "Lejía":0.93, "Suavizante": 6.50, "Sanitol": 3.99,  
    "Purina": 4.70, "Advance": 4.10, "Correa":5.20, "Arena": 2.50
    }

productos_datos = []
for id_categoria, (categoria, productos) in zip(df_categoria['id_categoria'], productos_X_cat.items()):
    for producto in productos:
        productos_datos.append({
            'nombre_producto': producto,
            'precio': precios_X_producto[producto],
            'stock': random.randint(0, 500),
            'id_categoria': id_categoria
        })

df_productos = pd.DataFrame(productos_datos)

df_productos= df_productos.reset_index().rename({'index': 'id_producto'}, axis=1)
df_productos['id_producto'] = df_productos['id_producto'] + 1

df_productos.head()

        




Unnamed: 0,id_producto,nombre_producto,precio,stock,id_categoria
0,1,Manzana,1.2,95,1
1,2,Lechuga,0.6,54,1
2,3,Pollo,3.65,241,1
3,4,Gambones,8.9,143,1
4,5,Arroz,1.88,475,2


In [127]:
#Creacion tabla clientes

random.seed(2021)


n_filas = 2000


nombres = [f'cliente0{numero}' if numero < 10 else f'Cliente{numero}' for numero in range(n_filas)]
apellidos = [f'apellido0{numero}' if numero < 10 else f'apellido{numero}' for numero in range(n_filas)]


def generar_telefono():
    return f"6{random.randint(10000000, 99999999)}"

telefono = [generar_telefono() for _ in range(n_filas)]

emails = [f'{nombre}.{apellido}@jemail.com' for nombre, apellido in zip(nombres, apellidos)]

codigo_postal_prefix = {
    'Madrid': 28,
    'Barcelona': 8,
    'Vigo': 36,
    'Sevilla': 41,
    'Bilbao': 48,
    'Valencia': 46,
    'Málaga': 29,
    'Toledo': 45,
    'Cádiz': 11,
    'Murcia': 30
}
patron = [6, 4, 0, 8, 2, 5, 1, 9, 3, 7]
pesos = [0.11, 0.09, 0.08, 0.15, 0.08, 0.04, 0.14, 0.03, 0.20, 0.05]
pesos_nor = [p / sum(pesos) for p in pesos]  

id_tienda = random.choices(df_tiendas['id_tienda'], weights=pesos_nor, k=n_filas)

df_clientes = pd.DataFrame(
    zip(nombres, apellidos, emails, telefono, id_tienda),
    columns=['first_name', 'last_name', 'email', 'telefono', 'id_tienda']
)

df_clientes = df_clientes.merge(df_tiendas, on='id_tienda', how='left')
df_clientes['codigo_postal'] = df_clientes['ciudad'].map(lambda x: f"{codigo_postal_prefix[x]:02}{random.randint(100, 999)}")


df_clientes.drop(columns=['nombre_tienda'], inplace=True)
df_clientes.drop(columns=['ciudad'], inplace=True)
df_clientes.drop(columns=['direccion'], inplace=True)


df_clientes = df_clientes.reset_index().rename({'index': 'id_cliente'}, axis=1)
df_clientes['id_cliente'] = df_clientes['id_cliente'] + 1

column_order = ['id_cliente', 'first_name', 'last_name', 'email', 'telefono', 'codigo_postal', 'id_tienda']

df_clientes = df_clientes[column_order]


df_clientes.head()

Unnamed: 0,id_cliente,first_name,last_name,email,telefono,codigo_postal,id_tienda
0,1,cliente00,apellido00,cliente00.apellido00@jemail.com,664251571,29259,7
1,2,cliente01,apellido01,cliente01.apellido01@jemail.com,694525032,11100,9
2,3,cliente02,apellido02,cliente02.apellido02@jemail.com,683029252,11323,9
3,4,cliente03,apellido03,cliente03.apellido03@jemail.com,647139583,11876,9
4,5,cliente04,apellido04,cliente04.apellido04@jemail.com,643196383,29737,7


In [34]:
clientes_por_tienda = df_clientes['id_tienda'].value_counts().reset_index()
clientes_por_tienda.columns = ['tienda_id', 'num_clientes']

# Ordenar de mayor a menor
clientes_X_tienda = clientes_por_tienda.sort_values(by='num_clientes', ascending=False)
clientes_X_tienda

Unnamed: 0,tienda_id,num_clientes
0,9,422
1,4,328
2,7,249
3,2,211
4,1,206
5,5,183
6,3,166
7,10,98
8,6,72
9,8,65


In [190]:
#Creación tabla órdenes
from datetime import datetime, timedelta
import random  

num_ordenes = 10000
random.seed(2021)

id_tienda = df_tiendas['id_tienda'].unique().tolist()
id_cliente = df_clientes['id_cliente'].tolist()

id_tienda = random.choices(id_tienda, k=num_ordenes)
id_cliente = random.choices(id_cliente, k=num_ordenes)

id_cajeros = df_empleados[df_empleados['puesto'] == 'Cajero/a']
id_cajero = id_cajeros['id_empleado'].tolist()

cajeros_por_tienda = {t: id_cajeros[id_cajeros['id_tienda'] == t]['id_empleado'].tolist() for t in id_tienda}
cajero_id = [random.choice(cajeros_por_tienda[tienda]) for tienda in id_tienda]



dias_excluidos = {(1, 1), (6, 1), (1, 5), (6, 12), (8, 12), (25, 12)}
dias_semana_excluidos = {6}

fecha_orden = []
while len(fecha_orden) < num_ordenes:
    fecha = datetime.now().date() - timedelta(days=random.randint(0, 365))
    if (fecha.month, fecha.day) not in dias_excluidos and fecha.weekday() not in dias_semana_excluidos:
        fecha_orden.append(fecha.strftime('%Y-%m-%d'))
hora_orden = [datetime.strptime(f"{random.randint(10, 22)}:{random.randint(0, 59)}:{random.randint(0, 59)}", "%H:%M:%S").time() for _ in range(num_ordenes)]
metodos_pago = ['tarjeta','efectivo','vale']
metodo_de_pago = random.choices(metodos_pago, k=len(df_ordenes))
df_ordenes = pd.DataFrame(
    zip(id_cliente, cajero_id, id_tienda, fecha_orden, hora_orden, metodo_de_pago),
    columns=['id_cliente', 'id_empleado', 'id_tienda', 'fecha_orden', 'hora_orden', 'metodo_de_pago'])

df_ordenes = df_ordenes.reset_index().rename({'index': 'id_orden'}, axis=1)
df_ordenes['id_orden'] = df_ordenes['id_orden'] + 1
df_ordenes.head(20)


Unnamed: 0,id_orden,id_cliente,id_empleado,id_tienda,fecha_orden,hora_orden,metodo_de_pago
0,1,1938,175,9,2024-11-06,19:14:25,tarjeta
1,2,1235,178,9,2024-11-04,11:14:08,efectivo
2,3,1569,117,6,2024-07-03,12:50:23,efectivo
3,4,571,60,3,2024-07-30,21:37:54,efectivo
4,5,1578,138,7,2024-03-22,11:37:50,vale
5,6,452,197,10,2024-03-11,20:02:48,vale
6,7,1914,95,5,2024-08-17,16:57:30,tarjeta
7,8,1344,18,1,2024-02-12,16:06:51,tarjeta
8,9,899,59,3,2024-04-11,21:19:55,vale
9,10,1117,99,5,2024-03-30,13:13:43,efectivo


In [179]:
#Creación tabla detalle_orden

num_detalles = 30000
random.seed(2021)

id_orden = random.choices(df_ordenes['id_orden'].tolist(), k=num_detalles)
id_producto = random.choices(df_productos['id_producto'].tolist(), k=num_detalles)
cantidad = [random.randint(1, 20) for _ in range(num_detalles)]

descuento = [round(random.uniform(0.10, 2.50), 2) if random.random() < 0.85 else None 
            for _ in range(num_detalles)]


df_detalle_orden = pd.DataFrame(zip(id_orden, id_producto, cantidad, descuento),
                                columns= ['id_orden', 'id_producto', 'cantidad', 'descuento'])

df_detalle_orden = df_detalle_orden.merge(df_productos[['id_producto', 'precio']], on='id_producto', how='left')
df_detalle_orden.rename(columns={'precio':'precio_unitario'}, inplace=True)

df_detalle_orden = df_detalle_orden.reset_index().rename({'index': 'id_detalle'}, axis=1)
df_detalle_orden['id_detalle'] = df_detalle_orden['id_detalle'] + 1

#df_detalle_orden ['descuento'] = df_detalle_orden['descuento'].fillna(0, inplace=True)
df_detalle_orden.fillna({'descuento': 0}, inplace=True)
column_order = ['id_detalle','id_orden', 'id_producto', 'cantidad', 'precio_unitario', 'descuento']

df_detalle_orden = df_detalle_orden[column_order]
df_detalle_orden.head(40)    

Unnamed: 0,id_detalle,id_orden,id_producto,cantidad,precio_unitario,descuento
0,1,8364,17,11,0.7,2.37
1,2,8584,30,9,2.1,0.54
2,3,5442,27,6,1.2,1.61
3,4,2474,6,7,1.25,0.0
4,5,6351,28,17,1.59,1.13
5,6,9737,22,3,2.39,1.13
6,7,4738,23,3,4.34,0.0
7,8,638,21,17,3.2,2.16
8,9,2700,27,20,1.2,1.85
9,10,4751,28,18,1.59,1.14


In [149]:
# Creacios de csv's.

df_tiendas.to_csv('tiendas.csv', index=False)
df_empleados.to_csv('empleados.csv', index=False)
df_categoria.to_csv('categoria.csv', index=False)
df_productos.to_csv('productos.csv', index=False)
df_clientes.to_csv('clientes.csv', index=False)
df_ordenes.to_csv('ordenes.csv', index=False)
df_detalle_orden.to_csv('detalle_orden.csv', index=False)

In [13]:
#Creación de funcion para enviar las tablas a la base de datos con manejo de errores.
def insertar_dataframe(df, table_name):
    try:
        connection = con.connect(
            host="localhost",
            port="3306",
            user="root",
            password="admin",
            database='mercazona'
        )
        cursor = connection.cursor()
        
        columns = ','.join(df.columns)
        placeholders = ','.join(['%s'] * len(df.columns))
        sql = f'INSERT INTO {table_name} ({columns}) VALUES ({placeholders});'
    
        rows = [tuple(row) for index, row in df.iterrows()] 

        cursor.executemany(sql, rows)
        
        connection.commit()
        return cursor.rowcount
    except con.Error as error:
        print(f"Ha ocurrido un error: {error}")
        if connection:
            connection.rollback()
        return 0
    finally:
        if cursor: 
            cursor.close()
        if connection:
            connection.close()

In [None]:
# Envío de las tablas a la base de datos.

In [182]:
insertar_dataframe(df_tiendas, 'tiendas')

10

In [183]:
insertar_dataframe(df_empleados, 'empleados')

200

In [184]:
insertar_dataframe(df_categoria, 'categorias')

10

In [185]:
insertar_dataframe(df_productos, 'productos')

40

In [186]:
insertar_dataframe(df_clientes, 'clientes') 

2000

In [187]:
insertar_dataframe(df_ordenes, 'ordenes')

10000

In [188]:
insertar_dataframe(df_detalle_orden, 'detalle_orden')

30000

### 3.- Responder a las siguientes preguntas:

#### 1. Listado de órdenes con detalles de cliente y empleado
* Muestra el ID de la orden, la fecha, el nombre del cliente, el nombre del empleado que atendió la compra y el método de pago.
* Utiliza un JOIN entre las tablas ordenes, clientes y empleados.

In [8]:
"""sql 
SELECT ordenes.id_orden,
ordenes.fecha_orden,
clientes.first_name,
empleados.nombre_empleado,
ordenes.metodo_de_pago
FROM ordenes
JOIN clientes ON ordenes.id_cliente = clientes.id_cliente
JOIN empleados on ordenes.id_empleado = empleados.id_empleado
ORDER BY fecha_orden desc"""

'sql \nSELECT ordenes.id_orden,\nordenes.fecha_orden,\nclientes.first_name,\nempleados.nombre_empleado,\nordenes.metodo_de_pago\nFROM ordenes\nJOIN clientes ON ordenes.id_cliente = clientes.id_cliente\nJOIN empleados on ordenes.id_empleado = empleados.id_empleado\nORDER BY fecha_orden desc'

#### 2. Productos con stock bajo
* Filtra aquellos productos cuyo stock sea menor a 10.
* Muestra nombre del producto, categoría y stock.

In [9]:
# No hay ningun producto del ue queden menos de 10 unidades , el menor es 15 y he puesto 100 en el menor que para que salgan unos cuantos. Deberían salir 8 productos.

""" sql
SELECT productos.nombre_producto,
 categorias.nombre_categoria,
 productos.stock
FROM productos
JOIN categorias ON productos.id_categoria = categorias.id_categoria
WHERE stock < 100 """

' sql\nSELECT productos.nombre_producto,\n categorias.nombre_categoria,\n productos.stock\nFROM productos\nJOIN categorias ON productos.id_categoria = categorias.id_categoria\nWHERE stock < 100 '

#### 3. Ventas totales por categoría
* Muestra el nombre de la categoría y la suma total de las ventas (ej.: multiplicando cantidad * precio_unitario) para cada categoría.
* Realiza el JOIN con detalle_orden, productos y categorias.
* Utiliza agrupación (GROUP BY).

In [10]:
"""sql
    SELECT nombre_categoria,
	SUM(detalle_orden.cantidad * detalle_orden.precio_unitario) as Total_ventas
FROM detalle_orden
JOIN productos on detalle_orden.id_producto = productos.id_producto
JOIN categorias on productos.id_categoria = categorias.id_categoria
GROUP BY categorias.nombre_categoria;
    """

'sql\nSELECT nombre_categoria,\n\tSUM(detalle_orden.cantidad * detalle_orden.precio_unitario) as Total_ventas\nFROM detalle_orden\nJOIN productos on detalle_orden.id_producto = productos.id_producto\nJOIN categorias on productos.id_categoria = categorias.id_categoria\nGROUP BY categorias.nombre_categoria;\n'

#### 4. Clientes con mayores gastos acumulados
* Muestra el nombre del cliente y el monto total que ha gastado (suma de todas sus órdenes).
* Asegúrate de tener en cuenta posibles descuentos (descuento) si se ha definido. Por ejemplo, la fórmula podría ser (cantidad * precio_unitario) - descuento.
* Ordena el resultado de mayor a menor gasto acumulado.


In [14]:
""" sql
SELECT clientes.first_name,
	SUM((detalle_orden.precio_unitario* detalle_orden.cantidad) - detalle_orden.descuento) AS gasto_total
FROM detalle_orden
JOIN ordenes on detalle_orden.id_orden = ordenes.id_orden
JOIN clientes on ordenes. id_cliente = clientes.id_cliente
GROUP BY clientes.first_name
ORDER BY gasto_total DESC
LIMIT 15;
"""

' sql\nSELECT clientes.first_name,\n\tSUM((detalle_orden.precio_unitario* detalle_orden.cantidad) - detalle_orden.descuento) AS gasto_total\nFROM detalle_orden\nJOIN ordenes on detalle_orden.id_orden = ordenes.id_orden\nJOIN clientes on ordenes. id_cliente = clientes.id_cliente\nGROUP BY clientes.first_name\nORDER BY gasto_total DESC\nLIMIT 15;\n'

#### 5. Empleados y número de órdenes gestionadas
* Muestra el nombre del empleado, el puesto y la cantidad de órdenes que ha gestionado.
* Utiliza GROUP BY y COUNT.

In [15]:
#TOP 10 empleados con más ordenes.
""" sql
SELECT nombre_empleado,
puesto,
	count(ordenes.id_empleado) as total_ord_empleado
FROM empleados
JOIN ordenes ON empleados.id_empleado = ordenes.id_empleado
GROUP BY empleados.nombre_empleado, empleados.puesto
order by total_ord_empleado DESC
LIMIT 10;
"""

' sql\nSELECT nombre_empleado,\npuesto,\n\tcount(ordenes.id_empleado) as total_ord_empleado\nFROM empleados\nJOIN ordenes ON empleados.id_empleado = ordenes.id_empleado\nGROUP BY empleados.nombre_empleado, empleados.puesto\norder by total_ord_empleado DESC\nLIMIT 10;\n'

#### 6. Ordenes filtradas por fecha y tienda
* Muestra todas las órdenes que se realizaron en un rango de fechas determinado (ej.: del 1 de enero de 2025 al 31 de enero de 2025) y en una tienda específica.
* Incluye datos de la tienda y del cliente.

In [16]:
""" sql
SELECT id_orden,
fecha_orden,
ordenes.id_tienda,
tiendas.nombre_tienda,
clientes.first_name,
clientes.last_name
FROM ordenes
JOIN tiendas ON ordenes.id_tienda = tiendas.id_tienda
JOIN clientes ON ordenes.id_cliente = clientes.id_cliente
WHERE fecha_orden BETWEEN "2025-01-01" AND "2025-01-31"
AND nombre_tienda = 'MZ_Madrid'; 
"""

' sql\nSELECT id_orden,\nfecha_orden,\nordenes.id_tienda,\ntiendas.nombre_tienda,\nclientes.first_name,\nclientes.last_name\nFROM ordenes\nJOIN tiendas ON ordenes.id_tienda = tiendas.id_tienda\nJOIN clientes ON ordenes.id_cliente = clientes.id_cliente\nWHERE fecha_orden BETWEEN "2025-01-01" AND "2025-01-31"\nAND nombre_tienda = \'MZ_Madrid\'; \n'

#### 7. Ranking de productos más vendidos en cada tienda
* Para cada tienda, muestra los 3 productos más vendidos (en términos de cantidad total).
* Tendrás que unir tiendas, empleados, ordenes y detalle_orden, además de productos.
* Usa GROUP BY y ordena por la cantidad sumada (y opcionalmente, un LIMIT 3).

In [None]:
# Esta es la única manera en la que lo he conseguido hacer (consultando), no he podido hacerlo con un subquery ya que mi version de sql no me permite poner limit después de la subconsulta:
# Error Code: 1235. This version of MySQL doesn't yet support 'LIMIT & IN/ALL/ANY/SOME subquery'.

"""sql
SELECT 
    ranked.nombre_tienda,
    ranked.nombre_producto,
    ranked.total_vendido
FROM (
    SELECT 
        tiendas.nombre_tienda,
        productos.nombre_producto,
        SUM(detalle_orden.cantidad) AS total_vendido,
        RANK() OVER (PARTITION BY tiendas.nombre_tienda ORDER BY SUM(detalle_orden.cantidad) DESC) AS ranking
    FROM tiendas
    JOIN ordenes ON tiendas.id_tienda = ordenes.id_tienda
    JOIN detalle_orden ON ordenes.id_orden = detalle_orden.id_orden
    JOIN productos ON detalle_orden.id_producto = productos.id_producto
    JOIN empleados ON ordenes.id_empleado = empleados.id_empleado
    GROUP BY tiendas.nombre_tienda, productos.nombre_producto
) AS ranked
WHERE ranked.ranking <= 3
ORDER BY ranked.nombre_tienda, ranked.total_vendido DESC;
"""

#### 8. Opcional: añadir alguna consulta con subconsultas o algo que no se abarque en las anteriores consulta.

##### 8.1: Horas con más ventas

In [3]:
"""
    sql
    SELECT COUNT(ordenes.id_orden) AS total_ordenes,
    HOUR(ordenes.hora_orden) AS hora, 
    tiendas.nombre_tienda
FROM mercazona.ordenes
JOIN tiendas ON ordenes.id_tienda = tiendas.id_tienda
GROUP BY hora, tiendas.nombre_tienda
ORDER BY total_ordenes DESC;
    """

'\n    sql\n    SELECT COUNT(ordenes.id_orden) AS total_ordenes,\n    HOUR(ordenes.hora_orden) AS hora, \n    tiendas.nombre_tienda\nFROM mercazona.ordenes\nJOIN tiendas ON ordenes.id_tienda = tiendas.id_tienda\nGROUP BY hora, tiendas.nombre_tienda\nORDER BY total_ordenes DESC;\n    '

##### 8.2 Tienda con mayor número de clientes

In [4]:
""" sql
df_clientes (1).csv"SELECT 
    tiendas.id_tienda,
    tiendas.nombre_tienda,
    COUNT(clientes.id_cliente) AS total_clientes
FROM tiendas
JOIN clientes ON tiendas.id_tienda = clientes.id_tienda
GROUP BY tiendas.id_tienda, tiendas.nombre_tienda
ORDER BY total_clientes DESC;
"""

' sql\ndf_clientes (1).csv"SELECT \n    tiendas.id_tienda,\n    tiendas.nombre_tienda,\n    COUNT(clientes.id_cliente) AS total_clientes\nFROM tiendas\nJOIN clientes ON tiendas.id_tienda = clientes.id_tienda\nGROUP BY tiendas.id_tienda, tiendas.nombre_tienda\nORDER BY total_clientes DESC;\n'

##### 8.3 Agrupar por tienda y metodos de pago descendente en cada tienda.

In [5]:
""""
sql
SELECT 
tiendas.nombre_tienda,
ordenes.metodo_de_pago,
	count(ordenes.id_orden) AS total_ordenes
FROM ordenes
JOIN tiendas ON ordenes.id_tienda= tiendas.id_tienda
GROUP BY tiendas.nombre_tienda, ordenes.metodo_de_pago
ORDER BY tiendas.nombre_tienda, total_ordenes DESC;
"""

'"\nsql\nSELECT \ntiendas.nombre_tienda,\nordenes.metodo_de_pago,\n\tcount(ordenes.id_orden) AS total_ordenes\nFROM ordenes\nJOIN tiendas ON ordenes.id_tienda= tiendas.id_tienda\nGROUP BY tiendas.nombre_tienda, ordenes.metodo_de_pago\nORDER BY tiendas.nombre_tienda, total_ordenes DESC;\n'