In [4]:
from sqlalchemy import create_engine, text
import pandas as pd

# Crea tu conexión (ajusta estos parámetros según tu configuración)
engine = create_engine("postgresql://postgres:micontraseña@localhost:5432/analisis_datos")

In [5]:
with engine.connect() as conn:
    conn.execute(text("CREATE SCHEMA IF NOT EXISTS ecommerce"))
    conn.commit()

In [18]:
tablas_sql = """
-- Tabla de categorías de productos
CREATE TABLE IF NOT EXISTS ecommerce.categorias (
    id_categoria SERIAL PRIMARY KEY,
    nombre VARCHAR(50) NOT NULL,
    descripcion TEXT
);

-- Tabla de productos
CREATE TABLE IF NOT EXISTS ecommerce.productos (
    id_producto SERIAL PRIMARY KEY,
    id_categoria INTEGER REFERENCES ecommerce.categorias(id_categoria),
    nombre VARCHAR(100) NOT NULL,
    descripcion TEXT,
    precio NUMERIC(10,2) NOT NULL,
    costo NUMERIC(10,2) NOT NULL,
    stock INTEGER NOT NULL DEFAULT 0,
    fecha_creacion TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

-- Tabla de clientes
CREATE TABLE IF NOT EXISTS ecommerce.clientes (
    id_cliente SERIAL PRIMARY KEY,
    nombre VARCHAR(100) NOT NULL,
    email VARCHAR(100) UNIQUE NOT NULL,
    fecha_registro TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
    ciudad VARCHAR(100),
    pais VARCHAR(50),
    genero VARCHAR(20),
    edad INTEGER
);

-- Tabla de pedidos
CREATE TABLE IF NOT EXISTS ecommerce.pedidos (
    id_pedido SERIAL PRIMARY KEY,
    id_cliente INTEGER REFERENCES ecommerce.clientes(id_cliente),
    fecha_pedido TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
    estado VARCHAR(20) CHECK (estado IN ('Pendiente', 'Enviado', 'Entregado', 'Cancelado')),
    metodo_pago VARCHAR(50),
    total NUMERIC(12,2) NOT NULL
);

-- Tabla de detalles de pedidos (líneas de pedido)
CREATE TABLE IF NOT EXISTS ecommerce.detalles_pedido (
    id_detalle SERIAL PRIMARY KEY,
    id_pedido INTEGER REFERENCES ecommerce.pedidos(id_pedido),
    id_producto INTEGER REFERENCES ecommerce.productos(id_producto),
    cantidad INTEGER NOT NULL,
    precio_unitario NUMERIC(10,2) NOT NULL,
    subtotal NUMERIC(12,2) NOT NULL
);
"""

In [19]:
with engine.connect() as conn:
    conn.execute(text(tablas_sql))
    conn.commit()

In [22]:
# Listar tablas 
query = """
SELECT table_name
FROM information_schema.tables
WHERE table_schema = 'ecommerce'
ORDER BY table_name;
"""

In [23]:
with engine.connect() as conn:
    result = conn.execute(text(query))
    tables = [row[0] for row in result]
    print(tables)

['categorias', 'clientes', 'detalles_pedido', 'pedidos', 'productos']


In [24]:
import pandas as pd

# Crea un DataFrame con categorías relevantes para una tienda online
categorias = pd.DataFrame({
    'nombre': ['Electrónica', 'Ropa', 'Hogar', 'Deportes', 'Libros'],
    'descripcion': [
        'Productos electrónicos y gadgets',
        'Ropa y accesorios',
        'Artículos para el hogar',
        'Equipamiento deportivo',
        'Libros y publicaciones'
    ]
})

# Guarda a CSV para uso futuro
categorias.to_csv('categorias.csv', index=False)

In [25]:
categorias

Unnamed: 0,nombre,descripcion
0,Electrónica,Productos electrónicos y gadgets
1,Ropa,Ropa y accesorios
2,Hogar,Artículos para el hogar
3,Deportes,Equipamiento deportivo
4,Libros,Libros y publicaciones


In [26]:
import numpy as np
np.random.seed(42)
productos = []

In [29]:
import random
for i in range(1, 51):
    id_categoria = random.randint(1,5)
    if id_categoria == 1:  # Electrónica
        nombre = random.choice(['Smartphone', 'Laptop', 'Tablet', 'Auriculares', 'Smartwatch']) + f" Modelo {i}"
        precio_base = random.uniform(300, 1500)
    elif id_categoria == 2:  # Ropa
        nombre = random.choice(['Camiseta', 'Pantalón', 'Vestido', 'Chaqueta', 'Zapatos']) + f" Estilo {i}"
        precio_base = random.uniform(20, 150)
    elif id_categoria == 3:  # Hogar
        nombre = random.choice(['Lámpara', 'Sofá', 'Mesa', 'Vajilla', 'Cortinas']) + f" Home {i}"
        precio_base = random.uniform(50, 800)
    elif id_categoria == 4:  # Deportes
        nombre = random.choice(['Balón', 'Raqueta', 'Zapatillas', 'Bicicleta', 'Mancuernas']) + f" Pro {i}"
        precio_base = random.uniform(30, 500)
    else:
        nombre = random.choice(['Novela', 'Biografía', 'Ciencia', 'Historia', 'Cocina']) + f" Vol. {i}"
        precio_base = random.uniform(10, 50)

    precio = round(precio_base,2)
    costo = round(precio * random.uniform(0.4, 0.7),2) # costo entre 40 -70% del precio

    productos.append({
        'id_categoria': id_categoria,
        'nombre': nombre,
        'descripcion': f"Descripción del producto {nombre}",
        'precio': precio,
        'costo': costo,
        'stock': random.randint(0, 100)
    })

df_productos = pd.DataFrame(productos)
df_productos

Unnamed: 0,id_categoria,nombre,descripcion,precio,costo,stock
0,1,Smartwatch Modelo 1,Descripción del producto Smartwatch Modelo 1,1138.27,739.03,33
1,4,Balón Pro 2,Descripción del producto Balón Pro 2,261.27,175.05,12
2,4,Bicicleta Pro 3,Descripción del producto Bicicleta Pro 3,376.94,246.80,71
3,1,Laptop Modelo 4,Descripción del producto Laptop Modelo 4,584.99,348.48,48
4,5,Ciencia Vol. 5,Descripción del producto Ciencia Vol. 5,23.94,13.84,45
...,...,...,...,...,...,...
145,1,Auriculares Modelo 46,Descripción del producto Auriculares Modelo 46,508.46,207.11,15
146,4,Balón Pro 47,Descripción del producto Balón Pro 47,30.41,15.55,16
147,2,Pantalón Estilo 48,Descripción del producto Pantalón Estilo 48,72.73,31.08,42
148,2,Vestido Estilo 49,Descripción del producto Vestido Estilo 49,122.96,51.48,19


In [30]:
df_productos.to_csv('productos.csv', index=False)

In [31]:
from datetime import datetime, timedelta
clientes = []
for i in range(1, 101):
    genero = random.choice(['Masculino', 'Femenino', 'No especificado'])
    if genero == 'Masculino':
        nombre = random.choice(['Juan', 'Carlos', 'Miguel', 'David', 'José']) + " " + \
                random.choice(['García', 'Rodríguez', 'López', 'Martínez', 'González'])
    elif genero == 'Femenino':
        nombre = random.choice(['Ana', 'María', 'Laura', 'Elena', 'Sofía']) + " " + \
                random.choice(['García', 'Rodríguez', 'López', 'Martínez', 'González'])
    else:
        nombre = random.choice(['Alex', 'Sam', 'Jordan', 'Taylor', 'Casey']) + " " + \
                random.choice(['García', 'Rodríguez', 'López', 'Martínez', 'González'])

    email = nombre.lower().replace(' ', '.') + f"{i}@ejemplo.com"
    ciudad = random.choice(['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Bilbao'])
    pais = 'España'
    edad = random.randint(18, 70)
    fecha_registro = datetime.now() - timedelta(days=random.randint(1, 365*2))

    clientes.append({
        'nombre': nombre,
        'email': email,
        'fecha_registro': fecha_registro,
        'ciudad': ciudad,
        'pais': pais,
        'genero': genero,
        'edad': edad
    })

df_clientes = pd.DataFrame(clientes)
df_clientes.to_csv('clientes.csv', index=False)

In [33]:
df_categoria = pd.read_csv("categorias.csv")
df_categoria.to_sql("categorias", engine, schema="ecommerce", if_exists="append", index=False)

5

In [34]:
df_producto = pd.read_csv("productos.csv")
df_producto.to_sql("productos", engine, schema="ecommerce", if_exists="append", index=False)

150

In [35]:
df_cliente = pd.read_csv("clientes.csv")
df_cliente["fecha_registro"] = pd.to_datetime(df_cliente["fecha_registro"])
df_cliente.to_sql("clientes", engine, schema="ecommerce", if_exists="append", index=False)

100

In [36]:
# Ahora generemos pedidos y sus detalles directamente
np.random.seed(42)
fecha_inicio = datetime.now() - timedelta(days=365)  # Un año de datos

# Generamos 500 pedidos
pedidos = []
detalles_pedido = []

for i in range(1, 501):
    id_cliente = random.randint(1, 100)
    fecha_pedido = fecha_inicio + timedelta(days=random.randint(0, 364))
    estado = random.choice(['Pendiente', 'Enviado', 'Entregado', 'Cancelado'])
    metodo_pago = random.choice(['Tarjeta', 'PayPal', 'Transferencia', 'Contra reembolso'])

    # Entre 1 y 5 productos por pedido
    num_productos = random.randint(1, 5)
    subtotal_pedido = 0

    # Este pedido irá a la tabla de pedidos
    pedidos.append({
        'id_cliente': id_cliente,
        'fecha_pedido': fecha_pedido,
        'estado': estado,
        'metodo_pago': metodo_pago,
        'total': 0  # Lo actualizaremos después
    })

    # Generar los detalles (líneas) del pedido
    for j in range(num_productos):
        id_producto = random.randint(1, 50)
        cantidad = random.randint(1, 3)

        # Obtener el precio del producto
        precio = df_productos.loc[id_producto-1, 'precio']
        subtotal = precio * cantidad
        subtotal_pedido += subtotal

        # Este detalle irá a la tabla de detalles_pedido
        detalles_pedido.append({
            'id_pedido': i,
            'id_producto': id_producto,
            'cantidad': cantidad,
            'precio_unitario': precio,
            'subtotal': subtotal
        })

    # Actualizar el total del pedido
    pedidos[i-1]['total'] = subtotal_pedido

# Convertir a DataFrames
df_pedidos = pd.DataFrame(pedidos)
df_detalles = pd.DataFrame(detalles_pedido)

# Cargar a la base de datos
df_pedidos.to_sql('pedidos', engine, schema='ecommerce', if_exists='append', index=False)
df_detalles.to_sql('detalles_pedido', engine, schema='ecommerce', if_exists='append', index=False)

507

In [None]:
query_ventas_categoria = """ SELECT c.nombre as categoria, DATE_TRUNC('month', p.fecha_pedido)::date as mes,
 COUNT(DISTINCT p.id_pedido) as num_pedidos, SUM(dp.subtotal) as ingresos,
   SUM(dp.cantidad) as unidades_vendidas FROM ecommerce.detalles_pedido dp JOIN ecommerce.pedidos p ON dp.id_pedido = p.id_pedido JOIN ecommerce.productos pr ON dp.id_producto = pr.id_producto JOIN ecommerce.categorias c ON pr.id_categoria = c.id_categoria WHERE p.estado != 'Cancelado' GROUP BY c.nombre, DATE_TRUNC('month', p.fecha_pedido)::date ORDER BY mes, categoria """

In [8]:
import pandas as pd
df_ventas_categoria = pd.read_sql(query_ventas_categoria, engine)
df_ventas_categoria

Unnamed: 0,categoria,mes,num_pedidos,ingresos,unidades_vendidas
0,Deportes,2024-05-01,20,16262.33,53
1,Electrónica,2024-05-01,17,58969.7,48
2,Hogar,2024-05-01,18,22224.43,51
3,Libros,2024-05-01,8,823.74,21
4,Ropa,2024-05-01,21,4592.62,56
5,Deportes,2024-06-01,20,13280.04,48
6,Electrónica,2024-06-01,10,30710.31,26
7,Hogar,2024-06-01,14,16649.97,38
8,Libros,2024-06-01,10,755.85,24
9,Ropa,2024-06-01,20,4287.15,50


In [10]:
filtrar_pedidos_cancelados = """
SELECT
    pr.id_producto,
    pr.nombre,
    c.nombre as categoria,
    SUM(dp.cantidad) as unidades_vendidas
FROM ecommerce.detalles_pedido dp
JOIN ecommerce.productos pr ON  dp.id_producto = pr.id_producto
JOIN ecommerce.categorias c ON pr.id_categoria = c.id_categoria
GROUP BY pr.id_producto, pr.nombre, c.nombre
ORDER BY unidades_vendidas DESC
"""
df_filtrar_pedidos_cancelados = pd.read_sql(filtrar_pedidos_cancelados, engine)
df_filtrar_pedidos_cancelados

Unnamed: 0,id_producto,nombre,categoria,unidades_vendidas
0,50,Lámpara Home 50,Hogar,87
1,39,Vajilla Home 39,Hogar,85
2,22,Mesa Home 22,Hogar,77
3,41,Pantalón Estilo 41,Ropa,76
4,27,Chaqueta Estilo 27,Ropa,76
5,31,Bicicleta Pro 31,Deportes,75
6,1,Smartwatch Modelo 1,Electrónica,73
7,40,Tablet Modelo 40,Electrónica,73
8,21,Pantalón Estilo 21,Ropa,72
9,3,Bicicleta Pro 3,Deportes,71


In [11]:
query_rentabilidad = """
WITH ventas_producto AS (
SELECT
    pr.id_producto,
    pr.nombre,
    c.nombre as categoria,
    SUM(dp.cantidad) as unidades_vendidas,
    SUM(dp.subtotal) as ingresos,
    sum(dp.cantidad * pr.costo) as costo_total
FROM ecommerce.detalles_pedido dp
JOIN ecommerce.productos pr ON dp.id_producto = pr.id_producto
JOIN ecommerce.pedidos p ON dp.id_pedido = p.id_pedido 
JOIN ecommerce.categorias c ON pr.id_categoria = c.id_categoria
WHERE p.estado != 'Cancelado' 
GROUP BY pr.id_producto, pr.nombre, c.nombre
)
SELECT
    id_producto,
    nombre,
    unidades_vendidas,
    costo_total,
    (ingresos - costo_total) as beneficio,
    CASE WHEN ingresos > 0
        THEN ROUND (((ingresos - costo_total) / ingresos) * 100, 2)
        ELSE 0 END as margen_porcentaje
FROM ventas_producto
ORDER BY beneficio DESC

"""
df_rentabilidad = pd.read_sql(query_rentabilidad, engine)
df_rentabilidad

Unnamed: 0,id_producto,nombre,unidades_vendidas,costo_total,beneficio,margen_porcentaje
0,40,Tablet Modelo 40,64,54800.64,33733.12,38.1
1,20,Auriculares Modelo 20,44,27375.48,27811.96,50.4
2,36,Tablet Modelo 36,50,35923.5,27041.0,42.95
3,1,Smartwatch Modelo 1,64,47297.92,25551.36,35.07
4,50,Lámpara Home 50,71,17007.34,17791.18,51.13
5,34,Tablet Modelo 34,43,33458.73,17699.23,34.6
6,26,Cortinas Home 26,43,12295.85,15221.14,55.32
7,22,Mesa Home 22,60,19588.8,15123.0,43.57
8,33,Sofá Home 33,46,20342.12,15042.0,42.51
9,39,Vajilla Home 39,66,17969.82,14902.14,45.33
