In [2]:
from sqlalchemy import create_engine, text
import pandas as pd

# Crea tu conexión (ajusta estos parámetros según tu configuración)
engine = create_engine("postgresql://postgres:micontraseña@localhost:5432/analisis_datos")

In [None]:
# Reiniciar ecommerce
with engine.connect() as conn:
    conn.execute(text("DROP SCHEMA IF EXISTS ecommerce CASCADE;"))
    conn.commit()

In [32]:
with engine.connect() as conn:
    conn.execute(text("CREATE SCHEMA IF NOT EXISTS ecommerce"))
    conn.commit()

In [34]:
tablas_sql = """
-- Tabla de categorías de productos
CREATE TABLE IF NOT EXISTS ecommerce.categorias (
    id_categoria SERIAL PRIMARY KEY,
    nombre VARCHAR(50) NOT NULL,
    descripcion TEXT
);

-- Tabla de productos
CREATE TABLE IF NOT EXISTS ecommerce.productos (
    id_producto SERIAL PRIMARY KEY,
    id_categoria INTEGER REFERENCES ecommerce.categorias(id_categoria),
    nombre VARCHAR(100) NOT NULL,
    descripcion TEXT,
    precio NUMERIC(10,2) NOT NULL,
    costo NUMERIC(10,2) NOT NULL,
    stock INTEGER NOT NULL DEFAULT 0,
    fecha_creacion TIMESTAMP DEFAULT CURRENT_TIMESTAMP
);

-- Tabla de clientes
CREATE TABLE IF NOT EXISTS ecommerce.clientes (
    id_cliente SERIAL PRIMARY KEY,
    nombre VARCHAR(100) NOT NULL,
    email VARCHAR(100) UNIQUE NOT NULL,
    fecha_registro TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
    ciudad VARCHAR(100),
    pais VARCHAR(50),
    genero VARCHAR(20),
    edad INTEGER
);

-- Tabla de pedidos
CREATE TABLE IF NOT EXISTS ecommerce.pedidos (
    id_pedido SERIAL PRIMARY KEY,
    id_cliente INTEGER REFERENCES ecommerce.clientes(id_cliente),
    fecha_pedido TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
    estado VARCHAR(20) CHECK (estado IN ('Pendiente', 'Enviado', 'Entregado', 'Cancelado')),
    metodo_pago VARCHAR(50),
    total NUMERIC(12,2) NOT NULL
);

-- Tabla de detalles de pedidos (líneas de pedido)
CREATE TABLE IF NOT EXISTS ecommerce.detalles_pedido (
    id_detalle SERIAL PRIMARY KEY,
    id_pedido INTEGER REFERENCES ecommerce.pedidos(id_pedido),
    id_producto INTEGER REFERENCES ecommerce.productos(id_producto),
    cantidad INTEGER NOT NULL,
    precio_unitario NUMERIC(10,2) NOT NULL,
    subtotal NUMERIC(12,2) NOT NULL
);
"""

with engine.connect() as conn:
    conn.execute(text(tablas_sql))
    conn.commit()

In [35]:
# Listar tablas
query = """ 
    SELECT table_name
    FROM information_schema.tables
    WHERE table_schema = 'ecommerce'
    ORDER BY table_name;
"""

In [36]:
with engine.connect() as conn:
    result = conn.execute(text(query))
    tables = [row[0] for row in result]
    print(tables)
    

['categorias', 'clientes', 'detalles_pedido', 'pedidos', 'productos']


In [37]:
# Crea un DataFrame con categorías relevantes para una tienda online
categorias = pd.DataFrame({
    'nombre': ['Electrónica', 'Ropa', 'Hogar', 'Deportes', 'Libros'],
    'descripcion': [
        'Productos electrónicos y gadgets',
        'Ropa y accesorios',
        'Artículos para el hogar',
        'Equipamiento deportivo',
        'Libros y publicaciones'
    ]
})

# Guarda a CSV para uso futuro
categorias.to_csv('categorias.csv', index=False)

In [38]:
import numpy as np

np.random.seed(42)
productos = []

In [39]:
import random

for i in range(1, 51):
    id_categoria = random.randint(1, 5)
    if id_categoria == 1:  # Electrónica
        nombre = random.choice(['Smartphone', 'Laptop', 'Tablet', 'Auriculares', 'Smartwatch']) + f" Modelo {i}"
        precio_base = random.uniform(300, 1500)
    elif id_categoria == 2:  # Ropa
        nombre = random.choice(['Camiseta', 'Pantalón', 'Vestido', 'Chaqueta', 'Zapatos']) + f" Estilo {i}"
        precio_base = random.uniform(20, 150)
    elif id_categoria == 3:  # Hogar
        nombre = random.choice(['Lámpara', 'Sofá', 'Mesa', 'Vajilla', 'Cortinas']) + f" Home {i}"
        precio_base = random.uniform(50, 800)
    elif id_categoria == 4:  # Deportes
        nombre = random.choice(['Balón', 'Raqueta', 'Zapatillas', 'Bicicleta', 'Mancuernas']) + f" Pro {i}"
        precio_base = random.uniform(30, 500)
    else:
        nombre = random.choice(['Novela', 'Biografía', 'Ciencia', 'Historia', 'Cocina']) + f" Vol. {i}"
        precio_base = random.uniform(10, 50)

    precio = round(precio_base, 2)
    costo = round(precio * random.uniform(0.4, 0.7), 2) # Costo entre 40-70% del precio

    productos.append({
         'id_categoria': id_categoria,
        'nombre': nombre,
        'descripcion': f"Descripción del producto {nombre}",
        'precio': precio,
        'costo': costo,
        'stock': random.randint(0, 100)
    })

df_productos = pd.DataFrame(productos)
df_productos

Unnamed: 0,id_categoria,nombre,descripcion,precio,costo,stock
0,2,Vestido Estilo 1,Descripción del producto Vestido Estilo 1,140.46,79.15,72
1,5,Biografía Vol. 2,Descripción del producto Biografía Vol. 2,27.0,16.01,9
2,2,Pantalón Estilo 3,Descripción del producto Pantalón Estilo 3,64.94,32.69,63
3,4,Zapatillas Pro 4,Descripción del producto Zapatillas Pro 4,244.67,139.05,96
4,4,Bicicleta Pro 5,Descripción del producto Bicicleta Pro 5,114.22,50.62,54
5,1,Auriculares Modelo 6,Descripción del producto Auriculares Modelo 6,343.99,224.8,48
6,1,Laptop Modelo 7,Descripción del producto Laptop Modelo 7,1222.76,707.2,20
7,2,Vestido Estilo 8,Descripción del producto Vestido Estilo 8,140.14,90.02,93
8,2,Chaqueta Estilo 9,Descripción del producto Chaqueta Estilo 9,24.02,13.54,9
9,2,Camiseta Estilo 10,Descripción del producto Camiseta Estilo 10,88.07,57.69,65


In [22]:
df_productos.to_csv('productos.csv', index=False)

In [40]:
from datetime import datetime, timedelta
clientes = []
for i in range(1, 101):
    genero = random.choice(['Masculino', 'Femenino', 'No especificado'])
    if genero == 'Masculino':
        nombre = random.choice(['Juan', 'Carlos', 'Miguel', 'David', 'José']) + " " + \
                random.choice(['García', 'Rodríguez', 'López', 'Martínez', 'González'])
    elif genero == 'Femenino':
        nombre = random.choice(['Ana', 'María', 'Laura', 'Elena', 'Sofía']) + " " + \
                random.choice(['García', 'Rodríguez', 'López', 'Martínez', 'González'])
    else:
        nombre = random.choice(['Alex', 'Sam', 'Jordan', 'Taylor', 'Casey']) + " " + \
                random.choice(['García', 'Rodríguez', 'López', 'Martínez', 'González'])

    email = nombre.lower().replace(' ', '.') + f"{i}@ejemplo.com"
    ciudad = random.choice(['Madrid', 'Barcelona', 'Valencia', 'Sevilla', 'Bilbao'])
    pais = 'España'
    edad = random.randint(18, 70)
    fecha_registro = datetime.now() - timedelta(days=random.randint(1, 365*2))

    clientes.append({
        'nombre': nombre,
        'email': email,
        'fecha_registro': fecha_registro,
        'ciudad': ciudad,
        'pais': pais,
        'genero': genero,
        'edad': edad
    })

df_clientes = pd.DataFrame(clientes)
df_clientes.to_csv('clientes.csv', index=False)

In [41]:
# Cargar categorías
df_categorias = pd.read_csv("categorias.csv")
df_categorias.to_sql("categorias", engine, schema="ecommerce", if_exists="append", index=False)

5

In [42]:
# Cargar productos
df_productos= pd.read_csv("productos.csv")
df_productos.to_sql("productos", engine, schema="ecommerce", if_exists="append", index=False)

50

In [43]:
# Cargar clientes
df_clientes = pd.read_csv("clientes.csv")
df_clientes['fecha_registro'] = pd.to_datetime(df_clientes['fecha_registro'])
df_clientes.to_sql("clientes", engine, schema="ecommerce", if_exists="append", index=False)

100

CREATE TABLE IF NOT EXISTS ecommerce.detalles_pedido (
    id_detalle SERIAL PRIMARY KEY,
    id_pedido INTEGER REFERENCES ecommerce.pedidos(id_pedido),
    id_producto INTEGER REFERENCES ecommerce.productos(id_producto),
    cantidad INTEGER NOT NULL,
    precio_unitario NUMERIC(10,2) NOT NULL,
    subtotal NUMERIC(12,2) NOT NULL

In [44]:
# Ahora generemos pedidos y sus detalles directamente
np.random.seed(42)
fecha_inicio = datetime.now() - timedelta(days=365)  # Un año de datos

# Generamos 500 pedidos
pedidos = []
detalles_pedido = []

for i in range(1, 501):
    id_cliente = random.randint(1, 100)
    fecha_pedido = fecha_inicio + timedelta(days=random.randint(0, 364))
    estado = random.choice(['Pendiente', 'Enviado', 'Entregado', 'Cancelado'])
    metodo_pago = random.choice(['Tarjeta', 'PayPal', 'Transferencia', 'Contra reembolso'])

    # Entre 1 y 5 productos por pedido
    num_productos = random.randint(1, 5)
    subtotal_pedido = 0

    # Este pedido irá a la tabla de pedidos
    pedidos.append({
        'id_cliente': id_cliente,
        'fecha_pedido': fecha_pedido,
        'estado': estado,
        'metodo_pago': metodo_pago,
        'total': 0  # Lo actualizaremos después
    })

    # Generar los detalles (líneas) del pedido
    for j in range(num_productos):
        id_producto = random.randint(1, 50)
        cantidad = random.randint(1, 3)

        # Obtener el precio del producto
        precio = df_productos.loc[id_producto-1, 'precio']
        subtotal = precio * cantidad
        subtotal_pedido += subtotal

        # Este detalle irá a la tabla de detalles_pedido
        detalles_pedido.append({
            'id_pedido': i,
            'id_producto': id_producto,
            'cantidad': cantidad,
            'precio_unitario': precio,
            'subtotal': subtotal
        })

    # Actualizar el total del pedido
    pedidos[i-1]['total'] = subtotal_pedido

# Convertir a DataFrames
df_pedidos = pd.DataFrame(pedidos)
df_detalles = pd.DataFrame(detalles_pedido)

df_pedidos.to_csv('pedidos.csv', index=False)
df_detalles.to_csv('detalles_pedido.csv', index=False)

# Cargar a la base de datos
df_pedidos.to_sql('pedidos', engine, schema='ecommerce', if_exists='append', index=False)
df_detalles.to_sql('detalles_pedido', engine, schema='ecommerce', if_exists='append', index=False)


442

In [45]:
# Análisis de ventas por categoría y mes

query_ventas_categoria = """ SELECT c.nombre as categoria, 
                                DATE_TRUNC('month', 
                                p.fecha_pedido)::date as mes, 
                                COUNT(DISTINCT p.id_pedido) as num_pedidos, 
                                SUM(dp.subtotal) as ingresos, 
                                SUM(dp.cantidad) as unidades_vendidas 
                            FROM ecommerce.detalles_pedido dp 
                            JOIN ecommerce.pedidos p ON dp.id_pedido = p.id_pedido 
                            JOIN ecommerce.productos pr ON dp.id_producto = pr.id_producto 
                            JOIN ecommerce.categorias c ON pr.id_categoria = c.id_categoria 
                            WHERE p.estado != 'Cancelado' 
                            GROUP BY c.nombre, DATE_TRUNC('month', p.fecha_pedido)::date 
                            ORDER BY mes, categoria 

                        """

df_ventas_categoria = pd.read_sql(query_ventas_categoria, engine)
df_ventas_categoria

Unnamed: 0,categoria,mes,num_pedidos,ingresos,unidades_vendidas
0,Deportes,2024-04-01,1,506.10,2
1,Hogar,2024-04-01,1,1856.43,4
2,Libros,2024-04-01,1,35.89,1
3,Ropa,2024-04-01,1,75.27,3
4,Deportes,2024-05-01,16,10524.43,46
...,...,...,...,...,...
59,Deportes,2025-04-01,19,12302.72,53
60,Electrónica,2025-04-01,8,18627.86,22
61,Hogar,2025-04-01,12,11816.84,27
62,Libros,2025-04-01,14,1096.91,38


In [46]:
# Análisis de rentabilidad de productos
query_basica_ventas = """
SELECT
    pr.id_producto,
    pr.nombre,
    SUM(dp.cantidad) as unidades_vendidas
FROM ecommerce.detalles_pedido dp
JOIN ecommerce.productos pr ON dp.id_producto = pr.id_producto
GROUP BY pr.id_producto, pr.nombre
ORDER BY unidades_vendidas DESC

"""

df_ventas_basica = pd.read_sql(query_basica_ventas, engine)
df_ventas_basica

Unnamed: 0,id_producto,nombre,unidades_vendidas
0,15,Novela Vol. 15,89
1,2,Novela Vol. 2,80
2,43,Vajilla Home 43,77
3,5,Lámpara Home 5,76
4,21,Mesa Home 21,76
5,50,Balón Pro 50,76
6,35,Cocina Vol. 35,75
7,11,Lámpara Home 11,73
8,33,Smartwatch Modelo 33,73
9,19,Mancuernas Pro 19,71


In [47]:
info_por_categorias = """
SELECT
    pr.id_producto,
    pr.nombre,
    c.nombre as categoria,
    SUM(dp.cantidad) as unidades_vendidas
FROM ecommerce.detalles_pedido dp
JOIN ecommerce.productos pr ON dp.id_producto = pr.id_producto
JOIN ecommerce.categorias c ON pr.id_categoria = c.id_categoria
GROUP BY pr.id_producto, pr.nombre, c.nombre
ORDER BY unidades_vendidas DESC

"""

info_por_categorias = pd.read_sql(info_por_categorias, engine)
info_por_categorias

Unnamed: 0,id_producto,nombre,categoria,unidades_vendidas
0,15,Novela Vol. 15,Libros,89
1,2,Novela Vol. 2,Libros,80
2,43,Vajilla Home 43,Hogar,77
3,50,Balón Pro 50,Deportes,76
4,5,Lámpara Home 5,Hogar,76
5,21,Mesa Home 21,Hogar,76
6,35,Cocina Vol. 35,Libros,75
7,11,Lámpara Home 11,Hogar,73
8,33,Smartwatch Modelo 33,Electrónica,73
9,19,Mancuernas Pro 19,Deportes,71


In [48]:
filtrar_pedidos_cancelados = """
SELECT
    pr.id_producto,
    pr.nombre,
    c.nombre as categoria,
    SUM(dp.cantidad) as unidades_vendidas
FROM ecommerce.detalles_pedido dp
JOIN ecommerce.productos pr ON dp.id_producto = pr.id_producto
JOIN ecommerce.pedidos p ON dp.id_pedido = p.id_pedido 
JOIN ecommerce.categorias c ON pr.id_categoria = c.id_categoria
WHERE p.estado != 'Cancelado' 
GROUP BY pr.id_producto, pr.nombre, c.nombre
ORDER BY unidades_vendidas DESC

"""
filtrar_pedidos_cancelados = pd.read_sql(filtrar_pedidos_cancelados, engine)
filtrar_pedidos_cancelados

Unnamed: 0,id_producto,nombre,categoria,unidades_vendidas
0,15,Novela Vol. 15,Libros,76
1,2,Novela Vol. 2,Libros,68
2,5,Lámpara Home 5,Hogar,67
3,35,Cocina Vol. 35,Libros,66
4,50,Balón Pro 50,Deportes,64
5,37,Vajilla Home 37,Hogar,60
6,21,Mesa Home 21,Hogar,56
7,11,Lámpara Home 11,Hogar,56
8,33,Smartwatch Modelo 33,Electrónica,55
9,43,Vajilla Home 43,Hogar,55


In [49]:
query_rentabilidad = """
WITH ventas_producto AS (
SELECT
    pr.id_producto,
    pr.nombre,
    c.nombre as categoria,
    SUM(dp.cantidad) as unidades_vendidas,
    SUM(dp.subtotal) as ingresos,
    sum(dp.cantidad * pr.costo) as costo_total
FROM ecommerce.detalles_pedido dp
JOIN ecommerce.productos pr ON dp.id_producto = pr.id_producto
JOIN ecommerce.pedidos p ON dp.id_pedido = p.id_pedido 
JOIN ecommerce.categorias c ON pr.id_categoria = c.id_categoria
WHERE p.estado != 'Cancelado' 
GROUP BY pr.id_producto, pr.nombre, c.nombre
)
SELECT
    id_producto,
    nombre,
    unidades_vendidas,
    costo_total,
    (ingresos - costo_total) as beneficio,
    CASE WHEN ingresos > 0
        THEN ROUND (((ingresos - costo_total) / ingresos) * 100, 2)
        ELSE 0 END as margen_porcentaje
FROM ventas_producto
ORDER BY beneficio DESC

"""
df_rentabilidad = pd.read_sql(query_rentabilidad, engine)
df_rentabilidad

Unnamed: 0,id_producto,nombre,unidades_vendidas,costo_total,beneficio,margen_porcentaje
0,12,Smartwatch Modelo 12,46,40830.52,22381.76,35.41
1,5,Lámpara Home 5,67,27685.74,17520.5,38.76
2,24,Mesa Home 24,45,14773.95,17470.35,54.18
3,48,Smartwatch Modelo 48,44,37722.08,17247.12,31.38
4,33,Smartwatch Modelo 33,55,11994.95,16838.25,58.4
5,21,Mesa Home 21,56,12869.36,15619.52,54.83
6,29,Vajilla Home 29,44,19022.08,14870.24,43.87
7,49,Vajilla Home 49,44,13425.72,13100.56,49.39
8,43,Vajilla Home 43,55,23020.25,12812.8,35.76
9,13,Balón Pro 13,48,9654.24,12638.4,56.69
