In [None]:
# CELL 1 - Imports y carga de conexión (robusta)
import sys
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine

sns.set_style("whitegrid")

# Intentar importar conexion.py primero, si no existe ejecutar conexion.ipynb, si falla crear fallback
try:
    sys.path.append("..\\data")
    from conexion import engine  # si tienes conexion.py
    print("engine importado desde data/conexion.py")
except Exception:
    try:
        get_ipython().run_line_magic('run', '../data/conexion.ipynb')
        print("Ejecutado ../data/conexion.ipynb (engine debería estar disponible).")
    except Exception as e:
        print("No se pudo ejecutar conexion.ipynb:", e)
        # Fallback: crear engine local (ajusta credenciales si hace falta)
        engine = create_engine("postgresql+psycopg2://postgres:123@localhost:5432/prueba")
        print("Usando engine fallback creado en esta celda.")

# Verificar que engine exista y funcione
if 'engine' in globals():
    try:
        test = pd.read_sql("SELECT 1 AS ok", engine)
        print("Engine funciona. Prueba SELECT 1 ->", int(test.iloc[0]['ok']))
    except Exception as e:
        print("Error probando engine (ejecuta la celda de conexión):", e)
else:
    raise RuntimeError("engine no definido. Revisa data/conexion.ipynb o data/conexion.py")

Conexión creada correctamente.
Conexión verificada, número de registros en la tabla orders: 11
Ejecutado ../data/conexion.ipynb (engine debería estar disponible).
Engine funciona. Prueba SELECT 1 -> 1


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine

sns.set_style("whitegrid")

# Intentar importar conexion.py primero, si no existe ejecutar conexion.ipynb, si falla crear fallback
try:
    sys.path.append("..\\data")
    from conexion import engine  # si tienes conexion.py
    print("engine importado desde data/conexion.py")
except Exception:
    try:
        get_ipython().run_line_magic('run', '../data/conexion.ipynb')
        print("Ejecutado ../data/conexion.ipynb (engine debería estar disponible).")
    except Exception as e:
        print("No se pudo ejecutar conexion.ipynb:", e)
        # Fallback: crear engine local (ajusta credenciales si hace falta)
        engine = create_engine("postgresql+psycopg2://postgres:123@localhost:5432/prueba")
        print("Usando engine fallback creado en esta celda.")

# Verificar que engine exista y funcione
if 'engine' in globals():
    try:
        test = pd.read_sql("SELECT 1 AS ok", engine)
        print("Engine funciona. Prueba SELECT 1 ->", int(test.iloc[0]['ok']))
    except Exception as e:
        print("Error probando engine (ejecuta la celda de conexión):", e)
else:
    raise RuntimeError("engine no definido. Revisa data/conexion.ipynb o data/conexion.py")

In [None]:
# ...existing code...
# CELL 2 - Consulta integrada y carga de datos (dinámica y robusta)
from sqlalchemy.exc import SQLAlchemyError

# Inspeccionar columnas de products y existencia de tabla categories
try:
    prod_cols = pd.read_sql(
        "SELECT column_name FROM information_schema.columns WHERE table_schema='public' AND table_name='products';",
        engine
    )['column_name'].str.lower().tolist()
except Exception as e:
    print("No se pudo leer columnas de products:", e)
    prod_cols = []

has_category_in_products = 'category_name' in prod_cols
has_product_cost = 'product_cost' in prod_cols
has_category_id = 'category_id' in prod_cols

# Verificar si existe tabla categories
try:
    cat_exists = pd.read_sql(
        "SELECT EXISTS (SELECT 1 FROM information_schema.tables WHERE table_schema='public' AND table_name='categories') AS exists;",
        engine
    ).iloc[0,0]
except Exception:
    cat_exists = False

# Construir SELECT dinámico
select_fields = [
    "c.customer_id",
    "c.city",
    "o.order_id",
    "o.order_date",
    "o.shipped_date",
    "p.product_id",
    "p.product_name"
]
if has_category_in_products:
    select_fields.append("p.category_name")
elif cat_exists and has_category_id:
    select_fields.append("cat.category_name AS category_name")

if has_product_cost:
    select_fields.append("p.product_cost")

select_fields += [
    "od.quantity",
    "od.unit_price",
    "(od.quantity * od.unit_price) AS ingreso_total"
]

select_sql = ",\n  ".join(select_fields)

# Construir joins (añadir join a categories si corresponde)
joins = """
FROM customers c
JOIN orders o ON c.customer_id = o.customer_id
JOIN order_details od ON o.order_id = od.order_id
JOIN products p ON od.product_id = p.product_id
"""
if not has_category_in_products and cat_exists and has_category_id:
    joins += "LEFT JOIN categories cat ON p.category_id = cat.category_id\n"

query = f"""SELECT
  {select_sql}
{joins}"""

# Ejecutar consulta
try:
    df = pd.read_sql(query, engine)
    print("Consulta integrada cargada. Filas:", len(df))
except SQLAlchemyError as e:
    print("Error en consulta dinámica:", e)
    print("SQL ejecutado (primeros 500 chars):", query[:500])
    # Fallback: consulta básica sin product_cost ni category
    fallback = """
    SELECT
      c.customer_id,
      c.city,
      p.product_id,
      p.product_name,
      od.quantity,
      od.unit_price,
      (od.quantity * od.unit_price) AS ingreso_total
    FROM customers c
    JOIN orders o ON c.customer_id = o.customer_id
    JOIN order_details od ON o.order_id = od.order_id
    JOIN products p ON od.product_id = p.product_id
    """
    try:
        df = pd.read_sql(fallback, engine)
        print("Consulta fallback cargada. Filas:", len(df))
    except Exception as e2:
        print("También falló el fallback:", e2)
        df = None
# ...existing code...

✅ Consulta integrada cargada. Filas: 17


In [4]:
# CELL 3 - Exploración y limpieza (Tarea 2.1)
print("\n-- Exploración inicial --")
print("Shape:", df.shape)
print(df.head(3))

print("\nInfo:")
df.info()

print("\nValores nulos por columna:")
print(df.isnull().sum())

# Asegurar tipos numéricos
df['ingreso_total'] = pd.to_numeric(df.get('ingreso_total'), errors='coerce')
if 'unit_price' in df.columns:
    df['unit_price'] = pd.to_numeric(df['unit_price'], errors='coerce')
if 'quantity' in df.columns:
    df['quantity'] = pd.to_numeric(df['quantity'], errors='coerce')

# Fechas
if 'order_date' in df.columns:
    df['order_date'] = pd.to_datetime(df['order_date'], errors='coerce')
if 'shipped_date' in df.columns:
    df['shipped_date'] = pd.to_datetime(df['shipped_date'], errors='coerce')

# dias_envio si están las fechas
if 'order_date' in df.columns and 'shipped_date' in df.columns:
    df['dias_envio'] = (df['shipped_date'] - df['order_date']).dt.days
else:
    df['dias_envio'] = np.nan


-- Exploración inicial --
Shape: (17, 7)
   customer_id       city  product_id          product_name  quantity  \
0            1     Madrid           1          Laptop Pro X         1   
1            1     Madrid           2      Mouse Ergonómico         1   
2            2  Barcelona           3  Teclado Mecánico RGB         1   

   unit_price  ingreso_total  
0      1200.5         1200.5  
1        25.0           25.0  
2        75.0           75.0  

Info:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 17 entries, 0 to 16
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   customer_id    17 non-null     int64  
 1   city           17 non-null     object 
 2   product_id     17 non-null     int64  
 3   product_name   17 non-null     object 
 4   quantity       17 non-null     int64  
 5   unit_price     17 non-null     float64
 6   ingreso_total  17 non-null     float64
dtypes: float64(2), int64(3), object

In [17]:
# CELL 4 - Cálculos de costo y ganancia (Tarea SQL avanzada y 2.1)
# Si existe product_cost úsalo; si no, estimar 70% de unit_price
if 'product_cost' in df.columns and df['product_cost'].notna().any():
    df['costo_unitario'] = pd.to_numeric(df['product_cost'], errors='coerce')
else:
    df['costo_unitario'] = df['unit_price'] * 0.7 if 'unit_price' in df.columns else np.nan

df['costo_total'] = df['quantity'] * df['costo_unitario']
df['ingreso_bruto'] = df['ingreso_total']  # alias claro
df['ganancia'] = df['ingreso_bruto'] - df['costo_total']

# Comprobar columnas clave
print("\nColumnas clave presentes:", [c for c in ['customer_id','product_name','quantity','unit_price','ingreso_total','ganancia','order_date'] if c in df.columns])


Columnas clave presentes: ['customer_id', 'product_name', 'quantity', 'unit_price', 'ingreso_total', 'ganancia', 'order_date']


In [18]:
# CELL 5 - KPIs estadísticos y Top N (Tarea 2.2 y 2.3)
# Gasto total por cliente
gasto_por_cliente = df.groupby('customer_id')['ingreso_total'].sum().rename('gasto_total')

print("\n-- KPIs Estadísticos --")
print("Media gasto por cliente: {:.2f}".format(gasto_por_cliente.mean()))
print("Mediana gasto por cliente: {:.2f}".format(gasto_por_cliente.median()))
print("Desviación estándar: {:.2f}".format(gasto_por_cliente.std()))

# Top 3 productos por cantidad vendida
if 'product_name' in df.columns:
    top3 = df.groupby('product_name')['quantity'].sum().nlargest(3)
    print("\nTop 3 productos por cantidad vendida:")
    print(top3)
else:
    print("\nNo hay columna 'product_name' para Top productos.")


-- KPIs Estadísticos --
Media gasto por cliente: 542.29
Mediana gasto por cliente: 150.00
Desviación estándar: 646.07

Top 3 productos por cantidad vendida:
product_name
Camiseta Algodón       3
Webcam HD              3
Altavoces Bluetooth    2
Name: quantity, dtype: int64
