In [None]:
import pandas as pd
from sqlalchemy import create_engine
import funciones as fn  # Importo el archivo de funciones que creé para aplicar el principio DRY

# Configuro la visualización para que pandas me muestre todas las columnas y no las oculte
pd.set_option('display.max_columns', None)

In [10]:
# Defino mi cadena de conexión con mis credenciales de PostgreSQL (usuario, password y base de datos)
connection_string = 'postgresql+psycopg2://postgres:javi1472@localhost:5432/classicmodels'

# Creo el motor de conexión (engine) que utilizaré para comunicarme con la base de datos
engine = create_engine(connection_string)

print("Conexión configurada (aún no probada hasta que hagamos una consulta).")

Conexión configurada (aún no probada hasta que hagamos una consulta).


In [11]:
def leer_tabla(tabla, engine):
    """
    Defino esta función para leer una tabla completa de la base de datos y retornarla como DataFrame.
    """
    # Utilizo un f-string para insertar dinámicamente el nombre de la tabla en mi consulta SQL
    query = f"SELECT * FROM {tabla}"
    
    # Ejecuto la lectura a través de pandas y retorno el resultado
    return pd.read_sql(query, engine)

In [12]:
# Cargo las tablas necesarias en variables independientes llamando a mi función 'leer_tabla'
try:
    df_orders = leer_tabla('orders', engine) # Leo la tabla de órdenes
    df_orderdetails = leer_tabla('orderdetails', engine) # Leo los detalles de las órdenes
    df_customers = leer_tabla('customers', engine) # Leo la tabla de clientes
    df_products = leer_tabla('products', engine) # Leo la tabla de productos
    df_employees = leer_tabla('employees', engine) # Leo la tabla de empleados

    print("¡Tablas cargadas exitosamente!")
    
    # Realizo una pequeña verificación visual imprimiendo las dimensiones de los DataFrames
    print(f"Orders: {df_orders.shape}")
    print(f"Details: {df_orderdetails.shape}")
    print(f"Customers: {df_customers.shape}")

except Exception as e:
    print(f"Ocurrió un error al leer las tablas: {e}")

¡Tablas cargadas exitosamente!
Orders: (326, 7)
Details: (2996, 5)
Customers: (122, 13)


In [13]:
# --- PASO 2: CRUCE DE DATAFRAMES (MERGE) ---

# 1. Uno la tabla Orders con OrderDetails
# Valido la relación '1:m' porque sé que una orden única tiene múltiples detalles
df_merged = df_orders.merge(
    df_orderdetails, 
    on='orderNumber', 
    how='inner', 
    validate='1:m'
)

# 2. Agrego la información de los Productos al DataFrame consolidado
# Valido 'm:1' ya que muchos detalles refieren a un solo producto del catálogo
df_merged = df_merged.merge(
    df_products, 
    on='productCode', 
    how='inner', 
    validate='m:1'
)

# 3. Agrego la información de los Clientes
# Valido 'm:1' porque muchas órdenes pertenecen a un único cliente
df_merged = df_merged.merge(
    df_customers, 
    on='customerNumber', 
    how='inner', 
    validate='m:1'
)

print(f"Dimensiones del DataFrame consolidado: {df_merged.shape}")


# --- PASO 3: CREACIÓN DE COLUMNAS CALCULADAS ---

# Calculo la columna 'venta' multiplicando la cantidad ordenada por el precio unitario
df_merged['venta'] = df_merged['quantityOrdered'] * df_merged['priceEach']

# Calculo el 'costo' multiplicando la cantidad por el precio de compra original
df_merged['costo'] = df_merged['quantityOrdered'] * df_merged['buyPrice']

# Calculo la 'ganancia' restando el costo a la venta total
df_merged['ganancia'] = df_merged['venta'] - df_merged['costo']

# Visualizo las primeras filas para confirmar que mis cálculos son correctos
print("\nPrimeras 5 filas con las nuevas métricas:")
display(df_merged[['orderNumber', 'productName', 'venta', 'costo', 'ganancia']].head())

Dimensiones del DataFrame consolidado: (2996, 31)

Primeras 5 filas con las nuevas métricas:


Unnamed: 0,orderNumber,productName,venta,costo,ganancia
0,10100,1917 Grand Touring Sedan,4080.0,2601.0,1479.0
1,10100,1911 Ford Town Car,2754.5,1665.0,1089.5
2,10100,1932 Alfa Romeo 8C2300 Spider Sport,1660.12,951.72,708.4
3,10100,1936 Mercedes Benz 500k Roadster,1729.21,1065.75,663.46
4,10101,1932 Model A Ford J-Coupe,2701.5,1462.0,1239.5


In [14]:
# --- PREGUNTA 4: Ventas por línea de productos con total ---

# 1. Agrupo mis datos por línea de producto y sumo la columna 'venta'
ventas_por_linea = df_merged.groupby('productLine')[['venta']].sum().reset_index()

# 2. Calculo el total general sumando todas las ventas para cumplir con el requerimiento
total_general = ventas_por_linea['venta'].sum()

# 3. Creo un DataFrame temporal que contiene solo la fila del total
fila_total = pd.DataFrame({
    'productLine': ['TOTAL GENERAL'],
    'venta': [total_general]
})

# 4. Concateno el reporte original con mi fila de total para tener el reporte final
reporte_ventas = pd.concat([ventas_por_linea, fila_total], ignore_index=True)

print("Reporte de Ventas por Línea:")
display(reporte_ventas)


# --- PREGUNTA 5: Clientes distintos ---

# Cuento los clientes únicos usando .nunique() sobre la columna de IDs de clientes
clientes_compradores = df_merged['customerNumber'].nunique()

print(f"\nCantidad de clientes distintos que hicieron compras: {clientes_compradores}")


# --- PREGUNTA 6: Clientes sin compras ---

# Realizo un cruce tipo LEFT JOIN entre todos los clientes y las órdenes
# Uso indicator=True para que pandas me diga qué registros están solo en la tabla izquierda (clientes sin orden)
analisis_clientes = df_customers.merge(
    df_orders, 
    on='customerNumber', 
    how='left', 
    indicator=True
)

# Filtro el DataFrame buscando 'left_only', que corresponde a clientes que no tienen coincidencia en órdenes
clientes_sin_compra = analisis_clientes[analisis_clientes['_merge'] == 'left_only']

# Cuento cuántos clientes cumplen esta condición
cantidad_sin_compra = len(clientes_sin_compra)

print(f"\nCantidad de clientes que NO han hecho ninguna compra: {cantidad_sin_compra}")

# Muestro algunos ejemplos para verificar
print("Ejemplo de clientes sin compras:")
display(clientes_sin_compra[['customerName', 'country']].head())

Reporte de Ventas por Línea:


Unnamed: 0,productLine,venta
0,Classic Cars,3853922.49
1,Motorcycles,1121426.12
2,Planes,954637.54
3,Ships,663998.34
4,Trains,188532.92
5,Trucks and Buses,1024113.57
6,Vintage Cars,1797559.63
7,TOTAL GENERAL,9604190.61



Cantidad de clientes distintos que hicieron compras: 98

Cantidad de clientes que NO han hecho ninguna compra: 24
Ejemplo de clientes sin compras:


Unnamed: 0,customerName,country
36,Havel & Zbyszek Co,Poland
110,American Souvenirs Inc,USA
111,Porto Imports Co.,Portugal
148,"Asian Shopping Network, Co",Singapore
159,Natürlich Autos,Germany


In [15]:
# --- PASO 4: GENERACIÓN DE REPORTES Y GUARDADO EN SQL (PRINCIPIO DRY) ---

# 1. Filtro los datos para el año 2005 utilizando la función que importé de mi archivo funciones.py
fecha_inicio = '2005-01-01'
fecha_fin = '2005-12-31'

df_2005 = fn.filtrar_por_fechas(df_merged, 'orderDate', fecha_inicio, fecha_fin)

print(f"Registros filtrados para 2005: {df_2005.shape[0]}")


# --- REPORTE A: Top 10 Clientes (2005) ---

# Utilizo mi función personalizada 'generar_reporte' para agrupar las ventas por cliente
pivot_clientes = fn.generar_reporte(
    dataframe=df_2005,
    filas='customerName',
    columnas=None,
    valores=['venta', 'costo', 'ganancia'],
    medida='sum'
)

# Ordeno los resultados de mayor a menor venta y selecciono los top 10
top_10_clientes = pivot_clientes.sort_values(by='venta', ascending=False).head(10)

print("\nTop 10 Clientes 2005:")
display(top_10_clientes)

# Guardo este reporte en mi base de datos PostgreSQL usando mi función 'escribir_en_base_de_datos'
fn.escribir_en_base_de_datos(
    dataframe=top_10_clientes,
    nombre_tabla='top_10_clientes_2005',
    engine=engine,
    if_exists='replace'
)


# --- REPORTE B: Top 10 Productos (2005) ---

# Reutilizo la función 'generar_reporte' pero ahora agrupando por nombre de producto
pivot_productos = fn.generar_reporte(
    dataframe=df_2005,
    filas='productName',
    columnas=None,
    valores=['venta', 'costo', 'ganancia'],
    medida='sum'
)

# Ordeno por venta descendente y tomo los 10 primeros
top_10_productos = pivot_productos.sort_values(by='venta', ascending=False).head(10)

print("\nTop 10 Productos 2005:")
display(top_10_productos)

# Finalmente, guardo la tabla de productos en la base de datos
fn.escribir_en_base_de_datos(
    dataframe=top_10_productos,
    nombre_tabla='top_10_productos_2005',
    engine=engine,
    if_exists='replace'
)

Registros filtrados para 2005: 523

Top 10 Clientes 2005:


Unnamed: 0_level_0,costo,ganancia,venta
customerName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Euro+ Shopping Channel,169989.97,120028.55,290018.52
Mini Gifts Distributors Ltd.,115084.72,77397.01,192481.73
La Rochelle Gifts,55527.04,35620.07,91147.11
The Sharp Gifts Warehouse,50843.02,33141.87,83984.89
"Down Under Souveniers, Inc",46389.52,28630.61,75020.13
"Anna's Decorations, Ltd",35414.9,21517.4,56932.3
Salzburg Collectables,33536.26,18883.81,52420.07
Gifts4AllAges.com,33221.25,17585.6,50806.85
Corporate Gift Ideas Co.,28561.31,18220.35,46781.66
"Oulu Toy Supplies, Inc.",27493.61,19276.91,46770.52


Tabla 'top_10_clientes_2005' guardada exitosamente en la base de datos.

Top 10 Productos 2005:


Unnamed: 0_level_0,costo,ganancia,venta
productName,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1992 Ferrari 360 Spider red,27031.3,25946.98,52978.28
2003 Harley-Davidson Eagle Drag Bike,19023.18,15832.94,34856.12
1952 Alpine Renault 1300,17152.92,16884.28,34037.2
1968 Ford Mustang,17161.2,14538.31,31699.51
1956 Porsche 356A Coupe,25066.5,6365.64,31432.14
2002 Suzuki XREO,15308.37,15125.72,30434.09
1969 Dodge Charger,15974.56,13592.71,29567.27
1997 BMW R 1100 S,16493.06,12254.63,28747.69
1917 Grand Touring Sedan,16386.3,11444.4,27830.7
1972 Alfa Romeo GTA,18678.24,8547.6,27225.84


Tabla 'top_10_productos_2005' guardada exitosamente en la base de datos.
