# Prueba: Python para el análisis de datos
## Vicente Soto Valladares — Desafío Latam


In [2]:
# Conectando Phyton a PostgreSQL

import pandas as pd
from sqlalchemy import create_engine

engine = create_engine("postgresql+psycopg2://postgres:vicho2003@localhost:5432/classicmodels")


## 1. Lectura de Tablas desde PostgreSQL
Se define una función para leer tablas y se cargan las necesarias desde la base de datos.


In [3]:
def leer_tabla(nombre_tabla, engine):
    return pd.read_sql_table(nombre_tabla, con=engine)

df_orders = leer_tabla("orders", engine)
df_orderdetails = leer_tabla("orderdetails", engine)
df_customers = leer_tabla("customers", engine)
df_products = leer_tabla("products", engine)
df_employees = leer_tabla("employees", engine)



Clientes distintos que hicieron compras: 98


## 2. Cruce entre DataFrames
Se realiza el cruce progresivo validando integridad referencial con `validate`.


In [13]:
df1 = pd.merge(df_orders, df_orderdetails, on="orderNumber", how="inner", validate="one_to_many")
df2 = pd.merge(df1, df_customers, on="customerNumber", how="inner", validate="many_to_one")
df3 = pd.merge(df2, df_products, on="productCode", how="inner", validate="many_to_one")
df_base = pd.merge(df3, df_employees, left_on="salesRepEmployeeNumber", right_on="employeeNumber", how="inner", validate="many_to_one")


## 3. Cálculo de columnas: venta, costo y ganancia
Se agregan columnas para obtener los KPIs económicos básicos.


In [12]:
df_base["venta"] = df_base["quantityOrdered"] * df_base["priceEach"]
df_base["costo"] = df_base["quantityOrdered"] * df_base["buyPrice"]
df_base["ganancia"] = df_base["venta"] - df_base["costo"]


## 4. Total de ventas por línea de producto
Se agrupan las ventas por línea de producto y se agrega una fila TOTAL.


In [11]:
ventas_por_linea = df_base.groupby("productLine")["venta"].sum().reset_index()
fila_total = pd.DataFrame([["TOTAL", ventas_por_linea["venta"].sum()]], columns=ventas_por_linea.columns)
ventas_por_linea = pd.concat([ventas_por_linea, fila_total], ignore_index=True)
ventas_por_linea


Unnamed: 0,productLine,venta
0,Classic Cars,3853922.49
1,Motorcycles,1121426.12
2,Planes,954637.54
3,Ships,663998.34
4,Trains,188532.92
5,Trucks and Buses,1024113.57
6,Vintage Cars,1797559.63
7,TOTAL,9604190.61


## 5. Análisis de clientes
Se identifican los clientes que hicieron compras y los que no.


In [10]:
clientes_con_compras = df_base["customerNumber"].nunique()
total_clientes = df_customers["customerNumber"].nunique()
clientes_sin_compras = total_clientes - clientes_con_compras

print("Clientes con compras:", clientes_con_compras)
print("Clientes sin compras:", clientes_sin_compras)


Clientes con compras: 98
Clientes sin compras: 24


## 6. Funciones reutilizables (DRY)
Las siguientes funciones están definidas en el archivo `funciones.py`, ubicado en la misma carpeta del notebook.


## 7. Reportes top 10 del año 2005
Se generan y exportan a PostgreSQL los reportes de:
- Top 10 clientes con mayores ventas brutas
- Top 10 productos más vendidos


In [9]:
from funciones import filtrar_por_fecha, generar_pivote, escribir_postgres

df_2005 = filtrar_por_fecha(df_base, "orderDate", "2005-01-01", "2005-12-31")


In [8]:
top_10_clientes_2005 = (
    df_2005
    .groupby("customerName")[["venta", "costo", "ganancia"]]
    .sum()
    .sort_values("venta", ascending=False)
    .head(10)
    .reset_index()
)

escribir_postgres(top_10_clientes_2005, "top_10_clientes_2005", engine)
top_10_clientes_2005

Unnamed: 0,customerName,venta,costo,ganancia
0,Euro+ Shopping Channel,290018.52,169989.97,120028.55
1,Mini Gifts Distributors Ltd.,192481.73,115084.72,77397.01
2,La Rochelle Gifts,91147.11,55527.04,35620.07
3,The Sharp Gifts Warehouse,83984.89,50843.02,33141.87
4,"Down Under Souveniers, Inc",75020.13,46389.52,28630.61
5,"Anna's Decorations, Ltd",56932.3,35414.9,21517.4
6,Salzburg Collectables,52420.07,33536.26,18883.81
7,Gifts4AllAges.com,50806.85,33221.25,17585.6
8,Corporate Gift Ideas Co.,46781.66,28561.31,18220.35
9,"Oulu Toy Supplies, Inc.",46770.52,27493.61,19276.91


In [7]:
top_10_productos_2005 = (
    df_2005
    .groupby("productName")[["venta", "costo", "ganancia"]]
    .sum()
    .sort_values("venta", ascending=False)
    .head(10)
    .reset_index()
)

escribir_postgres(top_10_productos_2005, "top_10_productos_2005", engine)
top_10_productos_2005


Unnamed: 0,productName,venta,costo,ganancia
0,1992 Ferrari 360 Spider red,52978.28,27031.3,25946.98
1,2003 Harley-Davidson Eagle Drag Bike,34856.12,19023.18,15832.94
2,1952 Alpine Renault 1300,34037.2,17152.92,16884.28
3,1968 Ford Mustang,31699.51,17161.2,14538.31
4,1956 Porsche 356A Coupe,31432.14,25066.5,6365.64
5,2002 Suzuki XREO,30434.09,15308.37,15125.72
6,1969 Dodge Charger,29567.27,15974.56,13592.71
7,1997 BMW R 1100 S,28747.69,16493.06,12254.63
8,1917 Grand Touring Sedan,27830.7,16386.3,11444.4
9,1972 Alfa Romeo GTA,27225.84,18678.24,8547.6


Clientes sin compras: 24
