In [None]:
import pandas as pd
import psycopg2
import sqlalchemy
from sqlalchemy import create_engine
from funciones import filtrar_por_fechas, generar_reporte, escribir_df_a_sql

In [None]:
#Función para leer tablas
def leer_tabla(tabla, engine):
    query = f"SELECT * FROM {tabla};"
    return pd.read_sql(query, engine)

# string de conexión a la bd
engine = create_engine('postgresql+psycopg2://postgres:1234@localhost:5432/classicmodels')

# 1. Utilizar la función para leer las tablas especificadas en el dataframes
orders_df = leer_tabla('orders', engine)
orderdetails_df = leer_tabla('orderdetails', engine)
customers_df = leer_tabla('customers', engine)
products_df = leer_tabla('products', engine)
employees_df = leer_tabla('employees', engine)



In [None]:
# Imprimir las primeras filas de cada dataframe para validar
print(orders_df.head())
print(orderdetails_df.head())
print(customers_df.head())
print(products_df.head())
print(employees_df.head())

In [None]:
# 2. Realizar cruces entre DataFrames asegurando integridad referencial
# Validar si las llaves de combinación de las tablas son unicas
print("Verificando unicidad de claves de combinación...")
print("orders unique orderNumber:", orders_df['orderNumber'].is_unique)
print("orderdetails unique orderNumber:", orderdetails_df['orderNumber'].is_unique)
print("customers unique customerNumber:", customers_df['customerNumber'].is_unique)
print("products unique productCode:", products_df['productCode'].is_unique)
print("employees unique employeeNumber:", employees_df['employeeNumber'].is_unique)

In [None]:
# Realizar el cruce de los DataFrames
orders_details_df = pd.merge(orders_df, orderdetails_df, on='orderNumber')
orders_details_customers_df = pd.merge(orders_details_df, customers_df, on='customerNumber')
orders_details_customers_products_df = pd.merge(orders_details_customers_df, products_df, on='productCode')
final_df = pd.merge(orders_details_customers_products_df, employees_df, left_on='salesRepEmployeeNumber', right_on='employeeNumber')

# Imprimir las primeras filas del DataFrame para validar
print(final_df.head())


In [None]:
# 3. Agregar columnas adicionales
final_df['venta'] = final_df['quantityOrdered'] * final_df['priceEach']
final_df['costo'] = final_df['quantityOrdered'] * final_df['buyPrice']
final_df['ganancia'] = final_df['venta'] - final_df['costo']

# Mostrar las primeras filas del DataFrame final para verificar
print(final_df)

In [None]:
# 4. Calcular el total de ventas por línea de productos
ventas_por_linea = final_df.groupby('productLine')['venta'].sum().reset_index()

# Agregar una fila de totales
total_ventas = ventas_por_linea['venta'].sum()
ventas_por_linea.loc['Total'] = ['Total', total_ventas]

# Imprimir el DataFrame con el total de ventas por línea de productos
print(ventas_por_linea)

In [None]:
# 5. Contar cuántos clientes distintos hicieron compras
clientes_distintos = final_df['customerNumber'].nunique()

# Imprimir el número de clientes unicos
print(f"Cantidad de clientes unicos que hicieron compras: {clientes_distintos}")

In [None]:
# 6. clientes que no han hecho ninguna compra
clientes_con_compras = final_df['customerNumber'].unique()
clientes_sin_compras = customers_df[~customers_df['customerNumber'].isin(clientes_con_compras)]

# Contar cuántos clientes son
num_clientes_sin_compras = clientes_sin_compras['customerNumber'].nunique()

# Imprimir el número de clientes sin compras
print(f"Cantidad de clientes que no han hecho ninguna compra: {num_clientes_sin_compras}")

In [None]:
# Filtrar datos del año 2005
df_2005 = filtrar_por_fechas(final_df, 'orderDate', '2005-01-01', '2005-12-31')

# Reporte para los 10 clientes con mayores ventas brutas en 2005
top_10_clientes_2005 = generar_reporte(
    dataframe=df_2005,
    filas='customerName',
    columnas=None,
    valores=['venta', 'costo', 'ganancia'],
    funcion_agrupadora='sum'
).nlargest(10, 'venta')

# Guardar el resultado en PostgreSQL
escribir_df_a_sql(top_10_clientes_2005, 'top_10_clientes_2005', engine, if_exists='replace')

# Reporte para los 10 productos más vendidos en 2005
top_10_productos_2005 = generar_reporte(
    dataframe=df_2005,
    filas='productName',
    columnas=None,
    valores=['venta', 'costo', 'ganancia'],
    funcion_agrupadora='sum'
).nlargest(10, 'venta')

# Guardar el resultado en PostgreSQL
escribir_df_a_sql(top_10_productos_2005, 'top_10_productos_2005', engine, if_exists='replace')

In [None]:
#Imprimir reporte top 10 clientes con mayores ventas desde la bd
clientes_df = leer_tabla('top_10_clientes_2005', engine)
print(clientes_df)

In [None]:
#Imprimir reporte top 10 productos con mayores ventas desde la bd 
productos_df = leer_tabla('top_10_productos_2005', engine)
print(productos_df)