In [1]:
import pandas as pd
import numpy as np

In [2]:
!pip install psycopg2-binary



In [3]:
import psycopg2
import sqlalchemy

In [4]:
from sqlalchemy import create_engine
url = "postgresql://postgres:Angie@localhost:5432/classicmodels"
engine = create_engine(url)

In [5]:
#1. Genera una función llamada leer_tabla(tabla, engine) y utilízala para leer tablas
#completas desde la base de datos en dataframes independientes. Utilizando esta
#función, importa las siguientes tablas:order, orderdetails, customers, products y employees.

def leer_tabla(tabla, engine):
    return pd.read_sql(tabla, engine)

orders_df = leer_tabla("orders", engine)
orderdetails_df = leer_tabla("orderdetails", engine)
customers_df = leer_tabla("customers", engine)
products_df = leer_tabla("products", engine)
employees_df = leer_tabla("employees", engine)

In [6]:
#2. Realiza el cruce entre los DataFrames, asegurándote de utilizar correctamente el
#parámetro validate para asegurar la integridad referencial.

merged_df = pd.merge(orders_df, orderdetails_df, on = "orderNumber", validate = "one_to_many")
merged_df = pd.merge(merged_df, customers_df, on = "customerNumber", validate = "many_to_one")
merged_df = pd.merge(merged_df, products_df, on = "productCode", validate = "many_to_one")
merged_df = pd.merge(merged_df, employees_df, left_on = "salesRepEmployeeNumber", right_on = "employeeNumber", validate = "many_to_one")

In [7]:
#3. Agrega las siguientes columnas, considerando su nombre y la fórmula asociada: venta, costo y ganancia.

merged_df["venta"] = merged_df["quantityOrdered"] * merged_df["priceEach"]
merged_df["costo"] = merged_df["quantityOrdered"] * merged_df["buyPrice"]
merged_df["ganancia"] = merged_df["venta"] - merged_df["costo"]

#print(merged_df)

In [8]:
#4. ¿Cuál fue el total de ventas por línea de productos? Incluye una fila de totales.

#Calcular el total de ventas por línea de productos:
ventas_producto = merged_df.groupby("productLine")["venta"].sum().reset_index()

#Incluir una fila de totales:
total_ventas = pd.DataFrame({"productLine": ["Total"], "venta": [ventas_producto["venta"].sum()]})
ventas_producto = pd.concat([ventas_producto, total_ventas])

print("\nTabla Total de Ventas por Línea de Productos\n")
print(ventas_producto)


Tabla Total de Ventas por Línea de Productos

        productLine       venta
0      Classic Cars  3853922.49
1       Motorcycles  1121426.12
2            Planes   954637.54
3             Ships   663998.34
4            Trains   188532.92
5  Trucks and Buses  1024113.57
6      Vintage Cars  1797559.63
0             Total  9604190.61


In [9]:
#5. ¿Cuántos clientes distintos hicieron compras?

clientes_distintos = merged_df["customerNumber"].nunique()

print("Número de clientes distintos que realizaron compras:", clientes_distintos)

Número de clientes distintos que realizaron compras: 98


In [10]:
#6. ¿Existen clientes que aún no han hecho ninguna compra? ¿Cuántos son?:

clientes_sin_compra = customers_df[~customers_df["customerNumber"].isin(merged_df["customerNumber"])]

#Contar clientes sin compras:
numero_clientes_sin_compra = len(clientes_sin_compra)

print("Existen clientes que aún no han hecho ninguna compra. Estos son:", numero_clientes_sin_compra)

Existen clientes que aún no han hecho ninguna compra. Estos son: 24


In [12]:
#7. Se solicita la creación de dos reportes, que respondan las preguntas dadas.

#Importar las funciones definidas en el archivo funciones.py:
from funciones import filtrar_por_fechas, generar_reporte, escribir_en_db

#7.1. ¿Cuáles fueron los 10 clientes que reportan mayores ventas brutas en dinero durante el año 2005?
#Genera un DataFrame y guárdalo en una tabla de Postgre llamada top_10_clientes_2005, en la que se
#especifique el nombre del cliente y su correspondiente venta, costo y ganancia.

#Filtrar por fecha y obtener el dataframe filtrado:
merged_df_2005 = filtrar_por_fechas(merged_df, "orderDate", "2005-01-01", "2005-12-31")

#Generar reporte:
reporte_clientes_2005 = generar_reporte(merged_df_2005, "customerName", None, ["venta", "costo", "ganancia"], "sum")

#Obtener 10 clientes con mayores ventas:
top_10_clientes_2005 = reporte_clientes_2005.sort_values(by = "venta", ascending = False).head(10)

#Reorganizar columnas:
top_10_clientes_2005 = top_10_clientes_2005[["venta", "costo", "ganancia"]]

#Escribir en base de datos:
escribir_en_db(top_10_clientes_2005, "top_10_clientes_2005", engine, "replace")

print("\nTabla Top 10 Clientes 2005\n")
print(top_10_clientes_2005)


Tabla Top 10 Clientes 2005

                                  venta      costo   ganancia
customerName                                                 
Euro+ Shopping Channel        290018.52  169989.97  120028.55
Mini Gifts Distributors Ltd.  192481.73  115084.72   77397.01
La Rochelle Gifts              91147.11   55527.04   35620.07
The Sharp Gifts Warehouse      83984.89   50843.02   33141.87
Down Under Souveniers, Inc     75020.13   46389.52   28630.61
Anna's Decorations, Ltd        56932.30   35414.90   21517.40
Salzburg Collectables          52420.07   33536.26   18883.81
Gifts4AllAges.com              50806.85   33221.25   17585.60
Corporate Gift Ideas Co.       46781.66   28561.31   18220.35
Oulu Toy Supplies, Inc.        46770.52   27493.61   19276.91


In [13]:
#7.2. ¿Cuál fue el top 10 de artículos más vendidos durante el año 2005 (considerando cantidad neta)?
#Genera un DataFrame y guárdalo en una tabla de Postgre llamada top_10_productos_2005, en la que se 
#especifique el nombre del producto y su correspondiente venta, costo y ganancia.

#Filtrar por fecha:
merged_df_2005 = filtrar_por_fechas(merged_df, "orderDate", "2005-01-01", "2005-12-31")

#Generar reporte:
reporte_productos_2005 = generar_reporte(merged_df_2005, "productName", None, ["venta", "costo", "ganancia"], "sum")

#Obtener 10 artículos más vendidos:
top_10_productos_2005 = reporte_productos_2005.sort_values(by = "venta", ascending = False).head(10)

#Reorganizar columnas:
top_10_productos_2005 = top_10_productos_2005[["venta", "costo", "ganancia"]]

#Escribir en base de datos:
escribir_en_db(top_10_productos_2005, "top_10_productos_2005", engine, "replace")

print("\nTabla Top 10 Productos 2005\n")
print(top_10_productos_2005)


Tabla Top 10 Productos 2005

                                         venta     costo  ganancia
productName                                                       
1992 Ferrari 360 Spider red           52978.28  27031.30  25946.98
2003 Harley-Davidson Eagle Drag Bike  34856.12  19023.18  15832.94
1952 Alpine Renault 1300              34037.20  17152.92  16884.28
1968 Ford Mustang                     31699.51  17161.20  14538.31
1956 Porsche 356A Coupe               31432.14  25066.50   6365.64
2002 Suzuki XREO                      30434.09  15308.37  15125.72
1969 Dodge Charger                    29567.27  15974.56  13592.71
1997 BMW R 1100 S                     28747.69  16493.06  12254.63
1917 Grand Touring Sedan              27830.70  16386.30  11444.40
1972 Alfa Romeo GTA                   27225.84  18678.24   8547.60
