# Prueba Python: Carlos Rubio

Para esta evaluación utilizaremos una base de datos SQL para analizar datos y realizar lo solicitado. Previamente hemos creado una base de datos con el siguiente comando

<h5><center>psql-h localhost-p 5432-U postgres-c "CREATE DATABASE classicmodels;"</center></h5>

Y hemos importado el archivo **classicmodels.sql** a la base de datos con el comando

<h5><center>psql-h localhost-p 5432-U postgres-c "CREATE DATABASE classicmodels;"</center></h5>

Con esto, procederemos a trabajar en la prueba


In [1]:
#Importamos las librerías a utilizar
import pandas as pd
import psycopg2
import sqlalchemy

In [2]:
#Definimos la dirección de nuestra base de datos, en XXXXXXXX va la clave de postgresql
db_url = "postgresql://postgres:Eyav=5va@localhost:5432/classicmodels"

In [3]:
#Creamos el motor de la base de datos
from sqlalchemy import create_engine
engine = create_engine(db_url)

In [4]:
#Creamos la función leer_tabla para leer las bases de datos completas
def leer_tabla(tabla,engine):
    query = f"SELECT * FROM {tabla}"

    # Ejecución de la consulta y carga de resultados en un DataFrame
    df = pd.read_sql(query, engine)
    return df

In [5]:
#Creamos los DataFrames de las distintas tablas
orders=leer_tabla('Orders',engine)
orderdetails=leer_tabla('Orderdetails',engine)
customers=leer_tabla('Customers',engine)
products=leer_tabla('Products',engine)
employees=leer_tabla('Employees',engine)

In [6]:
#Cruzamos todos los data frames 
df_base = pd.merge(orders,orderdetails, on ='orderNumber',how='outer',validate='m:m')
df_base = pd.merge(df_base,customers,on = 'customerNumber',how='outer',validate='m:m')
df_base = pd.merge(df_base,products,on = 'productCode',how='outer',validate='m:m')
df_base = pd.merge(df_base,employees,left_on='salesRepEmployeeNumber',right_on='employeeNumber',how='outer',validate='m:m')

In [7]:
#Creamos las columnas 'venta', 'costo' y 'ganancia'
df_base['venta']=df_base['quantityOrdered']*df_base['priceEach']
df_base['costo']=df_base['quantityOrdered']*df_base['buyPrice']
df_base['ganancia']=df_base['venta']-df_base['costo']

In [8]:
#Creamos una tabla pivote con las ventas por línea de producto
ventas_por_linea_de_producto = pd.pivot_table(df_base,index='productCode',values='venta',aggfunc='sum',fill_value=0,margins=True)
ventas_por_linea_de_producto = ventas_por_linea_de_producto.rename(columns={'venta':'ventas totales'})
ventas_por_linea_de_producto

Unnamed: 0_level_0,ventas totales
productCode,Unnamed: 1_level_1
S10_1678,90157.77
S10_1949,190017.96
S10_2016,109998.82
S10_4698,170686.00
S10_4757,127924.32
...,...
S700_3962,78919.06
S700_4002,71753.93
S72_1253,42692.53
S72_3212,47550.40


In [9]:
#Calculamos cuantos clientes distintos han realizad al menos una compra
clientes_con_compras = df_base.dropna(subset=['orderNumber'])['customerNumber'].unique()
num_clientes_con_compras = len(clientes_con_compras)

print(f'Clientes que han realizado una compra: {num_clientes_con_compras}')

Clientes que han realizado una compra: 98


In [25]:
todos_los_clientes = df_base['customerNumber'].dropna().unique()

# Calcular los clientes que no han realizado una compra
clientes_sin_compras = set(todos_los_clientes) - set(clientes_con_compras)
num_clientes_sin_compras = len(clientes_sin_compras)

print(f'Clientes que no han realizado una compra: {num_clientes_sin_compras}')

Clientes que no han realizado una compra: 24


In [14]:
#Importamos nuestras funciones desde el archivo funciones.py
from funciones import filtrar_por_fechas
from funciones import generar_reporte
from funciones import guardar_en_bd

In [15]:
#Filtramos el DataFrame por el año 2005
df_filtrado=filtrar_por_fechas(df_base,'orderDate','2005-01-01','2005-12-31')

In [42]:
#Creamos el reporte con los 10 clientes con mayores ventas brutas el 2005
reporte1= generar_reporte(df_filtrado,'customerNumber',[],['venta','costo','ganancia'],'sum').sort_values(by ='venta',ascending=False).head(10)
reporte1

Unnamed: 0_level_0,costo,ganancia,venta
customerNumber,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
141.0,169989.97,120028.55,290018.52
124.0,115084.72,77397.01,192481.73
119.0,55527.04,35620.07,91147.11
450.0,50843.02,33141.87,83984.89
323.0,46389.52,28630.61,75020.13
276.0,35414.9,21517.4,56932.3
382.0,33536.26,18883.81,52420.07
362.0,33221.25,17585.6,50806.85
321.0,28561.31,18220.35,46781.66
311.0,27493.61,19276.91,46770.52


In [50]:
#Guardamos el reporte en una tabla Postgre
guardar_en_bd(reporte1,'top_10_clientes_2005',engine,if_exists='replace')

In [69]:
#Creamos otro reporte con los 10 artículos más vendidos el 2005
reporte2= generar_reporte(df_filtrado,['productName','quantityOrdered'],[],['venta','costo','ganancia'],'sum').sort_values(by ='quantityOrdered',ascending=False).head(10)
reporte2

Unnamed: 0_level_0,Unnamed: 1_level_0,costo,ganancia,venta
productName,quantityOrdered,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1969 Dodge Charger,97.0,5696.81,5473.71,11170.52
1969 Dodge Super Bee,90.0,4414.5,1664.1,6078.6
America West Airlines B757-200,85.0,5848.0,2543.2,8391.2
1970 Plymouth Hemi Cuda,77.0,2457.84,2703.47,5161.31
F/A 18 Hornet 1/72,77.0,4188.8,1478.4,5667.2
1917 Grand Touring Sedan,76.0,6589.2,4134.4,10723.6
1956 Porsche 356A Coupe,76.0,7470.8,2241.24,9712.04
1949 Jaguar XK 120,76.0,3591.0,2624.28,6215.28
1962 Volkswagen Microbus,70.0,4293.8,3399.2,7693.0
1956 Porsche 356A Coupe,70.0,6881.0,982.8,7863.8


In [70]:
#Guardamos el reporte en una tabla Postgre
guardar_en_bd(reporte2,'top_10_productos_2005',engine,if_exists='replace')