# Prueba - Manipulación y transformación de datos (Parte III)
🚀 Nombre: Alejandra Tobar

In [15]:
#Importando librería Pandas y Numpy
import pandas as pd
import numpy as np

In [16]:
#Instalando liberías para usar postgre
!pip install psycopg2-binary



In [17]:
#Instalando segunda libería para trabajar con postgre
!pip install sqlalchemy



In [7]:
#Importando librerías
import psycopg2
import sqlalchemy

In [None]:
from sqlalchemy import create_engine

url = 'postgresql://postgres:alita123...@localhost:5432/classicmodels'
engine = create_engine(url)

# Descripción

El área comercial de una empresa pide realizar un cierre de año de las ventas, tanto para revisar si las metas fueron cumplidas, como para poder planificar el siguiente año. Para ello, considerarán los datos del dataset classicmodels.sql para responder algunas preguntas, realizando las siguientes tareas.

1. Genera una función llamada leer_tabla(tabla, engine) y utilízala para leer tablas completas desde la base de datos en dataframes independientes. Utilizando esta función, importa las siguientes tablas:

ord | r
orderdeta | ls
custo | ers
pro| ucts
employees

In [None]:
# Función para leer tablas completas desde la base de datos en dataframes independientes
def leer_tabla(tabla, engine):
     """
    Lee una tabla completa desde la base de datos y la carga en un DataFrame.

    Parámetros:
    tabla (str): El nombre de la tabla a leer.
    engine (SQLAlchemy Engine): Una instancia del motor de base de datos de SQLAlchemy.

    Retorna:
    DataFrame: Un DataFrame de pandas que contiene todos los datos de la tabla especificada.
    """
    query = f"SELECT * FROM {tabla}"
    return pd.read_sql(query, engine)

# Utilizando la función para leer las tablas
df_order = leer_tabla('orders', engine)
df_orderdetails = leer_tabla('orderdetails', engine)
df_customers = leer_tabla('customers', engine)
df_products = leer_tabla('products', engine)
df_employees = leer_tabla('employees', engine)


2. Realiza el cruce entre los DataFrames, asegurándote de utilizar correctamente el parámetro validate para asegurar la integridad referencial.

In [None]:
# Uniendo tablas orders y customers con método merge
df_base = df_order.merge(df_customers, on = 'customerNumber', validate = 'many_to_one', how ='inner')

# Uniendo tabla resultante y orderdetails con método merge
df_base = df_base.merge(df_orderdetails, on = 'orderNumber', validate = 'many_to_many', how ='inner')

# Uniendo tabla resultante y orderdetails con método merge
df_base = df_base.merge(df_products, on = 'productCode', validate = 'many_to_one', how ='inner')

df_base.head()

No se considera el df_employees para el cruce con el resto debido a que no existe relación de esta con las demás.

3. Agrega las siguientes columnas, considerando su nombre y la fórmula asociada
*vena: *quantityOrdered*priceachh | *cot: *quantityOrdered*buyPicer |*ganacia:**considerando las columnas anterie*


In [None]:
# Agregando columna 'venta'
df_base['venta'] = df_base['quantityOrdered'] * df_base['priceEach'].round(2)

# Agregando columna 'costo'
df_base['costo'] = df_base['quantityOrdered'] * df_base['buyPrice'].round(2)

# Agregando columna 'ganancia'
df_base['ganancia'] = df_base['venta'] - df_base['costo'].round(2)

df_base.head()

In [None]:
Se redondean resultados a máximo 2 decimales.

4. ¿Cuál fue el total de ventas por línea de productos? Incluye una fila de totales.

In [None]:
# Calculando el total de ventas por línea de productos
ventas_por_linea_producto = df_base.groupby('productLine')['venta'].sum().reset_index()

# Calculando el total general de ventas
total_ventas = ventas_por_linea_producto['venta'].sum()

# Añadiendo la fila de totales al DataFrame
fila_totales = pd.DataFrame(data={'productLine': ['Total'], 'venta': [total_ventas]})
ventas_por_linea_producto = pd.concat([ventas_por_linea_producto, fila_totales], ignore_index=True)

ventas_por_linea_producto

5. ¿Cuántos clientes distintos hicieron compras?

In [None]:
numero_clientes_distintos = df_base['customerNumber'].nunique()
numero_clientes_distintos

Se selecciona la columna customerNumber del DataFrame df_base. Esta columna contiene los números de identificación de los clientes. Luego se)a Aplica el método nunique() a esta colum queue cuenta cuántos valores únicos hay en la columna customerNumberEs decir, , calcula el número de clientes distintos que hay en el DataFrame.

6. ¿Existen clientes que aún no han hecho ninguna compra? ¿Cuántos son?

In [None]:
# Listando de clientes que han hecho compras
clientes_con_compras = df_base['customerNumber'].unique()

# Listando de todos los clientes registrados
todos_los_clientes = df_customers['customerNumber'].unique()

# Determinando los clientes que aún no han hecho compras mediante diferencia
clientes_sin_compras = set(todos_los_clientes) - set(clientes_con_compras)

# Contando cuántos son
numero_clientes_sin_compras = len(clientes_sin_compras)
numero_clientes_sin_compras

7. Se solicita la creación de dos reportes, que respondan las preguntas:

7a. ¿Cuáles fueron los 10 clientes que reportan mayores ventas brutas en dinero durante el año 2005? Genera un DataFrame y guárdalo en una tabla de Postgre llamada: 
 top_10_clientes_20 5
en la que se especifique el nombre del cliente y su correspondiente venta, costo y gananc.



In [None]:
# Convertir 'orderDate' a datetime
df_base['orderDate'] = pd.to_datetime(df_base['orderDate'])

# Filtrando el DataFrame por el año 2005
df_2005 = df_base[df_base['orderDate'].dt.year == 2005]

# Creando una pivot table para clientes
pivot_table_clientes = df_2005.pivot_table( # DataFrame
    index=['customerNumber', 'customerName'],  #Columna del DataFrame original que queremos como fila/indice de la tabla resultante.
    values=['venta', 'costo', 'ganancia'], # valores a lo que le aplicaremos la aggfunc.
    aggfunc='sum', # función a aplicar a la columna de valores (suma en este caso).
    fill_value=0 # Valor para llenar los espacios vacíos en la tabla resultante.
)

# Ordenando por ventas y seleccionando los top 10 clientes
top_10_clientes_2005 = pivot_table_clientes.sort_values(by='venta', ascending=False).head(10).reset_index()

# Guardando el DataFrame en PostgreSQL
top_10_clientes_2005.to_sql('top_10_clientes_2005', engine, if_exists='replace', index=False)

7b. ¿Cuál fue el top 10 de artículos más vendidos durante el año 2005 (considerando cantidad neta)? Genera un DataFrame y guárdalo en una tabla de Postgre llamada:
top_10_productos_2005, en la que se especifique el nombre del producto y su correspondiente venta, costo y ganancia.

In [None]:
# Convertiendo 'orderDate' a datetime
df_base['orderDate'] = pd.to_datetime(df_base['orderDate'])

# Filtrando el DataFrame por el año 2005
df_2005 = df_base[df_base['orderDate'].dt.year == 2005]

# Creando una pivot table para generar el dataframe requerido
pivot_table_productos = df_2005.pivot_table(
    index=['productCode', 'productName'],
    values=['quantityOrdered', 'venta', 'costo', 'ganancia'],
    aggfunc='sum',
    fill_value=0
)

# Ordenando por venta para obtener artículos más vendidos considerando cantidad neta
top_10_productos_2005 = pivot_table_productos.sort_values(by='venta', ascending=False).head(10).reset_index()

# Guardando el DataFrame en PostgreSQL
top_10_productos_2005.to_sql('top_10_productos_2005', engine, if_exists='replace', index=False)

Para este punto debes aplicar el principio DRY, por lo que se deben utilizar funciones para realizar el filtrado por fechas, generar tablas pivote y escribir tabla en Postgre. Las funciones deben estar en un archivo separado llamado funciones.py y ser importadas al Jupyter Notebook. En este archivo se debe incluir:

7c. Una función que permita filtrar un DataFrame por fechas, indicando dataframe, columna para filtrar, fecha inicio y fecha fin. La función debe retornar un DataFrame.

In [None]:
#Importando Funcion
from funciones import filtrar_por_fechas

# Ejemplo ejecucipon: filtrando df_base por un rango de fechas
df_filtrado = filtrar_por_fechas(df_base, 'orderDate', '2005-01-01', '2005-12-31')

7d. Una función que permita generar reportes dependiendo de parámetros de entrada como dataframe, filas, columnas, valores y medida (funcion_agrupadora). Utilizar fill_value = 0. Esta función debe retornar un DataFrame pivotado.

In [None]:
#Importando Funcion
from funciones import generar_reporte_pivot

# Ejemplo ejecución: creando un reporte pivot sumando ventas, costos y ganancias por cliente y producto
pivotado = generar_reporte_pivot(df_base, ['customerName'], ['productName'], ['venta', 'costo', 'ganancia'], 'sum')

7e. Una función que permita escribir en la base de datos a través del guardado de un DataFrame dependiendo de parámetros de entrada como DataFrame, nombre de la tabla, engine y comportamiento en caso de que exista la tabla (if_exists).

In [None]:
#Importando Funcion
from funciones import guardar_en_postgresql

# Ejemplo ejecución: usando la función para guardar el DataFrame en una tabla de PostgreSQL
guardar_en_postgresql(df_base, 'customers', engine, 'replace')