# **<font color = "White">✨Análisis y optimización de inventarios, compras y ventas: Un proyecto integral de análisis de datos✨</font>**

**Resumen del proyecto**

Este proyecto tiene como objetivo mejorar las prácticas de gestión de inventario de, una empresa minorista de vinos y licores que opera en múltiples ubicaciones. Bodega Inteligente, gestiona ventas y costos de bienes vendidos que alcanzan cientos de millones, lo que hace que las hojas de cálculo tradicionales sean insuficientes. El vasto volumen de datos, que incluye millones de registros de ventas, compras e inventario, requiere un enfoque sofisticado para un análisis efectivo. El objetivo de este proyecto es aprovechar el análisis de datos extensivo para optimizar el control de inventario y extraer información valiosa de las operaciones de la empresa, particularmente en ventas y compras. Las tareas del proyecto se dividen en dos objetivos principales:

- Analizar el proceso de gestión de inventario y proporcionar recomendaciones para su optimización.
- Extraer información empresarial significativa de los datos y proporcionar recomendaciones prácticas.

Resumen de las tareas del proyecto:

**`Parte I: Análisis Exploratorio de Datos, Limpieza y Preprocesamiento`**
La empresa proporcionó seis conjuntos de datos de operaciones comerciales para el año que finaliza en 2016. El conjunto de datos incluye:

- 2017PurchasePricesDec
- Beginning inventory for 2016
- Ending inventory for 2016
- Purchase invoices for 2016
- Purchase Price
- Sales data

Dado el volumen de datos, puede haber instancias donde los datos estén desordenados e inconsistentes. Es necesario explorarlos, limpiarlos, evaluarlos, y identificar las tendencias clave e inconsistencias. Esta es la parte dende entramos en acción:

- `Explorar los datos`: Cargar los datos y obtener una visión general. Identificar cualquier irregularidad.
- `Limpiar y preprocesar los datos`
  - `Identificar y manejar valores faltantes y duplicados`
  - `Estandarizar o eliminar inconsistencias y entradas erróneas`
  - `Identificar valores atípicos o datos anómalos`
  - `Fusionar tablas relacionadas para facilitar el manejo y procesamiento`

`Parte II y Parte III ---> Análisis de Datos Exploratorio y Visualización`

**`Parte II: Análisis y Optimización de Inventario`**

- Realizar un Análisis de Control de Inventario basado en parámetros como Tiempo de Entrega (LT), Stock de Seguridad, Punto de Reorden y Análisis ABC.
- Extraer información empresarial significativa relacionada con el inventario respondiendo las siguientes preguntas:

  1.  ¿Qué productos tienen altos recuentos de inventario al final del período de inventario y caen en la Clase A en el análisis de inventario ABC?
  2.  ¿Qué productos tienen bajos recuentos de inventario al final del período de inventario, registraron ventas en el año anterior y caen en la Clase C en el análisis de inventario ABC?
  3.  Identificar productos con grandes inventarios pero bajas ventas anuales, y a la inversa, utilizar la relación de ventas anuales a inventario final para este análisis.
  4.  ¿Los productos con mayores stocks de seguridad registran mayores volúmenes de ventas, y a qué categoría pertenecen en el Análisis ABC?
  5.  Listar los 10 productos principales que requieren reordenamiento inmediato junto con sus cantidades de reorden.
  6.  Determinar la contribución de cada categoría al ingreso total basado en el análisis de inventario ABC.
  7.  Identificar los 10 productos principales de cada categoría que más contribuyen al ingreso total anual.
  8.  Identificar los 10 productos principales de cada categoría que menos contribuyen al ingreso total anual.

**`Parte III: Extracción de Información Significativa para Compras y Ventas`**

Extraer información empresarial significativa relacionada con compras y ventas respondiendo las siguientes preguntas:

1.  ¿Quiénes son los proveedores importantes? Evaluar con base en las cantidades de artículos suministrados, valores de los artículos y su contribución al ingreso total de la empresa.
2.  ¿Quiénes son los proveedores menos importantes? Evaluar con base en las cantidades de artículos suministrados, valores de los artículos y su contribución al ingreso total de la empresa.
3.  ¿Cuál es el período promedio de ejecución de pagos para cada proveedor y cómo se correlaciona con la cantidad o el valor de las compras?
4.  ¿Qué productos se venden más en términos de cantidad y monto de ventas en dólares, y, por el contrario, cuáles se venden menos?
5.  ¿Cómo se compara el rendimiento de ventas de diferentes tiendas y cuáles son las 10 tiendas principales con mayor rendimiento en ventas?
6.  ¿Qué tamaño de producto se vende más?
7.  ¿Podemos proyectar e identificar las tendencias de ventas a lo largo del año?

**Conclusión:**  
Las ideas derivadas de estos análisis proporcionarán recomendaciones para gestionar el inventario y otras operaciones comerciales de manera más eficiente y sostenible.

# **<font color = "white">Part I:  Exploración y limpieza de datos</font>**

## `1.1 Importación de bibliotecas y frameworks`


In [None]:
# Este código importa varias bibliotecas necesarias para análisis de datos, desactiva las advertencias para
# mantenerla salida limpia y muestra la versión de pandas que se está utilizando.
import numpy as np
import pandas as pd
import re
import random
import warnings
warnings.filterwarnings("ignore") # Turn off warnings 
print('Pandas version i am using:', pd.__version__)

In [6]:
import matplotlib.pyplot as plt
import seaborn as sns
import matplotlib_inline.backend_inline
from matplotlib.dates import DateFormatter
import pandas as pd

# Configuración del formato de salida
matplotlib_inline.backend_inline.set_matplotlib_formats("svg")

# Definición y aplicación de estilos de gráficos
def set_default_style():
    plt.style.use(['ggplot'])
    plt.rc('axes', edgecolor='w', titlesize=12, titleweight='bold', labelsize=11, labelcolor='tab:blue', 
           labelweight='bold', grid=False)
    plt.rc('text', color='tomato')
    plt.rc('xtick', labelsize=10, color='tab:blue')
    plt.rc('ytick', labelsize=10, color='tab:blue') 
    plt.rc('figure', figsize=(10, 4), dpi=150)

set_default_style()

# Configuración de opciones de visualización de Pandas
pd.set_option('display.max_columns', 100)
pd.set_option('display.width', 200)


## `1.2 Cargar/importar los conjuntos de datos`

In [None]:
import os

# Identificar el directorio de conjuntos de datos
ruta_directorio = 'D:\\Documentos\\Gestion_Inventario\\ArchivosCVSOriginales'
for dirname, _, filenames in os.walk(ruta_directorio):
    for filename in filenames:
        print(os.path.join(dirname, filename))


In [8]:
# Utiliza el método pd.read_csv() de la librería Pandas para leer archivos CSV desde rutas específicas en el sistema local.
beginning_inventory = pd.read_csv('D:\\Documentos\\Gestion_Inventario\\ArchivosCVSOriginales\\BegInvFINAL12312016.csv')
ending_inventory = pd.read_csv('D:\\Documentos\\Gestion_Inventario\\ArchivosCVSOriginales\\EndInvFINAL12312016.csv')
purchases = pd.read_csv('D:\\Documentos\\Gestion_Inventario\\ArchivosCVSOriginales\\PurchasesFINAL12312016.csv')
purchase_prices = pd.read_csv('D:\\Documentos\\Gestion_Inventario\\ArchivosCVSOriginales\\2017PurchasePricesDec.csv')
purchase_invoices = pd.read_csv('D:\\Documentos\\Gestion_Inventario\\ArchivosCVSOriginales\\InvoicePurchases12312016.csv')
sales = pd.read_csv('D:\\Documentos\\Gestion_Inventario\\ArchivosCVSOriginales\\SalesFINAL12312016.csv')

## `1.3 Análisis exploratorio de datos`

Aquí realizamos un Análisis Exploratorio de Datos para todos nuestros conjuntos de datos. Desarrollamos una visión general que incluye detalles clave sobre los conjuntos de datos, tipos de datos, estructura y estadísticas resumidas. Esta vista integral ayudará a identificar errores, inconsistencias o patrones, facilitando la posterior limpieza y preprocesamiento de los datos.

In [None]:
# Función para explorar las características del dataset
def explore_dataset(dataframe):
    summary = []
    for column in dataframe.columns:
        data_type = dataframe[column].dtype
        total_count = len(dataframe[column])
        unique_count = dataframe[column].nunique()
        unique_sample = dataframe[column].unique()[0:10]
        missing_values = dataframe[column].isnull().sum()
        summary.append({'Column': column, 'Data Type': data_type, 'Total Count': total_count,
                        'Unique Count': unique_count, 'Unique Sample': unique_sample, 
                        'Missing Values': missing_values})
    return pd.DataFrame(summary)

# Lista de conjuntos de datos y sus nombres
datasets = [("Beginning Inventory", beginning_inventory),
            ("Ending Inventory", ending_inventory),
            ("Purchase", purchases),
            ("Purchase Invoices", purchase_invoices),
            ("Purchase Price", purchase_prices),
            ("Sales", sales)]

# Explorar cada conjunto de datos y mostrar los detalles clave
for index, (dataset_name, dataset) in enumerate(datasets, start=1):
    print(f"{index}. Explorar detalles clave de {dataset_name} dataset:")
    print(explore_dataset(dataset))
    print("\n")


La exploración de datos ayuda a identificar irregularidades que necesitan limpieza y preprocesamiento:

- El InventoryId en beginning_inventory y ending_inventory tiene recuentos únicos iguales a los recuentos totales. Esto sugiere que podrían servir como claves primarias y foráneas para unir las dos tablas. A pesar de tener atributos idénticos (excepto por las columnas de inventario), los ID pueden no coincidir. Otros conjuntos de datos carecen de una clave primaria específica, ya que el recuento total difiere del número de recuentos únicos. Por lo tanto, es necesario tener precaución al unir las tablas.
- Algunas tablas contienen `valores faltantes` que necesitan ser identificados y manejados adecuadamente.
- Las columnas de tamaño en todas las tablas muestran `inconsistencias` debido a diferentes unidades de medida. Ejemplos incluyen 750mL, Litro, 750mL + 2/,2 Pk, 50mL 4 Pk, 750mL 3 Pk. Estas necesitan ser convertidas a una única unidad de medida consistente.
- `Size` and `Volume` estas columnas contienen datos duplicados y una de ellas puede ser eliminada..
- El `formato de fecha` difiere entre las tablas. Por ejemplo, la tabla de ventas usa d/m/yyyy, mientras que otras usan yyyy/mm/dd.
- Algunas columnas contienen espacios al principio y al final entre las entradas, como se observa en la columna VendorName de la tabla de compras (por ejemplo, ALTAMAR BRANDS LLC ,).

## `1.4 Limpieza y preprocesamiento de datos`


#### `a. Identificar el conjunto de datos y las columnas correspondientes con valores omitidos y duplicados`


In [None]:
# Función para identificar valores faltantes y duplicados en los conjuntos de datos
def verificar_faltantes_y_duplicados(*datasets):
    for nombre_conjunto, conjunto in datasets:
        conteo_faltantes = {}
        conteo_duplicados = {}
        
        # Verificar valores faltantes y duplicados
        for nombre_columna in conjunto.columns:
            faltantes = conjunto[nombre_columna].isnull().sum()
            if faltantes > 0:
                conteo_faltantes[nombre_columna] = faltantes
        
        duplicados = conjunto[conjunto.duplicated()]
        conteo_duplicados["total"] = len(duplicados)
        
        # Imprimir resumen
        print(f"Resumen de valores faltantes y duplicados para {nombre_conjunto}:")
        if len(conteo_faltantes) == 0:
            print("No hay valores faltantes en este conjunto de datos.")
        else:
            print("Valores Faltantes:")
            for nombre_columna, conteo in conteo_faltantes.items():
                print(f" - Columna: {nombre_columna}, Cantidad de Valores Faltantes: {conteo}")
        
        if conteo_duplicados["total"] == 0:
            print("No hay duplicados en este conjunto de datos.")
        else:
            print("Duplicados:")
            print(f" - Total de duplicados: {conteo_duplicados['total']}")
        print()  # Añadir una línea en blanco entre los resúmenes de cada conjunto de datos

# Verificar faltantes y duplicados en todos los conjuntos de datos
verificar_faltantes_y_duplicados(("Tabla de Inventario Inicial", beginning_inventory),
                                 ("Tabla de Inventario Final", ending_inventory),
                                 ("Tabla de Compras", purchases),
                                 ("Tabla de Facturas de Compra", purchase_invoices),
                                 ("Tabla de Precios de Compra", purchase_prices),
                                 ("Tabla de Ventas", sales))


#### **`b. Manejo de Valores Faltantes`**

Las tablas de inventario inicial y ventas no tienen valores faltantes, por lo que el enfoque estará en las otras cuatro tablas.

`Manejo de Valores Faltantes en la Columna "City" del Inventario Final`: De un total de 224,489 entradas, hay 1,284 valores faltantes en la columna City. Al examinar los otros 66 nombres de ciudades únicos y sus ubicaciones de tiendas correspondientes, todas las ciudades están nombradas excepto la ciudad vinculada a la ubicación de la tienda 46. Por lo tanto, es razonable asignarle el nombre TYWARDREATH, que corresponde a su número de tienda.

`Manejo de Valores Faltantes en la Columna "Size" de la Tabla de Compras`: Hay solo unos pocos valores faltantes de un total de 2,372,474 entradas. Podemos eliminar estas filas o llenarlas con los valores no faltantes subsiguientes. Optemos por lo último.

`Manejo de Valores Faltantes en la Columna "Approval" de la Tabla de Facturas de Compra`: 5,169 de un total de 5,543 registros tienen valores faltantes, representando el 93% del total. Esto podría indicar que no están aprobados o están pendientes de aprobación. Dado el alto porcentaje de valores faltantes, esta columna puede no ser significativa y podría ser eliminada.

`Manejo de Valores Faltantes en la Tabla de Precios de Compra`: Hay valores faltantes únicos en las columnas Description, Size y Volume. Eliminaremos la fila de la columna Description con el valor faltante debido a la casi idéntica cantidad de entradas únicas y totales, no podemos interpolar, y usar otros métodos de llenado. También eliminaremos la columna Volume, ya que simplemente duplica la columna Size. Los valores faltantes en la columna Size pueden manejarse usando 'ffill', asumiendo que los artículos del mismo tamaño se venden simultáneamente. Sin embargo, como los valores faltantes en las columnas size y description aparecen en la misma fila, eliminar la fila con la descripción faltante manejará automáticamente el valor faltante en la columna size.

Necesitamos confirmación --> ejecuta el siguiente código:

```py
Missing_Values_rows = purchase_prices[purchase_prices.isnull().any(axis=1)]
print("rows with missing value in Purchase table:\\\\n", Missing_Values_rows)
```

La columna Size en la Tabla de Precios de Compra también tiene cuatro entradas con valores desconocidos. Por lo tanto, eliminaremos esas filas.

`Antes de preprocesar el DataFrame, necesitamos hacer una copia del DataFrame para referencia`: La limpieza y manipulación de datos se realizará en el marco de datos copiado..

```

```


In [None]:
# Crear una copia de los DataFrames originales para referencia y acortar el nombre del DataFrame para simplicidad
beg_inv_f = beginning_inventory.copy() 
end_inv_f = ending_inventory.copy()
purchases_f = purchases.copy()
purch_invo_f = purchase_invoices.copy()
purch_pric_f = purchase_prices.copy()
sales_f = sales.copy()

# Manejo de valores faltantes en la columna "City" del Inventario Final
end_inv_f["City"] = end_inv_f["City"].fillna("TYWARDREATH")

# Manejo de valores faltantes en la columna "Size" de la tabla de Compras
purchases_f["Size"] = purchases_f["Size"].ffill()

# Manejo de valores faltantes en la columna "Approval" de la tabla de Facturas de Compra
purch_invo_f = purch_invo_f.drop(['Approval'], axis=1)

# Manejo de valores faltantes en la tabla de Precios de Compra
purch_pric_f.dropna(subset=["Description"], inplace=True)
purch_pric_f = purch_pric_f[purch_pric_f["Size"] != "Unknown"]

# Manejo de columna redundante en la tabla de Precios de Compra y Ventas --> "Size" y "Volume"
purch_pric_f = purch_pric_f.drop(["Volume"], axis=1)
sales_f = sales_f.drop(["Volume"], axis=1)

print("\n Resumen de valores faltantes")  # línea nueva entre las salidas

# Obtener un resumen de valores faltantes para cada tabla
def verificar_valores_faltantes(*datasets):
    for nombre_conjunto, conjunto in datasets:
        conteo_valores_faltantes = {}
        for idx, nombre_columna in enumerate(conjunto.columns):
            conteo_faltantes = conjunto[nombre_columna].isnull().sum()
            if conteo_faltantes > 0:
                conteo_valores_faltantes[nombre_columna] = conteo_faltantes
        
        if len(conteo_valores_faltantes) == 0:
            print(f"Cantidad de valores faltantes en {nombre_conjunto} = {len(conteo_valores_faltantes)}")
        else:
            for nombre_columna, conteo in conteo_valores_faltantes.items():
                print(f"Columna: {nombre_columna}, Cantidad de Valores Faltantes: {conteo}")

verificar_valores_faltantes(("Beginning Inventory Final", beg_inv_f),
                            ("Ending Inventory Final", end_inv_f),
                            ("Purchases Table", purchases_f),
                            ("Purchases Invoice Table", purch_invo_f),
                            ("Purchase Price Table", purch_pric_f),
                            ("Sales Table", sales_f))


#### **`c. Gestión de duplicidades`**

No tenemos filas duplicadas en ninguno de los conjuntos de datos según el resumen de la salida anterior.


#### `d. Tratamiento de las irregularidades en la entradas de datos.`


`Manejo de Irregularidades en la Entrada de Tamaño`: La unidad de medida para la columna de tamaño en todos los conjuntos de datos (cinco en total) varía, excepto en el conjunto de datos de purchase_price (precios de compra). La información de tamaño que representa el volumen, se introduce en varios formatos, incluidos litros, mililitros, onzas, paquetes (pk) y combinaciones de estos. Por lo tanto, necesitamos convertir estas medidas a un estándar unificado: litros. Revisaremos los conteos únicos. Para aquellos con solo un conteo y sin un patrón, asignaremos una tasa equivalente. Para otros con múltiples conteos y un patrón, convertiremos según los patrones.


In [None]:
# Obtener un recuento único de cada entrada de tamaño en todos los conjuntos de datos y observar el patrón.
data_frames = [beg_inv_f, end_inv_f, purchases_f, purch_pric_f, sales_f]
all_sizes = pd.concat([df["Size"] for df in data_frames])

# Obtener los tamaños únicos y contar las ocurrencias de cada tamaño
unique_sizes = all_sizes.unique()
size_counts = {size: all_sizes[all_sizes == size].count() for size in unique_sizes}

# Crear un DataFrame con los tamaños únicos y su recuento total
unique_sizes_with_counts = pd.DataFrame({
    'Tamaño': unique_sizes,
    'Recuento Total': [size_counts[size] for size in unique_sizes]
})

# Imprimir el DataFrame resultante
print(unique_sizes_with_counts)


A partir del resultado de los conteos, podemos observar que hay 75 formas diferentes de expresar las medidas de tamaño (volumen).

- Hay tres conteos únicos con solo un conteo cada uno: 3/100ml, 5/2 y galones. Reemplazaremos estos con tasas de conversión equivalentes.
- Otros conteos únicos muestran patrones. Podemos usar expresiones regulares para iterar a través de ellos y aplicar tasas de conversión. Estos se pueden agrupar en tres patrones:
  - Ejemplos incluyen 750ml, 750mL, 750ml + 3/, 750 4p, 750 4pk, etc.
  - Patrones como Litro, L, o l
  - Tamaños expresados en onzas.

Crearemos una función para aplicar estas conversiones a todos los conjuntos de datos.


In [None]:
import pandas as pd
import re

# Función para convertir diferentes formatos de tamaño a litros
def convertir_a_litros(size):
    size = str(size).lower()
    # Convertir 3/100ml y 5/2 oz
    if "3/100ml" in size: 
        return round(3 * 0.01, 2)  # 3/100ml --> 3 paquetes de 100ml 
    elif '5/2 oz' in size: 
        return round(10 * 0.0295735, 2)  # 5/2 oz --> 5 paquetes de 1/2 oz cada uno
    
    # Convertir galones a litros
    elif 'gal' in size:
        gal_value = float(re.search(r'\d+\.*\d*', size).group())
        return round(gal_value * 3.786, 2)   
    
    # Manejar patrones como 750ml, 750mL, 750ml + 3/, 750 4p, 750 4pk, etc.
    elif 'ml' in size:
        if 'p' in size:
            ml_value, pack_value = re.search(r'(\d+\.*\d*)\s*m*l*\s*(\d*)\s*p*/*P*k*/*', size).groups()
            ml_value = float(ml_value)
            pack_value = float(pack_value) if pack_value else 1
            return round(ml_value * pack_value / 1000, 2)  # p o pk significa paquete--> multiplicar
        elif '+' in size:
            ml_value, pack_value = map(float, re.findall(r'\d+\.*\d*', size))
            return round((ml_value + (pack_value * 50)) / 1000, 2)  
        else:
            ml_value = float(re.search(r'\d+\.*\d*', size).group())
            return round(ml_value / 1000, 2)  
    
    # Convertir Litros o L o l
    elif 'liter' in size or 'l' in size:
        if size == 'liter' or size == 'l': 
            return 1.00
        else:
            liter_value = float(re.search(r'\d+\.*\d*', size).group())
            return round(liter_value, 2)  
    
    # Convertir onzas a litros    
    elif 'oz' in size:
        oz_value = float(re.search(r'\d+\.*\d*', size).group())
        return round(oz_value * 0.0295735, 2) 
    else:
        return None

# Lista de DataFrames para aplicar la conversión
data_frames = [beg_inv_f, end_inv_f, purchases_f, purch_pric_f, sales_f]

# Aplicar la función de conversión a cada DataFrame
for i, dataset in enumerate(data_frames):
    dataset['Size'] = dataset['Size'].apply(convertir_a_litros)
    data_frames[i] = dataset

# Imprimir los DataFrames convertidos
for i, dataset in enumerate(data_frames):
    print(f"DataFrame {i+1}:")
    print(dataset)
    print()


In [None]:
# Función para eliminar espacios al principio y al final en las columnas especificadas
def eliminar_espacios(df, *columnas):
    for col in columnas:
        df[col] = df[col].str.strip()
    return df

# Aplicar la función a los DataFrames correspondientes
beg_inv_f = eliminar_espacios(beg_inv_f, "City", "Description")
end_inv_f = eliminar_espacios(end_inv_f, "City", "Description")
purchases_f = eliminar_espacios(purchases_f, "Description", "VendorName")
purch_invo_f = eliminar_espacios(purch_invo_f, "VendorName")
purch_pric_f = eliminar_espacios(purch_pric_f, "Description", "VendorName")
sales_f = eliminar_espacios(sales_f, "Description", "VendorName")

# Renombrar 'VendorNo' a 'VendorNumber' en el conjunto de datos de ventas para mantener la uniformidad
sales_f.rename(columns={'VendorNo': 'VendorNumber'}, inplace=True)

# Imprimir una muestra de cada DataFrame para verificar los cambios
print("Muestra de Beginning Inventory Final:")
print(beg_inv_f.head())
print("\nMuestra de Ending Inventory Final:")
print(end_inv_f.head())
print("\nMuestra de Purchases Table:")
print(purchases_f.head())
print("\nMuestra de Purchases Invoice Table:")
print(purch_invo_f.head())
print("\nMuestra de Purchase Price Table:")
print(purch_pric_f.head())
print("\nMuestra de Sales Table:")
print(sales_f.head())


`Estandarizar el formato de tiempo de la columna especificada en un DataFrame:` Las columnas de fecha en los conjuntos de datos de Inventario Inicial y Final ya están en formato de fecha, por lo que no necesitamos formatearlas.


In [None]:
# Función para estandarizar el formato de tiempo de las columnas especificadas en un DataFrame
def formatear_tiempo(df, *columnas):
    for col in columnas:
        df[col] = pd.to_datetime(df[col])
    return df

# Aplicar la función a los DataFrames correspondientes
purchases_f = formatear_tiempo(purchases_f, "PODate", "ReceivingDate", "InvoiceDate", "PayDate")
purch_invo_f = formatear_tiempo(purch_invo_f, "InvoiceDate", "PODate", "PayDate")
sales_f = formatear_tiempo(sales_f, "SalesDate")

# Imprimir una muestra de cada DataFrame para verificar los cambios
print("Muestra de Purchases Table:")
print(purchases_f.head())
print("\nMuestra de Purchases Invoice Table:")
print(purch_invo_f.head())
print("\nMuestra de Sales Table:")
print(sales_f.head())


# **`Part II: Análisis y optimización de inventarios`**

En esta sección, analizaremos los parámetros fundamentales de la gestión de inventarios y extraeremos información adicional de los datos.

`Análisis de los Principales Parámetros de Gestión de Inventarios`

- **Tiempo de Entrega (LT)**
- **Stock de Seguridad (SS)**
- **Punto de Reorden (RoP)**
- **Análisis ABC**

El análisis ABC es una técnica de gestión de inventarios que se utiliza para categorizar los productos en función de su importancia relativa, generalmente medida en términos de valor de ventas, consumo o impacto en el negocio. Esta técnica se basa en el principio de Pareto, que sugiere que un pequeño porcentaje de los productos (aproximadamente el 20%) suele representar una gran parte del valor total (aproximadamente el 80%). Aquí están las tres categorías principales del análisis ABC:

1. Categoría A:
- Productos de alta prioridad.

2. Categoría B:
- Productos de prioridad media.

3. Categoría C:
- Productos de baja prioridad.


## `2.1 Análisis de los principales parámetros de gestión de inventarios`


#### 2.1.1 **`Plazos de entrega`**:

Se refiere a la duración entre el momento en que un almacén hace un pedido a un proveedor y el momento en que se recibe la mercancía. Es una medida importante para mejorar la gestión de inventarios y los procesos de la cadena de suministro.

- Fórmula para calcular el Tiempo de Entrega (Lead Time) en un contexto de gestión de inventarios.

$$
\text{Lead\_Time} = \text{Purchase\_Receiving\_Date} - \text{Purchase\_Order\_Date}
$$



In [None]:
# Calcular el tiempo de entrega en días y agregarlo al conjunto de datos
purchases_f['Lead_Time'] = (purchases_f['ReceivingDate'] - purchases_f['PODate']).dt.days

# Agrupar por Marca y Descripción y calcular estadísticas resumidas del tiempo de entrega
LT_summary = purchases_f.groupby(['Brand', 'Description']).agg(
    Max_LT_inDays=('Lead_Time', 'max'), 
    Min_LT_inDays=('Lead_Time', 'min'), 
    Avg_LT_inDays=('Lead_Time', 'mean')).round(2).reset_index()

# Graficar la distribución de los tiempos de entrega promedio y máximo
fig, axes = plt.subplots(1, 2, figsize=(14, 5))  # Ajustar tamaño de la figura
fig.suptitle("Distribución del Tiempo de Entrega", color='tomato', weight='bold', fontsize=14)

# Histograma del tiempo de entrega promedio
axes[0].hist(LT_summary["Avg_LT_inDays"], bins=20, density=False, edgecolor="k", label="Tiempo de Entrega Promedio")
axes[0].set_xlabel("Tiempo de Entrega Promedio (Días)")
axes[0].set_ylabel("Frecuencia")
axes[0].legend()

# Histograma del tiempo de entrega máximo y mínimo
axes[1].hist(LT_summary["Max_LT_inDays"], bins=20, density=False, edgecolor="k", alpha=0.5, label="Tiempo de Entrega Máximo")
axes[1].hist(LT_summary["Min_LT_inDays"], bins=20, density=False, edgecolor="k", alpha=0.5, label="Tiempo de Entrega Mínimo")
axes[1].set_xlabel("Tiempos de Entrega Máximos y Mínimos (Días)")
axes[1].legend()

fig.tight_layout(rect=[0, 0, 1, 0.95])  # Ajustar diseño para que el título no se superponga
plt.show()


El histograma ilustra la distribución de los tiempos de entrega promedio para los productos. La mayoría de los productos tienen un tiempo de entrega promedio de aproximadamente 7 a 8 días, como se muestra en la distribución normal. Por lo tanto, la mayoría de los proveedores entregan los productos dentro de una semana. Sin embargo, algunos artículos tienen tiempos de entrega más cortos, de aproximadamente uno a tres días, mientras que otros tienen tiempos de entrega más largos, de aproximadamente dos semanas. La distribución del tiempo de entrega máximo confirma que el tiempo de entrega máximo promedio es de 12 días. La distribución del tiempo de entrega mínimo está sesgada hacia la izquierda, siendo dos días el más común.


#### 2.1.2 **`Stock de seguridad e inventario`**

`Stock de seguridad(ss)` mide la cantidad de existencias de reserva que es necesario almacenar en las instalaciones. determinaremos las existencias de seguridad óptimas en función de la cantidad de ventas y de la cantidad de existencias de seguridad necesarias para realizar las ventas sin problemas.
\begin{equation}
\text{Optimizal Safety Stock} = (maximum_lead_time - average lead time) \times average_daily_sales_of_the_product.
\end{equation}

\begin{equation}
\text{Maximum Safety Stock}= (Maximum_daily_sales \times maximum_lead_time) – (average_daily_sales \times average_lead_time_days
\end{equation}


In [None]:
# Preparar datos resumidos de ventas
sales_f_summary = sales_f.groupby(['Brand', 'Description']).agg(
                        Max_Sales_Qty=("SalesQuantity", 'max'),
                        Min_Sales_Qty=("SalesQuantity", 'min'),
                        Tot_SalesQty=('SalesQuantity', 'sum')).reset_index()

# Calcular las ventas por día para cada producto agrupado por marca
total_sales_days = (sales_f['SalesDate'].max() - sales_f['SalesDate'].min()).days
sales_f_summary['Avg_Sales/Day'] = (sales_f_summary['Tot_SalesQty'] / total_sales_days).round(2)

# Unir los datos de tiempo de entrega y ventas para calcular el stock de seguridad
ss_data = pd.merge(sales_f_summary, LT_summary, on = ["Brand", "Description"])

# Calcular el stock de seguridad óptimo y máximo, redondeando al siguiente número entero
ss_data["Optimal_SS"] = np.ceil((ss_data["Max_LT_inDays"] - ss_data["Avg_LT_inDays"]) * 
                                ss_data["Avg_Sales/Day"]).round(0)

ss_data["Max_SS"] = np.ceil((ss_data["Max_LT_inDays"] - ss_data["Avg_LT_inDays"]) * 
                            ss_data["Avg_Sales/Day"]).round(0)

# Resumen de datos de stock de seguridad seleccionados de sales_f_summary y LT_summary
ss_data_summary = ss_data[["Brand", "Description", "Max_Sales_Qty", "Tot_SalesQty", "Avg_Sales/Day", 
                           "Max_LT_inDays", "Avg_LT_inDays", "Optimal_SS", "Max_SS"]]

# Imprimir una muestra aleatoria del resumen de stock de seguridad
print("Resumen del stock de seguridad - Muestra aleatoria: \n", ss_data_summary.sample(5, random_state=random.seed()))

# Graficar la distribución del stock de seguridad óptimo y compararlo con las ventas diarias promedio
fig, axes = plt.subplots(1, 2, figsize=(12, 3), sharey=True)
fig.suptitle("Distribución del Stock de Seguridad", color='tomato', weight='bold', fontsize=14)

# Histograma del stock de seguridad óptimo
axes[0].hist(ss_data_summary["Optimal_SS"], bins=20, density=False, edgecolor='k', label="Stock de Seguridad Óptimo")
axes[0].set_xlabel("Stock de Seguridad Óptimo")
axes[0].set_ylabel("Frecuencia")
axes[0].legend()

# Histograma de las ventas diarias promedio
axes[1].hist(ss_data_summary["Avg_Sales/Day"], bins=20, density=False, color="tab:blue", edgecolor='k', label="Ventas Diarias Promedio")
axes[1].set_xlabel("Ventas Diarias Promedio")
axes[1].legend()

plt.tight_layout()
plt.show()



Este histograma muestra el recuento del stock de seguridad requerido para cada marca junto con sus ventas diarias promedio. Sin embargo, debido a que los datos están muy sesgados hacia la izquierda, la distribución de los puntos de datos en el lado derecho no es claramente visible. Para resolver esto, utilizamos un diagrama de caja (boxplot).


In [None]:
# Crear una figura y ejes para el gráfico
fig, ax = plt.subplots(figsize=(15, 5))  # Ajuste de tamaño de la figura para mejor visualización

# Crear el diagrama de caja para la distribución del stock de seguridad óptimo
ax.boxplot(ss_data_summary['Optimal_SS'], 
           vert=False, 
           boxprops=dict(color='tab:orange', linewidth=2),  # Aumentar el grosor de las líneas de la caja
           flierprops=dict(markeredgecolor='tab:gray', marker='o', markersize=5, alpha=0.7),  # Ajuste de los puntos atípicos
           medianprops=dict(color='tab:red', linewidth=2),  # Propiedades de la mediana
           whiskerprops=dict(color='tab:blue', linewidth=2),  # Propiedades de los bigotes
           capprops=dict(color='tab:green', linewidth=2))  # Propiedades de las líneas de límite

# Ajuste de las etiquetas de los ejes y el título del gráfico
ax.set_xticks(range(0, int(ss_data_summary["Optimal_SS"].max()) + 1, 50))  # Ajuste de los intervalos de las etiquetas del eje X
ax.set_title('Distribución del Stock de Seguridad Óptimo', fontsize=16, color='tomato', weight='bold')
ax.set_xlabel('Stock de Seguridad Óptimo', fontsize=12)
ax.set_ylabel('Distribución', fontsize=12)

# Añadir rejilla para mejorar la lectura del gráfico
ax.grid(True, linestyle='--', alpha=0.7)

# Mostrar el gráfico
plt.show()


La mayoría de los productos requieren un stock de seguridad entre cero y 50. Sin embargo, el diagrama de caja muestra que algunos productos necesitan hasta 3500 en stock de seguridad. La empresa debería mantener el stock de seguridad requerido para asegurar ventas fluidas y prevenir la escasez de inventario. Los productos con mayor stock de seguridad deberían ser, idealmente, aquellos con el mayor volumen de ventas o con tiempos de entrega más largos. Exploraremos esto más adelante.

**`Evaluar el inventario disponible`**: Consideraremos el último nivel de inventario final como inventario disponible y evaluaremos las existencias de seguridad en consecuencia..


In [None]:
# Último inventario disponible para cada marca
latest_onhand_inv = end_inv_f[end_inv_f['endDate'] == end_inv_f['endDate'].max()] \
                    .groupby(['Brand', 'Description']).agg(Onhand_Stock=('onHand', 'sum')).reset_index()

# Fusionar los niveles de stock actuales con los datos de stock de seguridad previamente calculados,
# rellenando valores NaN con 0 y seleccionando columnas específicas.
onhand_inv_data = ss_data.merge(latest_onhand_inv, on=['Brand', 'Description'], how='left').fillna({'Onhand_Stock': 0})
onhand_inv_data = onhand_inv_data[["Brand", "Description", "Optimal_SS", "Max_SS", "Onhand_Stock"]]

# Determinar el estado del inventario de cada producto, categorizándolos como escasez, balance o excedente
onhand_inv_data['Inventory_Status'] = onhand_inv_data['Onhand_Stock'] - onhand_inv_data['Optimal_SS']

onhand_inv_data['Inv_Shortage/Surplus'] = np.where(onhand_inv_data['Inventory_Status'] < 0, 'Inv_Shortage',
                                          np.where(onhand_inv_data['Inventory_Status'] == 0, 'Balance', 'Inv_Surplus'))

inv_status = onhand_inv_data.set_index('Brand')  # abreviar los datos de inventario disponible como inv_status
print("Muestra aleatoria de 5 filas de inv_status: \n", inv_status.sample(n=5, random_state=random.seed()))

# Distribución del estado del inventario
fig, ax = plt.subplots(figsize=(11, 4))
sns.boxplot(data=inv_status, x="Inv_Shortage/Surplus", y="Inventory_Status", ax=ax)
ax.set_xlabel("Estado del Inventario")
ax.set_ylabel("Inventario")
ax.set_title("Distribución del Estado del Inventario")

# Imprimir el conteo en el gráfico
for i, (label, count) in enumerate(inv_status['Inv_Shortage/Surplus'].value_counts().items()):
    ax.text(i, count, str(count), ha='center', va='bottom', fontsize=12, color='black')

plt.tight_layout()
plt.show()


La figura del diagrama de caja revela que la empresa mantiene un inventario excesivo para aproximadamente el 85% de sus productos, lo que genera costos sustanciales de mantenimiento de inventario. Simultáneamente, hay una escasez de inventario para el 10% de sus productos. Por lo tanto, solo el cinco por ciento de los 7146 productos de la empresa tienen un inventario equilibrado. La empresa necesita abordar esto reduciendo el inventario excedente y llenando las escaseces de inventario para mantener el equilibrio.

#### 2.1.3 **`Puntos de pedido`**:<br/>

El punto de reorden es el nivel en el que el inventario necesita ser reabastecido para evitar que caiga por debajo de un umbral determinado, lo que podría arriesgar a quedarse sin stock. Si el punto de reorden es negativo, esto indica anomalías. En tales casos, considera usar las ventas diarias máximas en lugar de las ventas diarias promedio para determinar el punto de reorden y reemplaza el valor en consecuencia.

$$
\text{Reorder Point (RoP)} = Demand\_during\_Lead\_Time + Safety\_Stock \\
                           = Average\_Sales\_per\_day \times average\_Lead\_time + Safety\_Stock
$$


In [None]:
# Añadir el punto de reorden (RoP) a ss_data
ss_data["RoP"] = np.ceil((ss_data["Avg_Sales/Day"] * ss_data["Avg_LT_inDays"]) - ss_data["Optimal_SS"])
ss_data["RoP"] = ss_data["RoP"].replace(-0, 0)  # -0 es un valor negativo cercano a cero y se redondea a 0. Por lo tanto, reemplazarlo con 0.

# Crear un resumen de los datos del punto de reorden
RoP_Summary = ss_data[["Brand", "Description", "Max_Sales_Qty", "Tot_SalesQty", "Avg_Sales/Day", 
                       "Max_LT_inDays", "Avg_LT_inDays", "Optimal_SS", "Max_SS", "RoP"]].set_index('Brand')

# Encontrar filas donde RoP es menor que cero y reemplazarlas con el valor de RoP máximo
RoP_max = RoP_Summary[RoP_Summary["RoP"] < 0]
print("Cantidad de filas donde RoP es menor que cero:", len(RoP_max))

RoP_max['RoP_max'] = np.ceil((RoP_max["Avg_Sales/Day"] * RoP_max["Max_LT_inDays"]) - RoP_max["Optimal_SS"])
RoP_Summary.loc[RoP_Summary["RoP"] < 0, "RoP"] = RoP_max["RoP_max"]

print("\nPunto de reorden para cada producto--> 10 filas aleatorias: \n", RoP_Summary.sample(5, random_state=random.seed()))

# Distribución de los puntos de reorden
fig, ax = plt.subplots(figsize=(12, 4))
sns.boxplot(data=RoP_Summary, x="RoP", ax=ax, color='tab:blue')
ax.set_xticks(range(0, int(RoP_Summary["RoP"].max()) + 1, 50))  # Marcar el eje x por rango de 50
ax.set_xlabel("Punto de Reorden")
ax.set_ylabel("Distribución")
ax.set_title("Distribución de los Puntos de Reorden")
plt.grid(True, linestyle='--', alpha=0.7)  # Añadir rejilla para mejorar la lectura del gráfico
plt.show()


Del diagrama de caja, es evidente que el punto de reorden para el 97% de los productos es menor a 50 artículos. Las anomalías restantes se extienden hasta más de 900. Estos artículos se venden en grandes cantidades o tienen un tiempo de entrega mayor. Sin embargo, dado que los tiempos de entrega máximos y mínimos para todos los productos son relativamente cercanos, sugiere que estos productos tienen altos volúmenes de venta.


#### 2.1.4 **`Análisis ABC`**:

El análisis ABC es una técnica utilizada en la gestión de inventarios para clasificar los artículos según su valor para el negocio. Ayuda a las empresas a priorizar los esfuerzos de gestión de inventarios y a asignar recursos de manera efectiva. Esta fórmula se utiliza para determinar el valor de cada artículo de inventario y clasificarlos en categorías A, B y C.

- Categoria `A` items: Estos son los productos más importantes para la empresa, caracterizados por altos volúmenes de ventas, altas ventas de compra o ambos. En términos de ventas, estos artículos representan el 10%–20% de la cantidad vendida, representando el 60%–80% del valor de ventas anual.
- Categoria `B` items: Estos son artículos menos importantes, que consisten en el 20%–30% de los artículos vendidos, y representan el 20%–30% del monto de ventas anual.
- Categoria `C` items: Estos son los artículos menos importantes en tu inventario, que comprenden el 50%–70% del inventario vendido y representan el 5%–15% del valor de ventas anual.

En nuestro enfoque, realizamos el Análisis ABC comparando las ventas anuales del producto con los ingresos anuales totales por ventas del inventario. Vale la pena notar que el Análisis ABC también puede realizarse basado en el costo del inventario, el costo de compra o el margen de beneficio.


In [None]:
# Fusionar datos relevantes de las tablas de ventas y compras
ABC_Analysis_data = pd.merge(
    sales_f, 
    purchases_f[['InventoryId', 'Store', 'Brand', 'Description', 'Size', 'PurchasePrice']], 
    on=['InventoryId', 'Store', 'Brand', 'Description', 'Size']
)

# Seleccionar columnas relevantes
ABC_Analysis_data = ABC_Analysis_data[['Brand', 'Description', 'SalesQuantity', 'SalesPrice', 'PurchasePrice']]

# Agrupar por Marca y Descripción y calcular estadísticas resumidas
ABC_Analysis_data_summary = ABC_Analysis_data.groupby(['Brand', 'Description']).agg(
    Cost_per_unit=("PurchasePrice", "mean"),
    Sales_per_unit=("SalesPrice", "mean"),
    Demand_Y=('SalesQuantity', 'sum')
).round(2).reset_index()

# Calcular Ventas_Y($000s) para todos los productos y ordenar por este valor
ABC_Analysis_data_summary["Sales_Y($000s)"] = (
    (ABC_Analysis_data_summary["Sales_per_unit"] * ABC_Analysis_data_summary["Demand_Y"]) / 1e3
).round(3)
ABC_Analysis_data_summary = ABC_Analysis_data_summary.sort_values(by=["Sales_Y($000s)"], ascending=False)

# Calcular la proporción de Ventas_Y($000s) de cada artículo respecto al total de Ventas_Y($000s)
ABC_Analysis_data_summary["Ratio"] = (
    ABC_Analysis_data_summary["Sales_Y($000s)"].cumsum() / ABC_Analysis_data_summary["Sales_Y($000s)"].sum()
).round(2)

# Asignar cada artículo a la categoría definida y aplicar la función al DataFrame
def categorize(ratio):
    if ratio < 0.7:
        return 'A'
    elif ratio < 0.9:
        return 'B'
    else:
        return 'C'

ABC_Analysis_data_summary["Category"] = ABC_Analysis_data_summary["Ratio"].apply(categorize)
ABC_Analysis_data_summary.set_index('Brand', inplace=True)

print('Categorías ABC de todos los productos:\n', ABC_Analysis_data_summary.sample(5, random_state=random.seed()))


In [None]:
# Crear el gráfico de dispersión con mejores colores para superposición
fig, ax = plt.subplots(figsize=(12, 6))
sns.scatterplot(data=ABC_Analysis_data_summary, 
                x="Sales_per_unit", 
                y="Sales_Y($000s)", 
                hue="Category", 
                palette='Set1',  # Utilizar una paleta de colores distintivos
                legend="full", 
                marker='o', 
                edgecolor='w', 
                s=100,  # Aumentar el tamaño de los puntos para mejor visualización
                alpha=0.6)  # Añadir transparencia para mejorar la visibilidad de la superposición

# Ajustes de etiquetas y títulos
plt.xlabel("Precio de Venta por Unidad")
plt.ylabel("Ventas Anuales ($000s)")
plt.title("Distribución de las Categorías ABC")
plt.legend(title="Categoría", loc="upper right")

# Añadir rejilla para mejorar la lectura del gráfico
plt.grid(True, linestyle='--', alpha=0.7)

# Mostrar el gráfico
plt.tight_layout()
plt.show()


Hay un punto de datos que destaca como anómalo. Es claramente diferente del resto y no encaja en el patrón general que observamos en el resto de los datos. Si elimináramos este valor atípico, resultaría en una distribución de datos mucho más clara, permitiéndonos ver las tendencias y patrones subyacentes con mayor claridad.


In [None]:
# Discard the anomalous outlier and add counts of each categories to the plot
filtered_data = ABC_Analysis_data_summary[ABC_Analysis_data_summary['Sales_per_unit'] <= 2500]

# # Create label for each category along the label count
category_counts = filtered_data['Category'].value_counts()
category_labels = {cat: f"{cat} ({count})" for cat, count in category_counts.items()}

fig, ax = plt.subplots(figsize=(12, 5))
sns.scatterplot(data=filtered_data, x="Sales_per_unit", y="Sales_Y($000s)", hue="Category", legend="full", 
                marker='o', edgecolor='black', palette="viridis")
plt.xlabel("Sales_Price per unit")
plt.ylabel("Yearly Sales ($00s)")
plt.title("Distribution of ABC_Category")
plt.legend(title="Category", labels=category_labels.values(), loc="upper right")
plt.show()

El gráfico de dispersión muestra que la mayoría de los productos de alto precio están en la Clase C, pero contribuyen menos al ingreso total. La Clase B contribuye más a las ventas anuales que la Clase C, pero aún menos en general. A pesar de ser menos en cantidad, los productos de la Clase A contribuyen más a las ventas anuales, lo que los convierte en los más valiosos.

### 2.2 Otros Análisis Relacionados con el Inventario

Sugerimos las siguientes consultas relacionadas con el inventario para una mejor comprensión del negocio:

1. ¿Qué productos tienen altos niveles de inventario al final del período de inventario, y pertenecen a la Clase A en el análisis ABC de inventario?
2. ¿Qué productos tienen bajos niveles de inventario al final del período de inventario, registraron ventas en el año anterior y pertenecen a la Clase C en el análisis ABC de inventario?
3. Identificar productos con grandes inventarios pero bajas ventas anuales, y viceversa, utilizando la relación entre las ventas anuales y el inventario final para este análisis.
4. ¿Los productos con mayores stocks de seguridad registran mayores volúmenes de ventas, y a qué categoría pertenecen en el Análisis ABC?
5. Listar los 10 principales productos que requieren reordenamiento inmediato junto con sus cantidades de reorden.
6. Determinar la contribución de cada categoría al ingreso total según el análisis ABC de inventario.
7. Identificar los 10 principales productos de cada categoría que más contribuyen al ingreso total anual.
8. Identificar los 10 principales productos de cada categoría que menos contribuyen al ingreso total anual.


`1. ¿Qué productos tienen altos niveles de inventario al final del período y pertenecen a la Clase A en el análisis ABC de inventario?`


In [None]:
# Sum onHand inventory and convert to thousand units, then select the top 10
end_inv_f_top10 = end_inv_f.groupby(['Brand', "Description"])['onHand'].sum().div(1000).\
                                nlargest(10).reset_index(name='Onhand_inventory(000s)')
# Merge end_env_f_top10 with ABC_Analysis_data_summary to know the ABC categories of each  products
end_inv_f_top10_ABC = pd.merge(end_inv_f_top10, 
                                 ABC_Analysis_data_summary.reset_index()[['Brand', 'Description', 'Sales_Y($000s)', 'Ratio', 'Category']],
                                 on=['Brand', 'Description'])
# Print the top 10 items with their categories
print("Top 10 products with large onhand inventory and thier ABC categories: \n", end_inv_f_top10_ABC)

# Create the horizontal bar plot to compare evaluate those products sales amount
fig, axes = plt.subplots(1, 2, figsize=(11, 3), sharey= True)
fig.suptitle("Top 10 products with high ending inventory and corrsoponding sales amount", 
             color ='tomato', weight='bold', fontsize=12)
sns.barplot(data=end_inv_f_top10_ABC, x="Onhand_inventory(000s)", y="Description", hue="Category",  ax=axes[0])
sns.barplot(data=end_inv_f_top10_ABC, x="Sales_Y($000s)", y="Description", hue="Category", ax=axes[1])
plt.show()

El resultado impreso y el gráfico de barras horizontales muestran los 10 productos principales en el inventario más grande de la empresa. La clasificación ABC revela que la mayoría de estos artículos pertenecen a la categoría A, lo que indica que son los más valiosos en términos de su contribución al ingreso total de la empresa. Sin embargo, Dr McGillicuddy's Mentholmint y Yukon Jack se consideran de categoría B, a pesar de que la empresa tiene un gran inventario de ellos. Esto se debe a su relativamente baja contribución al ingreso total de la empresa en comparación con su inventario. Este importante conocimiento puede ayudar a la empresa a optimizar mejor su inventario.

La figura indica que, a pesar de tener un inventario similar al de otros artículos de los 10 principales, los productos de categoría B contribuyen sustancialmente menos a los ingresos totales por ventas que los productos de categoría A. Smirnoff 80 Proof también está al borde de caer en categorías menos significativas.


`2. ¿Qué productos tienen bajos niveles al final del período de inventario y registraron ventas en el año anterior y pertenecen a la Clase C en el análisis ABC de inventario?`


In [None]:
# Sum onHand inventory and convert to thousand units, then select the lowest 10
end_inv_f_lowest = end_inv_f.groupby(['Brand', 'Description']).agg(
                                    Onhand_inventory = ('onHand', 'sum')).reset_index()
end_env_f_lowest10 = end_inv_f_lowest.nsmallest(10, 'Onhand_inventory')

# Merge end_env_f_top10 with ABC_Analysis_data_summary to know the ABC categories of each  products
end_inv_f_lowest10_ABC = pd.merge(end_env_f_lowest10, 
                                 ABC_Analysis_data_summary.reset_index()[['Brand', 'Description', 'Sales_Y($000s)', 'Category']], on=['Brand', 'Description'])
# Print the top 10 items with their categories
print(" 10 items with lowest ending inventory with ABC categories: \n", end_inv_f_lowest10_ABC)

Los 10 artículos principales en el inventario final disponible bajo son aquellos con un inventario disponible de cero. Los mencionados anteriormente son los primeros en orden alfabético, y hay más de ellos. Sin embargo, solo dos de ellos están listados en los datos de ventas. Esto significa que solo dos de estos diez artículos tienen algún tipo de ventas, y su monto de ventas en millones es aproximadamente cero. Por lo tanto, este es otro conocimiento significativo para el negocio: la empresa está manteniendo inventario para el cual no tiene ventas en absoluto.


In [None]:
end_inv_f_lowest_ABC = pd.merge(end_inv_f_lowest, 
                                ABC_Analysis_data_summary.reset_index()[['Brand','Description', 'Sales_Y($000s)', 
                                                                         'Category']],on=['Brand', 'Description'])
end_inv_f_lowest10_ABC = end_inv_f_lowest_ABC[end_inv_f_lowest_ABC['Sales_Y($000s)']>0]
end_inv_f_lowest10_ABC  = end_inv_f_lowest_ABC.sort_values(
                          by=['Onhand_inventory', 'Sales_Y($000s)']).\
                              nsmallest(10, 'Onhand_inventory')
print('Products with Minimum Ending Inventory but Sold \n', end_inv_f_lowest10_ABC)

Estos son los primeros 10 artículos en la lista con el inventario final más bajo y la menor cantidad de ventas. Claramente, todos estos artículos pertenecen a la categoría C del análisis ABC, lo que indica que son de menor importancia para la empresa.


`3. Identificar productos con grandes inventarios pero bajas ventas anuales, y viceversa, utilizar la relación de ventas anuales con el inventario final para este análisis..`


In [None]:
# Aggregate onHand Inventory grouped by Brand
end_inv_f_grouped = end_inv_f.groupby(['Brand', 'Description']).agg(
                    Onhand_inventory=('onHand', 'sum')).reset_index()

end_inv_f_merged = pd.merge(end_inv_f_grouped, 
                            ABC_Analysis_data_summary.reset_index()[['Brand','Description', 'Sales_Y($000s)', 
                                                                     'Category']],on=['Brand', 'Description'])
# Calculate the ratio of on-hand inventory to yearly sales, for that onhand inventory should be > 0
end_inv_f_merged = end_inv_f_merged[end_inv_f_merged['Onhand_inventory']>0]
end_inv_f_merged['sales/onhand_inv'] = ((end_inv_f_merged['Sales_Y($000s)']).div(
                                        end_inv_f_merged['Onhand_inventory'])).round(3)
# Sorted by max sales/onhand_in and on-hand inventory but lowest sales.
end_inv_f_sorted1 = end_inv_f_merged.sort_values(by=['sales/onhand_inv', 'Onhand_inventory', 'Sales_Y($000s)'],
                                                ascending=[False, False, False]).tail(10)
#Since we are filtering low sales, insead 1000s, we count in 1s
end_inv_f_sorted1['Sales_Y($000s)'] = end_inv_f_sorted1['Sales_Y($000s)'] * 1000
end_inv_f_sorted1.rename(columns={'Sales_Y($000s)': 'Sales_Y'}, inplace= True)

print(end_inv_f_sorted1.head(3))
#Plot the figures
fig, axs = plt.subplots(1, 2, figsize=(11, 3), dpi=150, sharey=True)
sns.barplot(data=end_inv_f_sorted1, y='Description', x='Onhand_inventory', hue = 'Category', ax=axs[0])
axs[0].set_xlabel('Onhand_inventory')
axs[0].set_title('Products with a large ending inventory but low sales')

sns.barplot(data=end_inv_f_sorted1, y='Description', x='Sales_Y', color='#5778a4', label = 'Sales', ax=axs[1])
axs[1].set_xlabel('Yearly Sales in $')
axs[1].set_title('Corresponding sales Amount')
axs[1].legend()

plt.tight_layout()
plt.show()

Este gráfico ilustra los productos con altas ventas pero un inventario comparativamente bajo. Notablemente, todos estos artículos pertenecen a la categoría C del Análisis ABC, lo que indica que tienen el menor valor para el negocio. El nivel de inventario de estos productos necesita equilibrarse. La empresa mantiene una gran cantidad de inventario para productos con ventas significativamente bajas. Por lo tanto, se debe priorizar la optimización de estos productos, junto con los artículos que tienen un gran inventario disponible pero sin ventas.


`4. ¿Los productos con mayores stocks de seguridad registran mayores volúmenes de ventas y a qué categoría pertenecen en el Análisis ABC?`


In [None]:
#merge safety stock and ABC analysis summary data and select relevant cols
ss_data_summary.head(3)
ss_data_summary_ABC = pd.merge(ss_data_summary.reset_index()[['Brand', 'Description', 'Optimal_SS', 'Tot_SalesQty']],
                              ABC_Analysis_data_summary.reset_index()[['Brand','Description', 'Sales_Y($000s)', 
                                                                       'Category']],on=['Brand', 'Description'])
ss_data_summary_ABC10 = ss_data_summary_ABC.sort_values(by=['Optimal_SS','Tot_SalesQty', 'Sales_Y($000s)'],
                                                      ascending=False).head(10)
print(ss_data_summary_ABC10.head(3))

#Plot and compare 
#Plot the figures
fig, axs = plt.subplots(1, 3, figsize=(11, 3), sharey=True)
fig.suptitle("Top 10 products requiring largest safety stock", color = 'tomato', weight = 'bold', fontsize=12) 
sns.barplot(data=ss_data_summary_ABC10, y='Description', x='Optimal_SS', hue='Category', ax=axs[0])
axs[0].set_xlabel('Optimal Safety Stock')

sns.barplot(data=ss_data_summary_ABC10, y='Description', x='Tot_SalesQty', hue= 'Category', ax=axs[1])
axs[1].set_xlabel('Total Sales Qty')

sns.barplot(data=ss_data_summary_ABC10, y='Description', x='Sales_Y($000s)', hue= 'Category', ax=axs[2])
axs[2].set_xlabel('Sales_Y($000s)')

plt.tight_layout()
plt.show()

Los productos con mayor stock de seguridad a menudo exhiben mayores cantidades de ventas, pero esto no necesariamente se traduce en mayores montos de ventas en dólares. El gráfico de barras horizontales anterior demuestra que, aunque los productos con mayor stock de seguridad típicamente tienen mayores cantidades de ventas, no hay una correlación directa con el monto de ventas en dólares.

En la categorización del Análisis ABC, no todos los productos con alto stock de seguridad caen en la categoría A; algunos se ubican en la categoría B. Esto se debe a que, a pesar de las grandes cantidades de ventas, estos productos generan ventas en dólares comparativamente bajas, lo que lleva a su clasificación como artículos de categoría B. El conocimiento clave para el negocio es que priorizar el mantenimiento del stock de seguridad para los artículos de categoría A es esencial.


`5. Enumera los 10 productos principales que requieren un reordenamiento inmediato junto con sus cantidades de reorden.` Identificamos cuáles de ellos son cruciales para que la empresa priorice el reordenamiento..


In [None]:
# Filter and calculate immediate reorder qty
Onhand_inv_data_c = pd.merge(onhand_inv_data, 
                                 ABC_Analysis_data_summary.reset_index()[["Brand", "Description", "Category"]],
                                 on=['Brand', 'Description'])
shortage_items = Onhand_inv_data_c[Onhand_inv_data_c["Inv_Shortage/Surplus"] == "Inv_Shortage"]
shortage_items['Reorder_Qty'] = shortage_items['Optimal_SS'] - abs(shortage_items['Inventory_Status'])
immediate_reorder_qty = shortage_items[shortage_items['Reorder_Qty'] > 0]

# Plot graph top 15 items that largest immidiate reorder quantity.
immediate_reorder_qty = immediate_reorder_qty.nlargest(15, 'Reorder_Qty')
fig, ax = plt.subplots(figsize=(10, 4))
sns.barplot(data=immediate_reorder_qty, x="Reorder_Qty", y="Description", hue="Category",
            edgecolor='black')
for p in ax.patches:
    ax.annotate(format(p.get_width(), '.0f'), 
                 (p.get_x() + p.get_width(), p.get_y() + p.get_height() / 2.), 
                 ha = 'center', va = 'center', xytext = (15, 0),  textcoords = 'offset points')
plt.show()

La figura anterior ilustra 15 de los principales productos que requieren reordenamiento y sus cantidades correspondientes. La categorización del Análisis ABC revela que la mayoría de los productos listados están en la categoría C, lo que significa el menor valor para el negocio. Sin embargo, el producto en la parte superior de la lista está en la categoría A y requiere la mayor cantidad de reorden. Por lo tanto, la empresa debe realizar de inmediato una solicitud de reorden por la cantidad especificada.


`6. Determina la contribución de cada categoría al ingreso total según el análisis ABC de inventario..`


In [None]:
# Group ABC Analysis summary data by category and aggrate sales and count
total_sales_per_Category = ABC_Analysis_data_summary.groupby('Category').\
                                agg({'Sales_Y($000s)': 'sum'}).reset_index()
total_sales_per_Category['Percentage'] = (total_sales_per_Category['Sales_Y($000s)'] / 
                                          total_sales_per_Category['Sales_Y($000s)'].sum()).round(4)*100
counts_df = ABC_Analysis_data_summary['Category'].value_counts().reset_index()
counts_df.columns = ['Category', 'Count']
ABC_Analysis_Summary =  pd.merge(counts_df, total_sales_per_Category, on = "Category").sort_values(
                                by="Percentage", ascending=False)
print("ABC_Analysis_Summary: \n", ABC_Analysis_Summary)


fig, ax1 = plt.subplots(figsize=(8, 5))
bar_width = 0.3 # width of each bar
x_axis_index = np.arange(len(ABC_Analysis_Summary))
ax1.bar(x_axis_index - bar_width/2, ABC_Analysis_Summary['Count'], bar_width, label='Count')
ax2 = ax1.twinx() 
ax2.bar(x_axis_index + bar_width/2, ABC_Analysis_Summary['Sales_Y($000s)'], bar_width, 
        color='tab:blue', label='Sales_Y($000s)') 

for ax in [ax1, ax2]:
    # add labels // loop containers to label all sets of bars
    for container in ax.containers:
        values = container.datavalues
        labels = ["{:g}".format(val) for val in values]
        ax.bar_label(container, labels=labels)     
ax1.set_xticks(x_axis_index)
ax1.set_ylabel('Count')
ax2.set_ylabel('Sales Amount ($000s)')
ax1.legend(loc='center left', bbox_to_anchor=(0.35, 0.5), shadow=True)
ax2.legend(loc='center left', bbox_to_anchor=(0.35, 0.6), shadow=True)
plt.title('Count and Sales Amount by Category')
plt.tight_layout() 
plt.show()

La figura describe la importancia de tres categorías: A, B y C. La categoría A es la más importante, ya que comprende el 2.8% de los artículos que contribuyen al 70% del ingreso total. Estos artículos generalmente se venden a precios más altos, en mayores cantidades o tienen una alta demanda de ventas.

La categoría B es menos importante, con el 8.3% del total de productos contribuyendo al 20% del ingreso total. Finalmente, la categoría C es la menos importante. Constituye el 89% de los artículos en el inventario pero contribuye solo al 10% del ingreso total. Estos artículos tienen un precio de venta muy bajo o no se venden en absoluto.

La empresa debe identificar y eliminar estos artículos de la lista de inventario, especialmente si el costo de mantenimiento de inventario suele ser del 12-15% del precio. Estos artículos deben ser reemplazados de inmediato por otros productos que puedan tener una mejor significancia.

`7. Identifica los 10 principales productos de cada categoría que más contribuyen al ingreso total anual..`


In [None]:
# Create a rank among the group based on Sales Amounts
ABC_Analysis_data_summary['rnk'] = ABC_Analysis_data_summary.groupby('Category')['Sales_Y($000s)'].\
                                   rank(method='first', ascending=False)
top5_contributing_to_sales = ABC_Analysis_data_summary[ABC_Analysis_data_summary['rnk'] <= 10]
top5_contributing_to_sales.sort_values(['Sales_Y($000s)', 'rnk'], inplace=True, ascending=False)
#plot
fig, ax = plt.subplots(figsize=(11, 6))
sns.barplot(data=top5_contributing_to_sales, x="Sales_Y($000s)", y="Description", 
            hue="Category", edgecolor='k', ax = ax)
ax.set_title("Top Selling products from each Category")
ax.legend(loc='center')
plt.show()

In [None]:
top5_contributing_to_sales = ABC_Analysis_data_summary[ABC_Analysis_data_summary['rnk'] <=10]
top5_contributing_to_sales.sort_values(['Sales_Y($000s)', 'rnk'], inplace=True, ascending=True)
#plot
fig, ax = plt.subplots(figsize=(12, 6))
sns.barplot(data=top5_contributing_to_sales, x="Sales_Y($000s)", y="Description", 
            hue="Category", edgecolor='k', ax = ax)
ax.set_title("Least Selling products from each Category")
ax.legend(loc='center')
plt.show()

Los dos gráficos anteriores ilustran los artículos del análisis ABC que más y menos contribuyen a las ventas totales. Esto proporciona información sobre cuáles productos deben ser priorizados. Los gráficos son autoexplicativos.


# **`Part III: Extracción de Información sobre Compras y Ventas`**

### 3.1 `Compras`

- ¿Quiénes son los proveedores importantes? Evaluar basado en las cantidades de artículos suministrados, los valores de los artículos y la contribución de los artículos al ingreso total de la empresa. Proveedores menos importantes en términos de cantidad y valor de suministros.
- ¿Quiénes son los proveedores menos importantes? Evaluar basado en las cantidades de artículos suministrados, los valores de los artículos y la contribución de los artículos al ingreso total de la empresa. Proveedores menos importantes en términos de cantidad y valor de suministros.
- ¿Cuál es el período promedio de ejecución de pagos para cada proveedor y cómo se correlaciona con la cantidad o el valor de las compras?


`1.¿Quiénes son los proveedores importantes? Evaluar basado en las cantidades de artículos suministrados, los valores de los artículos y la contribución de los artículos al ingreso total de la empresa. Proveedores menos importantes en términos de cantidad y valor de suministros.`


In [None]:
# Select relevant cols from purchase_f and sales_f and create required dataframe
purchase_data_cols = purchases_f[['Brand', 'Description', 'Size', 'VendorNumber', 
                                  'VendorName','Lead_Time', 'InvoiceDate', 'PayDate', 'PurchasePrice', 'Quantity', 'Dollars']]
#Add Payment Execution period.
purchase_data_cols['pay_exec_days'] = (purchase_data_cols['PayDate']-purchase_data_cols['InvoiceDate']).dt.days

purch_data_vendor = purchase_data_cols.groupby('VendorName').agg(PurchaseQty=('Quantity', 'sum'),
                                                                 PurchaseValue=('Dollars', 'sum')).reset_index()
sales_data_vendor = sales_f.groupby('VendorName').agg(SalesQuantity=('SalesQuantity', 'sum'),
                                                      SalesDollars=('SalesDollars', 'sum')).reset_index()
purchases_f_insight = pd.merge(purch_data_vendor, sales_data_vendor, on="VendorName").set_index('VendorName')

# Which Vendor Supplies the most quantity of items to the company
top10_vendors_Qty = purchases_f_insight.nlargest(10, "PurchaseQty")
print('Top10 vendors based on Qty of Supplies: \n', top10_vendors_Qty)

# Which Vendor Supplies the most $value of of items to the company
top10_vendors_value = purchases_f_insight.nlargest(10, "PurchaseValue")
print('\n\nTop10 vendors based on Dollar values of the supplies: \n', top10_vendors_value)

# Whose vendor supplies most contribute to the total sales revenue
top10_vendor_SalesContr = purchases_f_insight.nlargest(10, "SalesDollars")
print('\n\nTop10 vendors of its supplies to total revenue: \n', top10_vendor_SalesContr)

# Which vendors are the most important - relativey good in all the three metrics
VIP_Vendors = pd.concat([top10_vendors_Qty, top10_vendors_value, 
                                  top10_vendor_SalesContr], axis=0).drop_duplicates()
print('\n\nVery Important Vendors: \n', VIP_Vendors)

In [None]:
#Compare and rank the performance of VeryImportantVendors based on three key metrics.
VIP_Vendors = VIP_Vendors.sort_values(by=['SalesDollars', 'PurchaseValue', 'PurchaseQty'], ascending=True).reset_index()
# Plotting
fig, axs = plt.subplots(1, 3, figsize=(12, 3), sharey=True)
fig.suptitle("Evaluation of VIP vendors on the three metrics", color = 'tomato', weight = 'bold', fontsize=12) 
axs[0].barh(VIP_Vendors['VendorName'], VIP_Vendors['SalesDollars'], color='tab:blue')
axs[0].set_xlabel('Total Sales contribution($)')

axs[1].barh(VIP_Vendors['VendorName'], VIP_Vendors['PurchaseValue'], color='tab:orange')
axs[1].set_xlabel('Purchase Amount ($)')

axs[2].barh(VIP_Vendors['VendorName'], VIP_Vendors['PurchaseQty'], color='tab:red')
axs[2].set_xlabel('Purchase Qty')

plt.tight_layout()
plt.show()

`- ¿Quiénes son los proveedores menos importantes? Evaluar basado en las cantidades de artículos suministrados, los valores de los artículos y la contribución de los artículos al ingreso total de la empresa. Proveedores menos importantes en términos de cantidad y valor de suministros.`


In [None]:
# Which Vendor Supplies the least quantity of items to the company
purchases_f_insight = pd.merge(purch_data_vendor, sales_data_vendor, on="VendorName", how='inner').set_index('VendorName')
least10_vendors_Qty = purchases_f_insight.nsmallest(10, "PurchaseQty")
print('least10 vendors based on Qty of Supplies: \n', least10_vendors_Qty)

# Which Vendor Supplies the least $value of of items to the company
least10_vendors_value = purchases_f_insight.nsmallest(10, "PurchaseValue")
print('\n\nleast10 vendors based on Dollar values of the supplies: \n', least10_vendors_value)

# Whose vendor supplies least contribute to the total sales revenue
least10_vendor_SalesContr = purchases_f_insight.nsmallest(10, "SalesDollars")
print('\n\nleast10 vendors of its supplies to total revenue: \n', least10_vendor_SalesContr)

# Which vendors are the least important - relativey good in all the three metrics
LIP_Vendors = pd.concat([least10_vendors_Qty, least10_vendors_value, 
                                  least10_vendor_SalesContr], axis=0).drop_duplicates()
print('\n\n Least Important Vendors: \n', LIP_Vendors)

In [None]:
#Compare and rank the performance of VeryImportantVendors based on three key metrics.
LIP_Vendors = LIP_Vendors.sort_values(by=['SalesDollars', 'PurchaseValue', 'PurchaseQty'], 
                                      ascending=False).reset_index()
# Plotting
fig, axs = plt.subplots(1, 3, figsize=(12, 3.5), sharey=True)
fig.suptitle("Evaluation of LIP vendors on the three metrics", color = 'tomato', weight = 'bold', fontsize=12) 
axs[0].barh(LIP_Vendors['VendorName'], LIP_Vendors['SalesDollars'], color='tab:blue')
axs[0].set_xlabel('Total Sales contribution($)')

axs[1].barh(LIP_Vendors['VendorName'], LIP_Vendors['PurchaseValue'], color='tab:orange')
axs[1].set_xlabel('Purchase Amount ($)')

axs[2].barh(LIP_Vendors['VendorName'], LIP_Vendors['PurchaseQty'], color='tab:red')
axs[2].set_xlabel('Purchase Qty')

plt.tight_layout()
plt.show()

`¿Cuál es el período promedio de ejecución de pagos para cada proveedor y cómo se correlaciona con la cantidad o el valor de las compras?`


In [None]:
pay_excute_period = purchase_data_cols.groupby('VendorName').agg(
                                Avg_PEP=('pay_exec_days', 'mean'),
                                Avg_PurchaseQty = ('Quantity', 'mean'),
                                Avr_PurchaseValue=('Dollars', 'mean')).reset_index().round(0)
# Identify vendors that execute payments fast  and label it as such
top10_fast_pay_exe_vendor = (pay_excute_period.sort_values(by=["Avg_PEP"], ascending=True).head(10))
#Label it- Fast_Payment_Processing
top10_fast_pay_exe_vendor['payment_proceesing'] = "fast_processing"

top10_slow_pay_exe_vendor =  (pay_excute_period.sort_values(by=["Avg_PEP"], ascending=False).head(10))
top10_slow_pay_exe_vendor['payment_proceesing'] = "slow_processing"

#Concat and compare
Fast_Slow_Pay_Exec = pd.concat([top10_fast_pay_exe_vendor, top10_slow_pay_exe_vendor], axis=0)
#print(Fast_Slow_Pay_Exec[['VendorName', 'Avg_Payment_Execution_Period', 'payment_proceesing']])

fig, ax = plt.subplots(figsize=(9, 4))
sns.barplot(data=Fast_Slow_Pay_Exec, x="Avg_PEP", y="VendorName", hue="payment_proceesing", edgecolor='k', ax = ax)
ax.set_title("comparison vendors with fast and slowest payment execution periods")
plt.show()

In [None]:
# Plot the distribution of Average paymemnt executions period and compare it avg purchase quantity and value. 
fig, axes = plt.subplots(1, 3)
fig.suptitle("Lead Time Distribution", color = 'tomato', weight = 'bold', fontsize=14) 
axes[0].hist(pay_excute_period["Avg_PEP"], bins=20, density=False, edgecolor="k", label="Average PEP")
axes[0].set_xlabel("Avg_PEP(Days)") 
axes[0].set_ylabel("Frequency")
axes[1].hist(pay_excute_period["Avg_PurchaseQty"], bins=50, density=False, edgecolor="k", label="Avg_PurchaseQty")
axes[1].set_xlabel("Avg_PurchaseQty")
axes[2].hist(pay_excute_period["Avr_PurchaseValue"], bins=50, density=False, edgecolor="k", label="Avr_PurchaseValue")
axes[2].set_xlabel("Avg_PurchaseValue($)")
fig.tight_layout()
plt.show()

In [None]:
# Is there any correlation between between the payment execution speed and the quantiy and value of purchases
fig, ax = plt.subplots(figsize=(9, 2.5))
ax = sns.scatterplot(x=Fast_Slow_Pay_Exec["Avr_PurchaseValue"],y=Fast_Slow_Pay_Exec["Avg_PurchaseQty"],
                     size=Fast_Slow_Pay_Exec["Avg_PEP"], hue=Fast_Slow_Pay_Exec["Avg_PEP"],
                     sizes=(10, 200), alpha=0.5, edgecolor="k", ax = ax)
plt.ylabel("Avg_PurchaseQty")
plt.xlabel("Avr_PurchaseValue")
ax.legend(title="Avg_PEP", loc="upper right",frameon=False)
ax.set_title("Payment execuation period vs qty and value of purchases")
plt.tight_layout()
plt.show()

Aunque el gráfico de histograma sugiere que la distribución del período promedio de pagos se asemeja a la del valor y la cantidad promedio de compras, el gráfico de dispersión de burbujas lo contradice. Por lo tanto, el período de ejecución de pagos probablemente está influenciado por factores externos como los sistemas bancarios o de crédito.

### 3.1 `Insights de Ventas`

Para extraer información significativa de negocios sobre ventas, planteamos las siguientes preguntas:

1. ¿Cuáles productos se venden más en términos de cantidad y monto de ventas en dólares, y, por el contrario, cuáles se venden menos?
2. ¿Cómo se compara el desempeño de ventas de diferentes tiendas y cuáles son las 10 tiendas con el mayor rendimiento en ventas?
3. ¿Cuál tamaño de producto se vende más?
4. ¿Podemos proyectar e identificar las tendencias de ventas a lo largo del año?


`1.  ¿Cuáles productos se venden más en términos de cantidad y monto de ventas en dólares, y cuáles se venden menos?.`


In [6]:
# Retrieve relevant cols and identify top 10 best and slow selling products and label them as such.
sales_f_sel_cols = sales_f[['Store', 'Brand', 'Description', 'Size', 'SalesQuantity', 
                                  'SalesPrice','SalesDollars', 'SalesDate']]
# Sales Analysis based on product type
sales_f_prod_type = sales_f_sel_cols.groupby(['Brand', 'Description']).agg(
                                    SalesQuantity=('SalesQuantity', 'sum'),
                                    SalesDollars=('SalesDollars', 'sum')).reset_index()
best_selling_prods10 = sales_f_prod_type.sort_values(by=['SalesDollars', 'SalesQuantity'], ascending=False).head(10)
slow_selling_prods10 = sales_f_prod_type.sort_values(by=['SalesDollars', 'SalesQuantity'], ascending=False).tail(10)

best_selling_prods10['Sales_Speed'] = "Fast_Moving"
slow_selling_prods10['Sales_Speed'] = "Slow_Moving"
Sales_f_amount10 = pd.concat([best_selling_prods10, slow_selling_prods10], axis=0)

# plot them side by side for comparison 
fig, axs = plt.subplots(1, 2, figsize=(12, 4), sharey=True)
fig.suptitle("Top 10 best and slow selling products", color='tomato', weight='bold', fontsize=12)

sns.barplot(data=Sales_f_amount10, y='Description', x='SalesDollars', hue='Sales_Speed', ax=axs[0])
axs[0].set_xlabel('Based on $Sales Amount')
axs[0].legend(title= 'Sales_Speed', loc="lower right",frameon=False)
for p in axs[0].patches:
    axs[0].annotate(format(p.get_width(), '.0f'), (p.get_x() + p.get_width(), p.get_y() + p.get_height() / 2.), 
                    ha='center', va='center', xytext=(20, 0), textcoords='offset points')

sns.barplot(data=Sales_f_amount10, y='Description', x='SalesQuantity', hue='Sales_Speed', ax=axs[1])
axs[1].set_xlabel('Based on Qty Sold')
axs[1].legend(title="Sales_Speed", loc="lower right",frameon=False)
for p in axs[1].patches:
    axs[1].annotate(format(p.get_width(), '.0f'), (p.get_x() + p.get_width(), p.get_y() + p.get_height() / 2.), 
                    ha='center', va='center', xytext=(20, 0), textcoords='offset points')
plt.tight_layout()
plt.show()

NameError: name 'sales_f' is not defined

El gráfico de barras anterior compara los productos más y menos vendidos. Algunos productos tienen montos de ventas de alrededor de medio millón y cantidades de aproximadamente 20,000. Por el contrario, también hay productos de movimiento lento con cantidades de ventas tan bajas como uno y montos de ventas menores a un dólar. Por lo tanto, la empresa debería eliminar estos artículos de venta lenta de la lista del próximo año y reemplazarlos con productos de alta demanda.

`2. ¿Cómo se compara el desempeño de ventas de diferentes tiendas y cuáles son las 10 tiendas con el mayor rendimiento en ventas?`


In [None]:
#Compare sales performance of different stores
sales_f_store = sales_f_sel_cols.groupby(['Store']).agg(
                                    SalesQuantity=('SalesQuantity', 'sum'),
                                    SalesDollars=('SalesDollars', 'sum')).reset_index()
best_selling_store10 = sales_f_store.sort_values(by=['SalesDollars', 'SalesQuantity'],ascending=False).head(10)
worest_selling_store10 = sales_f_store.sort_values(by=['SalesDollars', 'SalesQuantity'],ascending=False).tail(10)

#Lable them as Best_Selling and Low_Selling Store
best_selling_store10['Performance'] = "Best_Selling"
worest_selling_store10['Performance'] = "Low_Selling"
# Compare them
store_performance10 = pd.concat([best_selling_store10, worest_selling_store10], axis=0)
store_performance10['Store'] = store_performance10['Store'].astype(str) # to consider it as categorical feature

# plot them side by side for comparison 
fig, axs = plt.subplots(1, 2, figsize=(12, 4), sharey=True)
fig.suptitle("Top 10 best and slow performing Store", color='tomato', weight='bold', fontsize=12)

sns.barplot(data=store_performance10, y='Store', x='SalesDollars', hue='Performance', ax=axs[0])
axs[0].set_xlabel('Based on $Sales Amount')
axs[0].legend(title= 'Sales_Speed', loc="lower right",frameon=False)
sns.barplot(data=store_performance10, y='Store', x='SalesQuantity',  hue='Performance', ax=axs[1])
axs[1].set_xlabel('Based on Qty Sold')
axs[1].legend(title="Sales_Speed", loc="lower right",frameon=False)

plt.tight_layout()
plt.show()


El gráfico de barras horizontal anterior compara el rendimiento de las tiendas. La tienda con mejor desempeño tiene ventas de aproximadamente 1.5 millones y un total de 100,000 artículos vendidos. Por el contrario, la tienda con peor desempeño tiene ventas de menos de $2500 durante este período. Se debe tomar una decisión sobre el futuro de esta tienda, para determinar si vale la pena continuar su operación o no.


`¿Qué tamaño de producto se vende más y cuáles no se venden tanto?`


In [None]:
#Compare sales performance of different Sizes
sales_f_Size = sales_f_sel_cols.groupby(['Size']).agg(
                                    SalesQuantity=('SalesQuantity', 'sum'),
                                    SalesDollars=('SalesDollars', 'sum')).reset_index()
print("Unique count of Sizes: ",sales_f_Size['Size'].nunique())
best_selling_Size10 = sales_f_Size.sort_values(by=['SalesDollars', 'SalesQuantity'],ascending=False).head(10)
worest_selling_Size10 = sales_f_Size.sort_values(by=['SalesDollars', 'SalesQuantity'],ascending=False).tail(10)
best_selling_Size10['Performance'] = "Best_Selling"
worest_selling_Size10['Performance'] = "Low_Selling"
# Compare them
Size_performance10 = pd.concat([best_selling_Size10, worest_selling_Size10], axis=0)
Size_performance10['Size'] = Size_performance10['Size'].astype(str) 

# plot them side by side for comparison 
fig, axs = plt.subplots(1, 2, figsize=(12, 4), sharey=True)
fig.suptitle("Top 10 best and slow performing Size", color='tomato', weight='bold', fontsize=12)
sns.barplot(data=Size_performance10, y='Size', x='SalesDollars', hue='Performance', ax=axs[0])
axs[0].set_xlabel('Based on $Sales Amount')
axs[0].legend(title= 'Sales_Speed', loc="lower right",frameon=False)
sns.barplot(data=Size_performance10, y='Size', x='SalesQuantity',  hue='Performance', ax=axs[1])
axs[1].set_xlabel('Based on Qty Sold')
axs[1].legend(title="Sales_Speed", loc="lower right",frameon=False)
plt.tight_layout()
plt.show()

Los gráficos de barras horizontales indican que, de los 31 tamaños de productos disponibles, solo ocho tienen cantidades de ventas significativas y montos de ventas en dólares correspondientes. El tamaño de 0.75L o 750ml es el más vendido tanto en términos de cantidad como de ventas en dólares. Por lo tanto, la empresa debe tener cuidado con el tamaño de producto que ordena.


`4. ¿Podemos proyectar e identificar las tendencias de ventas a lo largo del año?`


In [None]:
# Group by 'SalesDate' and aggregate sales quantity and dollars
sales_f_trends = sales_f_sel_cols.groupby('SalesDate').agg(
                                    SalesQuantity=('SalesQuantity', 'sum'),
                                    SalesDollars=('SalesDollars', 'sum')).reset_index()

# Plotting sales quantity and sales dollars using Seaborn
fig, ax1 = plt.subplots(figsize=(12, 4))
sns.lineplot(data=sales_f_trends, x='SalesDate', y='SalesQuantity', marker='.', ax=ax1)
ax2 = ax1.twinx() 
sns.lineplot(data=sales_f_trends, x='SalesDate', y='SalesDollars', marker='1', color='tab:blue', ax=ax2)
date_form = DateFormatter("%b %Y\n%d")  # Show month and year along with day
ax1.xaxis.set_major_formatter(date_form) # Formatting x-axis ticks
plt.xticks(rotation=45) 
ax1.set_xlabel('Date')
ax1.set_ylabel('Sales Quantity')
ax2.set_ylabel('Sales Dollars')
plt.title('Daily Sales Quantity and Sales Dollars Over Time')
plt.tight_layout()  
plt.show()

El gráfico de líneas muestra las tendencias de la cantidad total vendida y el monto total de ventas en dólares. Estas dos medidas siguen patrones similares porque una es un múltiplo de la otra. El gráfico exhibe tendencias cíclicas, lo que sugiere altos volúmenes de ventas en días específicos de la semana, tal vez los fines de semana. También se nota un aumento significativo en la última semana de enero.

# **`Part IV: Recomendaciónes Adicionales`**


La empresa debe considerar las siguientes acciones y sugerencias:

1. Revisar regularmente los tiempos de entrega y, si es posible, trabajar con los proveedores para reducirlos, especialmente para productos con tiempos de entrega más largos.
2. Mantener un stock de seguridad adecuado basado en los volúmenes de ventas y los tiempos de entrega para prevenir la escasez de inventario.
3. Reducir el exceso de inventario para productos que no se venden como se esperaba para disminuir los costos de mantenimiento de inventario.
4. Reequilibrar el inventario para productos con altas ventas pero bajo stock.
5. Priorizar el mantenimiento del stock de seguridad para los artículos de categoría A ya que generan altas ventas.
6. Realizar solicitudes de reordenamiento inmediatas para productos de alto valor que requieren mayores cantidades de reordenamiento.
7. Revisar regularmente la categorización ABC y ajustar el inventario en consecuencia. Específicamente, considerar eliminar los artículos de categoría C que tienen precios de venta muy bajos o no se venden en absoluto y reemplazarlos con productos que puedan generar mejores ingresos.
8. Considerar eliminar los artículos de venta lenta de la lista del próximo año y reemplazarlos con productos de alta demanda.
9. Evaluar el rendimiento de las tiendas y considerar cerrar o mejorar las tiendas con peor rendimiento.
10. Tener en cuenta los tamaños de productos que más se venden y priorizar el pedido de estos tamaños.
11. Monitorear las tendencias de ventas y ajustar los niveles de inventario en consecuencia para satisfacer la demanda, especialmente durante los períodos de mayor venta.

¡Gracias!

Si te gusta mi trabajo o el esfuerzo que pongo, ¡por favor vota a favor! Gracias.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Asumimos que purchases_f es tu DataFrame de compras
# Calcular el tiempo de entrega en días y agregarlo al conjunto de datos
purchases_f['Lead_Time'] = (purchases_f['ReceivingDate'] - purchases_f['PODate']).dt.days

# Agrupar por mes y calcular el tiempo de entrega promedio
average_lead_time = purchases_f.groupby(purchases_f['ReceivingDate'].dt.to_period('M'))['Lead_Time'].mean().reset_index()
average_lead_time['ReceivingDate'] = average_lead_time['ReceivingDate'].dt.to_timestamp()

# Graficar el tiempo de entrega promedio a lo largo del tiempo
plt.figure(figsize=(12, 6))
sns.lineplot(data=average_lead_time, x='ReceivingDate', y='Lead_Time', marker='o', color='tab:blue')
plt.title('Tiempo de Entrega Promedio a lo Largo del Tiempo', fontsize=14, color='tomato', weight='bold')
plt.xlabel('Mes')
plt.ylabel('Tiempo de Entrega Promedio (Días)')
plt.grid(True, linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()
