![Logo](./images/logo_mds.png)

# ABC
La clasificación `ABC` únicamente asigna un código de una letra a cada elemento de una lista basándose en el principio de Pareto:

> El 80% de los efectos provienen del 20% de las causas

Que, llevado al negocio puede traducirse por:

> El 80% de las ventas proviene del 20% de los productos

> El 80% de los beneficios provienen del 20% de los productos

> ...

En la realidad, aunque el principio de Pareto no se cumple (a veces ni se acerca a ese 80-20), sí podemos estar de acuerdo en que, en la mayor parte de los proceoss de negocio hay una clara mayoría de los efectos que se produce por un número más o menos pequeño de causas.

Podemos comprobarlo con un juego de datos de venta en un comercio electrónico

In [1]:
import pandas as pd
import numpy as np

pd.options.display.max_rows = 999
pd.options.display.max_columns = 999

# Leemos el dataframe, no tiene excesivos datos, pero para este ejemplo, es suficiente.
df = pd.read_csv('Datos/Ecommerce.csv',decimal = '.')

df.drop(columns=['Unnamed: 8'], inplace=True)

df.head(4)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,29-Nov-16,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,29-Nov-16,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,29-Nov-16,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,29-Nov-16,3.39,17850.0,United Kingdom


## Check Principio de Pareto

In [2]:
# Agrupamos las ventas por descriptivo de producto (también podría ser por código)
agrupado_prod = df.groupby(by='CustomerID')['Quantity'].sum().reset_index()

# Eliminamos las devoluciones (mezclar ventas con devolución no es una buena idea cuando queremos calcular porcentajes)
agrupado_prod = agrupado_prod.loc[agrupado_prod['Quantity'] > 0]

# Calculamos el porcentaje de venta que supone cada producto
agrupado_prod['PCT'] = (agrupado_prod['Quantity'] / agrupado_prod['Quantity'].sum()) * 100

# Ordenamos de forma descendente por la cantidad de venta
agrupado_prod = agrupado_prod.sort_values(by='Quantity', ascending=False)

# Apuntamos el porcentaje de venta acumulado cuando vmaos avanzando por los productos.
agrupado_prod['PCT_ACUMULADO'] = agrupado_prod['PCT'].cumsum()

agrupado_prod.head(10)


Unnamed: 0,CustomerID,Quantity,PCT,PCT_ACUMULADO
1703,14646.0,196719,4.007558,4.007558
55,12415.0,77242,1.573573,5.581131
1895,14911.0,77180,1.57231,7.153442
3758,17450.0,69029,1.406258,8.5597
4233,18102.0,64122,1.306293,9.865993
3801,17511.0,63012,1.28368,11.149673
1005,13694.0,61803,1.25905,12.408723
1447,14298.0,58021,1.182003,13.590727
1345,14156.0,57025,1.161713,14.75244
3202,16684.0,49390,1.006173,15.758612


In [3]:
# Porcentaje de productos que generan el 80% de la venta:

(agrupado_prod[agrupado_prod['PCT_ACUMULADO'] < 80].shape[0] / agrupado_prod.shape[0]) * 100

26.39499884232461

Vemos que, aunque no es el 20% sí se cumple bastante bien la regla del 80-20, podemos comprobarlo también con los clientes:

In [4]:
# Agrupamos las ventas por cliente
agrupado_cl = df.groupby(by='CustomerID')['Quantity'].sum().reset_index()

# Eliminamos las devoluciones (mezclar ventas con devolución no es una buena idea cuando queremos calcular porcentajes)
agrupado_cl = agrupado_cl.loc[agrupado_cl['Quantity'] > 0]

# Calculamos el porcentaje de venta que supone cada producto
agrupado_cl['PCT'] = (agrupado_cl['Quantity'] / agrupado_cl['Quantity'].sum()) * 100

# Ordenamos de forma descendente por la cantidad de venta
agrupado_cl = agrupado_cl.sort_values(by='Quantity', ascending=False)

# Apuntamos el porcentaje de venta acumulado cuando vmaos avanzando por los productos.
agrupado_cl['PCT_ACUMULADO'] = agrupado_cl['PCT'].cumsum()

# Porcentaje de productos que clientes el 80% de la venta:
(agrupado_cl[agrupado_cl['PCT_ACUMULADO'] < 80].shape[0] / agrupado_cl.shape[0]) * 100

26.39499884232461


En este caso está un poco más alejado del 20% pero también en línea con la idea general.

## Función Check Pareto

Como inciso, cuando encontramos este tipo de código, lo normal es extraerlo a una función de este tipo:

In [5]:
def check_pareto(df, nivel_agregacion, campo_agregacion):
    ag = df.groupby(by=nivel_agregacion)[campo_agregacion].sum().reset_index()
    ag = ag.loc[ag[campo_agregacion] > 0]
    ag['PCT'] = (ag[campo_agregacion] / ag[campo_agregacion].sum()) * 100
    ag = ag.sort_values(by=campo_agregacion, ascending=False)
    ag['PCT_ACUMULADO'] = ag['PCT'].cumsum()
    pct = (ag[ag['PCT_ACUMULADO'] < 80].shape[0] / ag.shape[0]) * 100
    print(f'PCT de {nivel_agregacion} necesario para cubrir el 80% de la {campo_agregacion}: {pct} %')


In [6]:
df['Total'] = df['Quantity'] * df['UnitPrice']

check_pareto(df,'Description', 'Quantity')
check_pareto(df,'Description', 'UnitPrice')
check_pareto(df,'Description', 'Total')
check_pareto(df,'CustomerID', 'Quantity')
check_pareto(df,'CustomerID', 'UnitPrice')
check_pareto(df,'CustomerID', 'Total')

PCT de Description necesario para cubrir el 80% de la Quantity: 22.898693615972395 %
PCT de Description necesario para cubrir el 80% de la UnitPrice: 17.0007423904974 %
PCT de Description necesario para cubrir el 80% de la Total: 21.136590229312063 %
PCT de CustomerID necesario para cubrir el 80% de la Quantity: 26.39499884232461 %
PCT de CustomerID necesario para cubrir el 80% de la UnitPrice: 30.3363074811256 %
PCT de CustomerID necesario para cubrir el 80% de la Total: 27.23276260990282 %


## Función categorización ABC

La categorización ABC utilzia el principio de Pareto para clasificar como A (lo mejor) aquellos elementos que causan el 80% del efecto, como B a aquellos elementos que generan el siguiente 80% y como C al resto.

In [7]:
def categoriza_ABC(df, nivel_agregacion, campo_agregacion):
    ag = df.groupby(by=nivel_agregacion)[campo_agregacion].sum().reset_index()
    ag = ag[ag[nivel_agregacion].isna()==False]
    ag = ag.loc[ag[campo_agregacion] > 0]
    ag['PCT'] = (ag[campo_agregacion] / ag[campo_agregacion].sum()) * 100
    ag = ag.sort_values(by=campo_agregacion, ascending=False)
    ag['PCT_ACUMULADO'] = ag['PCT'].cumsum()
    
    ag['Clase_ABC'] = 'C'
    
    ag.loc[ag['PCT_ACUMULADO'] < 96, 'Clase_ABC'] = 'B'
    ag.loc[ag['PCT_ACUMULADO'] < 80, 'Clase_ABC'] = 'A'
    
    ag.drop(columns=[x for x in ag.columns if x not in [nivel_agregacion, 'Clase_ABC','PCT','PCT_ACUMULADO']], inplace=True)
    
    df = df.set_index('StockCode').join(ag.set_index('StockCode')).reset_index()
    
    df = df[df['Clase_ABC'].isna()==False]
    
    return df

In [8]:
df = categoriza_ABC(df, 'StockCode', 'Quantity')

In [9]:
df.groupby(by='Clase_ABC')['UnitPrice', 'Total', 'Quantity'].agg(['sum', 'min', 'max'])

  df.groupby(by='Clase_ABC')['UnitPrice', 'Total', 'Quantity'].agg(['sum', 'min', 'max'])


Unnamed: 0_level_0,UnitPrice,UnitPrice,UnitPrice,Total,Total,Total,Quantity,Quantity,Quantity
Unnamed: 0_level_1,sum,min,max,sum,min,max,sum,min,max
Clase_ABC,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
A,1351584.0,0.0,38970.0,7129029.0,-77183.6,77183.6,4204664,-74215,74215
B,511627.0,0.0,39.13,1969062.0,-2432.7,3285.0,841669,-1510,960
C,344907.1,-11062.06,11062.06,841708.7,-11062.06,11062.06,210651,-9360,906


In [10]:
df[df['PCT_ACUMULADO']<80].shape[0]/df.shape[0]

0.6354831805704183