In [3]:
# MONTANDO DRIVE
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [4]:
import os
import pandas as pd
import numpy as np
from datetime import datetime
import matplotlib.pyplot as plt


In [5]:
path='/content/drive/MyDrive/Ejercicio_practico_IDS/Base_Nielsen_Prueba.xlsx'
df_areas=pd.read_excel(path,sheet_name='Extracción áreas',skiprows=10)
df_areas_MP=pd.read_excel(path,sheet_name='Extracción áreas MP',skiprows=10)


La hoja Extracción Áreas tiene las ventas de los productos de marca comercial que se venden a nivel autoservicio y la hoja Extracción áreas MP tiene las ventas de productos de marca propia, éstos no tienen distinción desde el campo UPC hasta DESCRIPCIÓN (el valor es CONTROLLED LABEL y así se puede distinguir)
CONTROLLED LABEL son productos de la marca propia del autoservicio (incluyendo las marcas de la competencia) correspondiente, por ejemplo, en Walmart existen marcas como Aurrerá o Great Value. Como la información de estos productos es confidencial, no se puede saber la cantidad de productos englobados, precios individuales ni presentaciones. Considere estos puntos para no llegar a conclusiones erróneas en el análisis.
Las descripciones de las variables relevantes son las siguientes:

*   Descripción: El nombre del ítem (Máxima granularidad de la base)
*   Variable: Ventas en Valor en miles de pesos y las Ventas en Unidades en miles de unidades
*   Mercado: Formato y Región unidos en una variable
*   PMM’AA: Estas variables corresponden al mes y año, por ejemplo, P05’18 es mayo 2018


In [6]:
fechas_sinformato=['P05/18', 'P06/18', 'P07/18', 'P08/18', 'P09/18', 'P10/18', 'P11/18',
       'P12/18', 'P01/19', 'P02/19', 'P03/19', 'P04/19', 'P05/19', 'P06/19',
       'P07/19', 'P08/19', 'P09/19', 'P10/19', 'P11/19', 'P12/19', 'P01/20',
       'P02/20', 'P03/20', 'P04/20']
fechas_conformato=[fecha.replace("P",'') for fecha in fechas_sinformato]
#convirtiendo fechas en formato "año/mes"
fechas_conformato=[datetime.strptime(fecha,"%m/%y").strftime("%Y-%m") for fecha in fechas_conformato]
#creando diccionario
diccionario = dict(zip(fechas_sinformato,fechas_conformato))
df_areas=df_areas.rename(columns=diccionario)
df_areas_MP=df_areas_MP.rename(columns=diccionario)
df_areas_MP.columns==df_areas.columns

array([ True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True])

In [7]:
df_Base=pd.concat([df_areas,df_areas_MP],axis=0)
df_Base[['Formato', 'Region']] = df_Base['MERCADO'].str.split(' ', expand=True)
#REEMPLAZANDO VALORES
df_Base.loc[df_Base['Region']=='A1','Region']='PACIFICO'
df_Base.loc[df_Base['Region']=='A2','Region']='NORTE'
df_Base.loc[df_Base['Region']=='A3','Region']='OCCIDENTE'
df_Base.loc[df_Base['Region']=='A4','Region']='CENTRO'
df_Base.loc[df_Base['Region']=='A5','Region']='VDM'
df_Base.loc[df_Base['Region']=='A6','Region']='SURESTE'

In [8]:
path2='/content/drive/MyDrive/Ejercicio_practico_IDS'
df_Base.to_excel(os.path.join(path2,'Base_Nielsen.xlsx'),index=False)

In [9]:
pd.pivot_table(df_Base, index=['Region','Formato','TIER '],
               columns=['MARCA','SUBMARCA'],
               values=fechas_conformato,aggfunc='sum').T.reset_index()


Region,level_0,MARCA,SUBMARCA,CENTRO,CENTRO,CENTRO,CENTRO,CENTRO,CENTRO,CENTRO,...,VDM,VDM,VDM,VDM,VDM,VDM,VDM,VDM,VDM,VDM
Formato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,AUTO1,AUTO1,AUTO1,AUTO2,AUTO2,AUTO2,AUTO3,...,AUTO3,AUTO4,AUTO4,AUTO4,AUTO5,AUTO5,AUTO5,RESTO,RESTO,RESTO
TIER,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,HIGH,LOW,MEDIUM,HIGH,LOW,MEDIUM,HIGH,...,MEDIUM,HIGH,LOW,MEDIUM,HIGH,LOW,MEDIUM,HIGH,LOW,MEDIUM
0,2018-05,ANGEL CARE,OTR. SUBMARCAS,,0.0,,,0.0,,,...,,,0.0,,,0.0,,,0.0,
1,2018-05,BABY PANTS,OTR. SUBMARCAS,,,270.125,,,711.375,,...,454.375,,,0.125,,,0.0,,,484.000
2,2018-05,BABY SENS,BABY SENS,,,0.000,,,0.000,,...,0.000,,,0.000,,,0.0,,,0.125
3,2018-05,BABY SOFT,OTR. SUBMARCAS,0.0,,,0.0,,,0.0,...,,0.0,,,0.0,,,0.0,,
4,2018-05,BEBIN,BUENAS NOCHES,,,0.000,,,0.000,,...,0.000,,,0.000,,,0.0,,,7.625
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1459,2020-04,OTHERS MARCA UNIF.,ULTRA,,,0.000,,,0.000,,...,0.000,,,0.000,,,0.0,,,0.750
1460,2020-04,SUABEBE,MAX,,0.0,,,0.0,,,...,,,0.0,,,0.0,,,0.0,
1461,2020-04,SUABEBE,POCOYO,,0.0,,,0.0,,,...,,,0.0,,,0.0,,,0.0,
1462,2020-04,SUABEBE,UNI,,0.0,,,0.0,,,...,,,0.0,,,0.0,,,0.0,


In [10]:
#EXTRA: REAGRUPANDO DATA
columnas_fechas=[columna for columna in df_Base if columna.startswith("20")]

In [39]:
#deshaciendo la tabla para volverla mas manipulable
df_Base_1=df_Base.melt(id_vars=['MARCA','ROLLOS','PRESENTACION UNIF.','DESCRIPCION','TIER ','VARIABLE','Formato','Region'],
                       value_vars=columnas_fechas,
                       var_name='Fecha',
                       value_name='Cantidad comprada')
df_Base_2=df_Base.melt(id_vars=['FABRICANTE','MARCA','ROLLOS','PRESENTACION UNIF.','DESCRIPCION','TIER ','VARIABLE','Formato','Region'],
                       value_vars=columnas_fechas,
                       var_name='Fecha',
                       value_name='Cantidad comprada')

In [12]:
df_Base_1.to_excel(os.path.join(path2,'Base_Nielsen_DESPIVOTE.xlsx'),index=False)

In [13]:
df_Base_1.to_csv(os.path.join(path2,'Base_Nielsen_DESPIVOTE.csv'),index=False)

In [40]:
#usando periodos de tiempo siguientes: enero-abril del 2019 y enero-abril del 2020

df_Ene_Abr_2019=df_Base_2.loc[(df_Base_1['Fecha']>='2019-01') & (df_Base_1['Fecha']<='2019-04')]
df_Ene_Abr_2019.head()

Unnamed: 0,FABRICANTE,MARCA,ROLLOS,PRESENTACION UNIF.,DESCRIPCION,TIER,VARIABLE,Formato,Region,Fecha,Cantidad comprada
343352,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,PACIFICO,2019-01,0.0
343353,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,NORTE,2019-01,0.0
343354,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,OCCIDENTE,2019-01,0.0
343355,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,CENTRO,2019-01,0.0
343356,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,VDM,2019-01,0.0


In [41]:
df_Ene_Abr_2020=df_Base_2.loc[(df_Base_2['Fecha']>='2020-01') & (df_Base_2['Fecha']<='2020-04')]
df_Ene_Abr_2020.head()

Unnamed: 0,FABRICANTE,MARCA,ROLLOS,PRESENTACION UNIF.,DESCRIPCION,TIER,VARIABLE,Formato,Region,Fecha,Cantidad comprada
858380,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,PACIFICO,2020-01,0.0
858381,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,NORTE,2020-01,0.0
858382,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,OCCIDENTE,2020-01,0.0
858383,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,CENTRO,2020-01,0.0
858384,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,VDM,2020-01,0.0


In [16]:
#agrupando los montos a partir de formato
Formato_2019=df_Ene_Abr_2019[['Formato','Cantidad comprada']].groupby(by='Formato').agg('sum').reset_index()
Formato_2019=Formato_2019.rename(columns={'Cantidad comprada':'Compra 2019'})
Formato_2019

Unnamed: 0,Formato,Compra 2019
0,AUTO1,482311.0
1,AUTO2,1363258.875
2,AUTO3,683873.0
3,AUTO4,32642.125
4,AUTO5,233637.625
5,RESTO,1890107.125


In [17]:
Formato_2020=df_Ene_Abr_2020[['Formato','Cantidad comprada']].groupby(by='Formato').agg('sum').reset_index()
Formato_2020=Formato_2020.rename(columns={'Cantidad comprada':'Compra 2020'})
Formato_2020

Unnamed: 0,Formato,Compra 2020
0,AUTO1,491805.875
1,AUTO2,1337111.75
2,AUTO3,649221.75
3,AUTO4,26075.875
4,AUTO5,225819.0
5,RESTO,1903169.0


In [18]:
Formato_comparativa=Formato_2019.merge(Formato_2020,on='Formato',how='inner')
Formato_comparativa['Cambio en ventas']=Formato_comparativa['Compra 2020']-Formato_comparativa['Compra 2019']
Formato_comparativa.loc[Formato_comparativa['Cambio en ventas']>0,'Observaciones']='Incrementó la compra'
Formato_comparativa.loc[Formato_comparativa['Cambio en ventas']<0,'Observaciones']='Disminuyó la compra'
Formato_comparativa=Formato_comparativa.sort_values(by='Cambio en ventas')
Formato_comparativa

Unnamed: 0,Formato,Compra 2019,Compra 2020,Cambio en ventas,Observaciones
2,AUTO3,683873.0,649221.75,-34651.25,Disminuyó la compra
1,AUTO2,1363258.875,1337111.75,-26147.125,Disminuyó la compra
4,AUTO5,233637.625,225819.0,-7818.625,Disminuyó la compra
3,AUTO4,32642.125,26075.875,-6566.25,Disminuyó la compra
0,AUTO1,482311.0,491805.875,9494.875,Incrementó la compra
5,RESTO,1890107.125,1903169.0,13061.875,Incrementó la compra


In [44]:
#calculando market share por formato
tmp = (df_Base_2
       .groupby(['Fecha','Formato','Region'], as_index=False)['Cantidad comprada']
       .sum())

tmp['Market Share'] = (
    tmp['Cantidad comprada'] /
    tmp.groupby('Fecha')['Cantidad comprada'].transform('sum')
)

market_share = tmp[['Fecha','Formato','Market Share']]

In [45]:
tmp

Unnamed: 0,Fecha,Formato,Region,Cantidad comprada,Market Share
0,2018-05,AUTO1,CENTRO,28839.000,0.028312
1,2018-05,AUTO1,NORTE,13688.750,0.013438
2,2018-05,AUTO1,OCCIDENTE,21206.750,0.020819
3,2018-05,AUTO1,PACIFICO,7478.750,0.007342
4,2018-05,AUTO1,SURESTE,25024.250,0.024567
...,...,...,...,...,...
835,2020-04,RESTO,NORTE,118833.625,0.121550
836,2020-04,RESTO,OCCIDENTE,34107.875,0.034888
837,2020-04,RESTO,PACIFICO,86638.000,0.088619
838,2020-04,RESTO,SURESTE,73278.125,0.074953


In [21]:
#df_Base_1
pivote_Formato_Region=pd.pivot_table(df_Base_1,index=['Formato'],
                                     columns=['Region'],
                                     values='Cantidad comprada',aggfunc='sum')
pivote_Formato_Region

Region,CENTRO,NORTE,OCCIDENTE,PACIFICO,SURESTE,VDM
Formato,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
AUTO1,788401.125,392555.5,605040.0,232239.875,711658.625,102841.875
AUTO2,1508966.5,1215057.25,1353149.375,632740.625,1339634.75,1985320.625
AUTO3,531036.625,653104.75,754643.5,445727.25,451315.25,1199986.25
AUTO4,27268.0,5053.75,22422.75,,14510.375,116625.875
AUTO5,128516.125,408029.875,292470.75,41237.375,45521.25,421844.0
RESTO,1143925.25,3365357.125,1061060.0,2301561.125,2220741.125,1603114.375


In [22]:
ventas = (df_Base_1.groupby(['Formato','Region','Fecha'])['Cantidad comprada']
          .sum()
          .reset_index())
ventas

Unnamed: 0,Formato,Region,Fecha,Cantidad comprada
0,AUTO1,CENTRO,2018-05,28839.000
1,AUTO1,CENTRO,2018-06,36717.125
2,AUTO1,CENTRO,2018-07,29252.750
3,AUTO1,CENTRO,2018-08,30340.875
4,AUTO1,CENTRO,2018-09,38441.750
...,...,...,...,...
835,RESTO,VDM,2019-12,71863.250
836,RESTO,VDM,2020-01,55514.500
837,RESTO,VDM,2020-02,56804.000
838,RESTO,VDM,2020-03,73925.250


In [23]:
ventas_inicio = ventas.groupby(['Formato','Region']).first().reset_index()
ventas_fin = ventas.groupby(['Formato','Region']).last().reset_index()

#haciendo merge en ambas fuentes
comparacion=ventas_inicio.merge(ventas_fin,on=['Formato','Region'],suffixes=('_inicial','_final'))
comparacion['diferencia']=comparacion['Cantidad comprada_final']-comparacion['Cantidad comprada_inicial']

top_5_peores=comparacion.nsmallest(5,'diferencia')
top_5_peores

Unnamed: 0,Formato,Region,Fecha_inicial,Cantidad comprada_inicial,Fecha_final,Cantidad comprada_final,diferencia
17,AUTO3,VDM,2018-05,47100.25,2020-04,37945.625,-9154.625
11,AUTO2,VDM,2018-05,79974.375,2020-04,71558.5,-8415.875
8,AUTO2,OCCIDENTE,2018-05,52882.25,2020-04,45050.875,-7831.375
6,AUTO2,CENTRO,2018-05,58625.75,2020-04,51134.625,-7491.125
10,AUTO2,SURESTE,2018-05,48709.875,2020-04,43663.375,-5046.5


In [24]:
#realizando el ejercicio de la parte 3
ultimas_fechas=df_Base_1['Fecha'].max()
prod10_masVendidos=(df_Base_1.loc[df_Base_1['Fecha']==ultimas_fechas].groupby('DESCRIPCION')['Cantidad comprada'].sum())
prod10_masVendidos=prod10_masVendidos.nlargest(10).reset_index()


In [25]:
prod10_masVendidos.loc[prod10_masVendidos['DESCRIPCION']!='CONTROLLED LABEL']

Unnamed: 0,DESCRIPCION,Cantidad comprada
1,KBB SUAVELASTIC MAX ET 5 JUMBO 60PZAS 75019434...,35627.375
2,KLEEN BEBE SUAVELASTIC MAX PANAL EXTRA JUMBO T...,31926.125
3,HUGGIES ULTRACONFORT PANAL ETAPA 6 NINO BSA 60...,27874.375
4,KLEENBEBE MOVILASTIC E6 XJ 40 PZAS 7506425603251,26140.75
5,CHICOLASTIC KIDDIES ANTIFUGAS ETAPA 5 BOLSA 40...,26075.125
6,HUGGIES ULTRACONFORT PANAL ETAPA 6 NINA BSA 60...,24970.375
7,HUGGIES ALL AROUND PANAL ETAPA 6 UNISEX BOLSA ...,23935.625
8,CHICOLASTIC KIDDIES ANTIFUGAS ET6 BOLSA 40 PAN...,22618.875
9,KBB SUAVELASTIC MAX ET 4 GRANDE 60PZAS 7501943...,21431.125


In [26]:
#CALCULANDO EL PRECIO DE LOS PRODUCTOS
ventas=df_Base_1.loc[df_Base_1['VARIABLE']=='VENTAS EN VALOR (in 000 PESOS)']
unidades=df_Base_1.loc[df_Base_1['VARIABLE']=='VENTAS EN UNIDADES (in 000)']
#uniendo las nuevas bases
precio_final=ventas.merge(unidades,on=['MARCA','DESCRIPCION','Fecha','Formato','Region'],suffixes=("_precio",'_unidad'))
precio_final=precio_final.loc[precio_final['DESCRIPCION']!='CONTROLLED LABEL']
precio_final['PRECIO POR PIEZA']=precio_final['Cantidad comprada_precio']/precio_final['Cantidad comprada_unidad']
precio_final=precio_final.loc[(precio_final['Cantidad comprada_precio']!=float(0)) & (precio_final['Cantidad comprada_unidad']!=float(0))]

#una vez definido los precios en cantidad y unidad, sacamos un top
precio_final_mas_vendidos=precio_final.sort_values(by='Cantidad comprada_precio',ascending=False)
precio_final_mas_vendidos[['DESCRIPCION','Cantidad comprada_precio','Cantidad comprada_unidad','PRECIO POR PIEZA']]

Unnamed: 0,DESCRIPCION,Cantidad comprada_precio,Cantidad comprada_unidad,PRECIO POR PIEZA
307403,KBB SUAVELASTIC MAX ET 5 JUMBO 60PZAS 75019434...,15036.125,87.625,171.596291
483719,CHICOLASTIC KIDDIES ANTIFUGAS ETAPA 5 BOLSA 40...,11032.750,85.250,129.416422
158245,KBB SUAVELASTIC MAX ET 5 JUMBO 60PZAS 75019434...,9608.125,48.500,198.105670
307543,KLEEN BEBE SUAVELASTIC MAX PANAL EXTRA JUMBO T...,9574.750,51.125,187.281174
222160,KBB SUAVELASTIC MAX ET 5 JUMBO 60PZAS 75019434...,9572.625,48.000,199.429688
...,...,...,...,...
209385,CHIQUITIN ETAPA 5 JUMBO BOLSA 5 PZAS 750102860...,0.375,0.125,3.000000
47284,HS RN BOL 5PZ+HS A MIS+HS JABON B+HS TH+EVENFL...,0.250,0.125,2.000000
209387,CHIQUITIN ETAPA 5 JUMBO BOLSA 5 PZAS 750102860...,0.250,0.125,2.000000
340913,NAPYYS CHICO BSA 40 PZS 7501116800841,0.125,0.125,1.000000


In [27]:
##cuales son los productos que mas ventas en monto han perdido
ultimas_fechas=df_Base_1['Fecha'].max()
primeras_fechas=df_Base_1['Fecha'].min()

ventas_inicio=(df_Base_1[df_Base_1['Fecha'] == primeras_fechas]
                 .groupby('DESCRIPCION')['Cantidad comprada'].sum()
                 .reset_index(name='ventas_inicio'))
ventas_fin=(df_Base_1[df_Base_1['Fecha'] == ultimas_fechas]
              .groupby('DESCRIPCION')['Cantidad comprada'].sum()
              .reset_index(name='ventas_fin'))

In [28]:
#################COMPÁRATIVA PRODUCTO
comparativa=ventas_inicio.merge(ventas_fin, on='DESCRIPCION', how='outer').fillna(0)
comparativa['variable absoluta']=comparativa['ventas_fin']-comparativa['ventas_inicio']
comparativa['variable porcentual']=(comparativa['variable absoluta']/comparativa['ventas_inicio'])*100
comparativa['variable porcentual']=comparativa['variable porcentual'].replace(np.inf,100)
top_perdidas_ventas=comparativa.nsmallest(10,"variable absoluta")
top_perdidas_ventas

Unnamed: 0,DESCRIPCION,ventas_inicio,ventas_fin,variable absoluta,variable porcentual
600,KLEEN BEBE SUAVELASTIC MAX PANAL EXTRA JUMBO T...,42698.875,31926.125,-10772.75,-25.229587
282,CHICOLASTIC KIDDIES JUMBO T5 BSA 80PZ 00131170...,16920.625,6976.125,-9944.5,-58.77147
532,KBB SUAVELASTIC MAX ET 4 GRANDE 60PZAS 7501943...,31055.375,21431.125,-9624.25,-30.99061
533,KBB SUAVELASTIC MAX ET 5 JUMBO 60PZAS 75019434...,44242.25,35627.375,-8614.875,-19.472054
477,HUGGIES ULTRACONFORT PANAL ETAPA 4 NINA BSA 60...,20090.625,12976.125,-7114.5,-35.412039
515,KBB COMODISEC E5 JUMBO BOLSA 60 PZAS 750642560...,19601.0,12609.375,-6991.625,-35.669736
478,HUGGIES ULTRACONFORT PANAL ETAPA 4 NINO BSA 60...,16087.25,9566.5,-6520.75,-40.533652
285,CHICOLASTIC KIDDIES PANALES GRANDE ET4 NINO BS...,9069.5,3276.625,-5792.875,-63.872044
402,HUGGIES SUPREME PANAL ETAPA 1 38PZA 7501943416864,9861.0,4627.0,-5234.0,-53.077781
193,CHICOLASTIC BB TIPS ETAPA 5 BOLSA 62 PANALES N...,21006.375,15850.125,-5156.25,-24.54612


In [29]:
#marcas con mas perdidas
ventas_inicio_fab = (df_Base_1[df_Base_1['Fecha'] == primeras_fechas]
                     .groupby('MARCA')['Cantidad comprada'].sum()
                     .reset_index(name='ventas_inicio'))

ventas_fin_fab = (df_Base_1[df_Base_1['Fecha'] == ultimas_fechas]
                  .groupby('MARCA')['Cantidad comprada'].sum()
                  .reset_index(name='ventas_fin'))



In [30]:
comparacion_fab = ventas_inicio_fab.merge(ventas_fin_fab, on='MARCA', how='outer').fillna(0)
comparacion_fab['variacion_abs'] = comparacion_fab['ventas_fin'] - comparacion_fab['ventas_inicio']
comparacion_fab['variacion_pct'] = (comparacion_fab['variacion_abs'] / comparacion_fab['ventas_inicio'].replace(0,1))*100

top5_fab = comparacion_fab.nsmallest(5, 'variacion_abs')

In [31]:
comparativa['participacion_inicio'] = (
    comparativa['ventas_inicio'] / comparativa['ventas_inicio'].sum()
)
# Filtrar solo los que decrecen
perdidas_relevantes = comparativa[comparativa['variable absoluta'] < 0]
# Ordenar por participación inicial y pérdida
top5_relevantes = perdidas_relevantes.sort_values(
    by=['participacion_inicio','variable absoluta'], ascending=[False, True]
).head(5)

In [32]:
top5_relevantes

Unnamed: 0,DESCRIPCION,ventas_inicio,ventas_fin,variable absoluta,variable porcentual,participacion_inicio
533,KBB SUAVELASTIC MAX ET 5 JUMBO 60PZAS 75019434...,44242.25,35627.375,-8614.875,-19.472054,0.043433
600,KLEEN BEBE SUAVELASTIC MAX PANAL EXTRA JUMBO T...,42698.875,31926.125,-10772.75,-25.229587,0.041918
532,KBB SUAVELASTIC MAX ET 4 GRANDE 60PZAS 7501943...,31055.375,21431.125,-9624.25,-30.99061,0.030488
482,HUGGIES ULTRACONFORT PANAL ETAPA 6 NINO BSA 60...,30136.625,27874.375,-2262.25,-7.506647,0.029586
481,HUGGIES ULTRACONFORT PANAL ETAPA 6 NINA BSA 60...,27456.625,24970.375,-2486.25,-9.055192,0.026955


In [33]:
#incluyendo fabricante para el ejercicio 3.4
df_Base_2=df_Base.melt(id_vars=['FABRICANTE','MARCA','ROLLOS','PRESENTACION UNIF.','DESCRIPCION','TIER ','VARIABLE','Formato','Region'],
                       value_vars=columnas_fechas,
                       var_name='Fecha',
                       value_name='Cantidad comprada')

In [34]:
ventas_inicio_fab = (df_Base_2[df_Base_1['Fecha'] == primeras_fechas]
                     .groupby('FABRICANTE')['Cantidad comprada'].sum()
                     .reset_index(name='ventas_inicio'))

ventas_fin_fab = (df_Base_2[df_Base_2['Fecha'] == ultimas_fechas]
                  .groupby('FABRICANTE')['Cantidad comprada'].sum()
                  .reset_index(name='ventas_fin'))
comparacion_fab = ventas_inicio_fab.merge(ventas_fin_fab, on='FABRICANTE', how='outer').fillna(0)
comparacion_fab['variacion_abs'] = comparacion_fab['ventas_fin'] - comparacion_fab['ventas_inicio']
comparacion_fab['variacion_pct'] = (comparacion_fab['variacion_abs'] / comparacion_fab['ventas_inicio'].replace(0,1))*100

top5_fab = comparacion_fab.nsmallest(5, 'variacion_abs')
top5_fab

Unnamed: 0,FABRICANTE,ventas_inicio,ventas_fin,variacion_abs,variacion_pct
6,MABESA,280580.875,240580.75,-40000.125,-14.256184
7,OTHERS FABRICANTE UNIF.,29757.125,19449.625,-10307.5,-34.638763
4,KIMBERLY-CLARK,610877.75,606106.0,-4771.75,-0.78113
9,THE HONEST CO.,79.5,6.25,-73.25,-92.138365
5,LAMBI,2684.25,2683.0,-1.25,-0.046568


In [35]:
df_Base_2.to_csv(os.path.join(path2,'Base_Nielsen_DESPIVOTE_2.csv'),index=False)

In [36]:
df_Base_2.to_excel(os.path.join(path2,'Base_Nielsen_DESPIVOTE_2.xlsx'),index=False)

In [37]:
df_Base_2

Unnamed: 0,FABRICANTE,MARCA,ROLLOS,PRESENTACION UNIF.,DESCRIPCION,TIER,VARIABLE,Formato,Region,Fecha,Cantidad comprada
0,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,PACIFICO,2018-05,0.000
1,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,NORTE,2018-05,0.000
2,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,OCCIDENTE,2018-05,0.000
3,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,CENTRO,2018-05,0.000
4,ARTICULOS HIGIENICOS,NAPYYS,PANAL,31-50,NAPYYS CHICO BSA 40 PZS 7501116800841,LOW,VENTAS EN VALOR (in 000 PESOS),AUTO1,VDM,2018-05,0.000
...,...,...,...,...,...,...,...,...,...,...,...
1030051,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,,VENTAS EN UNIDADES (in 000),RESTO,NORTE,2020-04,45.500
1030052,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,,VENTAS EN UNIDADES (in 000),RESTO,OCCIDENTE,2020-04,11.625
1030053,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,,VENTAS EN UNIDADES (in 000),RESTO,CENTRO,2020-04,8.250
1030054,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,CONTROLLED LABEL,,VENTAS EN UNIDADES (in 000),RESTO,VDM,2020-04,12.500


In [38]:
np.sum(df_Base_2['Cantidad comprada'])

np.float64(28122678.875)

In [52]:
# Asegurar que la fecha es datetime
df_Base_2["Fecha"] = pd.to_datetime(df_Base_2["Fecha"], format="%Y-%m")

# Pivotear para separar "VENTAS EN VALOR" y "VENTAS EN UNIDADES"
df_pivot = df_Base_2.pivot_table(
    index=["Fecha", "Formato", "Region", "MARCA", "FABRICANTE", "DESCRIPCION"],
    columns="VARIABLE",
    values="Cantidad comprada",
    aggfunc="sum"
).reset_index()

# Renombrar columnas para más claridad
df_pivot.columns.name = None
df_pivot = df_pivot.rename(columns={
    "VENTAS EN VALOR (in 000 PESOS)": "Ventas_valor",
    "VENTAS EN UNIDADES (in 000)": "Ventas_unidades"
})

# Ahora puedes calcular Market Share en valor o en unidades:
df_pivot["Total_valor_mes"] = df_pivot.groupby("Fecha")["Ventas_valor"].transform("sum")
df_pivot["Market_share_valor"] = df_pivot["Ventas_valor"] / df_pivot["Total_valor_mes"]

df_pivot["Total_unidades_mes"] = df_pivot.groupby("Fecha")["Ventas_unidades"].transform("sum")
df_pivot["Market_share_unidades"] = df_pivot["Ventas_unidades"] / df_pivot["Total_unidades_mes"]

# Variación mes a mes (ejemplo con ventas en valor)
df_pivot["Var_abs_valor"] = df_pivot.groupby("Formato")["Ventas_valor"].diff().fillna(0)
df_pivot["Var_pct_valor"] = df_pivot.groupby("Formato")["Ventas_valor"].pct_change()
df_pivot['Var_pct_valor']=df_pivot['Var_pct_valor'].fillna(0).replace(np.inf,0)

In [54]:
df_pivot.to_excel(os.path.join(path2,'Base_Nielsen_DESPIVOTE_agrupado.xlsx'),index=False)