# Presentación de Proyecto

### Introducción y contexto

El cliente es el jefe del área de Revenue Management, de una empresa multinacional proveedora del sector de Consumo Masivo del mercado interno de Argentina. La empresa comercializa en distintas familias del sector con una estrategia multi marca, y son líderes o segundos en la mayoría de los mercados en los que opera, basado en estudios de Market Share.

El cliente viene liderando su estrategia de precios mediante una combinación de ajustes por inflación, y un análisis de precios por producto en relación a la competencia que consideran el sustituto directo. No obstante, en este último año esta estrategia no está mostrando ser efectiva.

### Objetivo

El cliente nos contrata para:
   1. Obtener una lista del producto competidor de cada uno de sus productos (hasta dos por producto), medidos por la sensibilidad de la demanda de los productos propios ante un cambio en el precio relativo de los mismos.
   2. Desarrollar un modelo predictivo para obtener la sensibilidad esperada entre el precio y la demanda de sus productos y sus competidores. Comprender si esta sensibilidad varía en contextos de mayor o menor inflación en cada producto.

# Data Acquisition

### Acerca del dataset

Para realizar el estudio, el cliente nos proporciona un dataset de una consultora privada contratada, con datos de los últimos meses de ventas en facturación y cantidad de distintos puntos de venta en Argentina, de productos propios y de la competencia. Los principales datos sensibles han sido anonimizados.

El dataset principal de Ventas Retail es compartido con la siguiente estructura:

    Archivo AR_VTA... : Archivo de Cantidad y Facturación vendida, con nivel de granularidad cliente-producto cerrado por semana.
    Al realizar una unión de los archivos VTA pueden haber registros duplicados, ya que cada archivo individual suele incluir información de más de una semana por archivo, debido al proceso interno de la consultora.

    Archivo AR_PRD : Archivo maestro de Productos (También denominados 'SKUs'), correspondientes a los datos del archivo AR_VTA del .zip correspondiente.
    Al ser el archivo maestro de Productos de sólo el .zip correspondiente, al realizar una unión de todos los maestros, es posible que hayan registros duplicados.
        
    Archivo AR_PDV : Archivo maestro de Clientes (También denominados 'PDVs'), correspondientes a los datos del archivo AR_VTA del .zip correspondiente.
    Similar al caso anterior, al realizar una unión de todos los maestros, es posible que hayan registros duplicados.

El dataset original suele ser subido en un servidor FTP, en distintos archivos de extensión .zip , cada uno de ellos con un archivo AR_VTA , AR_PRD , y AR_PDV . Hemos subido una serie de archivos .zip anonimizados a nuestro github para realizar el data wrangling de la manera más fiel al caso real.

### Metadatos
    Descripción breve de cada uno de los campos del dataset.

#### Maestro productos:
    CODIGO_BARRAS_SKU: Código de barras identificatorio del producto (datos anonimizados).
    CATEGORIA_SKU: Categoría correspondiente al producto (datos anonimizados).
    MARCA_SKU: Marca correspondiente al producto (datos anonimizados).
    PROVEEDOR_SKU: Proveedor correspondiente al producto (datos anonimizados). Agrupación uno a varios entre Proveedor y Marca.
    KILOS_POR_UNIDAD_SKU: Kilos por unidad del producto.

#### Maestro productos:
    CODIGO_UNICO_PDV: Código identificatorio del cliente (datos anonimizados).
    ZONA_P, ZONA_MODELO_B, AREA_P: Agrupaciones de CODIGO_UNICO_PDV, desde la mayor granularidad a la menor de manera correspondiente.
    CLUSTER_PDV: Tipo de cliente, p.e. Autoservicio, Almacén, etc.

### Carga del dataset

In [115]:
#Importar librerías
import pandas as pd
import matplotlib.pyplot as plt
import requests
import zipfile
import io
import datetime

##### Listado de archivos .zip

In [2]:
# URL de la API de GitHub para listar los contenidos del directorio
api_url = 'https://api.github.com/repos/Hart-Hunt/Nuevo-BTC/contents/Dataset'

# Encabezados de la solicitud (opcional: agrega tu token de acceso personal si tienes problemas de tasa de solicitud)
headers = {
    'Accept': 'application/vnd.github.v3+json',
    # 'Authorization': 'token YOUR_PERSONAL_ACCESS_TOKEN'  # Opcional: usar token si es necesario
}

# Realizar la solicitud a la API de GitHub
response = requests.get(api_url, headers=headers)
response.raise_for_status()  # Lanzar un error si la solicitud falla

# Filtrar la lista de archivos para obtener solo los archivos ZIP
zip_files = [file_info['name'] for file_info in response.json() if file_info['name'].endswith('.zip')]

# Ordenar el listado de archivos en orden alfabético descendiente
zip_files.sort(reverse=True)

# URL base para descargar los archivos ZIP
base_url = 'https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/'

print("Archivos zip: ")
print(zip_files)

Archivos zip: 
['VENTAS_SEMANAL_20240615.zip', 'VENTAS_SEMANAL_20240608.zip', 'VENTAS_SEMANAL_20240601.zip', 'VENTAS_SEMANAL_20240525.zip', 'VENTAS_SEMANAL_20240518.zip', 'VENTAS_SEMANAL_20240511.zip', 'VENTAS_SEMANAL_20240504.zip', 'VENTAS_SEMANAL_20240427.zip', 'VENTAS_SEMANAL_20240420.zip', 'VENTAS_SEMANAL_20240413.zip', 'VENTAS_SEMANAL_20240406.zip', 'VENTAS_SEMANAL_20240330.zip', 'VENTAS_SEMANAL_20240323.zip', 'VENTAS_SEMANAL_20240316.zip', 'VENTAS_SEMANAL_20240309.zip']


La consultora nos ha informado que dentro de sus procesos internos, pueden realizar limpieza de sus datos, y que los archivos maestros más recientes tengan datos más validados, y/o con información en mayor cantidad de campos de sus clientes y/o productos.


Por esto último, se ordenaron los archivos de manera alfabética descendiente. Luego, en cada dataset se eliminarán registros duplicados para conservar sólo el más reciente de los mismos, que por proceso debe de ser el que tenga la mejor información disponible.

##### Descarga archivos base PDV

In [3]:
print("Descargando Base PDV...")

# Lista para almacenar los DataFrames
dataframes = []

# Descargar y descomprimir cada archivo ZIP
for zip_file in zip_files:
    zip_url = base_url + zip_file
    response = requests.get(zip_url)
    
#     print(f"Descargando {zip_file} desde {zip_url}")
    
    with zipfile.ZipFile(io.BytesIO(response.content)) as z:
#         print(f"Archivos en {zip_file}: {z.namelist()}")
        
        for filename in z.namelist():
            if filename.startswith('AR_PDV') and filename.endswith('.csv'):
                print(f"Procesando {filename} desde {zip_url}")
                with z.open(filename) as f:
                    df = pd.read_csv(f, delimiter=',')
                    dataframes.append(df)

# Verificar si se encontraron archivos y se cargaron en dataframes
if not dataframes:
    print("No se encontraron archivos CSV que comiencen con 'AR_PDV'.")
else:
    # Combinar todos los DataFrames en uno solo
    df_PDV_000 = pd.concat(dataframes, ignore_index=True)
    print("Base df_PDV_000 procesada.")

Descargando Base PDV...
Procesando AR_PDV_20240615.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240615.zip
Procesando AR_PDV_20240608.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240608.zip
Procesando AR_PDV_20240601.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240601.zip
Procesando AR_PDV_20240525.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240525.zip
Procesando AR_PDV_20240518.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240518.zip
Procesando AR_PDV_20240511.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240511.zip
Procesando AR_PDV_20240504.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240504.zip
Procesando AR_PDV_20240427.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240427.zip
Procesan

In [4]:
df_PDV_000

Unnamed: 0,CODIGO_UNICO_PDV,AREA_P,ZONA_P,CLUSTER_PDV,ZONA_MODELO_B
0,101890,Interior,MENDOZA INTERIOR,,CUYO
1,9074242,Interior,MENDOZA INTERIOR,,CUYO
2,5770686,Interior,ROSARIO,,LITORAL
3,5349829,Metropolitana,LA PLATA,,SUB SUR
4,8712656,Interior,MENDOZA INTERIOR,Autoservicio Chico,CUYO
...,...,...,...,...,...
27292,889250,Interior,CHACO INTERIOR,Autoservicio Mediano,NEA
27293,3635844,Metropolitana,LA PLATA,Autoservicio Mediano,SUB SUR
27294,867274,Interior,MISIONES POSADAS,Autoservicio Chico,NEA
27295,6775848,Metropolitana,GBA NORTE,Grupo Cadena,SUB NORTE


##### Descarga archivos base SKU

In [5]:
print("Descargando Base SKU...")

# Lista para almacenar los DataFrames
dataframes = []

# Descargar y descomprimir cada archivo ZIP
for zip_file in zip_files:
    zip_url = base_url + zip_file
    response = requests.get(zip_url)
    
#     print(f"Descargando {zip_file} desde {zip_url}")
    
    with zipfile.ZipFile(io.BytesIO(response.content)) as z:
#         print(f"Archivos en {zip_file}: {z.namelist()}")
        
        for filename in z.namelist():
            if filename.startswith('AR_PRD') and filename.endswith('.csv'):
                print(f"Procesando {filename} desde {zip_url}")
                with z.open(filename) as f:
                    df = pd.read_csv(f, delimiter=',')
                    dataframes.append(df)

# Verificar si se encontraron archivos y se cargaron en dataframes
if not dataframes:
    print("No se encontraron archivos CSV que comiencen con 'AR_PRD'.")
else:
    # Combinar todos los DataFrames en uno solo
    df_SKU_000 = pd.concat(dataframes, ignore_index=True)
    print("Base df_SKU_000 procesada.")

Descargando Base SKU...
Procesando AR_PRD_20240615.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240615.zip
Procesando AR_PRD_20240608.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240608.zip
Procesando AR_PRD_20240601.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240601.zip
Procesando AR_PRD_20240525.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240525.zip
Procesando AR_PRD_20240518.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240518.zip
Procesando AR_PRD_20240511.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240511.zip
Procesando AR_PRD_20240504.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240504.zip
Procesando AR_PRD_20240427.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240427.zip
Procesan

In [6]:
df_SKU_000

Unnamed: 0,CODIGO_BARRAS_SKU,CATEGORIA_SKU,MARCA_SKU,PROVEEDOR_SKU,KILOS_POR_UNIDAD_SKU
0,97971498,Lácteos,chefprep,chefprep,0.450
1,95311084,Cuidado de la ropa,economicfeast,economicfeast,0.400
2,90627216,Merienda-Desayuno,chefprep,chefprep,0.112
3,95789929,Merienda-Desayuno,chefprep,chefprep,0.240
4,93691714,Bebidas S/Alcohol,chefprep,chefprep,0.260
...,...,...,...,...,...
5599,99909834,Cuidado Hogar,preparadapro,ricomeal,0.700
5600,96929395,Cuidado Hogar,preparadapro,ricomeal,0.380
5601,91184787,Lácteos,preparadapro,ricomeal,0.190
5602,99474676,Lácteos,preparadapro,ricomeal,0.190


##### Descarga archivos base Ventas

In [7]:
print("Descargando Base Ventas...")

# Lista para almacenar los DataFrames
dataframes = []

# Descargar y descomprimir cada archivo ZIP
for zip_file in zip_files:
    zip_url = base_url + zip_file
    response = requests.get(zip_url)
    
#     print(f"Descargando {zip_file} desde {zip_url}")
    
    with zipfile.ZipFile(io.BytesIO(response.content)) as z:
#         print(f"Archivos en {zip_file}: {z.namelist()}")
        
        for filename in z.namelist():
            if filename.startswith('AR_VTA') and filename.endswith('.csv'):
                print(f"Procesando {filename} desde {zip_url}")
                with z.open(filename) as f:
                    df = pd.read_csv(f, delimiter=',')
                    dataframes.append(df)

# Verificar si se encontraron archivos y se cargaron en dataframes
if not dataframes:
    print("No se encontraron archivos CSV que comiencen con 'AR_VTA'.")
else:
    # Combinar todos los DataFrames en uno solo
    df_VTA_000 = pd.concat(dataframes, ignore_index=True)
    print("Base df_VTA_000 procesada.")

Descargando Base Ventas...
Procesando AR_VTA_20240615.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240615.zip
Procesando AR_VTA_20240608.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240608.zip
Procesando AR_VTA_20240601.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240601.zip
Procesando AR_VTA_20240525.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240525.zip
Procesando AR_VTA_20240518.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240518.zip
Procesando AR_VTA_20240511.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240511.zip
Procesando AR_VTA_20240504.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240504.zip
Procesando AR_VTA_20240427.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240427.zip
Proce

In [8]:
df_VTA_000

Unnamed: 0,Semana_Inicio_Semana,CODIGO_UNICO_PDV_2,Codigo_Barras_SKU,Cantidad_de_Venta,Facturación
0,20240518,6260235,98804537,8,2170992
1,20240525,5490194,98804537,1,550000
2,20240511,3474480,98804537,2,379968
3,20240504,355937,98804537,1,305900
4,20240504,5077901,98804537,2,497998
...,...,...,...,...,...
4037796,20231002,2018004,98978241,2,2580000
4037797,20240219,754452,96856011,3,4769700
4037798,20240226,754452,96856011,4,6359600
4037799,20240212,754452,96856011,1,1589900


#### Eliminación de duplicados
    Como fue explicado arriba, debido a los procesos internos de la consultora, al realizar la unión de los distintos archivos fuente, existe una serie de registros duplicados que debemos tratar.

In [9]:
df_PDV_001 = df_PDV_000.drop_duplicates(subset=['CODIGO_UNICO_PDV'])
print('Maestro PDVs:')
print('Registros dataset original: ',df_PDV_000.shape[0])
print('Registros dataset sin duplicados: ',df_PDV_001.shape[0])

Maestro PDVs:
Registros dataset original:  27297
Registros dataset sin duplicados:  1834


In [10]:
# Pivot Table mostrando relación uno a varios de las agrupaciones de CODIGO_UNICO_PDV
# df_PDV_001.pivot_table(index=['ZONA_P','ZONA_MODELO_B','AREA_P'], columns=None, aggfunc='count', values='CODIGO_UNICO_PDV')

In [11]:
df_SKU_001 = df_SKU_000.drop_duplicates(subset=['CODIGO_BARRAS_SKU'])
print('Maestro SKUs:')
print('Registros dataset original: ',df_SKU_000.shape[0])
print('Registros dataset sin duplicados: ',df_SKU_001.shape[0])

Maestro SKUs:
Registros dataset original:  5604
Registros dataset sin duplicados:  309


In [12]:
df_VTA_001 = df_VTA_000.drop_duplicates(subset=['Semana_Inicio_Semana', 'CODIGO_UNICO_PDV_2', 'Codigo_Barras_SKU'])
print('Maestro Ventas:')
print('Registros dataset original: ',df_VTA_000.shape[0])
print('Registros dataset sin duplicados: ',df_VTA_001.shape[0])

Maestro Ventas:
Registros dataset original:  4037801
Registros dataset sin duplicados:  2187143


#### Combinación de las tablas

In [13]:
# Realizar el merge con el Maestro Clientes
df_VTA_002 = df_VTA_001.merge(df_PDV_001, left_on='CODIGO_UNICO_PDV_2', right_on='CODIGO_UNICO_PDV', how='left')

# Realizar el merge con el Maestro Productos
df_VTA_003 = df_VTA_002.merge(df_SKU_001, left_on='Codigo_Barras_SKU', right_on='CODIGO_BARRAS_SKU', how='left')

#Borrar claves duplicadas en el merge
df_VTA_004 = df_VTA_003.drop(['CODIGO_UNICO_PDV_2', 'Codigo_Barras_SKU'], axis=1)

In [129]:
#Cambiar tipo de datos
df_VTA_005 = df_VTA_004.copy()

df_VTA_005['Semana_Inicio_Semana'] = pd.to_datetime(df_VTA_005['Semana_Inicio_Semana'], format='%Y%m%d')
# df_VTA_005['Semana_Inicio_Semana'] = df_VTA_005['Semana_Inicio_Semana'].astype('|S')

df_VTA_005['Facturación'] = df_VTA_005['Facturación'].str.replace(',', '.').astype(float)
df_VTA_005['CODIGO_UNICO_PDV'] = df_VTA_005['CODIGO_UNICO_PDV'].astype('|S')
df_VTA_005['CODIGO_BARRAS_SKU'] = df_VTA_005['CODIGO_BARRAS_SKU'].astype('|S')

#Se crean columas de KG en lugar de Cantidad_de_Venta, y de precio por kg en lugar de Facturación
df_VTA_005['KG'] = df_VTA_005['Cantidad_de_Venta'] / df_VTA_005['KILOS_POR_UNIDAD_SKU']
df_VTA_005['Precio_KG'] = df_VTA_005['Facturación'] / df_VTA_005['KG']
df_VTA_005 = df_VTA_005.drop(['Cantidad_de_Venta', 'KILOS_POR_UNIDAD_SKU', 'Facturación'], axis=1)

In [131]:
#Columnas del dataset para validar
df_VTA_005.columns

Index(['Semana_Inicio_Semana', 'CODIGO_UNICO_PDV', 'AREA_P', 'ZONA_P',
       'CLUSTER_PDV', 'ZONA_MODELO_B', 'CODIGO_BARRAS_SKU', 'CATEGORIA_SKU',
       'MARCA_SKU', 'PROVEEDOR_SKU', 'KG', 'Precio_KG'],
      dtype='object')

In [132]:
#Primeros y últimos registros del dataset para validar
df_VTA_005.head()

Unnamed: 0,Semana_Inicio_Semana,CODIGO_UNICO_PDV,AREA_P,ZONA_P,CLUSTER_PDV,ZONA_MODELO_B,CODIGO_BARRAS_SKU,CATEGORIA_SKU,MARCA_SKU,PROVEEDOR_SKU,KG,Precio_KG
0,2024-05-18,b'6260235',Metropolitana,C.A.B.A,Supermercado,CAPITAL FEDERAL,b'98804537',Cuidado de la ropa,economicfeast,economicfeast,20.0,1085.496
1,2024-05-25,b'5490194',Interior,MISIONES POSADAS,Grupo Cadena,NEA,b'98804537',Cuidado de la ropa,economicfeast,economicfeast,2.5,2200.0
2,2024-05-11,b'3474480',Interior,SANTA FE INTERIOR,Grupo Cadena,LITORAL,b'98804537',Cuidado de la ropa,economicfeast,economicfeast,5.0,759.936
3,2024-05-04,b'355937',Interior,COSTA ATLANTICA,Grupo Cadena,PCIA BS AS y SUR,b'98804537',Cuidado de la ropa,economicfeast,economicfeast,2.5,1223.6
4,2024-05-04,b'5077901',Metropolitana,GBA SUR,Grupo Cadena,SUB SUR,b'98804537',Cuidado de la ropa,economicfeast,economicfeast,5.0,995.996


In [133]:
#Primeros y últimos registros del dataset para validar
df_VTA_005.tail()

Unnamed: 0,Semana_Inicio_Semana,CODIGO_UNICO_PDV,AREA_P,ZONA_P,CLUSTER_PDV,ZONA_MODELO_B,CODIGO_BARRAS_SKU,CATEGORIA_SKU,MARCA_SKU,PROVEEDOR_SKU,KG,Precio_KG
2187138,2023-09-25,b'2018004',Metropolitana,GBA NORTE,Autoservicio Grande,SUB NORTE,b'98978241',Bebidas S/Alcohol,meriendafit,aquavodka,0.333333,38700.0
2187139,2023-10-30,b'2018004',Metropolitana,GBA NORTE,Autoservicio Grande,SUB NORTE,b'98978241',Bebidas S/Alcohol,meriendafit,aquavodka,1.333333,38700.0
2187140,2023-10-09,b'2018004',Metropolitana,GBA NORTE,Autoservicio Grande,SUB NORTE,b'98978241',Bebidas S/Alcohol,meriendafit,aquavodka,1.333333,38700.0
2187141,2023-10-02,b'2018004',Metropolitana,GBA NORTE,Autoservicio Grande,SUB NORTE,b'98978241',Bebidas S/Alcohol,meriendafit,aquavodka,0.666667,38700.0
2187142,2024-01-01,b'137142',Interior,RIO NEGRO INTERIOR,Supermercado,PCIA BS AS y SUR,b'96856011',Merienda-Desayuno,menupreparado,aquavodka,1.25,25948.48


In [134]:
df_VTA_005.shape

(2187143, 12)

In [135]:
df_VTA_005.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2187143 entries, 0 to 2187142
Data columns (total 12 columns):
 #   Column                Dtype         
---  ------                -----         
 0   Semana_Inicio_Semana  datetime64[ns]
 1   CODIGO_UNICO_PDV      |S21          
 2   AREA_P                object        
 3   ZONA_P                object        
 4   CLUSTER_PDV           object        
 5   ZONA_MODELO_B         object        
 6   CODIGO_BARRAS_SKU     |S21          
 7   CATEGORIA_SKU         object        
 8   MARCA_SKU             object        
 9   PROVEEDOR_SKU         object        
 10  KG                    float64       
 11  Precio_KG             float64       
dtypes: bytes168(2), datetime64[ns](1), float64(2), object(7)
memory usage: 254.5+ MB


In [15]:
# # Script para desanonimizar los datos (herramienta interna con archivos locales)


# df = df_VTA_004.copy()

# path_DePara = "C:/Users/easue/Documents/Data Science 2 - Coderhouse/Trabajo Práctico/De_Para.xlsx"
# df_DePara = pd.read_excel(path_DePara, sheet_name='SKU')
# print(list(df_DePara.columns))

# df_Desanon = df.merge(df_DePara, left_on='CODIGO_BARRAS_SKU', right_on='CODIGO_BARRAS_SKU_2', how='left')

# df_Export = df_Desanon.pivot_table(index=['CATEGORIA_SKU_y','NOMBRE_SKU', 'CODIGO_BARRAS_SKU_y'], columns=None, aggfunc='sum', values='Cantidad_de_Venta').reset_index().sort_values(['CATEGORIA_SKU_y','Cantidad_de_Venta'], ascending=[True, False])
# # df = df.reset_index()
# #        .sort_values(['col1','col3'], ascending=[True, False])
# #        .set_index(['col1','col2'])
# df_Export.to_excel(f'/Users/easue/Documents/Data Science 2 - Coderhouse/Trabajo Práctico/Desanon.xlsx', index = False)

In [16]:
# # Filtrar la facturación de "OTRAS MARCAS"
# otras_marcas_facturacion = df_VTA_004[df_VTA_004['MARCA_SKU'] == 'OTRAS MARCAS']['Facturación'].sum()

# # Calcular la facturación del "Resto"
# resto_facturacion = df_VTA_004[df_VTA_004['MARCA_SKU'] != 'OTRAS MARCAS']['Facturación'].sum()

# # Crear un dataframe con los valores para el gráfico de torta
# facturacion_data = pd.DataFrame({
#     'Categoría': ['OTRAS MARCAS', 'Resto'],
#     'Facturación': [otras_marcas_facturacion, resto_facturacion]
# })

# # Crear el gráfico de torta
# plt.figure(figsize=(8, 8))
# plt.pie(facturacion_data['Facturación'], labels=facturacion_data['Categoría'], autopct='%1.1f%%', startangle=140)
# plt.title('Distribución de Facturación entre OTRAS MARCAS y el Resto')
# plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

# # Mostrar el gráfico
# plt.show()

### Exploratory Data Analysis (EDA)
    Análisis de los datos preliminar.

In [108]:
#Valores únicos incluyendo valores Null

dataset = df_VTA_004
for column in list(dataset.loc[:,((dataset.columns != 'CODIGO_BARRAS_SKU') & (dataset.columns != 'CODIGO_UNICO_PDV') & (dataset.columns != 'Semana_Inicio_Semana'))]):
    print('Valores únicos',dataset[column].value_counts(dropna=False))
    print()

Valores únicos Cantidad_de_Venta
1        489396
2        323902
3        220361
4        166871
5        127457
          ...  
5230          1
4287          1
3117          1
10153         1
1425          1
Name: count, Length: 3433, dtype: int64

Valores únicos Facturación
1200,00     6776
1500,00     5842
900,00      5760
1800,00     5748
1100,00     5522
            ... 
16659,66       1
3359,82        1
4988,90        1
8186,71        1
32435,60       1
Name: count, Length: 410691, dtype: int64

Valores únicos AREA_P
Interior         1567123
Metropolitana     620020
Name: count, dtype: int64

Valores únicos ZONA_P
COSTA ATLANTICA          325835
GBA SUR                  208253
SANTA FE INTERIOR        183679
GBA NORTE                143371
CORDOBA INTERIOR         130292
ROSARIO                  129735
GBA OESTE                120806
BUENOS AIRES INTERIOR    103188
BAHIA BLANCA              91458
RIO NEGRO INTERIOR        86710
CORDOBA CAPITAL           76348
C.A.B.A             

Se observan registros nulos en el campo CLUSTER_PDV. También se observan registros en los campos MARCA_SKU y PROVEEDOR_SKU, bajo la leyenda 'OTRAS MARCAS' y 'OTROS PROVEEDORES' respectivamente.