### Objetivo del estudio

El cliente es el jefe del área de Revenue Management, de una empresa multinacional proveedora del sector de Alimentos y Bebidas del mercado interno de Argentina.

El cliente afirma no tener sensibilidad acerca de la relación entre aumentos de precio y el impacto en la demanda de los productos de las categorías que maneja. El mercado en el que trabaja atraviesa aceleraciones y desaceleraciones en la inflación, además de fuertes oscilaciones en el consumo. El cliente no entiende si una variación en el consumo será:
   1. Relativa contra una variación del precio del producto en sí mismo.
   2. Relativa contra una variación del precio vs la inflación en general.
   3. Relativa contra una variación del precio vs la variación de precios de la categoría de productos.

Por otro lado, el cliente reconoce no tener sensibilidad acerca de la elasticidad cruzada de la demanda sobre el precio de la competencia. Su estrategia comercial tiene bien definido el principal producto competidor de cada uno de sus productos, pero no logra reconocer el impacto de la demanda relativo al mismo.

El cliente quiere basar su investigación de mercado en los datos de una consultora que contrata, la cual tiene datos de cantidades y de ventas de productos de las categorías que trabaja.

En este contexto, el cliente te contrata para responder las siguientes preguntas:
1. De las tres variables explicativas planteadas, ¿cuál es la variable que mejor explica una variación en el consumo?
    1. Relativa contra una variación del precio del producto en sí mismo.
    2. Relativa contra una variación del precio vs la inflación en general.
    3. Relativa contra una variación del precio vs la variación de precios de la categoría de productos.

2. Tomando como variable explicativa la respondida arriba, ¿cuál es el impacto esperado de la demanda al aumentar el precio en 1% en cada producto? ¿Este resultado puede variar en contextos de mayor o menor inflación, o de mayor o menor consumo?
3. ¿Cuál es el impacto esperado en la demanda de los productos al aumentar el precio de la competencia directa en 1%? ¿El impacto es similar si la competencia directa en su lugar disminuye el precio en 1%?


### Acerca del dataset de Ventas Retail

El dataset principal de Ventas Retail compartido es subido de manera semanal con la siguiente estructura:

    Archivo AR_VTA... : Archivo de Cantidad y Facturación vendida, con nivel de granularidad cliente-producto cerrado por semana.
    Al realizar una unión de los archivos VTA pueden haber registros duplicados, ya que cada archivo individual suele incluir información de más de una semana por archivo, debido al proceso interno de la consultora.

    Archivo AR_PRD : Archivo maestro de Productos (También denominados 'SKUs'), correspondientes a los datos del archivo AR_VTA del .zip correspondiente.
    Al ser el archivo maestro de Productos de sólo el .zip correspondiente, al realizar una unión de todos los maestros, es posible que hayan registros duplicados.
        
    Archivo AR_PDV : Archivo maestro de Clientes (También denominados 'PDVs'), correspondientes a los datos del archivo AR_VTA del .zip correspondiente.
    Similar al caso anterior, al realizar una unión de todos los maestros, es posible que hayan registros duplicados.

El dataset original suele ser subido en un servidor FTP, en distintos archivos de extensión .zip , cada uno de ellos con un archivo AR_VTA , AR_PRD , y AR_PDV . Hemos subido una serie de archivos .zip anonimizados a nuestro github para realizar el data wrangling de la manera más fiel al caso real.

### Carga del dataset principal de Ventas Retail

In [126]:
import pandas as pd
import matplotlib.pyplot as plt

##### Listado de archivos .zip

In [125]:
import requests
import zipfile
import io

# URL de la API de GitHub para listar los contenidos del directorio
api_url = 'https://api.github.com/repos/Hart-Hunt/Nuevo-BTC/contents/Dataset'

# Encabezados de la solicitud (opcional: agrega tu token de acceso personal si tienes problemas de tasa de solicitud)
headers = {
    'Accept': 'application/vnd.github.v3+json',
    # 'Authorization': 'token YOUR_PERSONAL_ACCESS_TOKEN'  # Opcional: usar token si es necesario
}

# Realizar la solicitud a la API de GitHub
response = requests.get(api_url, headers=headers)
response.raise_for_status()  # Lanzar un error si la solicitud falla

# Filtrar la lista de archivos para obtener solo los archivos ZIP
zip_files = [file_info['name'] for file_info in response.json() if file_info['name'].endswith('.zip')]

# Ordenar el listado de archivos en orden alfabético descendiente
zip_files.sort(reverse=True)

# URL base para descargar los archivos ZIP
base_url = 'https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/'

print("Archivos zip: ")
print(zip_files)

Archivos zip: 
['VENTAS_SEMANAL_20240615.zip', 'VENTAS_SEMANAL_20240608.zip', 'VENTAS_SEMANAL_20240601.zip', 'VENTAS_SEMANAL_20240525.zip', 'VENTAS_SEMANAL_20240518.zip', 'VENTAS_SEMANAL_20240511.zip', 'VENTAS_SEMANAL_20240504.zip', 'VENTAS_SEMANAL_20240427.zip', 'VENTAS_SEMANAL_20240420.zip', 'VENTAS_SEMANAL_20240413.zip', 'VENTAS_SEMANAL_20240406.zip', 'VENTAS_SEMANAL_20240330.zip', 'VENTAS_SEMANAL_20240323.zip', 'VENTAS_SEMANAL_20240316.zip', 'VENTAS_SEMANAL_20240309.zip']


La consultora nos ha informado que dentro de sus procesos internos, pueden realizar limpieza de sus datos, y que los archivos maestros más recientes tengan datos más validados, y/o con información en mayor cantidad de campos de sus clientes y/o productos.


Por esto último, se ordenaron los archivos de manera alfabética descendiente. Luego, en cada dataset se eliminarán registros duplicados para conservar sólo el más reciente de los mismos, que por proceso debe de ser el que tenga la mejor información disponible.

##### Descarga archivos base PDV

In [62]:
print("Descargando Base PDV...")

# Lista para almacenar los DataFrames
dataframes = []

# Descargar y descomprimir cada archivo ZIP
for zip_file in zip_files:
    zip_url = base_url + zip_file
    response = requests.get(zip_url)
    
#     print(f"Descargando {zip_file} desde {zip_url}")
    
    with zipfile.ZipFile(io.BytesIO(response.content)) as z:
#         print(f"Archivos en {zip_file}: {z.namelist()}")
        
        for filename in z.namelist():
            if filename.startswith('AR_PDV') and filename.endswith('.csv'):
                print(f"Procesando {filename} desde {zip_url}")
                with z.open(filename) as f:
                    df = pd.read_csv(f, delimiter=',')
                    dataframes.append(df)

# Verificar si se encontraron archivos y se cargaron en dataframes
if not dataframes:
    print("No se encontraron archivos CSV que comiencen con 'AR_PDV'.")
else:
    # Combinar todos los DataFrames en uno solo
    df_PDV_000 = pd.concat(dataframes, ignore_index=True)
    print("Base df_PDV_000 procesada.")

Descargando Base PDV...
Procesando AR_PDV_20240615.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240615.zip
Procesando AR_PDV_20240608.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240608.zip
Procesando AR_PDV_20240601.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240601.zip
Procesando AR_PDV_20240525.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240525.zip
Procesando AR_PDV_20240518.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240518.zip
Procesando AR_PDV_20240511.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240511.zip
Procesando AR_PDV_20240504.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240504.zip
Procesando AR_PDV_20240427.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240427.zip
Procesan

In [63]:
df_PDV_000

Unnamed: 0,CODIGO_UNICO_PDV,AREA_P,ZONA_P,CLUSTER_PDV,ZONA_MODELO_B
0,101890,Interior,MENDOZA INTERIOR,,CUYO
1,9074242,Interior,MENDOZA INTERIOR,,CUYO
2,5770686,Interior,ROSARIO,,LITORAL
3,5349829,Metropolitana,LA PLATA,,SUB SUR
4,8712656,Interior,MENDOZA INTERIOR,Autoservicio Chico,CUYO
...,...,...,...,...,...
27292,889250,Interior,CHACO INTERIOR,Autoservicio Mediano,NEA
27293,3635844,Metropolitana,LA PLATA,Autoservicio Mediano,SUB SUR
27294,867274,Interior,MISIONES POSADAS,Autoservicio Chico,NEA
27295,6775848,Metropolitana,GBA NORTE,Grupo Cadena,SUB NORTE


##### Descarga archivos base SKU

In [64]:
print("Descargando Base SKU...")

# Lista para almacenar los DataFrames
dataframes = []

# Descargar y descomprimir cada archivo ZIP
for zip_file in zip_files:
    zip_url = base_url + zip_file
    response = requests.get(zip_url)
    
#     print(f"Descargando {zip_file} desde {zip_url}")
    
    with zipfile.ZipFile(io.BytesIO(response.content)) as z:
#         print(f"Archivos en {zip_file}: {z.namelist()}")
        
        for filename in z.namelist():
            if filename.startswith('AR_PRD') and filename.endswith('.csv'):
                print(f"Procesando {filename} desde {zip_url}")
                with z.open(filename) as f:
                    df = pd.read_csv(f, delimiter=',')
                    dataframes.append(df)

# Verificar si se encontraron archivos y se cargaron en dataframes
if not dataframes:
    print("No se encontraron archivos CSV que comiencen con 'AR_PRD'.")
else:
    # Combinar todos los DataFrames en uno solo
    df_SKU_000 = pd.concat(dataframes, ignore_index=True)
    print("Base df_SKU_000 procesada.")

Descargando Base SKU...
Procesando AR_PRD_20240615.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240615.zip
Procesando AR_PRD_20240608.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240608.zip
Procesando AR_PRD_20240601.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240601.zip
Procesando AR_PRD_20240525.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240525.zip
Procesando AR_PRD_20240518.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240518.zip
Procesando AR_PRD_20240511.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240511.zip
Procesando AR_PRD_20240504.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240504.zip
Procesando AR_PRD_20240427.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240427.zip
Procesan

In [65]:
df_SKU_000

Unnamed: 0,CODIGO_BARRAS_SKU,CATEGORIA_SKU,MARCA_SKU,PROVEEDOR_SKU
0,99087187,C340,OTRAS MARCAS,OTROS PROVEEDORES
1,95111198,C340,OTRAS MARCAS,OTROS PROVEEDORES
2,93510361,C158,M1645,P4207
3,97971498,C353,M6800,P9774
4,90452684,C457,OTRAS MARCAS,OTROS PROVEEDORES
...,...,...,...,...
32415,98498281,C749,OTRAS MARCAS,OTROS PROVEEDORES
32416,98877739,C749,OTRAS MARCAS,OTROS PROVEEDORES
32417,96591546,C749,M536,P9514
32418,94233816,C920,M9037,P6496


##### Descarga archivos base Ventas

In [66]:
print("Descargando Base Ventas...")

# Lista para almacenar los DataFrames
dataframes = []

# Descargar y descomprimir cada archivo ZIP
for zip_file in zip_files:
    zip_url = base_url + zip_file
    response = requests.get(zip_url)
    
#     print(f"Descargando {zip_file} desde {zip_url}")
    
    with zipfile.ZipFile(io.BytesIO(response.content)) as z:
#         print(f"Archivos en {zip_file}: {z.namelist()}")
        
        for filename in z.namelist():
            if filename.startswith('AR_VTA') and filename.endswith('.csv'):
                print(f"Procesando {filename} desde {zip_url}")
                with z.open(filename) as f:
                    df = pd.read_csv(f, delimiter=',')
                    dataframes.append(df)

# Verificar si se encontraron archivos y se cargaron en dataframes
if not dataframes:
    print("No se encontraron archivos CSV que comiencen con 'AR_VTA'.")
else:
    # Combinar todos los DataFrames en uno solo
    df_VTA_000 = pd.concat(dataframes, ignore_index=True)
    print("Base df_VTA_000 procesada.")

Descargando Base Ventas...
Procesando AR_VTA_20240615.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240615.zip
Procesando AR_VTA_20240608.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240608.zip
Procesando AR_VTA_20240601.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240601.zip
Procesando AR_VTA_20240525.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240525.zip
Procesando AR_VTA_20240518.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240518.zip
Procesando AR_VTA_20240511.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240511.zip
Procesando AR_VTA_20240504.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240504.zip
Procesando AR_VTA_20240427.csv desde https://github.com/Hart-Hunt/Nuevo-BTC/raw/main/Dataset/VENTAS_SEMANAL_20240427.zip
Proce

In [67]:
df_VTA_000

Unnamed: 0,Semana_Inicio_Semana,CODIGO_UNICO_PDV_2,Codigo_Barras_SKU,Cantidad_de_Venta,Facturación
0,20240518,6260235,98804537,8,2170992
1,20240518,9396116,94870312,9,1350000
2,20240518,1500200,94870312,26,3957543
3,20240511,1422811,95183683,1,100000
4,20240525,9750111,92831741,3,567000
...,...,...,...,...,...
3615557,20230109,1024492,97933774,1,41301
3615558,20230102,3949987,91263083,4,165204
3615559,20230116,7889835,97933774,5,206505
3615560,20230327,9778655,93649198,8,125153


### Metadatos del dataset de Ventas Retail
    Descripción breve de cada uno de los campos del dataset.

#### Maestro productos:
    CODIGO_BARRAS_SKU: Código de barras identificatorio del producto (datos anonimizados).
    CATEGORIA_SKU: Categoría correspondiente al producto (datos anonimizados).
    MARCA_SKU: Marca correspondiente al producto (datos anonimizados).
    PROVEEDOR_SKU: Proveedor correspondiente al producto (datos anonimizados). Agrupación uno a varios entre Proveedor y Marca.

#### Maestro productos:
    CODIGO_UNICO_PDV: Código identificatorio del cliente (datos anonimizados).
    ZONA_P, ZONA_MODELO_B, AREA_P: Agrupaciones de CODIGO_UNICO_PDV, desde la mayor granularidad a la menor de manera correspondiente.
    CLUSTER_PDV: Tipo de cliente, p.e. Autoservicio, Almacén, etc.

### Eliminación de duplicados
    Como fue explicado arriba, debido a los procesos internos de la consultora, al realizar la unión de los distintos archivos fuente, existe una serie de registros duplicados que debemos tratar.

In [123]:
df_PDV_001 = df_PDV_000.drop_duplicates(subset=['CODIGO_UNICO_PDV'])
print('Maestro PDVs:')
print('Registros dataset original: ',df_PDV_000.shape[0])
print('Registros dataset sin duplicados: ',df_PDV_001.shape[0])

Maestro PDVs:
Registros dataset original:  27297
Registros dataset sin duplicados:  1834


In [121]:
# Pivot Table mostrando relación uno a varios de las agrupaciones de CODIGO_UNICO_PDV
# df_PDV_001.pivot_table(index=['ZONA_P','ZONA_MODELO_B','AREA_P'], columns=None, aggfunc='count', values='CODIGO_UNICO_PDV')

In [122]:
df_SKU_001 = df_SKU_000.drop_duplicates(subset=['CODIGO_BARRAS_SKU'])
print('Maestro SKUs:')
print('Registros dataset original: ',df_SKU_000.shape[0])
print('Registros dataset sin duplicados: ',df_SKU_001.shape[0])

Maestro SKUs:
Registros dataset original:  32420
Registros dataset sin duplicados:  2156


In [124]:
df_VTA_001 = df_VTA_000.drop_duplicates(subset=['Semana_Inicio_Semana', 'CODIGO_UNICO_PDV_2', 'Codigo_Barras_SKU'])
print('Maestro Ventas:')
print('Registros dataset original: ',df_VTA_000.shape[0])
print('Registros dataset sin duplicados: ',df_VTA_001.shape[0])

Maestro Ventas:
Registros dataset original:  3615562
Registros dataset sin duplicados:  2755115


### Tratamiento de datos nulos
    Análisis de los datos nulos y su tratamiento, vía imputación o eliminación.

#### Maestro productos:

In [117]:
#Valores únicos incluyendo valores Null

dataset = df_SKU_001
index = 'CODIGO_BARRAS_SKU'
for column in list(dataset.loc[:, dataset.columns != index]):
    print('Valores únicos',dataset[column].value_counts(dropna=False))
    print()

Valores únicos CATEGORIA_SKU
C457    483
C158    361
C749    285
C575    268
C353    262
C920    217
C168    145
C340    135
Name: count, dtype: int64

Valores únicos MARCA_SKU
OTRAS MARCAS    736
M9037           117
M8276            97
M6800            69
M8458            65
               ... 
M1475             1
M660              1
M6358             1
M7775             1
M3095             1
Name: count, Length: 150, dtype: int64

Valores únicos PROVEEDOR_SKU
OTROS PROVEEDORES    774
P4872                327
P6496                135
P9774                 79
P1532                 78
                    ... 
P1084                  1
P2103                  1
P1509                  1
P2285                  1
P3195                  1
Name: count, Length: 76, dtype: int64



El Maestro de productos por un lado no tiene valores nulos en el campo Categoría.

Por otro lado, tiene productos con valores "Otros" en los campos Marca y Proveedor. Estos datos pueden ser considerados como datos nulos. Para entender el impacto de estos datos en el total, veremos la facturación que representan vs el resto de las marcas.

#### Maestro Clientes:

In [128]:
#Valores únicos incluyendo valores Null

dataset = df_PDV_001
index = 'CODIGO_UNICO_PDV'
for column in list(dataset.loc[:, dataset.columns != index]):
    print('Valores únicos',dataset[column].value_counts(dropna=False))
    print()

Valores únicos AREA_P
Interior         1280
Metropolitana     554
Name: count, dtype: int64

Valores únicos ZONA_P
C.A.B.A                   185
CORDOBA INTERIOR          174
COSTA ATLANTICA           131
GBA SUR                   131
CORDOBA CAPITAL           114
GBA NORTE                 112
MENDOZA INTERIOR          104
ROSARIO                   101
SANTA FE INTERIOR          95
GBA OESTE                  93
BUENOS AIRES INTERIOR      79
BAHIA BLANCA               71
TUCUMAN INTERIOR           45
LA PLATA                   33
TUCUMAN CAPITAL            32
SAN JUAN INTERIOR          30
RIO NEGRO INTERIOR         30
SANTA FE CAPITAL           29
SAN JUAN CAPITAL           26
CHACO RESISTENCIA          25
ENTRE RIOS INTERIOR        24
CHACO INTERIOR             22
NEUQUEN                    18
ENTRE RIOS PARANA          18
CORRIENTES CAPITAL         15
CORRIENTES INTERIOR        14
MISIONES INTERIOR          13
MISIONES POSADAS           11
MENDOZA CAPITAL             9
SALTA CAPITAL  

Los clientes parecen encontrarse correctamente clasificados por Zona, pero presentan varios datos nulos enlo que respecta a su clasificación por Clúster. Lidiaremos con estos datos nulos luego de ver su contribución al total de la facturación.

### Combinación de las tablas

In [None]:
# Realizar el merge con el Maestro Clientes
df_VTA_002 = df_VTA_001.merge(df_PDV_001, left_on='CODIGO_UNICO_PDV_2', right_on='CODIGO_UNICO_PDV', how='left')

# Realizar el merge con el Maestro Productos
df_VTA_003 = df_VTA_002.merge(df_SKU_001, left_on='Codigo_Barras_SKU', right_on='CODIGO_BARRAS_SKU', how='left')

#Borrar claves duplicadas en el merge
df_VTA_004 = df_VTA_003.drop(['CODIGO_UNICO_PDV_2', 'Codigo_Barras_SKU'], axis=1)

In [None]:
# # Filtrar la facturación de "OTRAS MARCAS"
# otras_marcas_facturacion = df_VTA_004[df_VTA_004['MARCA_SKU'] == 'OTRAS MARCAS']['Facturación'].sum()

# # Calcular la facturación del "Resto"
# resto_facturacion = df_VTA_004[df_VTA_004['MARCA_SKU'] != 'OTRAS MARCAS']['Facturación'].sum()

# # Crear un dataframe con los valores para el gráfico de torta
# facturacion_data = pd.DataFrame({
#     'Categoría': ['OTRAS MARCAS', 'Resto'],
#     'Facturación': [otras_marcas_facturacion, resto_facturacion]
# })

# # Crear el gráfico de torta
# plt.figure(figsize=(8, 8))
# plt.pie(facturacion_data['Facturación'], labels=facturacion_data['Categoría'], autopct='%1.1f%%', startangle=140)
# plt.title('Distribución de Facturación entre OTRAS MARCAS y el Resto')
# plt.axis('equal')  # Equal aspect ratio ensures that pie is drawn as a circle.

# # Mostrar el gráfico
# plt.show()