---
documentclass: report
output:
  pdf_document:
    keep_tex: no
    pandoc_args: [
      "-H", "preamble.tex"
    ]
header-includes:
  - \usepackage{biblatex}
  - \addbibresource{references.bib}
---

\renewcommand\refname{Bibliografía}
\renewcommand{\contentsname}{Contenido}
\renewcommand{\listfigurename}{Lista de Figuras}
\linespread{1.3}

\begin{titlepage}
    \centering
    \vspace*{2cm}
    \LARGE
    \textbf{Análisis del impacto que tienen las promociones en las ventas de desodorantes en aerosol}
    
    \vspace{1cm}
    \large
    Análisis de las ventas de desodorantes en aerosol en cinco cadenas de supermercados ubicados en Argentina
    
    \vspace{2cm}
    
    \begin{tabular}{c}
        \Large Erika Ortiz \\
        \Large Romina Iglesias \\
        \Large Carme Alegret \\
    \end{tabular}
    
    \vfill
    \large
    Este reporte se presenta como requisito para el Master en Data Science y Advanced Analytics 
    
    \vspace{0.5cm}
    Universitat Internacional de Catalunya\\
    Barcelona, España\\
    Abril 2023
\end{titlepage}

\newpage

\tableofcontents

\newpage

\listoffigures

\newpage

\section{Introducción}

En este trabajo se llevará a cabo un análisis exploratorio de datos de los movimientos de ventas de desodorantes en aerosol y las diferentes promociones aplicadas a los distintos productos. El producto seleccionado para el estudio son los desodorantes en aerosol pertenecientes a la familia de productos de limpieza para el baño y el hogar distribuidos en diferentes supermercados de Argentina.

El análisis se realizará con cadenas de supermercados ubicados en Argentina durante el período del 15 de julio de 2016 al 14 de julio de 2019. El conjunto de datos se compone de cuatro conjuntos de datos: movimientos, promociones, proveedores y productos, y locales, que tienen los siguientes tamaños:


- Movimientos de ventas: 8,347,817 registros
- Promociones: 15,270 registros
- Locales: 175 registros
- Productos y proveedores: 82 registros

En este análisis, se identifaron: 

Cinco cadenas de supermercados: 

- Plaza Vea
- Vea
- Disco
- Jumbo
- Rincón Jumbo
- 2 son puntos de distribuccion: Jumbo y Disco. 

Cuatro proveedores. 

- S.C. Johnson & Son de Argentina S.A. 
- Clorox Argentina S.A.
- Reckitt Benckiser Argentina S.A.
- Industrias Iberia S.A.I.C.

Además, se encontraron 82 referencias de desodorantes en aerosol pertenecientes a la familia Limpieza de Baño y Hogar. 

En resumen, el objetivo de este trabajo es desarrollar un análisis de las ventas de desodorantes en función de las promociones para poder predecir el volumen de ventas. También se identificarán patrones y tendencias en la venta de desodorantes en aerosol y, potencialmente, se brindará información útil a las cadenas de supermercados involucradas para mejorar sus estrategias de ventas.

\newpage

\section{Objetivos}

1. Determinar el efecto de las promociones en las ventas de desodorantes en aerosol a partir del análisis del conjunto de datos disponible desde el 15 de Julio de 2016 hasta  14 de Julio de 2019.

2. Evaluar las ventas de desodorantes en aerosol que no fueron promocionados para identificar patrones y tendencias en la demanda.

3. Desarrollar un modelo predictivo que permita estimar el volumen de ventas de desodorantes en aerosol cuando se implementa una promoción.

4. Establecer una arquitectura adecuada para la creación, mantenimiento y despliegue del modelo predictivo, considerando factores como la escalabilidad y la eficiencia del proceso.

\newpage

\section{Análisis Exploratorio de los Datos}

### Análisis del dataset 

Al realizar la limpieza y análisis preliminar de los diferentes conjuntos de datos, encontramos lo siguiente: 

#### Información Movimientos de ventas 

1. La tabla de movimientos de ventas contiene un total de 8.347.817 registros.

2. Esta tabla es transaccional y registra las ventas realizadas por cada producto, la cantidad vendida en unidades, el stock en unidades, el precio de venta unitario y la fecha de transacción.

3. El conjunto de datos abarca desde el 15 de julio de 2016 hasta el 14 de julio de 2019.

4. El número de registros por año se distribuye de la siguiente manera:

- 2016: 1.177.264
- 2017: 2.343.400
- 2018: 2.914.155
- 2019: 1.912.998

5. No se observan valores faltantes o duplicados en la tabla.

6. Se detectaron 580 registros con valores negativos en la columna venta_unidades.

7. También se observaron 45.483 registros con valores negativos en la columna stock_unidades.

8. El conjunto de datos contiene un total de 92 referencias únicas de desodorantes.

9. En conclusión, este análisis exploratorio de datos permitió identificar características importantes de la tabla de movimientos de ventas y obtener información valiosa para futuros análisis y predicciones del volumen de ventas. Además, se encontraron algunas anomalías en los registros de ventas que podrían requerir una investigación adicional.


#### Información de las promociones realizadas a los productos 

1. Durante el análisis exploratorio de datos se encontraron 268,692 registros duplicados en la tabla de promociones. Tras verificar que estos registros eran efectivamente duplicados, se procedió a eliminarlos del dataset. La tabla de promociones resultante quedó con un total de 15,270 registros y contiene información sobre el identificador del producto, el id de la promoción, la fecha de inicio y final, la cantidad de ventas estimadas y el local en el cual se realizó la promoción. También se realizó un left join con la tabla de movimientos para establecer los movimientos que tengan promociones.

2. El conjunto de datos contiene información sobre promociones realizadas desde el 19 de julio de 2016 hasta el 16 de julio de 2019.

3. Durante la revisión del dataset, se notó que la columna "porcentaje_dcto" que contenía información sobre el descuento aplicado no correspondía a un porcentaje. Al verificar la diferencia entre las fechas de finalización y de inicio de las promociones, se concluyó que la columna hace referencia a la duración de la promoción en días. Por lo tanto, se creó la columna "duracion_promo" calculando el tiempo transcurrido entre la fecha de inicio y la fecha de finalización de la promoción.



#### Información de los Proveedores y descripción de Productos

1. Se puede concluir que en el conjunto de datos hay un total de 82 productos únicos suministrados por cuatro proveedores principales. Todos los productos son desodorantes en aerosol que pertenecen a la categoría de productos de limpieza para el hogar y baño.

2. Para este análisis, se han seleccionado únicamente las columnas de razon social, id del proveedor, id del producto y descripción del producto, eliminando las demás columnas del dataset.  

3. Es importante mencionar que se eliminaron las columnas que no eran relevantes para los objetivos específicos del análisis, tales como la columna de familia, subfamilia y gran familia, ya que todos los productos del dataset corresponden a la misma familia, subfamilia y gran familia. Además, se eliminaron los IDs, ya que solo existía una referencia y no eran relevantes para el análisis.

La agrupación de los productos por gran familia, familia y subfamilia se muestra en la siguiente tabla:

| **desc_sector** | **desc_seccion** | **desc_gran_flia** | **desc_flia**             | **desc_sub_flia**       |
|:---------------:|:----------------:|:------------------:|:-------------------------:|:-----------------------:|
| Almacén         | Limpieza         | Baño y Hogar       | Desodorantes de ambientes | Desodorantes en aerosol |
|                 |                  |                    |                           | **Total productos: 82** |


4. Se encontraron 10 referencias de productos que no tienen correspondencia en la tabla proveedores_productos. La tabla movimientos contiene 92 referencias únicas, mientras que la tabla proveedores_productos solo tiene 82 referencias únicas. Por lo tanto, 10 referencias no tienen información sobre la descripción del producto o la razón social.

5. Según el análisis de la cantidad de desodorantes en aerosol suministrados por proveedor (ver Figura 1), se puede concluir lo siguiente:

\begin{figure}
\centering % imagen centrada
\captionsetup{justification=centering,margin=2cm}
\includegraphics[width=1\textwidth]{images/productos_por_proveedor.png}
\caption{Figura 1.Análisis de la cantidad de desodorantes en aeresol suministrado por proveedor}
Figura 1. Análisis de la cantidad de desodorantes en aeresol suministrado por proveedor
\end{figure}

- S.C. Johnson & Son de Argentina S.A. suministra 50 referencias, lo que representa el 61% de las referencias incluidas en el análisis.
- Clorox Argentina S.A. suministra 21 referencias.
- Reckitt Benckiser Argentina S.A. suministra 10 referencias.
- Industrias Iberia S.A.I.C. suministra 1 referencia.


#### Información de ubicación de Locales 


1. La tabla de locales, contiene la informacion referente a la ubicacion de los locales, contiene las coordenadas y el id de la región. 

2. Se encontraron 35 valores de latitud y longitud que contenían valores nulos y 14 registros con valores en 0.0. Para los valores nulos se rellenaron con el valor medio de las columnas de latitud y longitud, y para los registros con valores en 0.0 se encontraron los valores correspondientes de las coordenadas y se realizaron las imputaciones.

3. Se agruparon las categorías de la columna "desc_cadena" de la siguiente manera ver Figura 2. 

\begin{figure}
\centering % imagen centrada
\captionsetup{justification=centering,margin=2cm}
\includegraphics[width=1\textwidth]{images/porcentaje_locales.png}
\caption{Figura 2. Porcentaje de locales por cadena de supermercado}
Figura 2. Porcentaje de locales por cadena de supermercado
\end{figure}

| **Cadena**   | **Total Locales** |
|:------------:|:-----------------:|
| Vea          | 68                |
| Disco        | 61                |
| Jumbo        | 31                |
| Rincon Jumbo | 10                |
| Plaza Vea    | 5                 |
| Total        | 175               |


4. Como se puede observar, se puede concluir que las cadenas de supermercados Vea y Disco contienen la mayor cantidad de locales, seguidas por las cadenas Jumbo. En último lugar, se encuentran las cadenas de supermercados Plaza Vea.
Sin embargo, se encontró que la mayoría de los movimientos de ventas corresponden a los locales de las cadenas Vea, Disco y Jumbo.

5. El conjunto de datos contiene 6 centros de distribución y 169 locales.

#### Conjunto de Datos Final Merged 

Después de realizar la unión de las tablas de Movimientos, Promociones, Locales y Proveedores_Productos, se concluye lo siguiente:

En total, se tienen 8.356.436 registros y 27 columnas identificadas de la siguiente manera:

**1. Variables numéricas:**

- idb: Identificador interno del local.
- id_producto: Identificador interno del producto.
- fecha_trans: Fecha de la transacción (un día antes de la fecha actual).
- stock_unidades: Número de unidades de producto en el local.
- venta_unidades: Número de unidades vendidas.
- precio_unitario: Precio de venta unitario.
- mov_month.
- mov_year.
- mov_weekday.
- id_cadena: Identificador interno de la cadena.
- id_region: Identificador interno de la región.
- latitud: Ubicación en el eje Y de la boca.
- longitud: Ubicación en el eje X de la boca.
- ventas_estimadas_promo: Estimación de ventas en unidades durante la promoción.
- nro_prom: Número de la promoción.
- duracion_promo: Duración de la promoción (diferencia entre fecha_desde y fecha_hasta).

**2. Variables binarias:**

- cd_abast: Identificador de la ubicación de la tienda que suministra el producto a la ubicación actual.
- sigue_prod_en_rol: Indica si el producto sigue en rol (SI) o no (NO) en la ubicación actual.
- punto_distr: Indica si el valor es 1 que es un centro de distribución, de lo contrario es un local.
- local: Indica si el valor es 1 que es un local, si es 0 no es un local.
- is_weekend.
- tiene_promo.

**3. Variables categóricas:**

- desc_cadena: Tiene 5 subniveles: Plaza Vea, Vea, Jumbo, Disco y Rincón Jumbo.
- dia_semana.
- estación.

**4. Variables string:**

- desc_producto.
- razon_social.

**5. Columnas que se eliminaron:**

- desc_region: Tiene 1 subnivel, el cual es Buenos Aires para todos los registros, lo que indica que solo hay una región para todos. Se decidió eliminarla para el propósito del análisis.
- desc_local: Debido a que no aporta información relevante para el análisis y se dispone de las coordenadas de latitud y longitud.
- fecha_desde: Fecha de inicio de la promoción, ya que se calculó la columna duracion_promo con base en estos resultados.
- fecha_hasta: Fecha de finalización de la promoción.
- Las columnas relacionadas con familia, subfamilia y gran familia, ya que solo teníamos un nivel para todos los productos del dataset, lo que no lo hace relevante para el análisis.

**6. Columnas que se crearon:**

- La duración_promo se refiere a la diferencia de tiempo entre la fecha de inicio y la fecha de finalización de una promoción.

- La variable is_weekend es una variable binaria que toma el valor 1 si el día es fin de semana (sábado o domingo) y 0 si es día entre semana.

- Se crearon las variables mov_year, mov_month y mov_day.

- La variable tiene_promo es una variable binaria que toma el valor 1 si el producto tiene una promoción y 0 si no tiene promoción.

- La variable estacion contiene la clasificación de las estaciones del año (invierno, verano, primavera y otoño). Se establecieron las fechas para cada estación de la siguiente manera:

    - Invierno: del 21 de diciembre al 20 de marzo.
    - Primavera: del 21 de marzo al 20 de junio.
    - Verano: del 21 de junio al 20 de septiembre.
    - Otoño: del 21 de septiembre al 20 de diciembre.

- La variable dia_semana contiene el nombre del día de la semana.

\newpage

### Análisis descriptivo de las ventas de desodorantes 


A continuación, presentamos un análisis descriptivo de las columnas de ventas, precio unitario, ventas estimadas en promociones y duración de la promoción. Para obtener mas detalles veamos la figura.

\begin{figure}
\centering % imagen centrada
\captionsetup{justification=centering,margin=2cm}
\includegraphics[width=0.5\textwidth]{images/deodorants_stats.png}
\caption{Figura 3. Análisis Descriptivo de los movimientos de desodorantes}
Figura 3. Análisis Descriptivo de los movimientos de desodorantes
\end{figure}

Podemos concluir lo siguiente: 

1. El total medio de unidades en stock es de 21 unidades.
2. El total de ventas en unidades de desodorantes en aerosol es de 0.314 unidades por día.
3. El máximo de ventas de desodorantes en aerosol fue de 612 unidades
4. En promedio, se venden 0.39 unidades diarias de desodorantes en aerosol durante una promoción. 
5. El precio unitario medio de un desodorante en aerosol es de 64 pesos.
6. La duración máxima de una promoción es de 18 días.

\newpage

### Preguntas a Responder 

Para realizar el analisis explotario de datos vamos a responder las siguientes preguntas para definir el impacto de las demás variables en las ventas de desodorantes en aerosol. 

1. ¿Cuáles son los productos con mayor y menor volumen de ventas?
2. ¿Cuáles son los productos con precio unitario por encima y por debajo de la media?
3. ¿En qué local se registra el mayor volumen de ventas y en qué zona se ubica?
4. ¿Hay alguna marca de desodorante que tenga mejor venta en ciertas regiones geográficas?
5. ¿Hay un patrón estacional en las ventas de desodorantes?
6. ¿Cuáles son los desodorantes más vendidos en diferentes cadenas de supermercados?

\newpage

### Análisis de la relación de variables y el efecto en las ventas de desodorantes

#### 1. ¿Cuáles son los productos con mayor y menor volumen de ventas?

**Desodorantes de aerosol más vendidos** 

A continuación se muestra un gráfico que presenta los 10 desodorantes más vendidos durante el período de julio de 2016 hasta julio de 2019.

\begin{figure}
\centering % imagen centrada
\captionsetup{justification=centering,margin=2cm}
\includegraphics[width=1\textwidth]{images/ventas_desodorantes_top10.png}
\caption{Figura 4. Top 10 de desodorantes de ambiente en aerosol con mayor volumen de ventas}
Figura 4. Top 10 desodorantes de ambiente en aerosol con mayor volumen de ventas
\end{figure}

- Podemos concluir que el desodorante más vendido es el producto con el ID 342686 y la descripción "glade desodorante de ambientes lavander nueva formula 751 cc", suministrado por S. C. Johnson. Se vendieron un total de 109531 unidades de este producto.

- El segundo producto más vendido es el producto con el ID 240911 y la descripción "poett ambiental lavanda nuevo d 0.377 kg", suministrado por Clorox Argentina S.A. Se vendieron un total de 100861 unidades de este producto.

**Desodorantes de aerosol menos vendidos** 

El siguiente gráfico presenta los 10 desodorantes menos vendidos durante el período de julio de 2016 hasta julio de 2019.

\begin{figure}
\centering % imagen centrada
\captionsetup{justification=centering,margin=2cm}
\includegraphics[width=1\textwidth]{images/ventas_desodorantes_bot10.png}
\caption{Figura 5. Top 10 desodorantes de ambiente en aerosol con menor volumen de ventas}
Figura 5. Top 10 desodorantes de ambiente en aerosol con menor volumen de ventas
\end{figure}

Observamos que los primeros tres productos con menor volumen de ventas no tienen descripción en la tabla de productos, posiblemente debido a un error en la recopilación de datos. Sin embargo, en cuarto lugar se encuentra el desodorante con id 466069 y descripción "glade toque aromatizante de ambientes campos" del proveedor S.C. Johnson, con un total de 2812 unidades vendidas.

#### 2. ¿Cuáles son los productos con precio unitario por encima y por debajo de la media?



\newpage



\bibliographystyle{plain}
\bibliography{references}
