---
documentclass: report
output:
  pdf_document:
    keep_tex: no
    pandoc_args: [
      "-H", "preamble.tex"
    ]
header-includes:
  - \usepackage{biblatex}
  - \addbibresource{references.bib}
---

\renewcommand\refname{Bibliografía}
\renewcommand{\contentsname}{Contenido}
\renewcommand{\listfigurename}{Lista de Figuras}
\linespread{1.3}

\begin{titlepage}
    \centering
    \vspace*{2cm}
    \LARGE
    \textbf{Análisis del impacto que tienen las promociones en las ventas de desodorantes en aerosol}
    
    \vspace{1cm}
    \large
    Análisis de las ventas de desodorantes en aerosol en cinco cadenas de supermercados ubicados en Argentina
    
    \vspace{2cm}
    
    \begin{tabular}{c}
        \Large Erika Ortiz \\
        \Large Romina Iglesias \\
        \Large Carme Alegret \\
    \end{tabular}
    
    \vfill
    \large
    Este reporte se presenta como requisito para el Master en Data Science y Advanced Analytics 
    
    \vspace{0.5cm}
    Universitat Internacional de Catalunya\\
    Barcelona, España\\
    Abril 2023
\end{titlepage}

\newpage

\tableofcontents

\newpage

\listoffigures

\newpage

\section{Introducción}

En el presente trabajo, se llevará a cabo un análisis de datos provenientes de diversas fuentes. El conjunto de datos se compone de cuatro datasets: uno que contiene información de productos y proveedores, otro con los movimientos de ventas registrados por fecha, una tabla con los datos de las promociones realizadas y, por último, un dataset con la información de los locales, que incluye su ubicación y su tipo (punto de distribución o local). El objetivo es analizar tendencias y patrones, realizar un análisis descriptivo de los datos, diseñar una arquitectura para la implementación del modelo y crear un modelo predictivo para estimar el volumen de ventas en función de las promociones y otros factores.

En este análisis se identificaron cinco cadenas de supermercados involucradas las cuales dos son puntos de distribuccion.  

- Plaza Vea
- Vea
- Disco
- Jumbo
- Rincón Jumbo

El producto seleccionado para el estudio son los desodorantes en aerosol pertenecientes a la familia de productos de Limpieza para el baño y el hogar.

Los datasets utilizados en este análisis son de tamaño considerable:

- Productos y proveedores: 82 registros
- Movimientos de ventas: 8.347.817 registros
- Promociones: 15.270 registros
- Locales: 175 registros

En resumen, este trabajo tiene como objetivo desarrollar un análisis de las ventas de desodorantes en función de las promociones para poder predecir el volumen de ventas. 

Igualmente vamos a identificar patrones y tendencias en la venta de desodorantes en aerosol y, potencialmente, brindar información útil a las cadenas de supermercados involucradas para mejorar sus estrategias de ventas.


\newpage

\section{Objetivos}

1. Determinar el efecto de las promociones en las ventas de desodorantes en aerosol a partir del análisis del conjunto de datos disponible desde el 15 de Julio de 2016 hasta  14 de Julio de 2019.

2. Evaluar las ventas de desodorantes en aerosol que no fueron promocionados para identificar patrones y tendencias en la demanda.

3. Desarrollar un modelo predictivo que permita estimar el volumen de ventas de desodorantes en aerosol cuando se implementa una promoción.

4. Establecer una arquitectura adecuada para la creación, mantenimiento y despliegue del modelo predictivo, considerando factores como la escalabilidad y la eficiencia del proceso.

\newpage

\section{Análisis Exploratorio de Datos}

### Análisis del dataset 

Al realizar la unión de los diferentes conjuntos de datos, encontramos lo siguiente: 

#### Dataset principal Movimientos de ventas 

- La tabla maestra es la tabla movimientos de ventas que es un tabla transaccional que contiene las ventas registradas por cada producto, la cantidad vendida en unidades y el stock en unidades, igualmente contiene el precio de venta unitario.   

- Esta tabla contiene 8.347.817 de registros

#### Información de las promociones realizadas a los productos 

- La tabla de promociones contiene 15.270 registros, los cuales contienen el identificador del producto, el id de la promocion, la fecha de inicio y final, la cantidad de ventas estimadas y el local en el cual se realizo la promoción, se realizo un left join con la tabla movimientos para establecer los movimientos que tengan promociones.  

- El conjunto de datos contiene información sobre promociones realizadas desde el 19 de julio de 2016 hasta el 16 de julio de 2019.

Minimum date: 2016-07-19 00:00:00
Maximum date: 2019-07-16 00:00:00

- Después de analizar los datos, hemos encontrado 268,692 registros duplicados en la tabla de promociones. Estos registros tienen la misma información, excepto por la fecha de transacción. Como esta información no es relevante en este caso, la hemos eliminado de nuestro conjunto de datos.


- También hemos notado que la columna "porcentaje_dcto" que contiene el dataset segun el mapping no corresponde a un porcentaje, procedimos a verificar sacando la diferencia de entre fecha hasta-fecha desde y nos dan los mismo valores, por lo cual concluimos que el porcentaje no esta en el dataset sino hace referencia a la duracion de la promoción. La columna "duracion_promo" se ha creado calculando el tiempo transcurrido entre la fecha de inicio y la fecha de finalización de la promoción.



#### Información de los Proveedores y descripción de Productos

- Podemos concluir que el conjunto de datos contiene un total de 82 productos únicos que son suministrados por cuatro proveedores principales. En su mayoría, estos productos pertenecen a la categoría de desodorantes en aerosol, que se encuentra dentro de la familia de desodorantes de ambientes clasificados como productos de limpieza para el baño y hogar.

- En función de los objetivos específicos de este análisis, se ha decidido que las columnas de razon social, id del proveedor, id del producto y descripción del producto son las únicas que se utilizarán, eliminando así las demás columnas del dataset.

- Encontramos que existen 10 referencias de productos que no se encontro un match en la tabla proveedores_productos, ya que esta tabla contiene solamente 82 referencias unicas, peroo la tabla movimientos contiene 92. por lo tanto 10 referencias no contienen informacion acerca de la descripcion del producto o informacion de la razon social. 


\begin{figure}
\centering % imagen centrada
\captionsetup{justification=centering,margin=2cm}
\includegraphics[width=1\textwidth]{images/productos_por_proveedor.png}
\caption{Figura 1.Análisis de la cantidad de desodorantes en aeresol suministrado por proveedor}
Figura 1. Análisis de la cantidad de desodorantes en aeresol suministrado por proveedor
\end{figure}


#### Información de ubicación de Locales 

- La tabla de locales, contiene la informacion referente a la ubicacion de los locales, contiene las coordenadas y el id de la regioon, con esta tabla hicimos un inner join con la tabla movimientos para poder obtener de las cooordenadas de los locales. 


#### Dataset Final Merged 

Despues de hacer el merge de las tablas de promociones, locales y provedores_productos con la tabla de movimientos de las ventas de desodorantes podemos concluir lo siguiente: 

- En total tenemos 8.356.436 registros de ventas y las siguientes columnas que significan las siguientes variables identificadas así: 

**Variables Númerica*** 

    - idb: identificador interno del local. 
    - id_producto: identificador interno del producto. 
    - fecha_trans: fecha de la transacción (un día antes de la fecha actual)
    - stock_unidades: número de unidades de producto en el local. 
    - venta_unidades: número de unidades vendidas. 
    - precio_unitario: precio de venta unitario
    - id_cadena: Identificador interno de la cadena.       
    - id_region: Identificador interno de la región.
    - latitud: Ubicación en el eje Y de la boca.
    - longitud: Ubicación en el eje X de la boca.
    - ventas_estimadas_und: Estimación de ventas en unidades durante la promoción
    - nro_prom: Número de la promoción
    - duracion_promo: Duración de la promoción (diferencia entre fecha_desde y fecha_hasta)

**Variables binarias** 

    - cd_abast: identificador de la ubicación de la tienda que suministra el producto a la ubicación actual.
    - sigue_prod_en_rol: indica si el producto sigue en rol (SI) o no (NO) en la ubicación actual.
    - punto_distr: Indica si el valor es 1 que es un centro de distribución, de lo contrario es un local.
                - local: Indica si el valor es 1 que es un local, si es 0 no es un local.
           
**Variables categoricas** 

    - La columna "desc_cadena" tiene 5 subniveles: Plaza Vea, Vea, Jumbo, Disco y Rinco Jumbo.
    - La columna "desc_region" tiene 1 subnivel, el cual es Buenos Aires.


**Se eliminaron** 

    - desc_region: Descripción de la región
    - desc_local: debido a que no aporta información relevante para el análisis y se dispone de las coordenadas de latitud y longitud.
    fecha_desde: Fecha de inicio de la promoción
    fecha_hasta: Fecha de finalización de la promoción
    
    
    



4. Es importante tener en cuenta que esta tabla no registra transacciones, sino que registra el número de promoción, la fecha de inicio y final, y el valor estimado de las ventas en la promoción. Por esta razón, la fecha de transacción no es relevante en este caso.

5. La media de ventas estimadas en unidades durante las promociones es de 22 unidades.

6. La duración máxima de una promoción es de 18 días, mientras que la duración mínima es de 8 días, la media es de 8 días.

3. Se encontraron 35 valores de latitud y longitud que contenían valores nulos y 14 registros con valores en 0.0. Para los valores nulos se rellenaron con el valor medio de las columnas de latitud y longitud, y para los registros con valores en 0.0 se encontraron los valores correspondientes de las coordenadas y se realizaron las imputaciones.

4. Se encontraron dos columnas categóricas con los siguientes subniveles:


5. Todos los registros de la columna "desc_region" tienen el valor "Buenos Aires", lo que indica que solo hay una región.

6. Se agruparon las categorías de la columna "desc_cadena" de la siguiente manera:

    | **Cadena** | **Total Locales** |
        Plaza Vea | 5
        Disco | 61
        Vea | 68
        Jumbo | 31
        Rincon Jumbo | 10

7. El conjunto de datos contiene 6 centros de distribución y 169 locales.


### Preguntas a Responder 

Para realizar el analisis explotario de datos vamos a responder las siguientes preguntas para definir el impacto de las demás variables en las ventas de desodorantes en aerosol. 

- ¿Cuáles son los top 10 productos con mayor y menor volumen de ventas?
- ¿Cuáles son los top 10 productos con un precio unitario superior e inferior a la media?
- ¿Cuál es el comportamiento de las ventas de productos en función de los locales (idb)?
- ¿Cómo varía el comportamiento de las ventas de productos por mes, agrupado por año y por local?
- ¿Cómo varía el comportamiento de las ventas de productos según la estación del año (invierno, verano, primavera, otoño)? Para esto, se creará una nueva columna que agrupe los meses por estaciones del año


### Análisis descriptivo de las ventas de desodorantes 

\begin{figure}
\centering % imagen centrada
\captionsetup{justification=centering,margin=2cm}
\includegraphics[width=1\textwidth]{images/deodorants_stats.png}
\caption{Figura 2. Análisis Descriptivo de los movimientos de desodorantes}
Figura 2. Análisis Descriptivo de los movimientos de desodorantes
\end{figure}


\newpage

### Análisis de la relación de variables y el efecto en las ventas 

#### ¿Cuáles son los top 10 productos con mayor y menor volumen de ventas?

\begin{figure}
\centering % imagen centrada
\captionsetup{justification=centering,margin=2cm}
\includegraphics[width=1\textwidth]{images/ventas_desodorantes_top10.png}
\caption{Figura 3. Top 10 de desodorantes de ambiente en aerosol con mayor volumen de ventas}
Figura 3. Top 10 desodorantes de ambiente en aerosol con mayor volumen de ventas
\end{figure}

\begin{figure}
\centering % imagen centrada
\captionsetup{justification=centering,margin=2cm}
\includegraphics[width=1\textwidth]{images/ventas_desodorantes_bot10.png}
\caption{Figura 4. Top 10 desodorantes de ambiente en aerosol con menor volumen de ventas}
Figura 4. Top 10 desodorantes de ambiente en aerosol con menor volumen de ventas
\end{figure}

**0bservaciones**





\bibliographystyle{plain}
\bibliography{references}
