---
documentclass: article
output:
  pdf_document:
    keep_tex: no
    pandoc_args: [
      "-H", "preamble.tex"
    ]
header-includes:
  - \usepackage{biblatex}
  - \addbibresource{references.bib}
  - \usepackage{hyperref}
  - \usepackage{caption}
  - \captionsetup[figure]{labelsep=period, format=hang, labelfont=bf}
  - \setcounter{secnumdepth}{4}
  - \setlength{\parskip}{\baselineskip}
  - \renewcommand\refname{Bibliografía}
  - \renewcommand{\contentsname}{Contenido}
  - \renewcommand{\listfigurename}{Lista de Figuras}
  - \linespread{1.5}
---

\begin{titlepage}
    \centering
    \vspace*{2cm}
    \LARGE
    \textbf{Análisis del impacto que tienen las promociones en las ventas de desodorantes en aerosol}
    
    \vspace{1cm}
    \large
    Análisis de las ventas de desodorantes en aerosol en cinco cadenas de supermercados ubicados en Argentina
    
    \vspace{2cm}
    
    \begin{tabular}{c}
        \Large Erika Ortiz \\
        \Large Romina Iglesias \\
        \Large Carme Alegret \\
    \end{tabular}
    
    \vfill
    \large
    Este reporte se presenta como requisito para el Master en Data Science y Advanced Analytics 
    
    \vspace{0.5cm}
    Universitat Internacional de Catalunya\\
    Barcelona, España\\
    Abril 2023
\end{titlepage}

\newpage

\tableofcontents

\newpage

\listoffigures

\newpage

\section{Introducción}

En este trabajo se llevará a cabo un análisis exploratorio de datos de los movimientos de ventas de desodorantes en aerosol y las diferentes promociones aplicadas a los distintos productos. El producto seleccionado para el estudio son los desodorantes en aerosol pertenecientes a la familia de productos de limpieza para el baño y el hogar distribuidos en diferentes supermercados de Argentina.

El análisis se realizará con cadenas de supermercados ubicados en Argentina durante el período del 15 de julio de 2016 al 14 de julio de 2019. Para el análisis tenemos cuatro datasets, los cuales son: movimientos, promociones, proveedores_productos y locales, que tienen los siguientes tamaños:


1. Movimientos de ventas: 8,347,817 registros
2. Promociones: 15,270 registros
3. Locales: 175 registros
4. Productos y proveedores: 82 registros


En este análisis, se identifaron 5 cadenas de supermercados de las cuales Jumbo y Disco son puntos de distribucción.  Los nombres de las cadenas se describen a continuación: 


1. Plaza Vea
2. Vea
3. Disco
4. Jumbo
5. Rincón Jumbo


El dataset contiene productos suministrados por 4 proveedores principales que son: 

1. S.C. Johnson & Son de Argentina S.A. 
2. Clorox Argentina S.A.
3. Reckitt Benckiser Argentina S.A.
4. Industrias Iberia S.A.I.C.


Además, se encontraron 82 referencias de desodorantes en aerosol pertenecientes a la familia Limpieza de Baño y Hogar. 

En resumen, el objetivo de este trabajo es desarrollar un análisis de las ventas de desodorantes en función de las promociones para poder predecir el volumen de ventas. También se identificarán patrones y tendencias en la venta de desodorantes en aerosol y, potencialmente, se brindará información útil a las cadenas de supermercados involucradas para mejorar sus estrategias de ventas.

\newpage

\section{Objetivos}

1. Evaluar el comportamiento de las ventas de desodorantes en aerosol a partir del análisis del dataset disponible desde el 15 de Julio de 2016 hasta 14 de Julio de 2019.

2. Desarrollar un modelo predictivo que permita estimar el volumen de ventas de desodorantes en aerosol cuando se implementa una promoción.

3. Establecer una arquitectura adecuada para la creación, mantenimiento y despliegue del modelo predictivo, considerando factores como la escalabilidad y la eficiencia del proceso.

\newpage

\section{Análisis Exploratorio de los Datos}

## Limpieza de los datasets 

Para realizar el estudio de las ventas de desodorantes, se cuentan con cuatro fuentes de información que son las siguientes: 

#### Dataset No. 1 Movimientos de ventas 

1. La tabla de movimientos de ventas contiene un total de 8.347.817 registros.

2. Esta tabla es transaccional y registra las ventas realizadas por cada producto, la cantidad vendida en unidades, el stock en unidades, el precio de venta unitario y la fecha de transacción.

3. El dataset contiene registros desde el 15 de julio de 2016 hasta el 14 de julio de 2019.

4. El número de registros por año se distribuye de la siguiente manera:

- 2016: 1.177.264
- 2017: 2.343.400
- 2018: 2.914.155
- 2019: 1.912.998

5. La tabla no presenta valores faltantes ni duplicados.

6. En el dataset se encontraron 92 referencias únicas de desodorantes.


#### Dataset No. 2 Promociones 

1. Durante el análisis exploratorio de datos, se encontraron 268,692 registros duplicados en la tabla de promociones. Tras verificar que efectivamente eran registros duplicados, se procedió a eliminarlos del dataset.

2. La tabla de promociones resultante quedó con un total de 15,270 registros y contiene información sobre el identificador del producto, el id de la promoción, la fecha de inicio y finalización, la cantidad de ventas estimadas y el local en el cual se realizó la promoción. Además, se realizó una operación left join con la tabla de movimientos para establecer los movimientos que tengan promociones asociadas.

3. El dataset contiene información sobre las promociones realizadas desde el 19 de julio de 2016 hasta el 16 de julio de 2019.

4. Durante la revisión del dataset, se notó que la columna "porcentaje_dcto", que contenía información sobre el descuento aplicado, no correspondía a un porcentaje. Al verificar la diferencia entre las fechas de finalización y de inicio de las promociones, se concluyó que la columna hacía referencia a la duración de la promoción en días. Por lo tanto, se creó la columna "duracion_promo", calculando el tiempo transcurrido entre la fecha de inicio y la fecha de finalización de la promoción.



#### Dataset No. 3 Proveedores y descripción de Productos

1. Se puede concluir que en el dataset hay un total de 82 productos únicos suministrados por cuatro proveedores principales. Todos los productos son desodorantes en aerosol que pertenecen a la categoría de productos de limpieza para el hogar y baño.

2. Para este análisis, se han seleccionado únicamente las columnas de razon social, id del proveedor, id del producto y descripción del producto, eliminando las demás columnas del dataset. 

3. Es importante mencionar que se eliminaron las columnas que no eran relevantes para los objetivos específicos del análisis, tales como la columna de familia, subfamilia y gran familia, ya que todos los productos del dataset corresponden a la misma familia, subfamilia y gran familia.

La agrupación de los productos por gran familia, familia y subfamilia se muestra en la siguiente tabla:

| **desc_sector** | **desc_seccion** | **desc_gran_flia** | **desc_flia**             | **desc_sub_flia**       |
|:---------------:|:----------------:|:------------------:|:-------------------------:|:-----------------------:|
| Almacén         | Limpieza         | Baño y Hogar       | Desodorantes de ambientes | Desodorantes en aerosol |
|                 |                  |                    |                           | **Total productos: 82** |


4. Se encontraron 10 referencias de productos que no tienen correspondencia en la tabla proveedores_productos. La tabla movimientos contiene 92 referencias únicas, mientras que la tabla proveedores_productos solo tiene 82 referencias únicas. Por lo tanto, 10 referencias no tienen información sobre la descripción del producto o la razón social.

5. En la figura \ref{fig:productos_proveedor}, se muestra un análisis de la cantidad de desodorantes en aerosol suministrado por proveedor

\begin{figure}
    \centering % imagen centrada
    \includegraphics[width=0.8\textwidth]{images/productos_por_proveedor.png}
    \caption{Análisis de la cantidad de desodorantes en aerosol suministrado por proveedor}
    \label{fig:productos_proveedor}
\end{figure}

- S.C. Johnson & Son de Argentina S.A. suministra 50 referencias, lo que representa el 61% de las referencias incluidas en el análisis.
- Clorox Argentina S.A. suministra 21 referencias.
- Reckitt Benckiser Argentina S.A. suministra 10 referencias.
- Industrias Iberia S.A.I.C. suministra 1 referencia.


#### Dataset No. 4 Locales 

1. El dataset incluye 6 centros de distribución y 169 locales de supermercado.

2. La tabla de locales proporciona información sobre la ubicación y coordenadas geográficas de cada tienda, así como su ID de región correspondiente.

3. La figura \ref{fig:porcentaje_locales} muestra la distribución de locales entre las diferentes cadenas de supermercados.

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/porcentaje_locales.png}
    \caption{Porcentaje de locales por cadena de supermercado}
    \label{fig:porcentaje_locales}
    Figura \ref{fig:porcentaje_locales}. Porcentaje de locales por cadena de supermercado
\end{figure}


| **Cadena**   | **Total Locales** |
|:------------:|:-----------------:|
| Vea          | 68                |
| Disco        | 61                |
| Jumbo        | 31                |
| Rincon Jumbo | 10                |
| Plaza Vea    | 5                 |
| **Total**    | **175**           |


4. Al analizar la tabla de locales, se puede concluir que las cadenas de supermercados Vea y Disco tienen la mayor cantidad de locales, seguidas por la cadena Jumbo. En último lugar, se encuentran las tiendas de la cadena Plaza Vea. Asimismo, se observó que la mayoría de las ventas corresponden a los locales de las cadenas Vea, Disco y Jumbo. 
 

## Unión del dataset final 

Para realizar la unión de los cuatro datasets se han utilizado los siguientes servicios:  

- Google Cloud Storage: Se creó un bucket llamado "deodorants", donde se subieron los cuatro datasets limpios previamente en formato .csv.

- BigQuery: Se creó un dataset exportando los archivos csv almacenados en el storage, y luego se creó una consulta SQL para unir las diferentes tablas. La consulta utilizada se presenta a continuación:

```
SELECT 
  mov.idb, 
  mov.id_producto, 
  mov.fecha_trans, 
  prom.fecha_desde, 
  prom.fecha_hasta, 
  mov.stock_unidades, 
  mov.venta_unidades, 
  mov.precio_unitario, 
  mov.sigue_prod_en_rol, 
  mov.cd_abast,
  mov.month as mov_month,
  mov.year as mov_year,
  mov.weekday as mov_weekday,
  prom.ventas_estimadas_und as ventas_estimadas_promo, 
  prom.nro_prom, 
  prom.duracion_promo,
  loc.id_cadena,
  loc.desc_cadena, 
  loc.desc_region, 
  loc.longitud, 
  loc.latitud, 
  loc.local, 
  loc.punto_dist,
  prov.desc_producto,
  prov.razon_social,
  prov.id_region
FROM 
  deodorants.deodorants_trans.movimientos AS mov
  LEFT JOIN deodorants.deodorants_trans.promociones AS prom 
  ON mov.id_producto = prom.id_producto 
  AND mov.idb = prom.idb 
  AND mov.fecha_trans BETWEEN prom.fecha_desde AND prom.fecha_hasta
  JOIN deodorants.deodorants_trans.locales AS loc ON loc.idb = mov.idb
  LEFT JOIN deodorants.deodorants_trans.prov_prod AS prov 
  ON prov.id_producto = mov.id_producto AND prov.id_region = loc.id_region
  ORDER BY mov.fecha_trans DESC;
```

El resultado final despues de realizar un proceso de limpieza y tratamiento de valores missing y/o nulos es un dataset final de 8.272.128 registros y 27 columnas identificadas de la siguiente manera:

- **Variables numéricas:**

    - idb: Identificador interno del local.
    - id_producto: Identificador interno del producto.
    - fecha_trans: Fecha de la transacción (un día antes de la fecha actual).
    - stock_unidades: Número de unidades de producto en el local.
    - venta_unidades: Número de unidades vendidas.
    - precio_unitario: Precio de venta unitario.
    - mov_month.
    - mov_year.
    - mov_weekday.
    - id_cadena: Identificador interno de la cadena.
    - id_region: Identificador interno de la región.
    - latitud: Ubicación en el eje Y de la boca.
    - longitud: Ubicación en el eje X de la boca.
    - ventas_estimadas_promo: Estimación de ventas en unidades durante la promoción.
    - nro_prom: Número de la promoción.
    - duracion_promo: Duración de la promoción (diferencia entre fecha_desde y fecha_hasta).

- **Variables binarias:**

    - cd_abast: Identificador de la ubicación de la tienda que suministra el producto a la ubicación actual.
    - sigue_prod_en_rol: Indica si el producto sigue en rol (SI) o no (NO) en la ubicación actual.
    - punto_distr: Indica si el valor es 1 que es un centro de distribución, de lo contrario es un local.
    - local: Indica si el valor es 1 que es un local, si es 0 no es un local.
    - is_weekend.
    - tiene_promo.

- **Variables categóricas:**

    - desc_cadena: Tiene 5 subniveles: Plaza Vea, Vea, Jumbo, Disco y Rincón Jumbo.
    - dia_semana.
    - zona.

- **Variables string:**

    - desc_producto.
    - razon_social.


\subsubsection{Columnas que se eliminaron}


- desc_region: Tiene 1 subnivel, el cual es Buenos Aires para todos los registros, lo que indica que sólo hay una región para todos. Se decidió eliminarla para el propósito del análisis.
- desc_local: Debido a que no aporta información relevante para el análisis y se dispone de las coordenadas de latitud y longitud.
- fecha_desde: Fecha de inicio de la promoción, ya que se calculó la columna duracion_promo con base en estos resultados.
- fecha_hasta: Fecha de finalización de la promoción.
- Las columnas relacionadas con familia, subfamilia y gran familia, ya que solo teníamos un nivel para todos los productos del dataset, lo que no lo hace relevante para el análisis.



\subsubsection{Feature Engineering}

Las siguientes columnas fueron creadas para ayudarnos con el análisis exploratorio de los datos. 

- duracion_promo: se refiere a la diferencia de tiempo entre la fecha de inicio y la fecha de finalización de una promoción.

- is_weekend: es una variable binaria que toma el valor 1 si el día es fin de semana (sábado o domingo) y 0 si es día entre semana.

- Se crearon las columnas mov_year, mov_month y mov_day, dia_semana.

- tiene_promo: es una variable binaria que toma el valor 1 si el producto tiene una promoción y 0 si no tiene promoción.

- zona: Creadas con base en los cuadrantes de las coordenadas, se establecoieron los siguientes cuadrantes: 
    - zona 1: latitude >= -34.0 y longitud >= -58.0
    - zona 2: latitude >= -34.0 y longitud < -58.0
    - zona 3: latitude < -34.0 y longitud >= -58.0
    - zona 4: valores de latitud y longitud que no cumplan con las condiciones anteriores.
    
    
    
\subsubsection{Identificación de outliers en las variables númericas}

En la figura \ref{fig:valores_outliers} se observa la distribucción de valores para las varibles ventas, duración de promoción, stock_unidades y ventas_estimadas.   

\begin{figure}
    \centering 
    \includegraphics[width=0.8\textwidth]{images/valores_outliers.png}
    \captionsetup{justification=centering,margin=2cm}
    \caption{Valores Outliers Ventas, Stock y Duración de la promoción}
    \label{fig:valores_outliers}
    Figura \ref{fig:valores_outliers}. Valores Outliers Ventas, Stock y Duración de la promoción
\end{figure}

Observamos que existen dos valores atípicos en la venta de unidades de dos productos de la marca glade que se realizaron durante el mes de Agosto que corresponde a la temporada de invierno en Argentina y fueron realizadas en el mismo local con el id 9217, que corresponde a un centro de distribución y por lo tanto no presentan promoción.


| **Id** | **Descripción Producto**                               | **Estación**|
|--------|--------------------------------------------------------|-------------|
| 342686 |glade desodorante de ambientes lavander nueva formula.  | Invierno    |
| 342745 |glade desodorante de ambientes jazmin nueva formula.    | Invierno    |


A pesar de la presencia de estos valores atípicos, se tomó la decisión de no eliminarlos del dataset y continuar con el análisis utilizando toda la información disponible para obtener una visión completa y representativa de los datos.


\subsubsection{Tratamiento de registros faltantes y con valores de stock negativos}

Durante el análisis del dataset se encontraron registros con valores missing, otros con valores de stock negativos y unos valores de latitud y longitud con valores 0,0, a continuación se describe el tratamiento que se dio a cada caso en particular. 

#### 3.2.4.1 Valores faltantes

Para los valores missing se hizo el siguiente tratamiento:

| **Columna**              | **Total de valores missing**| **Tratamiento**                               |
|--------------------------|-----------------------------|-----------------------------------------------|
| nro_prom                 | 8220158                     | Relleno con 0.0 para productos sin promoción* |
| ventas_estimadas_promo   | 8220158                     | Relleno con 0.0 para productos sin promoción* |
| duracion_promo           | 8220158                     | Relleno con 0.0 para productos sin promoción* |
| desc_producto            | 598448                      | Relleno con 'missing'                         |
| id_region                | 598448                      | Relleno con 1.0 como valor por defecto        |
| razon_social             | 598448                      | Relleno con 'unknown'                         |
| latitud                  | 35                          | Relleno con la media de la latitud            |
| longitud                 | 35                          | Relleno con la media de la longitud           |

***Producto sin promoción:*** Son aquellos productos en los cuales las columnas nro_prom, ventas_estimadas_promo y duracion_prom se encuentran vacias debido a que el dataset final contiene productos con promoción y sin promoción. 


#### 3.2.4.2 Valores de stock negativos


Se encontraron 45,527 registros con valores negativos en la columna de stock_unidades, lo que equivale a aproximadamente el 0.545% del total de registros. Para evitar posibles errores en el análisis y para brindar mayor claridad y precisión en los datos, se ha decidido reemplazar estos valores negativos por cero. 

| **Columna**     | **Total valores negativos** | **Tratamiento** |
|-----------------|-----------------------------|-----------------|
| stock_unidades  | 45527                       | Relleno con 0.0 |

La presencia de valores negativos en la columna de stock_unidades puede generar confusiones e interpretaciones erróneas por parte de los usuarios, por lo que es importante corregir esta inconsistencia en la información. Además, se recomienda analizar la causa raíz de estos errores de inventario para evitar futuras inconsistencias en los datos.


#### 3.2.4.3 Valores de latitud y longitud con 0.0

Se encontraron 14 registros con valores de 0.0 en las columnas latitud y longitud, para solucionar esto, se hizo una busqueda en Google para encontrar las coordenadas de esas calles y se realizaron las imputaciones necesarias.


\subsubsection{Eliminacion de registros}

Durante el análisis del conjunto de datos final, se decidió eliminar del mismo las ventas no significativas y las ventas con valores negativos. A continuación, se describen las características definidas y la cantidad de datos eliminados que cumplen estas condiciones:

#### 3.2.5.1 Ventas no significativas

Se encontraron ventas que cumplían las siguientes características:
```
(deodorants_df.venta_unidades == 0) &
(deodorants_df.desc_producto == 'missing') &
(deodorants_df.razon_social == 'unknown') &
(deodorants_df.stock_unidades == 0) &
(deodorants_df.tiene_promo == 0) &
(deodorants_df.nro_prom == 0.0)
```

En total, se eliminaron 83628 registros que cumplían estas condiciones, lo que representa el 1% del total de datos. Al no ser un porcentaje significativo y al considerar que estos datos no proporcionaban información relevante para el análisis y podrían distorsionar los resultados, se decidió eliminarlos.


#### 3.2.5.2. Ventas con valores negativos

Se detectaron 580 registros con valores negativos en la columna de venta_unidades. Para asegurar un análisis libre de sesgo, se decidió eliminar estas filas. En total, corresponden al 0.006943% del total de datos de ventas.

#### 3.2.5.3. Locales que no tenian registros de movimientos de ventas

Al unir las tablas de movimientos y locales, se descubrió que solo 142 de los 175 locales registrados en la tabla de locales tenían ventas documentadas en la tabla de movimientos. Como resultado, el conjunto final de datos solo contiene información de ventas de estos 142 locales.

Al identificar las ventas no significativas, se descubrió que el producto con el ID 497936 cumplía con todas las características definidas de ventas no significativas. Si bien había registros para este producto, al eliminar los datos de ventas no significativas, ningún movimiento relacionado con esta referencia quedó en el dataset final. Por lo tanto, después de la eliminación, el conjunto de datos solo contenía información de 91 IDs de productos.


\newpage

## Análisis descriptivo de las ventas de desodorantes 

En la Figura \ref{fig:deodorants_describe} se muestra un análisis descriptivo de las columnas de ventas, precio unitario, ventas estimadas en promociones y duración de la promoción para los movimientos de desodorantes. 

\begin{figure}
    \centering
    \includegraphics[width=1\textwidth]{images/deodorants_stats.png}
    \captionsetup{justification=centering,margin=2cm}
    \caption{Análisis Descriptivo de los Movimientos de Desodorantes.}
    \label{fig:deodorants_describe}
    Figura \ref{fig:deodorants_describe}. Análisis Descriptivo de los Movimientos de Desodorantes.
\end{figure}

De este análisis podemos concluir lo siguiente:

1. El promedio de unidades en stock es de 21 unidades.
2. El promedio de ventas diarias de desodorantes en aerosol es de 0.32 unidades.
3. El máximo de ventas de desodorantes en aerosol fue de 612 unidades.
4. Durante una promoción, se venden en promedio 0.39 unidades diarias de desodorantes en aerosol.
5. El precio unitario promedio de un desodorante en aerosol es de 64.46 pesos argentinos.
6. La duración máxima de una promoción es de 18 días.

\subsubsection{Distribucción de ventas unidades}

A continuación, en la figura \ref{fig:hist_ventas_reg} se muestra el histograma de la variable venta_unidades:

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering}
    \includegraphics[width=1\textwidth]{images/Histograma_registros_unidades.png}
    \caption{Histograma de la variable venta unidades}
    \label{fig:hist_ventas_reg}
    Figura \ref{fig:hist_ventas_reg}. Histograma variable venta unidades
\end{figure} 

Se observa que hay una gran cantidad de registros con valor 0, más de 6 millones y aproximadamente 1 millón de registros tendrían la variable venta unidades con valor 1, el resto de los valores son inferiores en número de registros, se muestra en la tabla siguiente los 10 primeros valores.

| **Venta unidades** | **Registros ** |
|:------------------:|:--------------:|
| 0                  | 6644964        |
| 1                  | 1071405        |
| 2                  | 340847         |
| 3                  | 115933         |
| 4                  | 50459          |
| 5                  | 21835          |
| 6                  | 11479          |
| 7                  | 5800           |
| 8                  | 3437           |
| 9                  | 1910           |

El valor más alto de las ventas registrado es de 612 unidades, pero si se evalúan únicamente locales que no son centros de distribución, es decir que son tiendas, dicho valor se reduce a 79 unidades.

Se concluye que tal magnitud de registros con valor cero indica que registran el stock diario aún no habiendo ventas en cada local y que las ventas habituales son de un número bajo de unidades, no obstante hay algunos valores que son puntualmente elevados pudiendo ser outliers.

\subsubsection{Distribuccion de las promociones}

Cuando se analiza la variable tiene promoción (tiene_promo) en el dataset la mayoría de registros tienen valor 0, habiendo más de 8 millones de registros con este valor.
Si se amplía el histograma en 300000 registros para poder visualizar mejor la frecuencia en valor tiene promoción= 1 resulta la figura \ref{fig:hist_promo} que se muestra a continuación:

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.7\textwidth]{images/Histograma_registros_promo.png}
    \caption{Histograma de la variable promoción}
    \label{fig:hist_promo}
    Figura \ref{fig:hist_promo}. Histograma de la variable promoción ampliada a <300.000 registros
\end{figure}

Sólo se han encontrado 136270 movimientos con el valor tiene_promo= 1, esta variable siendo una de las variables principales respecto la variable target no está balanceada en el dataset.


\subsubsection{Distribucción de las ventas estimadas de la promoción}

La distribución de la variable ventas estimadas por la promoción en el dataset para los locales que no son centro de distribución se muestra en la siguiente figura \ref{fig:hist_ventas_estimadas2} tras filtrar los movimientos que tienen promoción:

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/Histograma_ventas_estimadas_promocion.png}
    \caption{Histograma de las ventas estimadas < 30000 registros}
    \label{fig:hist_ventas_estimadas2}
    Figura \ref{fig:hist_ventas_estimadas2}. Histograma de las ventas estimadas < 30.000 registros
\end{figure}

Se han encontrado muy pocos registros (128080) con un valor diferente a cero en esta variable dentro del dataset. De los movimientos que tienen promoción, 8190 tienen esta variable con valor cero.

Para los movimientos en promoción, el valor de la variable se encuentra entre 0 y 300 unidades, siendo la media de 25 y el percentil 75 de 33 unidades.

\subsubsection{Distribucción del precio unitario}

La distribucción de la variable precio unitario es la que se observa en la figura \ref{fig:hist_pu} que se muestra a continuación:

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering}
    \includegraphics[width=1\textwidth]{images/Histograma_PU.png}
    \caption{Histograma de la variable precio unitario}
    \label{fig:hist_pu}
    Figura \ref{fig:hist_pu}. Histograma de la variable precio unitario
\end{figure}

Hay 9182 registros con precio unitario valor 0.
La mayoría de registros se concentran entre los valores 0-100, encontrando también gran variedad de precios unitarios mayores pero con menor número de registros, llegando hasta un máximo de 423.81.

Se analizan los registros con precios unitarios con valor cero:

-  Todos ellos son del año 2019,
-  Tienen valor de stock= 0,
-  local= 1,
-  punto_dist= 0
-  tiene_promo= 0

Se concluye que no son productos que formen parte de promociones.



\newpage

## Análisis del impacto de las diferentes variables en las ventas de desodorantes 

Para realizar el análisis explotario de datos vamos a responder las siguientes preguntas para definir el impacto de las demás variables en las ventas de desodorantes en aerosol. 

Vamos a realizar un análisis de los productos con mayor volumen de ventas y el efecto de las promociones sobre las ventas, asi mismo el movimiento de inventarios. 


### ¿Cómo es el comportamiento de las ventas a lo largo del periodo?

Se han analizado las ventas acumuladas mensuales por producto y local a lo largo del periodo para todos aquellos locales que no son centros de distribución, obteniendo el siguiente gráfico que muestra la figura \ref{fig:Dist_ventas_acumuladas}:

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/Distribución de las ventas acumuladas mensuales en el periodo.png}
    \caption{Distribución de las ventas mensuales acumuladas en el periodo}
    \label{fig:Dist_ventas_acumuladas}
     Figura \ref{fig:Dist_ventas_acumuladas}. Distribución de las ventas mensuales acumuladas en el periodo por producto/local
\end{figure} 

Se observa como las ventas empiezan a disminuir en el año 2018 y en el año 2019 son muy inferiores. Esta disminución podría ser debido a la crisis económica que sucedió en Argentina y que empezó en el año 2018, la cual podría haber tenido un efecto en el comportamiento general de las ventas.



### ¿Cuáles son los top 10 productos con mayor y menor volumen de ventas?

La figura  \ref{fig:ventas-desodorantes-top10} muestra los 10 desodorantes más vendidos durante el período de julio de 2016 hasta julio de 2019.

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/ventas_desodorantes_top10.png}
    \caption{Top 10 desodorantes de ambiente en aerosol con mayor volumen de ventas}
    \label{fig:ventas-desodorantes-top10}
     Figura \ref{fig:ventas-desodorantes-top10}. Top 10 desodorantes de ambiente en aerosol con mayor volumen de ventas
\end{figure}



- Podemos concluir que el desodorante más vendido es el producto con el ID 342686 y la descripción "glade desodorante de ambientes lavander nueva formula 751 cc", suministrado por S. C. Johnson. Se vendieron un total de 109531 unidades de este producto.

- El segundo producto más vendido es el producto con el ID 240911 y la descripción "poett ambiental lavanda nuevo d 0.377 kg", suministrado por Clorox Argentina S.A. Se vendieron un total de 100861 unidades de este producto.


La figura \ref{fig:ventas-desodorantes-bot10} muestra los 10 desodorantes menos vendidos durante el período de julio de 2016 hasta julio de 2019.

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=1\textwidth]{images/ventas_desodorantes_bot10.png}
    \caption{Top 10 desodorantes de ambiente en aerosol con menor volumen de ventas}
    \label{fig:ventas-desodorantes-bot10}
    Figura \ref{fig:ventas-desodorantes-bot10}. Top 10 de desodorantes de ambiente en aerosol con menor volumen de ventas
\end{figure}


Observamos que los tres productos con menor volumen de ventas no cuentan con una descripción ya que hacen parte de los productos que no tenían descripción en la tabla productos. Sin embargo, en el cuarto lugar se encuentra el desodorante con ID 466069 y descripción "Glade toque aromatizante de ambientes campos", del proveedor S.C. Johnson, el cuál ha vendido un total de 2812 unidades desde julio de 2016 hasta julio de 2019.

### ¿Cambia el precio unitario de venta de los productos dependiendo de la tienda, el periodo y las promociones?

A continuación en la figura \ref{fig:pu_año}, se muestra la evolución de los precios unitarios en los locales que no son centro de distribución en función del año:

\begin{figure}
    \centering 
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.5\textwidth]{images/DistribucionAnualPU.png}
    \caption{Precio unitario medio en función del año}
    \label{fig:pu_año}
    Figura \ref{fig:pu_año}. Precio unitario medio en función del año
\end{figure}

Claramente se ve una tendencia incremental de los precios unitarios a lo largo de los años, habiéndose casi doblado a lo largo del periodo. Dado que el dataset incluye los años de crisis de 2018-2019, se asume que esto se debe a la inflación del país.

Se ha analizado si los precios unitarios varían entre tiendas y tras comprobación de los datos se concluye que para una misma fecha, los precios unitarios se suelen mantener entre tiendas. Las únicas diferencias encontradas son las imputaciones a valor 0.

Si se comparan los precios unitarios medios entre las diferentes tiendas, hay grandes diferencias entre ellas dado que no se deben vender los mismos productos en todas ellas.

La relación entre los precios unitarios medios anuales y las ventas medias anuales para cada producto se muestra en la figura \ref{fig:pu_ventas}:

\begin{figure}
    \centering
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/Precio_Ventas.png}
    \caption{Ventas medias anuales vs precio unitario medio anual por producto}
    \label{fig:pu_ventas}
    Figura \ref{fig:pu_año}. Ventas medias anuales vs precio unitario medio anual por producto
\end{figure}

Si bien hay variabilidad en los datos, hay productos hasta precio unitario medio aproximado 100 que se venden más que los productos de precios unitarios medios superiores

### ¿Cuál es el comportamiento de las ventas por cada supermercado?

En la figura \ref{fig:productos_por_cadena} se pueden observar las diferentes cadenas de supermercado y las ventas de cada una de ellas. 
 
\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/Cantidad_de_productos_vendidos_por_cadena.png}
    \caption{Cantidad de productos vendidos por cadena}
    \label{fig:productos_por_cadena}
     Figura \ref{fig:productos_por_cadena} Cantidad de productos vendidos por cadena
\end{figure}


Como se mencionó previamente, entre las cinco cadenas existentes, únicamente Disco, Jumbo y Vea exhiben ventas de productos de acuerdo a los datos suministrados.


### ¿Existe un patrón estacional en las ventas de desodorantes?

Se realizó un análisis para determinar si existía un factor estacional en las ventas, y para ello se examinaron las ventas a lo largo de varios años. Se obtuvo una representación gráfica que muestra la suma de las ventas mensuales por año. Los resultados se muestran en la figura \ref{fig:ventas_mensuales}.

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=1\textwidth]{images/Ventas_por_meses.png}
    \caption{Ventas de desodorantes mensuales para los años 2017 y 2018}
    \label{fig:ventas_mensuales}
     Figura \ref{fig:ventas_mensuales} Ventas de desodorantes mensuales
\end{figure}

Para analizar la existencia de estacionalidad en las ventas, decidimos enfocarnos en los años de los que se disponen de datos para todos los meses. En este caso, se han considerado los años 2017 y 2018.

En 2017, se observa que los meses de verano (enero, febrero y diciembre) presentan valores de ventas más bajos, mientras que marzo presenta un pequeño pico que coincide con la llegada del otoño. Sin embargo, en julio y agosto se produce una fuerte subida en las ventas, lo que está directamente relacionado con los meses más fríos del año (invierno). A partir del análisis de 2017, se concluye que las ventas de desodorantes ambientales presentan estacionalidad y que su aumento se produce durante los meses más fríos, cuando las personas pasan más tiempo en sus hogares y hay menos ventilación natural.

En cuanto a 2018, durante los primeros meses, se observa una tendencia similar a la del año anterior, con un aumento aún mayor de las ventas en marzo. Sin embargo, a partir de julio, se produce una caída significativa en las ventas que no coincide con la estacionalidad del producto. Este efecto se debe a una fuerte devaluación del peso argentino en julio de 2018, lo que genera una "nueva crisis económica" que afecta la venta de los desodorantes de ambientes, al no ser productos de primera necesidad.



### ¿Cómo es el comportamiento de las promociones en el periodo?

Se han evaluado la media de movimientos con promoción en función de los años resultando en la figura siguiente\ref{fig:Promo_Media_año}:


\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.6\textwidth]{images/Media de transacciones con promociones por Año.png}
    \caption{Media de movimientos con promociones por año}
    \label{fig:Promo_Media_año}
    Figura \ref{fig:Promo_Media_año}. Media de movimientos con promociones por año
\end{figure}

En el año 2016 la media de promociones es más alta que los otros años, cabe destacar que los datos que se disponen del 2016
ni 2019 tampoco son todos los meses, así que si hay alguna influencia del mes vs las promociones estos valores podrían estar sesgados.
Se obserba que el año 2018 la media es muy baja.
Cuando se ha analizado la misma variable con el total de promociones acumulada la tendencia es la misma aun siendo 2016 y 2019 años más cortos en el dataset de trabajo.

Si se analizan el número de movimientos en función del mes, se obtiene la siguiente figura \ref{fig:Promo_media_mes}:

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.6\textwidth]{images/Media de transacciones en promocion por mes.png}
    \caption{Figura xx. Media de transacciones en promocion por mes.png}
    \label{fig:Promo_media_mes}
    Figura\ref{fig:Promo_media_mes}. Media de movimientos en promocion por mes
\end{figure}

La media de promociones es más alta durante los meses de abril y agosto, posteriormente marzo, julio y noviembre también tienen más promociones. Según son las estaciones en Argentina parece que en los meses cercanos a el cambio entre estaciones se realicen más promociones, verano/otoño-(marzo/abril), invierno/primavera-(agosto-septiembre), primavera/verano-(noviembre), otoño/invierno-(junio-Julio)

Por otro lado si se analizan las promociones acumuladas mensuales:<br>
>-  Hay muchos meses sin promoción
>-  La mayoría de promociones acumuladas al mes se centran entre 0 y 10 días. Hay un pico en 8 y pueden llegar a tener el valor acumulado de todo el mes<br>

Si se analizan los valores por tienda, hay algunas tiendas que casi no tienen movimientos en promoción, y cada tienda realiza un número de promociones diferentes al mes.


### Qué impacto tiene la duración de la promoción en el volumen de ventas?


Se realizó una comparación entre la media de las ventas y la duración de la promoción, para observar cómo varían las ventas en función de los días que dura la promoción. Ver la figura \ref{fig:media_ventas}

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/Media_ventas_de_acuerdo_a_la_duración_de_la_promoción.png}
    \caption{Figura 8. Media de ventas de acuerdo a la duración de la promoción}
    \label{fig:media_ventas}
     Figura \ref{fig:media_ventas} Media de ventas de acuerdo a la duración de la promoción
\end{figure}

Después de analizar la figura \ref{fig:media_ventas}, se puede observar que las promociones que duran 16 días registran la mayor cantidad de ventas, seguidas por las que duran 11 y 14 días.


### ¿Qué día de la semana se venden mas desodorantes en aerosol?

La siguiente figura muestra la variación de la media de las ventas de productos con y sin promoción, en función del día de la semana.

\begin{figure}
    \centering
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/Media_ventas_por_dia_de_semana_con_y_sin_promoción.png}
    \caption{Figura 9. Media de ventas de producto con y sin promoción por día de semana}
    \label{fig:ventas_dia_semana}
     Figura \ref{fig:ventas_dia_semana} Media de ventas de producto con y sin promoción por día de semana
\end{figure}

Al analizar los datos presentados en la figura \ref{fig:ventas_dia_semana}, se puede concluir que los días de mayor venta son los domingos y jueves, tanto para los productos en promoción como para las ventas regulares. 


### ¿Cuál es el porcentaje de productos en los que las promociones son efectivas y en cuáles no lo son?


Se realizó un análisis comparativo de las ventas de productos con y sin promoción, tomando en cuenta únicamente aquellos productos que tuvieron ventas en ambas categorías, es decir, aquellos productos que alguna vez han tenido una promoción y, además, se han vendido también sin promoción. Con el fin de determinar la efectividad de las promociones, se calculó un ratio para cada producto, dividiendo la media de ventas con promoción entre la media de ventas sin promoción. Se considera que la promoción fue efectiva en impulsar las ventas de un producto si el ratio resultante es mayor a 1.

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=1\textwidth]{images/Ratio_de_ventas_por_productos.png}
    \caption{Ratio Efectividad de las promociones en las ventas de desodorantes}
    \label{fig:ratio_ventas}
     Figura \ref{fig:ratio_ventas} Ratio Efectividad de las promociones en las ventas de desodorantes
\end{figure}

El análisis reveló que el 82.89% de los productos presentaron un ratio de ventas mayor a 1, lo que indica que en la mayoría de los casos (82.89%), la promoción tuvo un efecto positivo en el aumento de las ventas. Este resultado se puede apreciar visualmente en la Figura \ref{fig:ratio_ventas}.

El producto que ha tenido mayor ratio (muy pocas ventas sin promoción y muchas ventas con promoción) es "freshmatic bosque magico aparato air wick lush". 



### ¿Existen productos que nunca han tenido una promoción?

Se identificaron 15 productos suministrados por Clorox Argentina S.A. que nunca han sido promocionados, incluyendo productos como "Poett Natural Blends Hojas Verdes 450 gr" y "Poett Lavanda Full Ab Nuevo 0.040 kg". Estos productos tienen los siguientes IDs: 238237, 249049, 385535, 407845, 443520, 443521, 443547, 450083, 454813, 469286, 485719, 507832, 511324, 511325 y 511326.

###  ¿Cuál es la mejor promoción a nivel general?

Con el fin de determinar la mejor promoción de manera general, se realizó un análisis de la media de ventas de cada promoción. Se optó por utilizar la media en lugar de la venta en unidades, ya que esto permitió una comparación más precisa y global entre las distintas promociones. En la la figura \ref{fig:mejor_promo} se muestran las 10 mejores promociones.


\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.5\textwidth]{images/Mejores_promociones.png}
    \caption{Top 10 de las mejores promociones de desodorantes}
    \label{fig:mejor_promo}
     Figura \ref{fig:mejor_promo} Top 10 de las mejores promociones de desodorantes
\end{figure}

La promoción que ha tenido mayor media de ventas es la número 488290.

En la siguiente tabla se pueden apreciar las características más destacadas de las mejores cinco promociones:

| **Nº Promoción** | **Días de duración** | **Mes**   | **Año** | **Zona** |
|:----------------:|:--------------------:|:---------:|:-------:|:--------:|
| **488290**       | 16                   | Febrero   | 2018    | 3        |
| **521675**       | 16                   | Diciembre | 2018    | 4        |
| **452976**       | 9                    | Febrero   | 2017    | 4        |
| **452913**       | 10                   | Febrero   | 2017    | 4        |
| **491206**       | 7                    | Marzo     | 2018    | 4        |



###  Análisis de ventas con y sin promoción por año

Se comparó la media de las ventas con y sin promoción para cada año, y se presentan los resultados en la figura \ref{fig:ventas_por_año}

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/Media_ventas_por_año_con_y_sin_promoción.png}
    \caption{Media de ventas de producto con y sin promoción por año}
    \label{fig:ventas_por_año}
     Figura \ref{fig:ventas_por_año} Media de ventas de producto con y sin promoción por año
\end{figure}

Se evidencia que en todos los años la presencia de promociones se correlaciona con una media de ventas superior.
Otro aspecto destacable es que se evidencia una mayor diferencia entre la media de ventas con y sin promoción en el año 2018, el cual coincidió con una crisis económica. Aunque se requiere un análisis más exhaustivo, se podría inferir que en períodos de crisis, las ventas con promociones de este tipo de productos son mayores que las ventas sin promoción. Sería necesario llevar a cabo una investigación adicional para confirmar esta hipótesis y entender mejor las causas detrás de esta tendencia.


### ¿Cómo ha variado la proporción de ventas con y sin promoción por zonas?

Siguiendo la misma metodología que en la sección anterior, se evaluó la media de ventas con y sin promoción por zona geográfica. En la figura \ref{fig:ventas_por_zona} se observan los resultados obtenidos:

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/Media_ventas_por_zona_con_y_sin_promoción.png}
    \caption{Media de ventas de producto con y sin promoción por zona}
    \label{fig:ventas_por_zona}
     Figura \ref{fig:ventas_por_zona} Media de ventas de producto con y sin promoción por zona
\end{figure}

Al igual que en la sección anterior, se observa que la media de ventas con promoción es significativamente superior a la media de ventas sin promoción, lo que sugiere la efectividad de las promociones en todas las zonas analizadas.
Asimismo, se observa que la zona 3 registra la mayor diferencia entre la media de ventas con y sin promoción, lo que sugiere que en esta área geográfica los consumidores adquieren más productos cuando se ofrecen promociones.


### ¿Hay una relación entre la ubicación geográfica y las ventas de desodorantes?

Como ya se mencionó anteriormente, se han dividido los datos en cuatro zonas diferentes a partir de los valores de latitud y longitud de cada local ver figura \ref{fig:localizacion_locales}. 

\begin{figure}
    \centering 
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=1\textwidth]{images/ba_map.png}
    \caption{Ubicación geográfica de los supermercados}
    \label{fig:localizacion_locales}
    Figura \ref{fig:localizacion_locales}. Ubicación geográfica de los supermercados
\end{figure}

Según la división oficial del gobierno de la Ciudad de Buenos Aires, cada zona incluye los siguientes barrios:

**Zona 1**: latitude >= -34.0 y longitud >= -58.0
* Retiro
+ San Nicolás
+ Puerto Madero
+ San Telmo
+ Monserrat
+ Constitución

**Zona 2**: latitude >= -34.0 y longitud < -58.0
+ Recoleta
+ Palermo
+ Belgrano

**Zona 3**: latitude < -34.0 y longitud >= -58.0
+ Nueva Pompeya
+ Parque Patricios
+ Barracas
+ Boedo
+ Almagro
+ Caballito

**Zona 4**: valores de latitud y longitud que no cumplen con las condiciones anteriores
+ Resto de la ciudad y de la Provincia de Buenos Aires

A partir de esta división en zonas, se calculó la media de ventas para cada una, obteniendo los valores que se muestran en la figura \ref{fig:media_ventas_zona}.


\begin{figure}
    \centering 
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.5\textwidth]{images/Media_de_ventas_por_zona.png}
    \caption{Media de ventas por Zona}
    \label{fig:media_ventas_zona}
     Figura \ref{fig:media_ventas_zona} Media de ventas por Zona
\end{figure}

Podemos notar que la media de ventas sigue una tendencia decreciente de zona 4 a zona 1, es decir, las ventas promedio son más altas en la zona 4, seguidas de la zona 3, la zona 2 y finalmente la zona 1.

Esto se puede entender tomando en cuenta las características de cada zona:

**Zona 1**: Con excepción del barrio Puerto Madero (que es un barrio con poder adquisitivo alto), esta zona se compone mayoritariamente de sectores de economía popular, donde se concentran muchas oficinas, administraciones públicas y comercios que suelen tener mayor actividad en días de semana, y menor actividad durante los fines de semana. Por lo tanto, es coherente que las ventas sean bajas en esta zona.

**Zona 2**: Esta zona se caracteriza por tener un poder adquisitivo medio-alto. Aunque la elección de un producto puede depender de varios factores personales y culturales, no es sorprendente que esta población no consuma este tipo de productos. Es posible que algunas personas con ingresos altos prefieran utilizar productos más exclusivos o de lujo, y consideren que los desodorantes de ambiente en aerosol no cumplen con sus estándares de calidad, o bien, pueden optar por otras opciones de fragancias o métodos para aromatizar su hogar. Además, algunas personas pueden tener preocupaciones ambientales y optar por productos más ecológicos o naturales que no contengan aerosoles.

**Zona 3**: Esta zona se compone de barrios de clase media, principalmente conformados por viviendas familiares, por lo que es esperable que haya un aumento en las ventas.

**Zona 4**: De manera similar al caso previo, esta zona se compone mayormente de varios barrios de clase media con viviendas familiares, en los cuales los residentes suelen pasar más tiempo en sus hogares. Por esta razón, es posible que se registre un mayor consumo de desodorantes de ambiente en aerosol en comparación con otras zonas.


###  ¿Cuál es la relación entre las ventas estimadas y las ventas reales de desodorantes que tienen promoción?


Se comprobó si todos los registros tienen el mismo valor para una misma promoción, tienda y producto, y se encontraron 15 registros diferentes en la tabla agrupada. Estos registros no se descartaron para el análisis.

Adicionalmente, se analizó si esta variable se aproximaba al valor real de ventas durante la promoción, calculando un ratio de ventas reales vs ventas estimadas para cada promoción. Para el análisis se debieron descartar los registros con un valor de ventas estimadas igual a cero. La tabla siguiente resume los valores obtenidos:

|                                            | **mean** | **std** | **min** | **25%** | **50%** | **75%** | **max** |
|:------------------------------------------:|:--------:|:-------:|:-------:|:-------:|:-------:|:-------:|:-------:|
| **Ratio= Ventas reales/ Ventas estimadas** | 0.71     | 1.42    | 0.00    | 0.05    | 0.21    | 0.75    | 27.00   |



Se concluye que la estimación de ventas suele ser optimista, ya que en el 75% de los casos, el ratio de ventas reales vs ventas estimadas es igual o inferior al 0.75% durante la promoción.

### ¿Cuál es el producto con la mayor y menor rotación por local, por año y por mes? ¿Hay un efecto de las promociones con la rotación de stock mensual?

La rotacion de inventario de un producto se calcula como:

>*Rotación Inventario [RI] = Ventas del periodo / Promedio de inventario del periodo*

Donde: Promedio de Inventario = (Inventario Inicial + Inventario Final) / 2

Se ha escogido un periodo mensual para su evaluación.

Para realizar el cálculo los registros con valor de inventario inicial y final 0 se han eliminado del dataset por imposibilidad de ser usados.

Se han calculado los valores de stock inicial, final de cada mes, el stock promedio y el RI mensual. La distribución de la variable resultante está representada en la siguiente tabla:

|        | **mean** | **std ** | **min ** | **25%** | **50% ** | **75%** | **max** |
|:------:|:--------:|:--------:|:--------:|:-------:|:--------:|:-------:|:-------:|
| **RI** | 0.88     | 1.36     | 0.00     | 0.21    | 0.57     | 1.11    | 72      |

Hay algunos productos con gran RI (eg. valor máximo de 72), mientras que el 75% de los datos estan en 1.1 o inferior y la media de los valores es 0.88. Para los productos con índice de rotación muy alto, puede ser que no estemos quedando sin stock con demasiada frecuencia, lo que puede impactar negativamente las ventas.

Hay algún producto con RI valor 0, esto significa que no se está vendiendo aunque tengamos stock. Para los productos con RI=0 o muy bajo, podrían estarse generando costes de almacenamiento innecesarios. Son los productos que debemos incentivar las ventas con más promociones o decidir descatalogarlos si no hay movimiento.

Si se analiza para cada mes a lo largo del periodo, la tendencia se muestra en la gráfica de la figura \ref{fig:indice_rotacion_periodo} Indice RI medio por meses.

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering}
    \includegraphics[width=1\textwidth]{images/RI mensual medio por Meses_Año.png}
    \caption{Índice de Rotación de stock en el periodo}
    \label{fig:indice_rotacion_periodo}
    Figura \ref{fig:indice_rotacion_periodo}. Indice de Rotación de stock en el periodo
\end{figure}

La siguiente tabla muestra el RI mensual medio anual para los diferentes años del periodo:

| **mov_year** | **RI ** |
|:------------:|:-------:|
| **2016**     | 1.14    |
| **2017**     | 0.98    |
| **2018**     | 0.87    |
| **2019**     | 0.62    |

La tendencia del indice RI para los diferentes meses y años es muy similar a la vista ya de las ventas.

Se han buscado los 5 productos con mayor rotación de stock para cada mes y año, obteniendo el siguiente resultado de id_producto: 458394 484434 342745 292949 342686 242231 242232 342682 240911 228217 474295 249486 450083 429883 292945 507528 461280 507525 386296 427444 455722 402700 342762 458395 474300 458392 507527 467698

Se han analizado los productos que han tenido rotación de stock 0 y resultan 91 productos que en algún mes han tenido dicho índice. No se ha seguido investigando este punto pero podría ser objeto de estudio por el cliente para evaluar los productos que son más propensos a necesitar promociones o para reducir costes.

Se han analizado los RI medios por local que no sea centro de distribución, los locales con mayor índice de rotación medio (RI>1.5) son los siguientes idb: 5202 9062 9638 9640

Se ha analizado la posible relación de las promociones con la rotación de stock, para ello se han utilizado las promociones acumuladas mensuales obteniendo los siguientes resultados mostrados en las figuras \ref{fig:RI_promos_tiempo} y 28:

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/RI_promos_tiempo.png}
    \caption{Índice de Rotación de stock y promociones acumuladas mensuales en el periodo}
    \label{fig:RI_promos_tiempo}
    Figura \ref{fig:RI_promos_tiempo}. Indice de Rotación y promociones acumuladas mensuales en el periodo
\end{figure}

\begin{figure}
    \centering % imagen centrada
    \captionsetup{justification=centering,margin=2cm}
    \includegraphics[width=0.8\textwidth]{images/RI_mensual_vs_promociones_acumuladas.png}
    \caption{Índice de Rotación de stock en el periodo}
    \label{fig:RI_mensual_vs_promociones_acumuladas}
    Figura \ref{fig:RI_mensual_vs_promociones_acumuladas}. Indice de Rotación vs promociones acumuladas mensuales
\end{figure}

Se intuye que hay una cierta relación entre ambas variables, cuantas más promociones hay más rotación de stock, seguramente tal y como hemos visto antes debido a el aumento de las ventas.

\newpage

\section{Contraste de Hipótesis}

Tras analizar los datos, se ha encontrado una diferencia significativa en la media de ventas de desodorantes en unidades entre los productos que tienen promoción y los que no la tienen, tal como se puede apreciar en la Figura \ref{fig:media_ventas}.

\begin{figure}
\centering
\captionsetup{justification=centering,margin=2cm}
\includegraphics[width=0.5\textwidth]{images/ventas_por_promo.png}
\caption{Media de ventas de desodorantes en unidades diarias para productos con y sin promoción}
\label{fig:media_ventas}
Figura \ref{fig:media_ventas}.Media de ventas de desodorantes en unidades diarias para productos con y sin promoción
\end{figure}

Para comprobar esta hipótesis, se realizó el test de Shapiro-Wilk para verificar si las distribuciones de las ventas de desodorantes con y sin promoción siguen una distribución normal. Los resultados indicaron que no se puede asumir la normalidad en los datos, por lo que se procedió a realizar un test no paramétrico llamado test de Wilcoxon-Mann-Whitney para comparar las medias de los dos grupos.

Las hipótesis planteadas fueron las siguientes:

```
- Hipótesis nula (H0): La media de ventas de desodorantes con 
promoción es >= que la de desodorantes sin promoción.

- Hipótesis alternativa (Ha): La media de ventas de desodorantes 
con promoción es <= que la de desodorantes sin promoción.

- Nivel de significancia α = 0.05.

Si el valor p-value > α, se acepta la hipótesis nula.
```

Los resultados del test indicaron un estadístico de 614881217148.500 y un p-value de 1.000, lo que significa que con un nivel de riesgo del 0.05, se puede decir que las medias de ventas de desodorantes diarias para productos con promoción es mayor o igual que las ventas sin promoción, como se puede ver en la Figura \ref{fig:media_ventas}. 

Es decir, que las promociones tienen un impacto significativo en el aumento de las ventas de desodorantes.

\newpage

\section{Fases del Proyecto}

\subsection{Roles requeridos}

Para llevar a cabo este proyecto, se requiere la participación de un equipo de profesionales con conocimientos específicos en áreas clave. Los roles y responsabilidades de cada uno de ellos se detallan a continuación:

**Científico de datos**: Este rol es responsable de preprocesar los datos de ventas, entrenar el modelo de machine learning y evaluar su rendimiento. Se espera que un científico de datos tenga conocimientos sólidos en estadística, machine learning y programación. 

**Ingeniero de machine learning**: Este rol es responsable de implementar el modelo de machine learning en producción y garantizar su escalabilidad, eficiencia y seguridad. Se espera que un ingeniero de machine learning tenga conocimientos sólidos en machine learning, programación y arquitectura de sistemas. 

**Ingeniero de datos**: Este rol es responsable de la ingesta de datos en el sistema y garantizar que los datos sean adecuados para la alimentación del modelo de machine learning. Se espera que un ingeniero de datos tenga conocimientos sólidos en bases de datos, ETL y programación. 

**Gerente de proyecto**: supervisa y coordina todo el proceso, y se comunica con el cliente para garantizar que los requisitos del proyecto se cumplan. 

En conclusión, los roles y responsabilidades necesarios para llevar a cabo el proyecto pueden variar según los detalles del proyecto y las necesidades específicas del equipo. Es importante tener en cuenta que el costo total de personal para el equipo podría variar dependiendo de la experiencia y la ubicación, y es importante considerar los costos adicionales como la infraestructura y los gastos de funcionamiento en el presupuesto general del proyecto.

\subsection{Etapas del Proyecto}

A continuación presentamos las fases del proyecto de análisis de los movimientos de ventas de desodorantes. 

| **FASES**                                                             | **SEMANAS** |
|-----------------------------------------------------------------------|-------------|
| **Fase de Preparación**                                               |  **1 - 4**  |
| Definición de los objetivos del proyecto y los requisitos del cliente |    1 - 2    |
| Adquisición y exploración del dataset                                 |    3 - 4    |
| **Fase de Desarrollo**                                                |  **5 - 10** |
| Selección y ajuste de un modelo de machine learning                   |    5 - 6    |
| Entrenamiento y evaluación del modelo                                 |    7 - 8    |
| Implementación y ajuste final del modelo en la plataforma             |    9 - 10   |
|  **Fase de Despliegue**                                               | **11 - 15** |
| Pruebas finales del modelo y preparación para la entrega              |   11 - 12   |
| Implementación del modelo y la plataforma en el entorno de producción |     13      |
| Pruebas y ajustes finales                                             |   14 - 15   |


\subsection{Esfuerzos}

A continuación presentamos los profesionales necesarios para llevar a cabo cada fase del proyecto de análisis de los movimientos de ventas de desodorantes.

| **FASES**                     | **HORAS** | **COSTE HORA (€)** | **SUBTOTAL**   |
|-------------------------------|-----------|--------------------|----------------|
| **Fase de Preparación**       |           |                    |                |
| Gerente de proyecto           | 80        | 50.00 €            | 4000.00 €      |
| Cientifico de datos           | 160       | 50.00 €            | 8000.00 €      |
| Ingeniero de datos            | 80        | 50.00 €            | 4000.00 €      |
| Analista de negocio           | 40        | 50.00 €            | 2000.00 €      |
| **Fase de Desarrollo**        |           |                    |                |
| Gerente de proyecto           | 80        | 50.00 €            | 4000.00 €      |
| Cientifico de datos           | 320       | 50.00 €            | 16000.00 €     |
| Ingeniero de machine learning | 160       | 50.00 €            | 8000.00 €      |
| Ingeniero de datos            | 160       | 50.00 €            | 8000.00 €      |
|  **Fase de Despliegue**       |           |                    |                |
| Gerente de proyecto           | 40        | 50.00 €            | 2000.00 €      |
| Ingeniero de machine learning | 60        | 50.00 €            | 3000.00 €      |
| Ingeniero de datos            | 40        | 50.00 €            | 2000.00 €      |
| **TOTAL**                     | **1220**  |                    | **61000.00 €** |

Nota: se ha asumido un coste hora medio de 50.00 €.

\newpage

\section{Arquitectura del proyecto}

En la figura \ref{fig:arquitectura_ml} se muestra una architectura para el despliegue de un modelo de machine learning para la predicion de las ventas de desodorantes. 

\begin{figure}
    \raggedright
    \hspace{1cm}
    \includegraphics[height=0.5\textwidth,keepaspectratio]{images/GCP_predictions_deodorants.png}
    \caption{GCP Arquitectura modelo de predicción de ventas de desodorantes.\\Fuente: Creado por las autoras usando Lucidchart.}
    \label{fig:arquitectura_ml}
    Figura \ref{fig:arquitectura_ml}. Diagrama de Arquitectura para el modelo de predicción de ventas. 
    Fuente: Creado por las autoras usando LucidChart. 
\end{figure}

La arquitectura se ha dividido en 6 capas que se explican a continuacion:

#### Trigger

En esta fase, se inicia el proceso de solicitud del modelo de predicción de ventas, que puede venir de diferentes acciones, como la ejecución de una aplicación, una actualización en la base de datos de ventas o solicitudes HTTP.

#### Data Sources

Se propone que en esta fase se recopilen y almacenen los datos de ventas en una base de datos de Google Cloud, como Cloud SQL, y se utilice una herramienta de Google Cloud, como Cloud Pub/Sub, para recibir notificaciones en tiempo real cuando se agregan nuevos datos de ventas. Esta propuesta se basa en la capacidad y flexibilidad de estas herramientas para manejar grandes volúmenes de datos y proporcionar una comunicación en tiempo real entre los sistemas de la arquitectura.

#### Data Processing

Durante la fase de preprocesamiento, se lleva a cabo la transformación de los datos de ventas para que sean adecuados para la alimentación del modelo de machine learning. Esto puede incluir la limpieza de datos, la transformación de datos y la selección de características relevantes. Para esta tarea, se sugiere el uso de herramientas de Google Cloud como Dataflow y Dataprep, las cuales permiten transformar los datos en un formato compatible con el modelo.

#### Model Training

Se propone el uso de herramientas de Google Cloud, como Vertex AI y Kubernetes Engine. Para aprovechar al máximo estas herramientas, se sugiere configurar Kubernetes Engine como un cluster de trabajo de Vertex AI. Esto se logra mediante Vertex AI como punto de entrada para crear un nuevo cluster de Kubernetes Engine. Una vez que el cluster de Kubernetes Engine esté configurado y en funcionamiento, se podrá entrenar el modelo utilizando las herramientas de Vertex AI de manera eficiente y efectiva.

#### Model Deployment

Para el deployment se puede utilizar una combinación de herramientas de Google Cloud, como Cloud Functions y Kubernetes Engine.

En primer lugar, se puede utilizar Cloud Functions para crear una función que se encargue de recibir solicitudes y enviar respuestas de las predicciones del modelo. Esta función puede interactuar con el modelo desplegado en Kubernetes Engine, el cual se encargará de realizar la predicción en sí misma.

#### Visualización

En esta fase, se muestran los resultados de las predicciones de ventas en una interfaz de usuario para que los usuarios puedan ver y utilizar los resultados. Para ello, se pueden utilizar herramientas de Google Cloud como Looker y BigQuery para crear visualizaciones personalizadas y paneles de control. Además, se puede utilizar la herramienta de Google Cloud, Firebase Hosting, para proporcionar una experiencia de usuario completa y escalable.

\subsection{Estimación Costos de Arquitectura Propuesta}

Los costos de estimación total de los servicios propuestos para utilizar Google Cloud Platform son de: 
**Total Estimated Cost: EUR 132.35 per 1 month** 

Los costos se han calculado usando google pricing calculator para cada uno de los servicios propuestos, el detalle se puede consultar en: \href{https://cloud.google.com/products/calculator/#id=99f54e35-5530-4b9f-905b-5930f6cf9720}{Google Cloud Cost Estimation}.

\newpage

\section{Propuesta de Modelos de Predicción}

En este ejercicio, se busca crear un modelo de predicción para las ventas de desodorantes en aerosol utilizando los datos disponibles. Durante el análisis exploratorio de datos (EDA), se identificaron variables externas que afectan el comportamiento de las ventas en los años 2018 y 2019.

Sin embargo, es importante tener en cuenta que, debido a la complejidad y variabilidad de las variables que influyen en las ventas, no se puede garantizar que los datos disponibles sean suficientes para lograr un R2 aceptable en el modelo de predicción. Por lo tanto, es posible que el modelo no se ajuste bien a los datos y tenga un rendimiento deficiente en la predicción de las ventas.

\subsection{Mapa de correlación de las variables seleccionadas para el modelo}

Para seleccionar las variables a utilizar en el modelo de predicción, se verificó la correlación entre las variables predictoras y el target que son las ventas (ver Figura \ref{fig:correlation_map}). Se observó que no existía una correlación mayor a 0.5 tanto negativa como positiva con las ventas. Sin embargo, se decidió tomar un umbral (threshold) de 0.7 para seleccionar aquellas variables con correlación mayor a 0.7 (positiva o negativa), y también se consideraron los resultados del EDA para identificar las variables que podrían tener un mayor impacto.

\begin{figure}
\centering
\captionsetup{justification=centering,margin=2cm}
\includegraphics[width=1\textwidth]{images/correlation_map.png}
\caption{Mapa de correlación ventas de desodorantes}
\label{fig:correlation_map}
Figura \ref{fig:correlation_map}. Mapa de Correlación 
\end{figure}

Las columnas que se seleccionaron fueron las siguientes:
```
cols = [
    'precio_unitario', 'stock_unidades', 'mov_year', 'punto_dist', 'zona',
    'id_cadena', 'cd_abast', 'mov_weekday', 'is_weekend',
    'mov_month', 'longitud', 'nro_prom', 'latitud',
    'id_region', 'local', 'idb', 'id_producto',
    'duracion_promo', 'tiene_promo'
]
```

\subsection{Selección del modelo}

Se evaluaron tres modelos de regresión: 

- RandomForest =  Es un modelo basado en árboles de decisión
- XGBoost = Utiliza una técnica de refuerzo de gradiente.
- Regresion Lineal 

Para el modelo se utilizó un dataset que contenía las columnas mencionadas anteriormente. También se realizó un filtrado de datos, incluyendo únicamente los registros correspondientes a las ventas del año 2018 y 2019. Por lo tanto, en total obtuvimos un dataset de 19 columnas y 4,802,438 registros.


***Resultados de los Modelos*** 

| **Modelo**   | **Tiempo de entrenamiento** | **R2 Score** |
|--------------|-----------------------------|--------------|
| RandomForest | 672.85 s                    | -0.154       |
| XGBoost      | 121.34 s                    | -1.161       |
| Regresión L. |   6.10 s                    |  0.034       |

Los tiempos de entrenamiento de los modelos fueron de 11 minutos y 18 segundos para RandomForest y 2.0223 minutos para XGBoost.

El R2 Score para RandomForest fue de -0.154 y para XGBoost fue de -1.161. Un R2 negativo indica que el modelo no se ajusta bien a los datos y tiene un mal rendimiento para predecir los valores de venta en función de las variables incluidas en el modelo


Nota: El código fuente de los jupyter notebooks utilizados y el codigo de los modelos se puede encontrar en este repositorio de github: \href{https://github.com/ErikaMelt/deodorants-project}{Deodorants Github Repository}

\newpage

\section{Conclusiones}

A partir del análisis realizado, se han determinado las siguientes conclusiones:

1. Dado que los desodorantes en aerosol no son productos considerados de primera necesidad, su venta puede verse reducida durante épocas de crisis económica y afectar al comportamiento habitual de las ventas.

2. En cuanto a los precios unitarios, se evidencia que han aumentado significativamente a lo largo de los años, casi duplicándose durante el periodo analizado. Esto se debe a la inflación que afecta a la economía de Argentina.

3. Los productos más populares son el Glade Desodorante de Ambientes Lavander Nueva Fórmula de 751 cc, suministrado por S.C. Johnson, y el Poett Ambiental Lavanda Nuevo de 0.377 kg, suministrado por Clorox Argentina S.A.

4. El promedio diario de ventas de los desodorantes en aerosol es de 0.314 unidades, mientras que durante una promoción, se venden en promedio 0.39 unidades diarias.

5. Dado que estos productos son estacionales y su demanda aumenta durante los meses fríos, se recomienda implementar una estrategia de promoción en meses diferentes a los de invierno para aumentar las ventas.

6. Los domingos y jueves son los días de mayor venta, por lo que se puede considerar la posibilidad de realizar promociones en días diferentes para aumentar las ventas.

7. Las promociones de 16 días registran la mayor cantidad de ventas, seguidas por las de 11 y 14 días. Por lo tanto, se puede tener en cuenta esta información para planificar promociones con estas duraciones.

8. Uno de los hallazgos de nuestro análisis fue que se encontraron 15 productos que nunca han sido promocionados y tampoco han tenido ventas. Esto puede afectar negativamente la rentabilidad de la empresa. Por lo tanto, se recomienda implementar promociones para estos productos y aumentar sus ventas para mejorar la rentabilidad o descatalogarlos en función de su rentabilidad. El mismo análisis aplicaría para productos con índices de rotación muy bajos.

9. La zona tiene una influencia muy fuerte en las ventas.

10. La mayoría de las ventas se concentran en la zona 4, por lo que se recomienda implementar una estrategia de promoción en otras zonas para aumentar las ventas.

11. Se observa que la zona 3 registra la mayor diferencia entre la media de ventas con y sin promoción, lo que sugiere que en esta área geográfica los consumidores adquieren más productos cuando se ofrecen promociones.

12. Al crear el modelo de predicción de ventas, se encontró que no se obtenía un R2 aceptable que se ajustara a los datos. Por lo tanto, se concluye que no se puede garantizar que los datos disponibles sean suficientes para lograr un R2 aceptable en el modelo de predicción.

13. Durante el análisis exploratorio de datos, se detectaron inconsistencias en los registros de stock, incluyendo algunos casos con valores negativos imputados. Estas inconsistencias deben ser corregidas para garantizar la precisión de los datos y evitar posibles decisiones erróneas basadas en ellos.

14. Se encontraron productos con valores de ventas nulos, lo que sugiere que no se han vendido. La implementación de promociones para estos productos no promocionados puede ser una solución efectiva para aumentar las ventas y mejorar la rentabilidad de la empresa.

15. Al realizar un contraste de hipótesis, se concluyó que las promociones tienen un efecto positivo en el incremento de las ventas. Por lo tanto, se recomienda implementar estrategias de promoción efectivas para maximizar el impacto en las ventas y mejorar la rentabilidad de la empresa.

\newpage

\bibliographystyle{plain}
\bibliography{references}