<center>
<h4>Diplomatura en CDAAyA 2019 - FaMAF - UNC</h4>
<h1>¿Caro o Barato? Análisis de Precios de Almacen en un Contexto Inflacionario</h1>
<h3>Análisis y Visualización</h3>
</center>
</left>
<h4>Sofía Luján y Julieta Bergamasco</h4>
</left>

__[Proyecto para Mentoría](https://sites.google.com/view/mentorias2020-diplodatos/caro-o-barato-an%C3%A1lisis-de-precios-de-almac%C3%A9n-en-un-contexto-inflacionari?authuser=0)__


# Introducción

En la siguiente notebook, realizaremos la carga del **dataset** que utilizarán para el práctico de Análisis y Visualización. Para ello, comenzaremos con las importaciones pertinentes.<br>
Posteriormente, se detallarán las consignas a seguir para la elaboración del informe.

Recuerden que el **objetivo final de este proyecto** es encontrar una forma de identificar si un producto está caro o barato, no en una sucursal puntual, sino dada una región o ciudad.

# Importaciones y Lectura de Datos

In [1]:
import pandas as pd
from io import StringIO
import plotly.express as px
import re
import numpy as np
import seaborn as sns

In [10]:
file_name = 'precio_sucursal_producto.pkl'
precio_sucursal_producto = pd.read_pickle(file_name)

# Consigna para Informe de Análisis y Visualización

## 1. General

Se propone la **elaboración de un informe** que deberá entregarse en formato html o pdf y deberá apuntar a un público técnico, pero sin conocimientos específicos en el tema.<br>
La estructura del mismo puede seguir un esquema de secciones como el siguiente: **Introducción - Presentación del Dataset - Variables más relevantes o de interés - Respuestas a preguntas disparadoras - Relaciones interesantes entre variables - Principales conclusiones y posibilidad de futuros aportes**. No hay límites respecto a la extensión, pero se valorará el poder de síntesis y de comunicación, así como el uso de las herramientas pertinentes para comunicar.
Pueden tomar, a modo de ejemplo, __[esta publicación de Open Data](http://blog.opendatacordoba.org/estudio-sobre-el-aumento-de-precios-en-las-gondolas-entre-abril-y-mayo-del-2018/)__. *(Notar que el objetivo de este análisis es diferente al propuesto en este proyecto)*

## 2. Análisis Estadístico de Variables

Se propone que realicen un análisis estadístico riguroso de variables que seleccionen por ser de su interés o porque crean que son relevantes (entre 2 y 4), dentro de las cuales tiene que estar el precio. Deberán responder preguntas como:
- Qué **tipo de variable** es cada una?
- Existen **outliers** en las variables seleccionadas?
- Hay **valores faltantes**? Qué decisión tomarán al respecto en esta instancia de análisis? Es mejor descartarlos o completarlos con un valor particular?
- Cómo es la **distribución** de las variables en el dataset? Se distribuyen de manera normal? Qué implicancias tiene esto?
- Cómo es la **frecuencia** de las variables categóricas que seleccionaron?
- Cómo es la **distribución de precios condicionada** a otra variable?

En caso de calcular estadísticos, explicar por qué lo hicieron y su significado. Utilizar los gráficos apropiados para mostrar el análisis realizado.<br>
Además:
- Cuáles son las **características con más datos faltantes**?
- Entre qué variables existe más **correlación**?
- Analizar la dispersión de precios de un producto en todas las sucursales.

Utilizar gráficos que permitan visualizar de un modo simple las conclusiones.

## 3. Consignas Disparadoras
A continuación se presenta una serie de ***consignas disparadoras***, a modo de ayuda para encaminar el análisis y la visualización de los datos. Algunas de ellas deberán responderlas de manera obligatoria.

### 3.1 De Respuesta Obligatoria
Elegir un producto representativo (el que quieran, pero tiene que ser exactamente el mismo) que se repita para todas las fechas y se encuentre en todas las provincias. Si no hay alguno que cumpla esta condición, entonces que se encuentre en todas las regiones. Este será nuestro ***bien numerario*** para reexpresar los precios en términos relativos dentro de cada fecha.

Crear una nueva columna con el ***precio relativo*** en términos del bien elegido, por fecha y provincia (o región en su defecto). Es decir, para una fecha y provincia (o región), el precio de cualquier producto ahora quedará expresado en términos del producto elegido, haciendo Pi/PBienNumerario.

Lo que estamos haciendo acá es, básicamente, expresar el valor de los productos en términos de un único bien. Por ejemplo, si eligieron "Arroz Doble Carolina Dos Hermanos 1Kg", el precio relativo de "Cerveza Quilmes 1L" nos dirá cuántos kg de arroz son necesarios para comprar un litro de esa cerveza. Esto nos permite eliminar el factor inflación del análisis, ya que sabemos que los precios aumentan a cierto ritmo, pero no tenemos un índice semanal para deflactarlos (es decir, "sacarles" la inflalción).

Hecho esto, **repetir el análisis estadístico del punto 2 utilizando precios relativos**.

Además,

- Cuál es la correlación entre precios nominales y relativos? Nos sirve de algo este dato?
- Qué productos están en todas las provincias?
- Cómo podemos medir la dispersión de precios? Encontrar una métrica y un elemento de visualización.
- Qué tipos de productos se encuentran entre los más caros? En qué provincia se encuentran mayoritariamente?
- Qué tipos de productos se encuentran entre los más baratos? En qué provincia se encuentran mayoritariamente?
- Cómo se distribuyen los precios por provincia y cadena de proveedor?
- Cuál es la región/provincia con mayor promedio de precios? Y de menor promedio?
- Son estadísticamente distintas las medias de los precios entre dos regiones (las que elijan)?
- Cuál es la probabilidad de que un precio en la provincia de Córdoba se encuentre por arriba de la media nacional?

### 3.2 Adicionales
A modo de ayuda, se propone un listado de preguntas adicionales. Podrán hacer uso de las mismas, aunque no es estrictamente necesario que las respondan. Algunas pueden resultarles de mayor interés que otras.

- Se puede obtener de alguna forma la categoría de los productos a partir de sus nombres?
- Son variables independientes las provincias y las cadenas de supermercados?
- Qué productos no están en todas las provincias?
- Qué marcas no están en todas las provincias?

## Entregables
Los entregables son la **notebook** con el análisis realizado y el **informe**.

**Fecha de Entrega ~ 29/06**

# Algo de Background: Precios Relativos

Cuando hablamos de precios relativos, nos referimos a expresar el valor de los bienes en términos de otro bien dado. En el ejemplo planteado, todos los precios nos dirán cuántos kilos de arroz vale cada producto.

Entonces, si reexpresamos los precios de este modo, ya no va a importar si el arroz aumentó nominalmente de precio en alguna fecha en particular, porque un kg de arroz siempre va a valer un kg de arroz. Lo mismo para cualquier producto, sólo que entre fecha y fecha sí puede variar cuántos kilos de arroz son necesarios para comprar determinado producto.

Así, por ejemplo, hoy pueden ser necesarios 1.1 kg de arroz para comprar 1L de cerveza, pero la semana que viene se puede necesitar sólo 1kg. Este cambio en los precios relativos es lo que nos permite determinar que un producto se abarató en términos de otro. En particular para este caso, la cerveza se abarató en términos del arroz.

Para mayor información, pueden consultar los siguientes links, en donde encontrarán los fundamentos:
- http://economiaparatodos.net/importancia-de-los-precios-relativos-2/
- https://guiasjuridicas.wolterskluwer.es/Content/Documento.aspx?params=H4sIAAAAAAAEAMtMSbF1jTAAASNTIzNztbLUouLM_DxbIwMDS0NDQ7BAZlqlS35ySGVBqm1aYk5xKgB3aYC7NQAAAA==WKE#:~:text=Se%20define%20un%20precio%20relativo,en%20t%C3%A9rminos%20de%20otro%20bien.&text=Matem%C3%A1ticamente%20hablando%2C%20un%20precio%20relativo,unidad%20adicional%20de%20otro%20bien.