# Laboratorio 6

En este laboratorio utilizaremos un conjunto de datos de __Precios de Paltas__, extraído desde [Kaggle](https://www.kaggle.com/neuromusic/avocado-prices).

#### Context
_It is a well known fact that Millenials LOVE Avocado Toast. It's also a well known fact that all Millenials live in their parents basements._

Clearly, they aren't buying home because they are buying too much Avocado Toast!

But maybe there's hope... if a Millenial could find a city with cheap avocados, they could live out the Millenial American Dream.

#### Content
This data was downloaded from the Hass Avocado Board website in May of 2018 & compiled into a single CSV. Here's how the Hass Avocado Board describes the data on their website:

> The table below represents weekly 2018 retail scan data for National retail volume (units) and price. Retail scan data comes directly from retailers’ cash registers based on actual retail sales of Hass avocados. Starting in 2013, the table below reflects an expanded, multi-outlet retail data set. Multi-outlet reporting includes an aggregation of the following channels: grocery, mass, club, drug, dollar and military. The Average Price (of avocados) in the table reflects a per unit (per avocado) cost, even when multiple units (avocados) are sold in bags. The Product Lookup codes (PLU’s) in the table are only for Hass avocados. Other varieties of avocados (e.g. greenskins) are not included in this table.

Some relevant columns in the dataset:

* `Date` - The date of the observation
* `AveragePrice` - the average price of a single avocado
* `type` - conventional or organic
* `year` - the year
* `Region` - the city or region of the observation
* `Total Volume` - Total number of avocados sold
* `4046` - Total number of avocados with PLU 4046 sold
* `4225` - Total number of avocados with PLU 4225 sold
* `4770` - Total number of avocados with PLU 4770 sold

Veamos el conjunto de datos y formatémoslo con tal de aprovechar mejor la información

In [None]:
import os
import numpy as np
import pandas as pd
import altair as alt

alt.themes.enable('opaque')  # Para quienes utilizan temas oscuros en Jupyter Lab

In [None]:
data_path = os.path.join("..", "data")
data_filepath = os.path.join(data_path, "avocado.csv")
paltas_raw = pd.read_csv(data_filepath, index_col=0)
paltas_raw.head()

In [None]:
paltas = (
    paltas_raw.assign(
        dt_date=lambda x: pd.to_datetime(x["Date"], format="%Y-%m-%d")
    )
    .drop(columns=["Date", "year", "4046", "4225", "4770"])
)
    
paltas.head()

## Ejercicio 1

(1 pto)

Haz un gráfico de líneas tal que:

* El eje horziontal corresponda a la fecha.
* El eje vertical al promedio del precio promedio.
* El color sea por tipo de palta.

In [None]:
alt.Chart(paltas).mark_line().encode(
    x='dt_date',
    y='average(AveragePrice)',
    color='type'    
)

¿`MaxRowError`? ¿Qué es eso? Para todo el detalle puedes dirigirte [aquí](https://altair-viz.github.io/user_guide/faq.html#maxrowserror-how-can-i-plot-large-datasets). En lo que nos concierne, `altair` no solo genera los pixeles de un gráfico, si no que también guarda la data asociada a él. Este error es para advertir al usuario que los jupyter notebooks podrían utilizar mucha memoria. 

Una buena práctica en estos datos, es generar un archivo `json` con los datos y `altair` es capaz de leer la url directamente. El único inconveniente es que no detecta el tipo de dato automáticamente, por lo que siempre se debe declarar.

__BUG!__ La solución debiese ser la que dada por la documentación oficial, pero al parecer hay problemas en como accede JupyterLab a ciertos ficheros [issue](https://github.com/altair-viz/altair/issues/2308). Por lo tanto, utilizaremos la forma no recomendada, es decir, eliminar la restricción de filas.

In [None]:
alt.data_transformers.disable_max_rows()

En caso que el bug se haya resuelto, descomenta y ejecuta la siguiente celda para generar el archivo `json` y acceder a él por url.

In [None]:
# paltas_url = os.path.join(data_path, "paltas.json")
# paltas.to_json(paltas_url, orient="records")

# alt.data_transformers.enable('json')  # Para poder leer directamente la url de un archivo json.

# alt.Chart(paltas_url).mark_line().encode(
#     x="dt_date:T",
#     y="AveragePrice:Q",
#     color="type:N"
# ).properties(
#     width=800, 
#     height=400 
# )

Ahora vuelve a ejecutar tu código en la siguiente celda y observa que ahora si se genera el gráfico.

In [None]:
alt.Chart(paltas).mark_line().encode(
    x='dt_date',
    y='average(AveragePrice)',
    color='type'    
)

## Ejercicio 2

(2 ptos)

Genera un gráfico similar al del gráfico anterior, pero esta vez coloreando por región, es decir, un gráfico de líneas tal que:

* El eje horziontal corresponda a la fecha.
* El eje vertical al promedio de precio promedio.
* El color sea por región.

In [None]:
alt.Chart(paltas).mark_line().encode(
    x='dt_date',
    y='average(AveragePrice)',
    color='region' 
).properties(
    width=800, 
    height=400 
)

¿Te parece adecuado y/o que entrega información útil?

Ahora, para mostrar la misma información, genera un mapa de calor.

In [None]:
alt.Chart(paltas).mark_rect().encode(
    x='dt_date:O',
    y='region',
    color='average(AveragePrice):Q',
).properties(
    width=800, 
    height=800 
)

__Pregunta:__ ¿Por qué es mejor utilizar un mapa de calor en este caso?

__Respuesta:__ Debido a la gran cantidad de regiones, es díficil distingirlas en el gráfico de líneas. En el mapa de calor, es más facil reconocer que pasa en cada región, y también se puede comparar/ reconocer fácilmente patrones a lo largo de las regiones.

## Ejercicio 3

(1 pto)

¿Existirá alguna relación entre `Total Volumne`, `Total Bags` y `AveragePrice` para cada uno de los tipos de palta?

Haz un gráfico tal que:

* Eje X e Y sean `Total Bags` y `Total Volume` respectivamente.
* El color sea relacionado al precio promedio y utiliza el `scheme` _goldgreen_. Documentación [aquí](https://altair-viz.github.io/user_guide/customization.html#color-schemes).
* Opacidad fija de 0.6.
* Divide columans por `type` (con esto obtendrás dos subgráficos).
* Debe ser de tamaño 600 x 400.

Recuerda seleccionar un tipo de gráfico (_mark_) de acorde a todos los datos a graficar.


In [None]:
alt.Chart(paltas).mark_circle(opacity=0.6).encode(
    x="Total Bags",
    y="Total Volume",
    color=alt.Color("AveragePrice:Q",
        scale=alt.Scale(scheme='goldgreen'),
    ),
    column="type"
).properties(
    title="Relación entre volumen, bolsas y precio para cada tipo de palta",
    width=600, 
    height=400 
)

__Pregunta:__ ¿Hay alguna relación o conclusión que puedas inferir solo utilizando el gráfico anterior?

__Respuesta:__ Hay un grado de correlación lineal entre la cantidad de bolsas y el volumen total. La producción de paltas organicas esta acotada a una menor cantidad de bolsas/un menor volumen, con una relación volumen/bolsas, fuertemente lineal, pareciera ser más cara respecto a la convecional. Para palta convencional, se observa un grupo con menores ventas más pequeños concetrado, y ventas grandes  más disperso.Para el segundo caso, pareciera haber una relación entre el precio promedio y y el ratio volumen/bolsas, con mayores precios asociados a una menor cantidad de volumen vendido respecto a la cantidad  de bolsas.