# Actividad Evaluada 2

## Enunciado

En esta actividad vamos a trabajar con los mismos datos de la actividad de la semana pasada. Estos datos son los que representan un caso ficticio de una tienda online que vende frutas. Las tablas disponibilizadas son `Usuarios`, `Frutas` y `Compras`, y las puedes encontrar en el GitHub junto a este archivo. Recordemos que las compras disponibles en los datos son solo para el mes de febrero.

Para esta actividad vas a tener que hacer consultas sobre estos datos en BigQuery y vas a tener que descargar los resultados en formato `.csv`. Luego vas a tener que cargar los archivos `.csv` (probablemente quieras usar Pandas 🐼🐼) para hacer ciertas visualizaciones.

Cuando te toque escribir una consulta SQL, te recomendamos usar Markdown y utilizar el highlighting de SQL como se muestra a continuación:

```SQL
SELECT * 
FROM Example E
WHERE E.id=1024
```

**Ojo**: lo más importante de esta actividad es que aprendas a usar BigQuery y Window Functions, por lo que esperamos que tus consultas SQL sean correctas y sigan buenas prácticas. Además, cuando te toque hacer una visualización, esperamos que no cumplas solo con lo mínimo, sino que buscamos que te sientas orgulloso del resultado que estás mostrando.

## Parte 1 (1 punto) - Validando los datos

Cuando estamos consumiendo datos de un Data Warehouse puede pasar que los datos no sean consistentes. Por lo mismo, es una buena práctica validar que nuestros datos son correctos. En esta actividad, vas a tener que validar algunas restricciones relacionadas a las compras.

- **Pregunta 1.1 (0.3 pts)**. Escribe una consulta SQL que compruebe que todo usuario y toda fruta que aparece en la tabla `Compras`  exista en las tablas `Frutas` y `Usuarios`.
- **Pregunta 1.2 (0.3 pts)**. Escribe una consulta SQL que compruebe que cada compra está asociada a un único usuario.
- **Pregunta 1.3 (0.4 pts)**. Escribe una consulta SQL que compruebe que un producto aparece una única vez en cada compra. Es decir, si existe una tupla que dice que un usuario compro la fruta $f$ en la compra $c$, entonces no hay otra tupla de la compra $c$ que tenga ese mismo producto.

*Escribe tus respuestas antes de la celda de la siguiente pregunta. Puedes usar las celdas que estimes conveniente mientras se entienda.*

## Parte 2 (2 puntos) - Visualizando datos generales

Ahora vamos a construir algunas visualizaciones en base a los resultados de ciertas consultas en BigQuery.

- **Pregunta 2.1 (1 pto)**. Escribe una consulta en SQL que diga para cada fruta el número de veces que fue comprada. Luego, descarga el `.csv` de la respuesta y cárgalo en este notebook. Haz una visualización del resultado.
- **Pregunta 2.2 (1 pto)**. Escribe una consulta SQL que calcule el total de ventas diario en dinero ($), para cada día de febrero. Luego, descarga el `.csv` de la respuesta y cárgalo en este notebook. Haz una visualización del resultado.

*Escribe tus respuestas antes de la celda de la siguiente pregunta. Puedes usar las celdas que estimes conveniente mientras se entienda.*

## Parte 3 (3 puntos) - Window Functions

Ahora vamos a construir algunas visualizaciones en base a los resultados de ciertas consultas en BigQuery que se responden utilizando Window Functions. **Importante**: si bien las consultas podríamos hacerlas sin usar Window Functions, la idea es que las resuelvas usando esta técnica porque es la forma más eficiente de calcular sumas acumuladas, medias móviles, entre otras tareas.

- **Pregunta 3.1 (0.5 pts)**. Escribe una consulta SQL que diga el nombre del usuario que gasto más plata en la tienda para cada día. En caso de empate, resuelvelo como estimes conveniente. Entrega la consulta SQL escrita en Markdown.
- **Pregunta 3.2 (1.5 pts)**. Escribe una consulta SQL que calcule la suma acumulada del total de dinero gastado de forma diaria por cada usuario. La idea es entender la evolución en el tiempo de lo que ha gastado cada usuario. Luego, descarga el `.csv` con el resultado y cárgalo en este notebook. Ahora haz una visualización del dinero gastado en el tiempo para un usuario en particular. La visualización debe estar hecha de manera tal que sea fácil escoger un usuario y ver el gráfico para ese usuario. **Hint**. Primero calcula el total diario gastado por un usuario. Luego haz un `LEFT JOIN` entre las fechas del mes de febrero y el total diario gastado por los usuarios. Finalmente haz una Window Function que haga el acumulado diario para cada usuario.
- **Pregunta 3.3 (1 pto)** Haz una consulta SQL que calcule la media móvil del total de ventas para cada día de febrero. La ventana debe considerar desde dos días en el pasado hasta dos días en el futuro. Luego descarga el `.csv` con la consulta, cárgalo en este notebook y realiza una visualización de los resultados.

**Nota**. Para las consultas SQL puedes usar las CTE que estimes conveniente.

*Escribe tus respuestas antes de la celda de la siguiente pregunta. Puedes usar las celdas que estimes conveniente mientras se entienda.*

### Importante

Cuando te pedimos solo escribir la consulta SQL tienes que escribir la consulta en Markdown, sin añadir ningún `.csv`. Cuando te pedimos visualizar **tienes que escribir la consulta en Markdown**, adjuntar el `.csv` y hacer el código para la visualización. 

La parte de adjuntar el `.csv` es solo para poder correr el código Python que arma la visualización, y dicha visualización se debería armar con el `.csv` tal y como está y **no deberías hacer mayor procesamiento con Pandas**. La única parte que requiere un poco de procesamiento es cuando tienes que escoger un usuario en particular para visualizar. Si tienes dudas sobre lo que estás haciendo, deberías preguntarte si tu consulta SQL hace lo que te piden, y si estás usando Window Functions cuando corresponde.

**Sobre la visualización**: esperamos que hagas visualizaciones que se entiendan por si solas y que sean fáciles de explicar para alguien que no tiene contexto del código. Las visualizaciones las debes armar con código Python, y para realizarlas te recomendamos usar [Plotly](https://plotly.com/python/) o [Seaborn](https://seaborn.pydata.org/).

## Detalles administrativos

- El trabajo es individual. Puedes consultar y discutir con tus compañeras y compañeros, pero a la hora de escribir el código, no puedes compartirlo con nadie. Puedes usar recursos como internet y modelos fundacionales de procesamiento de texto, pero nuevamente, no puedes compartir tu código.

- La entrega es el martes 11 de abril a las 20:00 horas. Vas a tener que entregar una carpeta comprimida (.zip) con el notebook y los archivos `.csv` necesarios para correr las visualizaciones. **Para corregir la tarea vamos a usar Google Colab, así que te recomendamos que pruebes que tu tarea corre en ese entorno**.

- Si tienes dudas, aprovéchanos, vamos a estar en la sala para ayudar. Recuerda que la idea en estas actividades es aprender y evaluar al mismo tiempo, ¡está bien si no todo sale a la primera!.