# Trabajo Práctico: Procesamiento de datos

En la carpeta `data` se encuentra los datos crudos de ventas durante el 2022 de las diferentes sedes de una cadeda de tiendas DuttyFree ubicadas en distintos aeropuertos del país. Esta información se encuentra en distintos archivos en formato `.parquet` los cuales deben ser reconstruidos. La compañía desea analizar los datos para apoyar su proceso de toma de decisiones. Sin embargo, estos datos son recolectados manualmente desde cada una de las sedes por lo que se requiere previamente realizar una limpieza y procesamiento de los datos.

## Carga de configuraciones:

In [1]:
import pandas as pd
import matplotlib.pylab as plt
import os
pd.set_option('max_columns', 50)

## Reconstrucción de los datos

Para manejar datos de archivos `.parquet` se requiere tener instalado uno de los siguientes paquetes: `pyarrow` o `fastparquet`. Para instalarlos, ejecute alguno de los siguientes comandos:

```
!pip install pyarrow
!pip install fastparquet
```

Lea y reconstruya los datos unificandolos en un mismo DataFrame. Luego, conteste las siguientes preguntas:

1. ¿Cuántos registros tienen los datos?
2. ¿Cuántas columnas tienen los datos?
3. De una breve explicación de los datos que contiene cada columna.
4. ¿Existe alguna columna que contenga un 'identificador único'? ¿Existen registros duplicados en este campo?
5. Haga un recuento de valores para cada columna categórica. ¿Existen valores con un mismo significado?

## Manipulación de datos

Luego de reconstruir y analizar los datos, se identificaron opciones de mejorar la calidad de los datos. Realice:

1. Elimine columnas que contengan datos duplicados.
2. Para las columnas categóricas, unifique los valores con significados duplicados.

## Agrupación de datos

Luego de haber hecho una limpieza de datos, conteste las siguientes preguntas:

1. ¿Cuánto fue el total de ventas de cada tienda?
2. ¿Cuánto fue el total de ventas en pesos colombianos de cada tienda? Utilice el valor actual de la divisa para la conversión.
3. ¿Cuánto fue el total de ventas de cada zona?
4. ¿Cuánto fue el total de ventas en pesos colombianos de cada zona? Utilice el valor actual de la divisa para la conversión.
5. ¿Qué porcentaje de compras llevaron bolsas?
6. ¿Cuanto pagó por concepto de IVA cada tienda durante el año?
7. ¿Cúal fue el día con mayor cantidad de transacciones?
8. ¿De las compras realizadas con tarjetas de crédito, cuál fue la franquicia con mayor monto de ventas por divisa?
9. ¿Cuál fue el mes con menos cantidad de transacciones?
10. ¿Por cada tienda, qué día de la semana es el de menor cantidad de ventas?

# Gráficas de datos

Realice los siguientes gráficos:

1. Un histograma de frecuencias de la cantidad de ventas por día.
2. Un gráfico lineal con el monto de ventas diarias. Utilice un eje cada divisa según su magnitud.
3. Un gráfico de barras del total del monto de ventas (en Pesos Colombianos) por cada tienda durante el año.
4. Un gráfico circular del monto total de ventas (en Pesos Colombianos) por zonas
5. Un gráfico de dispersión del monto de ventas (en Pesos Colombianos) vs El día del mes (1 al 31). Utilice distintos marcadores y colores para indicar el tipo de tránsito y la nacionalidad del comprador.

`TIP`: utilice [matplotlib](https://matplotlib.org/cheatsheets/) para realizar los gráficos.



## Visualizaciones adicionales: Mapas

Los datos poseen latitud y longitud de cada una de las sedes de la compañía. Realice un Mapa interactivo donde coloque un marcador en cada una de las sedes y que adicional muestre:

- Nombre de la tienda.
- ID de la tienda.
- Aeropuerto y ciudad.
- Sigla del aeropuerto.
- Región.
- Cantidad de ventas realizadas.
- Suma total de las ventas (En COP).

`TIP`: Puede utilizar (Folium)[https://python-visualization.github.io/folium/quickstart.html] para realizar el mapa.