# Ventas en USD
## Limpieza de los datos

Capacitación: Gobernanza de Datos - GCBA

#### **Librerias y Setup del Notebook**

In [1]:
# Libs principales
import pandas as pd
import numpy as np

# DataViz libs
import matplotlib.pyplot as plt
import seaborn as sns

# Lib. Utiles
from datetime import datetime

# Setup del Notebooks
import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)

## Objetivos del Proyecto


**Grupo Perfil Tecnico**
- En Base al excel “Actividad Ventas en Dolares” identificar posibles análisis a realizar con los datos actuales.

- Con qué problemas de calidad de datos nos encontramos y cómo podríamos resolverlos? 

- Calcular la venta en dólares para los distintos productos del total de la base y para los últimos 3 meses del 2020. Deben buscar una base externa para resolver esta cuestión. Adjuntar un excel con sus gráficos, resultados y base incorporada y fuente. Contestar: cómo resolvieron la normalización de los datos?

- Hacer foco en cuestiones de negocios, qué decisiones **podemos** y **no podemos** tomar con la data actual? Qué información agregaría o recomendaría agregar?

- Adjuntar excel con sus gráficos y resultados, y también un word con sus respuestas teóricas. 

***

### Agenda - Limpieza de Datos

1. Encoding/Decoding caracteres especiales en las variables categoricas;
2. Verificar, corregir o dropar columnas con muchos datos faltantes;
3. Parsear correctamente columna `Date (YYYYMMDD)`;
4. Conectar base de `monedas` (cambio/forex), traendo datos del cambio diario, a travez da la fecha presente en `Date (YYYYMMDD)`;
5. Analisis de los datos (en otro Notebook).

### **Cargando dataset de `ventas` en Jupyter Nb**

In [4]:
# Caergando archivo en formato Excel y guardandolo en formato csv

# pd.read_excel('../data/ventas_usd.xlsx', engine = 'openpyxl').to_csv('../data/ventas_usd.csv')

In [5]:
# Cargando dataset en Jupyter, version csv

ventas = pd.read_csv("../data/ventas_usd.csv", index_col = 'Unnamed: 0', encoding = 'utf-8')
ventas.head(3)

Unnamed: 0,Delivery_Id,amount,Pais/Moneda,quantity,units,title,subtitle,ean (identificador producto),brand,flavor,variant,first_driver,second_driver,third_driver,package_type,volume_quantity,volume_unit,nutritional_information,category_code,category_name,category_color,retail_amount,Date (YYYYMMDD)
0,1,14.0,México,6,1,,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,,,,,,,355.0,mL,,BEBIDAS,BEBIDAS,F7E173,14.0,20200708-171056676
1,1,14.0,México,6,1,,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,,,,,,,355.0,mL,,BEBIDAS,BEBIDAS,F7E173,14.0,20200708-171056676
2,2,94.0,Argentina,2,1,,Marolio Duraznos en Mitades,7797470001998,Marolio,,Duraznos en Mitades,,,,,820.0,g,,ALMACEN,ALMACÃ‰N,FFCB3D,94.0,20200708-171056676


## Limpieza de los datos

### Limpiando problemas con caracteres especiales

El objetivo de esta sección es limpiar los datos de tipo `string` que fueron parseados con caracteres especiales. 

Por ejemplo:

`Ala LÃ­quido Lavarropas Baja Espuma` ➞ `Ala Líquido Lavarropas Baja Espuma`

In [6]:
# Filtrando DF por columnas de tipo "Pandas Object" (string)

ventas_str = ventas[list(ventas.select_dtypes('object').columns)]
# ventas_str.head()

In [7]:
# ventas_str[ventas_str.apply(lambda x: x.str.contains('Ã'))].head()

In [8]:
### Conteo de strings unicas que contienen caracteres especiales y dificultan la lectura

# Filtando columnas que contienen caracteres especiales
ventas_str_especiales = ventas_str[ventas_str.apply(lambda x: x.str.contains('Ã'))]

# Proseguiendo con el conteo
ventas_str_especiales_conteo = ventas_str_especiales.nunique().loc[ventas_str_especiales.nunique() > 0]                          
ventas_str_especiales_conteo

subtitle         1995
brand             154
flavor             11
variant          1411
third_driver        3
package_type        7
category_name      28
dtype: int64

In [9]:
# Listando nombre de las columnas que contienen caracteres especiales
ventas_str_especiales_cols = ventas_str_especiales_conteo.index.tolist()

# ventas_str_especiales_cols

In [11]:
# Transformando caracteres especiales, de formato uft-8 a ascii
for col in ventas_str_especiales_cols:
    ventas[col] = ventas[col].str.encode('utf-8').str.decode('ascii', 'ignore')
    
    # Validando la transformación
    ventas_col_carac_esp = ventas[ventas[col].str.contains('Ã', na = False)]
    ventas_col_carac_esp_conteo = ventas_col_carac_esp.nunique().loc[ventas_col_carac_esp.nunique() > 0]
    
    assert len(ventas_col_carac_esp_conteo) == 0
    
# Visualizando el DF modificado
ventas.head(3)

Unnamed: 0,Delivery_Id,amount,Pais/Moneda,quantity,units,title,subtitle,ean (identificador producto),brand,flavor,variant,first_driver,second_driver,third_driver,package_type,volume_quantity,volume_unit,nutritional_information,category_code,category_name,category_color,retail_amount,Date (YYYYMMDD)
0,1,14.0,México,6,1,,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,,,,,,,355.0,mL,,BEBIDAS,BEBIDAS,F7E173,14.0,20200708-171056676
1,1,14.0,México,6,1,,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,,,,,,,355.0,mL,,BEBIDAS,BEBIDAS,F7E173,14.0,20200708-171056676
2,2,94.0,Argentina,2,1,,Marolio Duraznos en Mitades,7797470001998,Marolio,,Duraznos en Mitades,,,,,820.0,g,,ALMACEN,ALMACN,FFCB3D,94.0,20200708-171056676


### Datos faltantes

In [12]:
# Chequeando cantidad de datos faltantes en numero absoluto
# ventas.isna().sum()[ventas.isna().sum() > 0]

# Chequeando cantidad de datos faltantes, en proporcioón
ventas.isna().sum()[ventas.isna().sum() / ventas.shape[0] > .75] / ventas.shape[0]

title                      0.997880
flavor                     0.959517
first_driver               0.997880
second_driver              0.995461
third_driver               0.997500
nutritional_information    0.763484
dtype: float64

Las columnas con muchos datos faltantes no contribuyen para ese analisis y complican la visualización de la tabla. Vamos droparlas.

In [13]:
# Listando columnas para dropear
cols_to_drop = ventas.isna().sum()[ventas.isna().sum() / ventas.shape[0] > .8].index.to_list()
cols_to_drop

['title', 'flavor', 'first_driver', 'second_driver', 'third_driver']

In [14]:
# Dropando columnas con muchos datos faltantes
ventas.drop(cols_to_drop, axis = 1, inplace = True)

In [15]:
# Review del dataset
# ventas.head(5)

### Organizando la variable `Date`

In [16]:
# Limpiando string de fecha para obtener apenas el día
fecha = (np.array(ventas['Date (YYYYMMDD)'].str.partition('-'))[:, 0])
# hora = (np.array(ventas['Date (YYYYMMDD)'].str.partition('-'))[:, 2])

ventas['fecha'] = pd.to_datetime(fecha)

In [17]:
# Establecendo columna con "día de la semana", necesario para matchear monedas y ventas
ventas['weekday'] = ventas['fecha'].dt.strftime('%a')

In [18]:
# Guargando fecha_min (primer día de la tabla Ventas) y fecha_max (útima día de la tabla Ventas)
fecha_min, fecha_max = ventas['fecha'].min(), ventas['fecha'].max()

fecha_min, fecha_max

(Timestamp('2020-07-01 00:00:00'), Timestamp('2021-04-18 00:00:00'))

In [16]:
# sorted(cambio_dates['currency'].unique())

In [17]:
lista_monedas = ventas['Pais/Moneda'].unique().tolist()
siglas = ['MXN', 'ARS', 'PEN', 'COP', 'UYU', 'BRL', 'CLP', 'DOP', 'EUR', 'KES', 'EGP', 'VND', 'MYR', 'USD']

In [18]:
len(lista_monedas) == len(siglas) # Chequeando si todos las monedas tienen siglas

True

In [19]:
# Creando diccionario Pais x Sigla
pais_sigla_dict = dict(zip(lista_monedas, siglas))
pais_sigla_dict

{'México': 'MXN',
 'Argentina': 'ARS',
 'Perú': 'PEN',
 'Colombian Peso': 'COP',
 'Peso Uruguayo': 'UYU',
 'Real Brasilero': 'BRL',
 'Peso Chileno': 'CLP',
 'Dominican Peso': 'DOP',
 'Euro': 'EUR',
 'Kenya': 'KES',
 'Egipto': 'EGP',
 'Vietnam': 'VND',
 'Malasia': 'MYR',
 'Estados Unidos': 'USD'}

In [20]:
# Creando columna con sigla FOREX
ventas['currency'] = ventas['Pais/Moneda'].map(pais_sigla_dict)

In [21]:
ventas['date_curr_key'] = ventas['fecha'].dt.strftime('%Y-%m-%d') + ventas['currency']

In [22]:
ventas.head(3)

Unnamed: 0,Delivery_Id,amount,Pais/Moneda,quantity,units,subtitle,ean (identificador producto),brand,variant,package_type,volume_quantity,volume_unit,nutritional_information,category_code,category_name,category_color,retail_amount,Date (YYYYMMDD),fecha,weekday,currency,date_curr_key
0,1,14.0,México,6,1,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,,,355.0,mL,,BEBIDAS,BEBIDAS,F7E173,14.0,20200708-171056676,2020-07-08,Wed,MXN,2020-07-08MXN
1,1,14.0,México,6,1,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,,,355.0,mL,,BEBIDAS,BEBIDAS,F7E173,14.0,20200708-171056676,2020-07-08,Wed,MXN,2020-07-08MXN
2,2,94.0,Argentina,2,1,Marolio Duraznos en Mitades,7797470001998,Marolio,Duraznos en Mitades,,820.0,g,,ALMACEN,ALMACN,FFCB3D,94.0,20200708-171056676,2020-07-08,Wed,ARS,2020-07-08ARS


In [23]:
# ventas['date_curr_key_wkd'] = ventas['fecha'].dt.strftime('%Y-%m-%d') + ventas['currency']

In [24]:
ventas.loc[:, 'fecha_wkend'] = ventas['fecha']

In [25]:
ventas.loc[ventas['weekday'] == 'Sat', 'fecha_wkend'] = ventas[ventas['weekday'] == 'Sat']['fecha'] - np.timedelta64(1, 'D')

In [26]:
ventas.loc[ventas['weekday'] == 'Sun', 'fecha_wkend'] = ventas[ventas['weekday'] == 'Sun']['fecha'] - np.timedelta64(2, 'D')

In [27]:
ventas['date_curr_key_wkd'] = ventas['fecha_wkend'].dt.strftime('%Y-%m-%d') + ventas['currency']

In [38]:
ventas[ventas['weekday'] == 'Sun'].head(3)

Unnamed: 0,Delivery_Id,amount,Pais/Moneda,quantity,units,subtitle,ean (identificador producto),brand,variant,package_type,volume_quantity,volume_unit,nutritional_information,category_code,category_name,category_color,retail_amount,Date (YYYYMMDD),fecha,weekday,currency,date_curr_key,fecha_wkend,date_curr_key_wkd
8192,780,40.0,México,3,1,Combo 4x Coca-Cola Sabor Original Ret 500 mL,combomex14,Combo,4x Coca-Cola Sabor Original Ret 500 mL,,1.0,Combo,,COMBOSMEX,COMBOS,2DCC76,40.0,20201011-011319087,2020-10-11,Sun,MXN,2020-10-11MXN,2020-10-09,2020-10-09MXN
8193,780,13.0,México,1,1,Kinder Chocolate Maxi Barra,80050094,Kinder,Chocolate Maxi Barra,,21.0,g,,DULCES_MX,DULCES,#F6D05C,13.0,20201011-011319087,2020-10-11,Sun,MXN,2020-10-11MXN,2020-10-09,2020-10-09MXN
8194,780,40.0,México,3,1,Combo 4x Coca-Cola Sabor Original Ret 500 mL,combomex14,Combo,4x Coca-Cola Sabor Original Ret 500 mL,,1.0,Combo,,COMBOSMEX,COMBOS,2DCC76,40.0,20201011-011319087,2020-10-11,Sun,MXN,2020-10-11MXN,2020-10-09,2020-10-09MXN


### Descargando tabla soporte: Monedas

La tabla soporte trae los datos historicos diarios de la cotización del dolar para diferentes monedas.

De ese dataset necesitamos dos cosas:
1. Filtrar apenas los datos que involucren USD;
2. Filtrar los datos que se encuentren dentro del timespan del dataset de `Ventas`.

#### Cargando la table `monedas` al Jupyter Notebook

In [33]:
# Cargando datos historicos de las monedas al Jupyter Notebook
monedas = pd.read_csv('../data/forex.csv')

#### Filtrando los datos de `monedas` para mostrar apenas registros que involucren USD.

In [34]:
# Filtrando tabla monedas para incluir apenas las que involucran dolar y moneda de interés de la tabla Ventas
monedas = monedas[monedas['slug'].str.startswith('USD')]
monedas.head()

Unnamed: 0,slug,date,open,high,low,close,currency
46363,USD/ZMW,2013-01-03,5.1762,5.1762,5.1762,5.1893,ZMW
46364,USD/ZMW,2013-01-04,5.1667,5.1667,5.1667,5.2021,ZMW
46365,USD/ZMW,2013-01-07,5.2223,5.223,5.2223,5.142,ZMW
46366,USD/ZMW,2013-01-08,5.1481,5.1531,5.1481,5.1892,ZMW
46367,USD/ZMW,2013-01-09,5.1594,5.1594,5.1594,5.1651,ZMW


#### Cumpliendo con el timespan de `Ventas`

In [35]:
# Parseando la variable "date" en formato Pandas Datetime
monedas_datetime = pd.to_datetime(monedas['date'])

In [36]:
# Filtrando tabla de monedas para incluir apenas el espacio temporal de la tabla de Ventas
monedas_date = monedas_datetime[(monedas_datetime <= fecha_max) & (monedas_datetime >= fecha_min)]
monedas_date.head()

48293   2020-07-01
48294   2020-07-02
48295   2020-07-03
48296   2020-07-06
48297   2020-07-07
Name: date, dtype: datetime64[ns]

#### Check de integridad de las fechas máx y min de los dos datasets

In [37]:
# Chequendo timespan de los dos datasets
# print(monedas_date.min() == fecha_min) # True
# print(monedas_date.max() == fecha_max) # False

# Chequeando si los valores maximos de las fechas en los dos datasets son dia de semana y fin de semana
print('Monedas fecha máxima: ', monedas_date.max(), monedas_date.max().strftime('%a'), '\n', 
      'Ventas fecha máxima: ', fecha_max, fecha_max.strftime('%a'))

# Subtrayedno dos días de la fecha Máxima de ventas y chequeando si es igual a la fecha máx de Monedas
monedas_date.max() == (fecha_max - np.timedelta64(2, 'D'))

Monedas fecha máxima:  2021-04-16 00:00:00 Fri 
 Ventas fecha máxima:  2021-04-18 00:00:00 Sun


True

Las datas máximas en los dos datasets son distintas porque las ventas siguen pasando en los fines de semana, pero las cotizaciones de monedas solo durante los días laborales.

Por eso, entiendese que los dos datasets están en el mismo _timespan_. **Estamos ok con ese check!**

In [39]:
monedas['date_curr_key_wkd'] = monedas['date'] + monedas['currency']

In [40]:
monedas

Unnamed: 0,slug,date,open,high,low,close,currency,date_curr_key_wkd
46363,USD/ZMW,2013-01-03,5.176200,5.176200,5.176200,5.189300,ZMW,2013-01-03ZMW
46364,USD/ZMW,2013-01-04,5.166700,5.166700,5.166700,5.202100,ZMW,2013-01-04ZMW
46365,USD/ZMW,2013-01-07,5.222300,5.223000,5.222300,5.142000,ZMW,2013-01-07ZMW
46366,USD/ZMW,2013-01-08,5.148100,5.153100,5.148100,5.189200,ZMW,2013-01-08ZMW
46367,USD/ZMW,2013-01-09,5.159400,5.159400,5.159400,5.165100,ZMW,2013-01-09ZMW
...,...,...,...,...,...,...,...,...
1434536,USD/MXN,2021-06-07,19.958401,19.962151,19.725201,19.943899,MXN,2021-06-07MXN
1434537,USD/MXN,2021-06-08,19.824200,19.852390,19.738400,19.822399,MXN,2021-06-08MXN
1434538,USD/MXN,2021-06-09,19.701981,19.706800,19.587700,19.702080,MXN,2021-06-09MXN
1434539,USD/MXN,2021-06-10,19.736601,19.769650,19.647900,19.730280,MXN,2021-06-10MXN


In [41]:
ventas_merged = ventas.merge(monedas[['slug', 'close', 'date_curr_key_wkd']], how = 'left',  on = 'date_curr_key_wkd')
ventas_merged

Unnamed: 0,Delivery_Id,amount,Pais/Moneda,quantity,units,subtitle,ean (identificador producto),brand,variant,package_type,volume_quantity,volume_unit,nutritional_information,category_code,category_name,category_color,retail_amount,Date (YYYYMMDD),fecha,weekday,currency,date_curr_key,fecha_wkend,date_curr_key_wkd,slug,close
0,1,14.0,México,6,1,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,,,355.0,mL,,BEBIDAS,BEBIDAS,F7E173,14.0,20200708-171056676,2020-07-08,Wed,MXN,2020-07-08MXN,2020-07-08,2020-07-08MXN,USD/MXN,22.792700
1,1,14.0,México,6,1,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,,,355.0,mL,,BEBIDAS,BEBIDAS,F7E173,14.0,20200708-171056676,2020-07-08,Wed,MXN,2020-07-08MXN,2020-07-08,2020-07-08MXN,USD/MXN,22.792700
2,2,94.0,Argentina,2,1,Marolio Duraznos en Mitades,7797470001998,Marolio,Duraznos en Mitades,,820.0,g,,ALMACEN,ALMACN,FFCB3D,94.0,20200708-171056676,2020-07-08,Wed,ARS,2020-07-08ARS,2020-07-08,2020-07-08ARS,USD/ARS,70.871902
3,2,205.0,Argentina,1,1,Ala Lquido Lavarropas Baja Espuma,7791290787230,Ala,Lquido Lavarropas Baja Espuma,,1.4,L,,LIMPIEZA,LIMPIEZA,71DBCA,205.0,20200708-171056676,2020-07-08,Wed,ARS,2020-07-08ARS,2020-07-08,2020-07-08ARS,USD/ARS,70.871902
4,2,97.0,Argentina,1,1,Higienol Papel Higinico Simple Hoja,7790250014904,Higienol,Papel Higinico Simple Hoja,,4.0,U,,CUIDADO_PERSONAL,CUIDADO PERSONAL,FF9898,97.0,20200708-171056676,2020-07-08,Wed,ARS,2020-07-08ARS,2020-07-08,2020-07-08ARS,USD/ARS,70.871902
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
324053,33045,600.0,Colombian Peso,2,1,Nucita Leche Chocolate y Nueces,7702011012401,Nucita,Leche Chocolate y Nueces,,14.0,g,,GALLETAS_DULCES_CO,GALLETAS & DULCES,FFC26A,600.0,20201213-220312717,2020-12-13,Sun,COP,2020-12-13COP,2020-12-11,2020-12-11COP,USD/COP,3418.699951
324054,33046,12.0,México,1,1,Boing Jugo de Manzana,19836103052,Boing,Jugo de Manzana,,500.0,mL,,BEBIDASYJUGOS_MX,BEBIDAS Y JUGOS,#C3E275,12.0,20201213-220312717,2020-12-13,Sun,MXN,2020-12-13MXN,2020-12-11,2020-12-11MXN,USD/MXN,19.990700
324055,33046,12.0,México,1,1,Boing Jugo de Fresa,75003166,Boing,Jugo de Fresa,,500.0,mL,,BEBIDASYJUGOS_MX,BEBIDAS Y JUGOS,#C3E275,12.0,20201213-220312717,2020-12-13,Sun,MXN,2020-12-13MXN,2020-12-11,2020-12-11MXN,USD/MXN,19.990700
324056,33046,37.0,México,1,1,Chip's Papas Fritas Sabor Sal de Mar,7501000266203,Chip's,Papas Fritas Sabor Sal de Mar,,170.0,g,,SNACKSMEX,SNACKS,FFA368,37.0,20201213-220312717,2020-12-13,Sun,MXN,2020-12-13MXN,2020-12-11,2020-12-11MXN,USD/MXN,19.990700


In [63]:
# Corregindo valores faltantes de Estados Unidos, una vez que no hay cotación USD/USD
ventas_merged.loc[ventas_merged['currency'] == 'USD', 'close'] = ventas_merged['retail_amount']

In [64]:
# Corregindo valores faltantes de Kenya por la cotacion del dolar de hoy (2021-07-21)
ventas_merged[ventas_merged['currency'] == 'KES']['close'] = 108.04

In [65]:
ventas_merged['usd_retail_amount'] = ventas_merged['retail_amount'] / ventas_merged['close']

In [68]:
# ventas_merged[ventas_merged['subtitle'] == 'Ego Cera para Cabello Matte Men ']
ventas_merged[100:200]

Unnamed: 0,Delivery_Id,amount,Pais/Moneda,quantity,units,subtitle,ean (identificador producto),brand,variant,package_type,volume_quantity,volume_unit,nutritional_information,category_code,category_name,category_color,retail_amount,Date (YYYYMMDD),fecha,weekday,currency,date_curr_key,fecha_wkend,date_curr_key_wkd,slug,close,usd_retail_amount
100,10,0.1,Perú,5,1,Arcor Caramelo Sabor Limn,7757174384926,Arcor,Caramelo Sabor Limn,,1.0,g,,KIOSKO_PE,KIOSCO,FFA368,0.1,20200708-171056676,2020-07-08,Wed,PEN,2020-07-08PEN,2020-07-08,2020-07-08PEN,USD/PEN,3.542400,0.028229
101,10,4.0,Perú,1,1,M&M's Chocolates,40000514480,M&M's,Chocolates,,48.0,g,,KIOSKO_PE,KIOSCO,FFA368,4.0,20200708-171056676,2020-07-08,Wed,PEN,2020-07-08PEN,2020-07-08,2020-07-08PEN,USD/PEN,3.542400,1.129178
102,10,0.5,Perú,2,1,Topline Chicles Sabor Inca Kola Zero,7757174008228,Topline,Chicles Sabor Inca Kola Zero,,7.0,g,,KIOSKO_PE,KIOSCO,FFA368,0.5,20200708-171056676,2020-07-08,Wed,PEN,2020-07-08PEN,2020-07-08,2020-07-08PEN,USD/PEN,3.542400,0.141147
103,10,1.0,Perú,3,1,Mogul Gomitas Rollo Frutal,7790580603809,Mogul,Gomitas Rollo Frutal,,35.0,g,,KIOSKO_PE,KIOSCO,FFA368,1.0,20200708-171056676,2020-07-08,Wed,PEN,2020-07-08PEN,2020-07-08,2020-07-08PEN,USD/PEN,3.542400,0.282294
104,10,1.0,Perú,1,1,Arcor Tableta de Chocolate Semiamargo 50% Cacao,7790580120399,Arcor,Tableta de Chocolate Semiamargo 50% Cacao,,25.0,g,,KIOSKO_PE,KIOSCO,FFA368,1.0,20200708-171056676,2020-07-08,Wed,PEN,2020-07-08PEN,2020-07-08,2020-07-08PEN,USD/PEN,3.542400,0.282294
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
195,16,65.0,Argentina,2,1,Coca-Cola Sabor Original,7790895000782,Coca-Cola Sabor Original,,,500.0,mL,http://www.cocacolalatinamerica.com/es/ar/home/,BEBIDAS,BEBIDAS,F7E173,65.0,20200708-171056676,2020-07-08,Wed,ARS,2020-07-08ARS,2020-07-08,2020-07-08ARS,USD/ARS,70.871902,0.917148
196,16,65.0,Argentina,2,1,Coca-Cola Sin Azcar,7790895067532,Coca-Cola Sin Azcar,,,500.0,mL,http://www.cocacolalatinamerica.com/es/ar/home/,BEBIDAS,BEBIDAS,F7E173,65.0,20200708-171056676,2020-07-08,Wed,ARS,2020-07-08ARS,2020-07-08,2020-07-08ARS,USD/ARS,70.871902,0.917148
197,16,60.0,Argentina,2,1,Milka Oreo Alfajor Triple,7622300835620,Milka,Oreo Alfajor Triple,,55.0,g,,ALFAJORES_Y_CHOCOLATES_AR,ALFAJORES Y CHOCOLATES,74B3FF,60.0,20200708-171056676,2020-07-08,Wed,ARS,2020-07-08ARS,2020-07-08,2020-07-08ARS,USD/ARS,70.871902,0.846598
198,16,192.0,Argentina,1,1,Aguila Chocolate de Taza,7790407031013,Aguila,Chocolate de Taza,,100.0,g,,ALFAJORES_Y_CHOCOLATES_AR,ALFAJORES Y CHOCOLATES,74B3FF,192.0,20200708-171056676,2020-07-08,Wed,ARS,2020-07-08ARS,2020-07-08,2020-07-08ARS,USD/ARS,70.871902,2.709113


In [76]:
ventas_merged[ventas_merged['currency'] == 'BRL'].head(50)

Unnamed: 0,Delivery_Id,amount,Pais/Moneda,quantity,units,subtitle,ean (identificador producto),brand,variant,package_type,volume_quantity,volume_unit,nutritional_information,category_code,category_name,category_color,retail_amount,Date (YYYYMMDD),fecha,weekday,currency,date_curr_key,fecha_wkend,date_curr_key_wkd,slug,close,usd_retail_amount
239,22,11.9,Real Brasilero,2,1,Coca-Cola Sabor Original,7894900011708,Coca-Cola Sabor Original,,,3.0,L,https://www.cocacola.com.br,BEBIDASBR,BEBIDAS,F7E173,11.9,20200708-171056676,2020-07-08,Wed,BRL,2020-07-08BRL,2020-07-08,2020-07-08BRL,USD/BRL,5.3778,2.212801
240,22,6.3,Real Brasilero,1,1,Visconti Po de Forma Tradicional,7891962051338,Visconti,Po de Forma Tradicional,,400.0,g,,CAFE_DA_MANHA,CAF DA MANH,FFA4A4,6.3,20200708-171056676,2020-07-08,Wed,BRL,2020-07-08BRL,2020-07-08,2020-07-08BRL,USD/BRL,5.3778,1.171483
341,31,10.0,Real Brasilero,1,1,Combo Coca-Cola Sabor Original Lata 350Ml. + C...,comborj03,Combo,Coca-Cola Sabor Original Lata 350Ml. + Coxinha,,1.0,Combo,https://www.cocacolabrasil.com.br/,COMBOSBR,COMBOS,2DCC76,10.0,20200708-171056676,2020-07-08,Wed,BRL,2020-07-08BRL,2020-07-08,2020-07-08BRL,USD/BRL,5.3778,1.859496
342,31,8.7,Real Brasilero,1,1,Combo Leo Matte Copo 300Ml. + Joelho,comborj11,Combo,Leo Matte Copo 300Ml. + Joelho,,1.0,Combo,https://www.cocacolabrasil.com.br/,COMBOSBR,COMBOS,2DCC76,8.7,20200708-171056676,2020-07-08,Wed,BRL,2020-07-08BRL,2020-07-08,2020-07-08BRL,USD/BRL,5.3778,1.617762
343,31,18.0,Real Brasilero,2,1,Omo Sabo em P,7891150064676,Omo,Sabo em P,,1.6,Kg,,LIMPEZA,LIMPEZA,71DBCA,18.0,20200708-171056676,2020-07-08,Wed,BRL,2020-07-08BRL,2020-07-08,2020-07-08BRL,USD/BRL,5.3778,3.347094
344,31,10.0,Real Brasilero,1,1,Combo Coca-Cola Sabor Original Lata 350Ml. + C...,comborj03,Combo,Coca-Cola Sabor Original Lata 350Ml. + Coxinha,,1.0,Combo,https://www.cocacolabrasil.com.br/,COMBOSBR,COMBOS,2DCC76,10.0,20200708-171056676,2020-07-08,Wed,BRL,2020-07-08BRL,2020-07-08,2020-07-08BRL,USD/BRL,5.3778,1.859496
345,31,8.7,Real Brasilero,1,1,Combo Leo Matte Copo 300Ml. + Joelho,comborj11,Combo,Leo Matte Copo 300Ml. + Joelho,,1.0,Combo,https://www.cocacolabrasil.com.br/,COMBOSBR,COMBOS,2DCC76,8.7,20200708-171056676,2020-07-08,Wed,BRL,2020-07-08BRL,2020-07-08,2020-07-08BRL,USD/BRL,5.3778,1.617762
346,31,18.0,Real Brasilero,2,1,Omo Sabo em P,7891150064676,Omo,Sabo em P,,1.6,Kg,,LIMPEZA,LIMPEZA,71DBCA,18.0,20200708-171056676,2020-07-08,Wed,BRL,2020-07-08BRL,2020-07-08,2020-07-08BRL,USD/BRL,5.3778,3.347094
461,31,10.0,Real Brasilero,1,1,Combo Coca-Cola Sabor Original Lata 350Ml. + C...,comborj03,Combo,Coca-Cola Sabor Original Lata 350Ml. + Coxinha,,1.0,Combo,https://www.cocacolabrasil.com.br/,COMBOSBR,COMBOS,2DCC76,10.0,20200708-171056676,2020-07-08,Wed,BRL,2020-07-08BRL,2020-07-08,2020-07-08BRL,USD/BRL,5.3778,1.859496
462,31,8.7,Real Brasilero,1,1,Combo Leo Matte Copo 300Ml. + Joelho,comborj11,Combo,Leo Matte Copo 300Ml. + Joelho,,1.0,Combo,https://www.cocacolabrasil.com.br/,COMBOSBR,COMBOS,2DCC76,8.7,20200708-171056676,2020-07-08,Wed,BRL,2020-07-08BRL,2020-07-08,2020-07-08BRL,USD/BRL,5.3778,1.617762


In [78]:
ventas_merged['revenue'] = ventas_merged['usd_retail_amount'] * ventas_merged['quantity']

In [81]:
ventas_merged.head()

Unnamed: 0,Delivery_Id,amount,Pais/Moneda,quantity,units,subtitle,ean (identificador producto),brand,variant,package_type,volume_quantity,volume_unit,nutritional_information,category_code,category_name,category_color,retail_amount,Date (YYYYMMDD),fecha,weekday,currency,date_curr_key,fecha_wkend,date_curr_key_wkd,slug,close,usd_retail_amount,revenue
0,1,14.0,México,6,1,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,,,355.0,mL,,BEBIDAS,BEBIDAS,F7E173,14.0,20200708-171056676,2020-07-08,Wed,MXN,2020-07-08MXN,2020-07-08,2020-07-08MXN,USD/MXN,22.7927,0.614232,3.68539
1,1,14.0,México,6,1,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,,,355.0,mL,,BEBIDAS,BEBIDAS,F7E173,14.0,20200708-171056676,2020-07-08,Wed,MXN,2020-07-08MXN,2020-07-08,2020-07-08MXN,USD/MXN,22.7927,0.614232,3.68539
2,2,94.0,Argentina,2,1,Marolio Duraznos en Mitades,7797470001998,Marolio,Duraznos en Mitades,,820.0,g,,ALMACEN,ALMACN,FFCB3D,94.0,20200708-171056676,2020-07-08,Wed,ARS,2020-07-08ARS,2020-07-08,2020-07-08ARS,USD/ARS,70.871902,1.326337,2.652673
3,2,205.0,Argentina,1,1,Ala Lquido Lavarropas Baja Espuma,7791290787230,Ala,Lquido Lavarropas Baja Espuma,,1.4,L,,LIMPIEZA,LIMPIEZA,71DBCA,205.0,20200708-171056676,2020-07-08,Wed,ARS,2020-07-08ARS,2020-07-08,2020-07-08ARS,USD/ARS,70.871902,2.892543,2.892543
4,2,97.0,Argentina,1,1,Higienol Papel Higinico Simple Hoja,7790250014904,Higienol,Papel Higinico Simple Hoja,,4.0,U,,CUIDADO_PERSONAL,CUIDADO PERSONAL,FF9898,97.0,20200708-171056676,2020-07-08,Wed,ARS,2020-07-08ARS,2020-07-08,2020-07-08ARS,USD/ARS,70.871902,1.368667,1.368667


In [85]:
ventas_merged[ventas_merged['usd_retail_amount'] > 100]

Unnamed: 0,Delivery_Id,amount,Pais/Moneda,quantity,units,subtitle,ean (identificador producto),brand,variant,package_type,volume_quantity,volume_unit,nutritional_information,category_code,category_name,category_color,retail_amount,Date (YYYYMMDD),fecha,weekday,currency,date_curr_key,fecha_wkend,date_curr_key_wkd,slug,close,usd_retail_amount,revenue
167180,16988,43956.0,México,1,1,Cloralex Desinfectante Antibacterial,75000592,Cloralex,Desinfectante Antibacterial,,250.0,mL,,LIMPIEZAMEX,LIMPIEZA,71DBCA,43956.0,20201130-180426175,2020-11-30,Mon,MXN,2020-11-30MXN,2020-11-30,2020-11-30MXN,USD/MXN,20.038071,2193.624326,2193.624326
167271,16988,43956.0,México,1,1,Cloralex Desinfectante Antibacterial,75000592,Cloralex,Desinfectante Antibacterial,,250.0,mL,,LIMPIEZAMEX,LIMPIEZA,71DBCA,43956.0,20201130-180426175,2020-11-30,Mon,MXN,2020-11-30MXN,2020-11-30,2020-11-30MXN,USD/MXN,20.038071,2193.624326,2193.624326
167273,16988,43956.0,México,1,1,Cloralex Desinfectante Antibacterial,75000592,Cloralex,Desinfectante Antibacterial,,250.0,mL,,LIMPIEZAMEX,LIMPIEZA,71DBCA,43956.0,20201130-180426175,2020-11-30,Mon,MXN,2020-11-30MXN,2020-11-30,2020-11-30MXN,USD/MXN,20.038071,2193.624326,2193.624326
167316,16988,43956.0,México,1,1,Cloralex Desinfectante Antibacterial,75000592,Cloralex,Desinfectante Antibacterial,,250.0,mL,,LIMPIEZAMEX,LIMPIEZA,71DBCA,43956.0,20201130-180426175,2020-11-30,Mon,MXN,2020-11-30MXN,2020-11-30,2020-11-30MXN,USD/MXN,20.038071,2193.624326,2193.624326
167318,16988,43956.0,México,1,1,Cloralex Desinfectante Antibacterial,75000592,Cloralex,Desinfectante Antibacterial,,250.0,mL,,LIMPIEZAMEX,LIMPIEZA,71DBCA,43956.0,20201130-180426175,2020-11-30,Mon,MXN,2020-11-30MXN,2020-11-30,2020-11-30MXN,USD/MXN,20.038071,2193.624326,2193.624326


In [93]:
# Conforme datos del sitio de Walmart Mexico
ventas_merged.loc[ventas_merged['ean (identificador producto)'] == '75000592', 'usd_retail_amount'] = 2.4463

In [94]:
# Recalculando con valores correctos
ventas_merged['revenue'] = ventas_merged['usd_retail_amount'] * ventas_merged['quantity']

In [106]:
to_keep = [
 'Delivery_Id',
 'amount',
#  'Pais/Moneda',
 'quantity',
 'units',
 'subtitle',
 'ean (identificador producto)',
 'brand',
#  'variant',
#  'package_type',
#  'volume_quantity',
#  'volume_unit',
#  'nutritional_information',
#  'category_code',
#  'category_name',
#  'category_color',
 'retail_amount',
#  'Date (YYYYMMDD)',
 'fecha',
 'weekday',
 'currency',
#  'date_curr_key',
#  'fecha_wkend',
#  'date_curr_key_wkd',
#  'slug',
#  'close',
 'usd_retail_amount',
 'revenue'
]

In [111]:
# ventas_merged[to_keep].to_csv('../data/ventas_cleaned.csv', header = True, index = False)

In [112]:
pd.read_csv('../data/ventas_cleaned.csv')

Unnamed: 0,Delivery_Id,amount,quantity,units,subtitle,ean (identificador producto),brand,retail_amount,fecha,weekday,currency,usd_retail_amount,revenue
0,1,14.0,6,1,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,14.0,2020-07-08,Wed,MXN,0.614232,3.685390
1,1,14.0,6,1,Coca-Cola Sabor Original,7501055300075,Coca-Cola Sabor Original,14.0,2020-07-08,Wed,MXN,0.614232,3.685390
2,2,94.0,2,1,Marolio Duraznos en Mitades,7797470001998,Marolio,94.0,2020-07-08,Wed,ARS,1.326337,2.652673
3,2,205.0,1,1,Ala Lquido Lavarropas Baja Espuma,7791290787230,Ala,205.0,2020-07-08,Wed,ARS,2.892543,2.892543
4,2,97.0,1,1,Higienol Papel Higinico Simple Hoja,7790250014904,Higienol,97.0,2020-07-08,Wed,ARS,1.368667,1.368667
...,...,...,...,...,...,...,...,...,...,...,...,...,...
324053,33045,600.0,2,1,Nucita Leche Chocolate y Nueces,7702011012401,Nucita,600.0,2020-12-13,Sun,COP,0.175505,0.351011
324054,33046,12.0,1,1,Boing Jugo de Manzana,19836103052,Boing,12.0,2020-12-13,Sun,MXN,0.600279,0.600279
324055,33046,12.0,1,1,Boing Jugo de Fresa,75003166,Boing,12.0,2020-12-13,Sun,MXN,0.600279,0.600279
324056,33046,37.0,1,1,Chip's Papas Fritas Sabor Sal de Mar,7501000266203,Chip's,37.0,2020-12-13,Sun,MXN,1.850861,1.850861
