# Sección C: Evaluando BOPS en Home & Kitchen

## Introducción

Home & Kitchen es una gran cadena retailer con 84 tiendas en Norte América, 67 de ellas en Estados Unidos y 17 en Canadá. Ha tenido desde el inicio presencia de tiendas físicas y en el 2007 introdujo su tienda online. Ahora cada división, física y online opera como unidad rentable. Después de un fuerte crecimiento de la división online, sus ventas se han estabilizado.

A fin de impulsar las ventas online, en el 2010 se lanzó la iniciativa BOPS (Compre online y recójalo en la tienda, por sus siglas en inglés). Aparte del despacho clásico, los clientes pueden recoger sus compras. Sin embargo BOPS es operacionalmente complejo, y debido a la rivalidad interna entre las divisiones físicas y online los primeros han tenido resistencia al programa BOPS, que sólo ha sido lanzado en Estados Unidos.

En abril del 2012 se tuvieron resultados de las ventas, donde una aparente baja de ventas en ambas divisiones pone en riesgo la continuidad de BOPS. Se pide analizar el caso y recomendar si prosigue la expansión a Canadá y cuantos millones de dólares se ganaron o perdieron con BOPS. 

### Análisis Exploratorio

Iniciaremos cargando las bibliotecas de funciones y los datos que fueron descargados en la carpeta de trabajo. Cada bloque de este notebook se complementará con comentarios para guiar al lector en el procedimiento utilizado.

In [1]:
# Step 0. Cargar bibliotecas y funciones ·······················#
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# Step 1. Cargar los datos del archivo CSV ·····················#
# 1.1 Cada división tiene su propio archivo, abriremos el canal físico
dataset_bm = pd.read_csv('bops_bm.csv')
# 1.2 Ahora abrimos el canal online
dataset_ol = pd.read_csv('bops_online.csv')

In [3]:
# Step 2. Realizar un análisis exploratorio de datos ···········#
# 2.1. Primero demos un vistazo al dataset del canal físico
dataset_bm

Unnamed: 0,id (store),year,month,week,usa,after,sales,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10
0,1.0,2011.0,4.0,16.0,0.0,0.0,118691,,,,
1,1.0,2011.0,4.0,17.0,0.0,0.0,113804,,,,
2,1.0,2011.0,4.0,18.0,0.0,0.0,172104,,,,
3,1.0,2011.0,5.0,19.0,0.0,0.0,105591,,,,
4,1.0,2011.0,5.0,20.0,0.0,0.0,94884,,,,
...,...,...,...,...,...,...,...,...,...,...,...
4533,169.0,2012.0,3.0,14.0,1.0,1.0,67671,,,,
4534,169.0,2012.0,4.0,15.0,1.0,1.0,50140,,,,
4535,169.0,2012.0,4.0,16.0,1.0,1.0,75023,,,,
4536,,,,,,,,,,,


In [4]:
# 2.2. Ahora veamos el dataset del canal online
dataset_ol

Unnamed: 0,id (DMA),year,month,week,after,close,sales,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16
0,1,2011,4,17,0,1,18564,,,,,,,,,,
1,1,2011,4,18,0,1,30883,,,,,,,,,,
2,1,2011,5,19,0,1,37425,,,,,,,,,,
3,1,2011,5,20,0,1,32563,,,,,,,,,,
4,1,2011,5,21,0,1,35773,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10705,210,2012,2,10,1,0,9357,,,,,,,,,,
10706,210,2012,3,11,1,0,3013,,,,,,,,,,
10707,210,2012,3,12,1,0,3155,,,,,,,,,,
10708,210,2012,3,13,1,0,2925,,,,,,,,,,


De acuerdo al diccionario de datos podiamos esperar 7 columnas en el dataset del canal físico, y 7 columnas en el dataset del canal online. Asimismo, vemos que las últimas filas del dataset del canal físico contienen datos NaN. Además un datos que llama la atención es que abril tenga una semana 18, lo cual no concuerda con la tabla de semanas [1]. Pasemos a observar el tipo de datos.

In [5]:
# 2.3. Revisemos el tipo de dato de cada variable del canal físico
dataset_bm.dtypes

id (store)     float64
year           float64
month          float64
week           float64
usa            float64
after          float64
 sales          object
Unnamed: 7     float64
Unnamed: 8     float64
Unnamed: 9     float64
Unnamed: 10    float64
dtype: object

In [6]:
# 2.4. Revisemos el tipo de dato de cada variable del canal online
dataset_ol.dtypes

id (DMA)         int64
year             int64
month            int64
week             int64
after            int64
close            int64
 sales          object
Unnamed: 7     float64
Unnamed: 8     float64
Unnamed: 9     float64
Unnamed: 10    float64
Unnamed: 11    float64
Unnamed: 12    float64
Unnamed: 13    float64
Unnamed: 14    float64
Unnamed: 15    float64
Unnamed: 16    float64
dtype: object

Podemos observar que las ventas no están en el formato númerico que esperamos en ambos datasets. Asimismo, sería práctico convertir el año, mes y semana en un formato fecha a fín de utilizarlo como una variable de serie de tiempo, teniendo como detalle que se considera la semana hasta el domingo. Pasemos a hacer dichas conversiones.

In [7]:
# 2.5 Seleccionamos las primeras 7 columnas en ambos datasets
dataset_bm = dataset_bm.iloc[:,:7]
dataset_ol = dataset_ol.iloc[:,:7]
# 2.6 Retiramos los valores nulos
dataset_bm.dropna(axis = 0, how = 'any', inplace = True)
dataset_ol.dropna(axis = 0, how = 'any', inplace = True)
# 2.7 Convertimos los nombres de los campos de ventas en numérico 
dataset_bm.rename(columns = {dataset_bm.columns[6]:'sales'}, inplace = True)
dataset_ol.rename(columns = {dataset_ol.columns[6]:'sales'}, inplace = True)
# 2.8 Convertimos los campos ventas en numéricos
dataset_bm['sales'] = dataset_bm['sales'].str.replace(',','').astype('float64')
dataset_ol['sales'] = dataset_ol['sales'].str.replace(',','').astype('float64')
# 2.9 Convertimos los campos año, mes y semana en fecha e indexamos
def convertir_anio_mes(el_df):
    el_df['date_week'] = el_df['year'] * 1000 + (el_df['week']-1) * 10 + 1
    # Debido al desfase en las semanas haremos una conversión
    el_df['date_start'] = np.where((el_df['year']==2012) & (el_df['week']==1), \
                                   pd.to_datetime(el_df['year'], format='%Y'), \
                                   pd.to_datetime(el_df['date_week'], format='%Y%W%w'))
convertir_anio_mes(dataset_bm)
convertir_anio_mes(dataset_ol)

In [17]:
# 2.10 Ahora pasemos a ver una descripción de los datos del canal físico
dataset_bm.describe(datetime_is_numeric=True)

Unnamed: 0,id (store),year,month,week,usa,after,sales,date_week,date_start
count,4536.0,4536.0,4536.0,4536.0,4536.0,4536.0,4536.0,4536.0,4536
mean,84.738095,2011.296296,6.314815,26.796296,0.797619,0.5,63873.317019,2011555.0,2011-10-11 12:53:19.999999744
min,1.0,2011.0,1.0,1.0,0.0,0.0,2915.0,2011151.0,2011-04-11 00:00:00
25%,42.5,2011.0,3.0,14.0,1.0,0.0,37465.5,2011281.0,2011-07-11 00:00:00
50%,84.0,2011.0,6.0,26.5,1.0,0.5,58165.0,2011416.0,2011-10-13 12:00:00
75%,127.5,2012.0,9.0,40.0,1.0,1.0,84089.75,2012021.0,2012-01-09 00:00:00
max,169.0,2012.0,12.0,53.0,1.0,1.0,286827.0,2012151.0,2012-04-09 00:00:00
std,49.434118,0.456674,3.479549,15.228823,0.401819,0.500055,36531.54628,351.1354,


El dataset del canal físico tiene 4536 observaciones, con un rango de fechas desde abril del 2011 hasta abril del 2012. Por la mediana de la columna "after" podemos observar que la mitad de los datos corresponde a antes de la introducción de BOPS, y el resto a después.

In [18]:
# 2.11 Ahora pasemos a ver una descripción de los datos del canal online
dataset_ol.describe(datetime_is_numeric=True)

Unnamed: 0,id (DMA),year,month,week,after,close,sales,date_week,date_start
count,10710.0,10710.0,10710.0,10710.0,10710.0,10710.0,10710.0,10710.0,10710
mean,105.5,2011.27451,6.45098,27.45098,0.490196,0.480952,13755.704855,2011540.0,2011-10-08 04:42:21.176470784
min,1.0,2011.0,1.0,1.0,0.0,0.0,63.0,2011161.0,2011-04-18 00:00:00
25%,53.0,2011.0,3.0,13.0,0.0,0.0,1144.0,2011281.0,2011-07-11 00:00:00
50%,105.5,2011.0,7.0,28.0,0.0,0.0,5567.5,2011411.0,2011-10-10 00:00:00
75%,158.0,2012.0,10.0,41.0,1.0,1.0,17185.75,2012011.0,2012-01-02 00:00:00
max,210.0,2012.0,12.0,53.0,1.0,1.0,319233.0,2012131.0,2012-03-26 00:00:00
std,60.623921,0.446288,3.533278,15.42074,0.499927,0.49966,22411.737794,336.7605,


El dataset del canal online tiene 4536 observaciones, con un rango de fechas desde abril del 2011 hasta abril del 2012. Por la mediana de la columna "after" podemos observar que el corte en la introducción de BOPS es diferente.

### Referencias
[1] https://www.epochconverter.com/weeks/2011