# Sección C: Evaluando BOPS en Home & Kitchen

## Introducción

Home & Kitchen es una gran cadena retailer con 84 tiendas en Norte América, 67 de ellas en Estados Unidos y 17 en Canadá. Ha tenido desde el inicio presencia de tiendas físicas y en el 2007 introdujo su tienda online. Ahora cada división, física y online opera como unidad rentable. Después de un fuerte crecimiento de la división online, sus ventas se han estabilizado.

A fin de impulsar las ventas online, en el 2010 se lanzó la iniciativa BOPS (Compre online y recójalo en la tienda, por sus siglas en inglés). Aparte del despacho clásico, los clientes pueden recoger sus compras. Sin embargo BOPS es operacionalmente complejo, y debido a la rivalidad interna entre las divisiones físicas y online los primeros han tenido resistencia al programa BOPS, que sólo ha sido lanzado en Estados Unidos.

En abril del 2012 se tuvieron resultados de las ventas, donde una aparente baja de ventas en ambas divisiones pone en riesgo la continuidad de BOPS. Se pide analizar el caso y recomendar si prosigue la expansión a Canadá y cuantos millones de dólares se ganaron o perdieron con BOPS. 

### Análisis Exploratorio

Iniciaremos cargando las bibliotecas de funciones y los datos que fueron descargados en la carpeta de trabajo. Cada bloque de este notebook se complementará con comentarios para guiar al lector en el procedimiento utilizado.

In [1]:
# Step 0. Cargar bibliotecas y funciones ·······················#
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

In [2]:
# Step 1. Cargar los datos del archivo CSV ·····················#
# 1.1 Cada división tiene su propio archivo, abriremos el canal físico
dataset_bm = pd.read_csv('bops_bm.csv')
# 1.2 Ahora abrimos el canal online
dataset_ol = pd.read_csv('bops_online.csv')

In [3]:
# Step 2. Realizar un análisis exploratorio de datos ···········#
# 2.1. Primero demos un vistazo de las cinco primeras observaciones del dataset del canal físico
dataset_bm.head(5)

Unnamed: 0,id (store),year,month,week,usa,after,sales,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10
0,1.0,2011.0,4.0,16.0,0.0,0.0,118691,,,,
1,1.0,2011.0,4.0,17.0,0.0,0.0,113804,,,,
2,1.0,2011.0,4.0,18.0,0.0,0.0,172104,,,,
3,1.0,2011.0,5.0,19.0,0.0,0.0,105591,,,,
4,1.0,2011.0,5.0,20.0,0.0,0.0,94884,,,,


In [4]:
# 2.2. Ahora veamos el dataset del canal online
dataset_ol.head(5)

Unnamed: 0,id (DMA),year,month,week,after,close,sales,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10,Unnamed: 11,Unnamed: 12,Unnamed: 13,Unnamed: 14,Unnamed: 15,Unnamed: 16
0,1,2011,4,17,0,1,18564,,,,,,,,,,
1,1,2011,4,18,0,1,30883,,,,,,,,,,
2,1,2011,5,19,0,1,37425,,,,,,,,,,
3,1,2011,5,20,0,1,32563,,,,,,,,,,
4,1,2011,5,21,0,1,35773,,,,,,,,,,


De acuerdo al diccionario de datos podiamos esperar 7 columnas en el dataset del canal físico, y 7 columnas en el dataset del canal online. Pasemos a observar el tipo de datos.

In [10]:
# 2.3. Revisemos el tipo de dato de cada variable del canal físico
dataset_bm.dtypes

id (store)    float64
year          float64
month         float64
week          float64
usa           float64
after         float64
 sales         object
dtype: object

In [11]:
# 2.4. Revisemos el tipo de dato de cada variable del canal online
dataset_ol.dtypes

id (DMA)     int64
year         int64
month        int64
week         int64
after        int64
close        int64
 sales      object
dtype: object

Podemos observar que las ventas no están en el formato númerico que esperamos en ambos datasets. Asimismo, sería práctico convertir el año, mes y semana en un formato fecha a fín de utilizarlo como una variable de serie de tiempo. Pasemos a hacer dichas conversiones.

In [20]:
# 2.5 Seleccionamos las primeras 7 columnas en ambos datasets
dataset_bm = dataset_bm.iloc[:,:7]
dataset_ol = dataset_ol.iloc[:,:7]
# 2.6 Convertimos los nombres de los campos de ventas en numérico 
dataset_bm.rename(columns = {dataset_bm.columns[6]:'sales'}, inplace = True)
dataset_ol.rename(columns = {dataset_ol.columns[6]:'sales'}, inplace = True)
# 2.7 Convertimos los campos ventas en numéricos
dataset_bm['sales'] = dataset_bm['sales'].str.replace(',','').astype('float64')
dataset_ol['sales'] = dataset_ol['sales'].str.replace(',','').astype('float64')
# 2.8 Convertimos los campos año, mes y semana en fecha e indexamos

In [21]:
dataset_bm.describe()

Unnamed: 0,id (store),year,month,week,usa,after,sales
count,4536.0,4536.0,4536.0,4536.0,4536.0,4536.0,4536.0
mean,84.738095,2011.296296,6.314815,26.796296,0.797619,0.5,63873.317019
std,49.434118,0.456674,3.479549,15.228823,0.401819,0.500055,36531.54628
min,1.0,2011.0,1.0,1.0,0.0,0.0,2915.0
25%,42.5,2011.0,3.0,14.0,1.0,0.0,37465.5
50%,84.0,2011.0,6.0,26.5,1.0,0.5,58165.0
75%,127.5,2012.0,9.0,40.0,1.0,1.0,84089.75
max,169.0,2012.0,12.0,53.0,1.0,1.0,286827.0


Podemos observar que hay 4536 observaciones, 

In [8]:
dataset_bm.dtypes

id (store)    float64
year          float64
month         float64
week          float64
usa           float64
after         float64
 sales         object
dtype: object

In [9]:
dataset_ol.dtypes

id (DMA)     int64
year         int64
month        int64
week         int64
after        int64
close        int64
 sales      object
dtype: object