In [26]:
library(ggplot2)
library(dplyr)
library(tidyr)
library(magrittr)
library(zoo)
library(purrr)

Cargamos los datos:

In [27]:
cat = readRDS('../022_Variables/cat.rds')
num = readRDS('../022_Variables/num.rds')

Unimos ambas dos variables de nuevo en un dataframe.

In [28]:
df = bind_cols(cat, num)

In [29]:
df %>% head()

date,store_id,item_id,d,year,month,wday,weekday,event_name_1,event_type_1,wm_yr_wk,ventas,sell_price
<date>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<int>,<int>,<dbl>
2013-01-01,CA_3,FOODS_3_090,d_704,2013,1,4,Tuesday,NewYear,National,11249,0,1.25
2013-01-02,CA_3,FOODS_3_090,d_705,2013,1,5,Wednesday,Sin_evento,Sin_evento,11249,224,1.25
2013-01-03,CA_3,FOODS_3_090,d_706,2013,1,6,Thursday,Sin_evento,Sin_evento,11249,241,1.25
2013-01-04,CA_3,FOODS_3_090,d_707,2013,1,7,Friday,Sin_evento,Sin_evento,11249,232,1.25
2013-01-05,CA_3,FOODS_3_090,d_708,2013,1,1,Saturday,Sin_evento,Sin_evento,11250,301,1.25
2013-01-06,CA_3,FOODS_3_090,d_709,2013,1,2,Sunday,Sin_evento,Sin_evento,11250,270,1.25


Vamos a crear primero variables sintéticas que nos ayudarán con la fase de forecasting. Después haremos transformaciones sobre las propias variables para que sean aptas para el modelo de Deep Learning.

Identificamos los momentos donde haya podido haber rotura de stock,, es decir, ventas cero durante un periodo.

Definimos una función para identificar la rotura de stock, donde primeramente se identifiquen los días donde no haya habido ventas con un flag de 1/0, después a través del parámetro n que establecemos en 5 días como primera aproximación, definimos la rotura de stock, cuando en 5 días no ha habido ventas, para hacer conteo de esto, hacemos una suma móvil donde capturemos la información de esos cinco días (ó n), después confirmamos sí hay (ó no), rotura de stock.

In [30]:
rotura_stock <- function(ventas, n = 5) {
 
  cero_ventas <- ifelse(ventas == 0, 1, 0)
  
  num_ceros <- zoo::rollsum(cero_ventas, k = n, fill = 0, align = "right")
  
  rotura_stock <- ifelse(num_ceros == n, 1, 0)
  
  return(rotura_stock)
}

Variamos el parámetro n, para crear variables sintéticas de rotura de stock para 3, 7 y 15 días respectivamente.

In [31]:
df = df %>% arrange(store_id, item_id, date) %>%  group_by(store_id, item_id) %>% mutate(
    rotura_stock_3 = rotura_stock(ventas, 3),
    rotura_stock_7 = rotura_stock(ventas, 7),
    rotura_stock_15 = rotura_stock(ventas, 15) ) %>% ungroup()

Comprobamos la creación.

In [None]:
df %>% filter(rotura_stock_3 == 1 | rotura_stock_7 == 1) %>% select(date, rotura_stock_3, rotura_stock_7) %>%  head(10)

Vamos a crear variables tipo lag sobre rotura de stock, sell_price y ventas.

Creamos una función para definir los lags:

In [8]:
crear_lags = function(df, variable, num_lags = 7) {
  
  variable_name = deparse(substitute(variable))
  
  lags = data.frame(matrix(ncol = num_lags, nrow = nrow(df)))
  colnames(lags) = paste0(variable_name, "_lag_", 1:num_lags)
 
  for (elemento in 1:num_lags) {
    lag_name = colnames(lags)[elemento]
    lags[[lag_name]] = dplyr::lag(df[[variable_name]], n = elemento)
  }
  
  return(lags)
}


Definimos lags de dos semanas para ventas, de una semana para sell_price y de un día para las variables de rotura de stock.

In [9]:
lags_sell_price = crear_lags(df, sell_price, 7)
lags_ventas = crear_lags(df, ventas, 15)
lags_rotura_stock_3 = crear_lags(df, rotura_stock_3, 1)
lags_rotura_stock_7 = crear_lags(df, rotura_stock_7, 1)
lags_rotura_stock_15 = crear_lags(df, rotura_stock_15, 1)

Creamos funciones para definir las operaciones móviles, que serán media, mínimo y máximo.

In [10]:
min_movil = function(df, variable, num_periodos = 7) {
  
  variable_name = deparse(substitute(variable))
  
  minm = data.frame(matrix(ncol = num_periodos - 1, nrow = nrow(df)))
  colnames(minm) = paste0(variable_name, "_minm_", 2:num_periodos)
 
  for (elemento in 2:num_periodos) {
    min_name = colnames(minm)[elemento - 1]
    minm[[min_name]] = rollapply(df[[variable_name]], width = elemento, FUN = min, fill = NA, align = 'right')
  }
  
  return(minm)
}

In [11]:
media_movil = function(df, variable, num_periodos = 7) {
  
  variable_name = deparse(substitute(variable))
  
  media = data.frame(matrix(ncol = num_periodos - 1, nrow = nrow(df)))
  colnames(media) = paste0(variable_name, "_media_", 2:num_periodos)
 
  for (elemento in 2:num_periodos) {
    media_name = colnames(media)[elemento - 1]
    media[[media_name]] = rollapply(df[[variable_name]], width = elemento, FUN = mean, fill = NA, align = 'right')
  }
  
  return(media)
}

In [12]:
max_movil = function(df, variable, num_periodos = 7) {
  
  variable_name = deparse(substitute(variable))
  
  maxm = data.frame(matrix(ncol = num_periodos - 1, nrow = nrow(df)))
  colnames(maxm) = paste0(variable_name, "_max_", 2:num_periodos)
 
  for (elemento in 2:num_periodos) {
    max_name = colnames(maxm)[elemento - 1]
    maxm[[max_name]] = rollapply(df[[variable_name]], width = elemento, FUN = max, fill = NA, align = 'right')
  }
  
  return(maxm)
}

Creamos para ventas, ventanas de 15 periodos en las tres funciones anteriores.

In [13]:
media_movil_df = media_movil(df, ventas, 15)
min_movil_df = min_movil(df, ventas, 15)
max_movil_df = max_movil(df, ventas, 15)

Unimos todos los dataframes creados anteriormente a df y eliminamos registros duplicados.

In [14]:
df_total = bind_cols(df,
                      lags_sell_price,
                      lags_rotura_stock_3,
                      lags_rotura_stock_7,
                      lags_rotura_stock_15,
                      lags_ventas,
                      min_movil_df,
                      media_movil_df,
                      max_movil_df)

In [15]:
df_total = df_total[, !duplicated(names(df_total))]

In [16]:
df_total %>% head(10)

date,store_id,item_id,d,year,month,wday,weekday,event_name_1,event_type_1,⋯,ventas_max_6,ventas_max_7,ventas_max_8,ventas_max_9,ventas_max_10,ventas_max_11,ventas_max_12,ventas_max_13,ventas_max_14,ventas_max_15
<date>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
2013-01-01,CA_3,FOODS_3_090,d_704,2013,1,4,Tuesday,NewYear,National,⋯,,,,,,,,,,
2013-01-02,CA_3,FOODS_3_090,d_705,2013,1,5,Wednesday,Sin_evento,Sin_evento,⋯,,,,,,,,,,
2013-01-03,CA_3,FOODS_3_090,d_706,2013,1,6,Thursday,Sin_evento,Sin_evento,⋯,,,,,,,,,,
2013-01-04,CA_3,FOODS_3_090,d_707,2013,1,7,Friday,Sin_evento,Sin_evento,⋯,,,,,,,,,,
2013-01-05,CA_3,FOODS_3_090,d_708,2013,1,1,Saturday,Sin_evento,Sin_evento,⋯,,,,,,,,,,
2013-01-06,CA_3,FOODS_3_090,d_709,2013,1,2,Sunday,Sin_evento,Sin_evento,⋯,301.0,,,,,,,,,
2013-01-07,CA_3,FOODS_3_090,d_710,2013,1,3,Monday,OrthodoxChristmas,Religious,⋯,301.0,301.0,,,,,,,,
2013-01-08,CA_3,FOODS_3_090,d_711,2013,1,4,Tuesday,Sin_evento,Sin_evento,⋯,301.0,301.0,301.0,,,,,,,
2013-01-09,CA_3,FOODS_3_090,d_712,2013,1,5,Wednesday,Sin_evento,Sin_evento,⋯,301.0,301.0,301.0,301.0,,,,,,
2013-01-10,CA_3,FOODS_3_090,d_713,2013,1,6,Thursday,Sin_evento,Sin_evento,⋯,301.0,301.0,301.0,301.0,301.0,,,,,


Eliminamos los nulos generados con las operaciones de lags y móviles.

In [17]:
df_total = df_total %>% drop_na()

Eliminamos las variables previas a las sintéticas que ya no sirven para el modelo.

In [18]:
variables_eliminar = c('d','wm_yr_wk','sell_price','rotura_stock_3','rotura_stock_7','rotura_stock_15')

In [19]:
df_total = df_total %>% select(-all_of(variables_eliminar))

A continuación, se procede a la transformación y escalado de las variables, pero previamente se separará por cat/num.

In [20]:
num = df_total %>% select(where(is.numeric))
cat = df_total %>% select_if(~ !is.numeric(.))

## Transformación Variables

Hacemos One Hot Encoding sobre algunas variables categóricas y Target Encoding sobre otras.

### One Hot Encoding

In [21]:
var_ohe = c('year', 'month', 'wday', 'weekday', 'event_name_1', 'event_type_1')

Instanciamos el modelo y aplicamos OHE.

In [22]:
var_ohe_matrix = paste("~", paste(var_ohe, collapse = " + "), "- 1")

cat_ohe_matrix = model.matrix(as.formula(var_ohe_matrix), data = cat)

Lo convertimos en dataframe.

In [23]:
cat_ohe = as.data.frame(cat_ohe_matrix)

In [24]:
cat_ohe %>% head(10)

Unnamed: 0_level_0,year2013,year2014,year2015,month10,month11,month12,month2,month3,month4,month5,⋯,event_name_1Sin_evento,event_name_1StPatricksDay,event_name_1SuperBowl,event_name_1Thanksgiving,event_name_1ValentinesDay,event_name_1VeteransDay,event_type_1National,event_type_1Religious,event_type_1Sin_evento,event_type_1Sporting
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,1,0,0,0,0,0,0,0,0,0,⋯,1,0,0,0,0,0,0,0,1,0
2,1,0,0,0,0,0,0,0,0,0,⋯,1,0,0,0,0,0,0,0,1,0
3,1,0,0,0,0,0,0,0,0,0,⋯,1,0,0,0,0,0,0,0,1,0
4,1,0,0,0,0,0,0,0,0,0,⋯,1,0,0,0,0,0,0,0,1,0
5,1,0,0,0,0,0,0,0,0,0,⋯,1,0,0,0,0,0,0,0,1,0
6,1,0,0,0,0,0,0,0,0,0,⋯,0,0,0,0,0,0,1,0,0,0
7,1,0,0,0,0,0,0,0,0,0,⋯,1,0,0,0,0,0,0,0,1,0
8,1,0,0,0,0,0,0,0,0,0,⋯,1,0,0,0,0,0,0,0,1,0
9,1,0,0,0,0,0,0,0,0,0,⋯,1,0,0,0,0,0,0,0,1,0
10,1,0,0,0,0,0,0,0,0,0,⋯,1,0,0,0,0,0,0,0,1,0


Rescatamos las variables date, store_id, item_id y ventas de df. La eliminamos también de num por la operación de escalado posterior, ya que es la target.

In [25]:
df_var = df_total %>% select(date, store_id, item_id, ventas)
num = num %>% select(-ventas)

## Escalado Min/Max

Hacemos una operación de escalado MinMax entre -1 y 1 de efectos a mejorar la red neuronal.

Comprobamos todas las variables generadas:

In [None]:
colnames(num)

In [None]:
colnames(cat_ohe)

Unimos ambos dataframe para aplicar la operación de escalado, previamente comprobamos las dimensiones.

In [None]:
dim(num)

In [None]:
dim(cat_ohe)

In [45]:
df_mm = cbind(num, cat_ohe)

In [47]:
dim(df_mm)

Está correctamente generado.

Usamos la librería scales para hacer el Min Max Scaler.

In [52]:
library(scales)

In [53]:
df_mm = df_mm %>% mutate_all(~ rescale(., to = c(-1, 1)))

Comprobamos que la operación se ha efectuado correctamente.

In [55]:
min(df_mm)

In [56]:
max(df_mm)

A continuación, unimos las variables que rescatamos anteriormente en df_var y unimos todo en un último dataframem

In [57]:
df_td = cbind(df_var, df_mm)

In [58]:
df_td %>% head(10)

Unnamed: 0_level_0,date,store_id,item_id,ventas,sell_price_lag_1,sell_price_lag_2,sell_price_lag_3,sell_price_lag_4,sell_price_lag_5,sell_price_lag_6,⋯,event_name_1Sin_evento,event_name_1StPatricksDay,event_name_1SuperBowl,event_name_1Thanksgiving,event_name_1ValentinesDay,event_name_1VeteransDay,event_type_1National,event_type_1Religious,event_type_1Sin_evento,event_type_1Sporting
Unnamed: 0_level_1,<date>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,⋯,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,2013-01-16,CA_3,FOODS_3_090,-0.49934469,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,⋯,1,-1,-1,-1,-1,-1,-1,-1,1,-1
2,2013-01-17,CA_3,FOODS_3_090,-0.55439056,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,⋯,1,-1,-1,-1,-1,-1,-1,-1,1,-1
3,2013-01-18,CA_3,FOODS_3_090,-0.41284404,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,⋯,1,-1,-1,-1,-1,-1,-1,-1,1,-1
4,2013-01-19,CA_3,FOODS_3_090,-0.05111402,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,⋯,1,-1,-1,-1,-1,-1,-1,-1,1,-1
5,2013-01-20,CA_3,FOODS_3_090,-0.33158585,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,⋯,1,-1,-1,-1,-1,-1,-1,-1,1,-1
6,2013-01-21,CA_3,FOODS_3_090,-0.37876802,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,⋯,-1,-1,-1,-1,-1,-1,1,-1,-1,-1
7,2013-01-22,CA_3,FOODS_3_090,-0.83486239,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,⋯,1,-1,-1,-1,-1,-1,-1,-1,1,-1
8,2013-01-23,CA_3,FOODS_3_090,-1.0,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,⋯,1,-1,-1,-1,-1,-1,-1,-1,1,-1
9,2013-01-24,CA_3,FOODS_3_090,-1.0,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,⋯,1,-1,-1,-1,-1,-1,-1,-1,1,-1
10,2013-01-25,CA_3,FOODS_3_090,-1.0,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,-0.8743719,⋯,1,-1,-1,-1,-1,-1,-1,-1,1,-1


Guardamos el resultado.