# Creando el modelo de regresión

En este apartado cargaremos los datos históricos y crearemos un modelo de regresión para hacer los cálculos de predicción. Para este ejemplo, utilizaremos el modelo SVR (`Support Vector Regression` del módulo de [scikit-learn](https://scikit-learn.org/stable/index.html) de [Python](https://www.python.org/): [sklearn.svm.SVR](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html)), pero se podrían utilizar otros modelos de regresión para comparar los resultados.

Los pasos que se seguirán en este *notebook* son los siguientes:

 1. [Carga de datos históricos](#Carga-de-datos-históricos)
 2. [Preparación de los datos](#Preparación-de-los-datos)
 3. [Normalización](#Normalización)
 4. [Añadiendo información a los datos de entrada](#Añadiendo-información-a-los-datos-de-entrada)
 5. [Training/Test/Validation Set](#Training/Test/Validation-Set)
 6. [Creando el modelo](#Creando-el-modelo)
 7. [Visualizando los resultados](#Visualizando-los-resultados)

## Carga de datos históricos

Vamos a empezar cargando los datos:

In [4]:
import pandas as pd

df = pd.read_csv('../Datos/TXT_Simulación_datos_2019-01-01_2019-12-31.txt',
                 parse_dates=['ticketDate'])

df.rename(columns={"ticketDate": "Fecha", "amount": "Importe"}, inplace=True)

df = df[df['Fecha'] >= '2018-01-01']

Nuestros `dataframe` de momento sólo contiene 2 columnas:

 - `Fecha`: día y hora de la emisión del ticket (formato `%Y-%m-%d %H:%M:%S`)
 - `Importe`: importe del ticket en €

In [5]:
df.tail()

Unnamed: 0,Fecha,Importe
142779,2019-12-31 23:07:00,3665765.03
142780,2019-12-31 23:09:00,3688284.5
142781,2019-12-31 23:11:00,3710922.43
142782,2019-12-31 23:15:00,3756555.76
142783,2019-12-31 23:48:00,4151740.92


y el tipo de dato que contiene cada columna:
 - `Fecha`: tipo de dato `datetime`
 - `Importe`: tipo de dato `float`

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 142784 entries, 0 to 142783
Data columns (total 2 columns):
Fecha      142784 non-null datetime64[ns]
Importe    142784 non-null float64
dtypes: datetime64[ns](1), float64(1)
memory usage: 3.3 MB


## Preparación de los datos

Como se ha indicado al inicio, el objetivo es crear un modelo de **regresión**, por lo que tenemos que preparar los datos de forma que tengamos unos datos de entrada $X$ y otros de salida $Y$.

Para ello, vamos a intentar transformar nuestro `dataframe` para que tenga un formato similar a la siguiente tabla (en donde las ventas se van acumulando cada 15 minutos):

| Dia | 09:00 | 09:15 | 09:30 | ... | 21:30 | 21:45 | 22:00 |
| --- | --- | --- | --- | --- | --- | --- | --- |
| 2019-09-26 | 0 | 20 000 | 51 000 | ... | 5 000 000 | 5 000 100 | 5 000 150 |
| 2019-09-27 | 0 | 20 200 | 51 400 | ... | 5 500 000 | 5 500 100 | 5 500 150 |
| 2019-09-28 | 0 | 23 000 | 53 000 | ... | 6 000 000 | 6 000 100 | 6 000 150 |

De esta manera, tendríamos los datos de entrada $X$ (en el que se introducirán más variables):

| 09:00 | 09:15 | 09:30 | ... | 21:30 | 21:45 |
| --- | --- | --- | --- | --- | --- |
| 0 | 20 000 | 51 000 | ... | 5 000 000 | 5 000 100 |
| 0 | 20 200 | 51 400 | ... | 5 500 000 | 5 500 100 |
| 0 | 23 000 | 53 000 | ... | 6 000 000 | 6 000 100 |

Y los datos de salida $Y$:

| 22:00 |
| --- |
| 5 000 150 |
| 5 500 150 |
| 6 000 150 |

Este es un ejemplo ilustrativo, ya que se contabilizan compras fueras del rango usual laboral (compras online u horarios especiales).

Para preparar esa tabla, vamos a empezar agregando las ventas en intervalos de 15 minutos:

In [7]:
df.index = df.pop('Fecha')
df = df.resample('15T').sum()

df.tail()

Unnamed: 0_level_0,Importe
Fecha,Unnamed: 1_level_1
2019-12-31 22:45:00,3061963.21
2019-12-31 23:00:00,18340542.26
2019-12-31 23:15:00,3756555.76
2019-12-31 23:30:00,0.0
2019-12-31 23:45:00,4151740.92


Continuaremos desglosando la `Fecha` en 2 nuevas columnas:
 - `Dia`
 - `Hora`

In [8]:
df['Dia'] = df.index.map(lambda x: x.strftime('%Y-%m-%d'))
df['Hora'] = df.index.map(lambda x: x.strftime('%H:%M'))

df.tail()

Unnamed: 0_level_0,Importe,Dia,Hora
Fecha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2019-12-31 22:45:00,3061963.21,2019-12-31,22:45
2019-12-31 23:00:00,18340542.26,2019-12-31,23:00
2019-12-31 23:15:00,3756555.76,2019-12-31,23:15
2019-12-31 23:30:00,0.0,2019-12-31,23:30
2019-12-31 23:45:00,4151740.92,2019-12-31,23:45


Ahora ya estamos listos para formatear nuestro `dataframe`, para ello utilizaremos la función [crosstab](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html) del módulo de [pandas](https://pandas.pydata.org/pandas-docs/stable/index.html):

In [9]:
df = pd.crosstab(index=df['Dia'],
                 columns=[df['Hora']],
                 values=df.Importe,
                 aggfunc=sum).fillna(0).reset_index()

df.set_index('Dia', inplace=True)

df.tail()

Hora,00:00,00:15,00:30,00:45,01:00,01:15,01:30,01:45,02:00,02:15,...,21:30,21:45,22:00,22:15,22:30,22:45,23:00,23:15,23:30,23:45
Dia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2019-12-27,0.0,0.0,0.0,22.22,0.0,20.66,24.61,0.0,0.0,0.0,...,14195449.59,18674753.26,8830466.2,6993437.32,12271717.33,12893667.68,3102882.89,6234078.9,6682340.35,3468545.16
2019-12-28,0.0,0.0,0.0,0.0,49.14,0.0,0.0,21.09,23.44,11.83,...,9801415.28,6472283.75,6183345.05,6461520.56,10115455.06,10656593.21,4225363.76,11077258.09,6942534.29,7249797.96
2019-12-29,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,12.84,27.67,...,165822.22,172745.76,69842.53,109633.7,190308.41,120219.28,189956.15,99035.39,103569.34,55646.6
2019-12-30,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,9982709.16,10510408.86,8953719.48,11281191.27,0.0,4084556.12,4832984.9,2544430.12,5341264.15,2793031.34
2019-12-31,19.1,0.0,0.0,18.02,0.0,0.0,0.0,0.0,0.0,0.0,...,8471703.79,11232695.65,2620354.22,5640719.84,5887374.0,3061963.21,18340542.26,3756555.76,0.0,4151740.92


Para finalizar con esta parte, vamos hacer la suma acumulada de cada fila:

In [10]:
df = df.cumsum(axis=1)

df.tail()

Hora,00:00,00:15,00:30,00:45,01:00,01:15,01:30,01:45,02:00,02:15,...,21:30,21:45,22:00,22:15,22:30,22:45,23:00,23:15,23:30,23:45
Dia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2019-12-27,0.0,0.0,0.0,22.22,22.22,42.88,67.49,67.49,67.49,67.49,...,146497100.0,165171800.0,174002300.0,180995700.0,193267500.0,206161100.0,209264000.0,215498100.0,222180400.0,225649000.0
2019-12-28,0.0,0.0,0.0,0.0,49.14,49.14,49.14,70.23,93.67,105.5,...,90660970.0,97133250.0,103316600.0,109778100.0,119893600.0,130550200.0,134775500.0,145852800.0,152795300.0,160045100.0
2019-12-29,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,12.84,40.51,...,2015264.0,2188010.0,2257853.0,2367486.0,2557795.0,2678014.0,2867970.0,2967005.0,3070575.0,3126221.0
2019-12-30,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,115493600.0,126004000.0,134957800.0,146239000.0,146239000.0,150323500.0,155156500.0,157700900.0,163042200.0,165835200.0
2019-12-31,19.1,19.1,19.1,37.12,37.12,37.12,37.12,37.12,37.12,37.12,...,126217000.0,137449700.0,140070100.0,145710800.0,151598200.0,154660100.0,173000700.0,176757200.0,176757200.0,180909000.0


## Normalización

Para la normalización de los datos vamos a dividir todos los campos por el máximo valor de la tabla. De esa manera, todos nuestros valores oscilarán entre 0 y 1.

In [11]:
max_value = df['23:45'].max()
df /= max_value
df.reset_index(inplace=True)

df.tail()

Hora,Dia,00:00,00:15,00:30,00:45,01:00,01:15,01:30,01:45,02:00,...,21:30,21:45,22:00,22:15,22:30,22:45,23:00,23:15,23:30,23:45
360,2019-12-27,0.0,0.0,0.0,8.143098e-08,8.143098e-08,1.571449e-07,2.473347e-07,2.473347e-07,2.473347e-07,...,0.536877,0.605315,0.637677,0.663306,0.708279,0.755531,0.766902,0.789749,0.814238,0.826949
361,2019-12-28,0.0,0.0,0.0,0.0,1.800863e-07,1.800863e-07,1.800863e-07,2.573761e-07,3.432781e-07,...,0.332251,0.35597,0.378631,0.402311,0.439381,0.478435,0.49392,0.534516,0.559958,0.586527
362,2019-12-29,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.705553e-08,...,0.007385,0.008019,0.008274,0.008676,0.009374,0.009814,0.01051,0.010873,0.011253,0.011457
363,2019-12-30,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.423257,0.461775,0.494588,0.535931,0.535931,0.5509,0.568611,0.577936,0.597511,0.607746
364,2019-12-31,6.999693e-08,6.999693e-08,6.999693e-08,1.360359e-07,1.360359e-07,1.360359e-07,1.360359e-07,1.360359e-07,1.360359e-07,...,0.462555,0.50372,0.513323,0.533995,0.555571,0.566792,0.634006,0.647773,0.647773,0.662988


## Añadiendo información a los datos de entrada

Una vez que hemos preparado los datos para poder aplicar un modelo de regresión, vamos a añadir información adicional a los datos para intentar crear un modelo más afinado. En este caso vamos a añadir información de calendario:

 - Día de la semana
 - Días festivos
 
Esas nuevas variables van a ser variables **categóricas** por lo que crearemos [variables *dummy*](https://medium.com/hugo-ferreiras-blog/dealing-with-categorical-features-in-machine-learning-1bb70f07262d) para introducirlo en el modelo.

### Días de la semana

In [12]:
df['Dia'] = pd.to_datetime(df['Dia'])
weekdays = [
    [0, 'Lunes'],
    [1, 'Martes'],
    [2, 'Miercoles'],
    [3, 'Jueves'],
    [4, 'Viernes'],
    [5, 'Sabado'],
    [6, 'Domingo']
]
for weekday, weekday_name in weekdays:
    df[weekday_name] = df['Dia'].map(lambda x: x.weekday() == weekday)
    
df[['Dia', 'Lunes', 'Martes', 'Miercoles',
    'Jueves', 'Viernes', 'Sabado', 'Domingo']].tail()

Hora,Dia,Lunes,Martes,Miercoles,Jueves,Viernes,Sabado,Domingo
360,2019-12-27,False,False,False,False,True,False,False
361,2019-12-28,False,False,False,False,False,True,False
362,2019-12-29,False,False,False,False,False,False,True
363,2019-12-30,True,False,False,False,False,False,False
364,2019-12-31,False,True,False,False,False,False,False


### Días Festivos

In [13]:
calendario = ['2019-01-01','2019-01-01','2019-01-06','2019-03-19',
              '2019-04-28','2019-05-15','2019-07-25','2019-08-15',
              '2019-10-12','2019-11-01','2019-12-06','2019-12-08','2019-12-25','2019-12-26']

df['Festivo'] = df['Dia'].isin(calendario)

## Training/Test/Validation Set

Por último, antes de crear el modelo vamos a dividir los datos en 3 bloques:

 - **Training Set**: 80% de los datos
 - **Test Set**: 10% de los datos
 - **Validation Set**: 10% de los datos

In [14]:
def training_test_set():
    # Training Set (80%)
    train_data = df.sample(frac=0.8, random_state=0)
    test_validation_data = df.drop(train_data.index)

    # Test/Validatin Set (10%/10%)
    test_data = test_validation_data.sample(frac=0.5, random_state=0)
    validation_data = test_validation_data.drop(test_data.index)

    # Definir la variable 'Y'
    train_y = train_data.pop('23:45')
    test_y = test_data.pop('23:45')
    validation_y = validation_data.pop('23:45')

    # Eliminamos la columna 'Dia'
    train_data.drop(['Dia'], axis=1, inplace=True)
    test_data.drop(['Dia'], axis=1, inplace=True)
    validation_data.drop(['Dia'], axis=1, inplace=True)
    
    return [train_data, test_data, validation_data, train_y, test_y, validation_y]

## Creando el modelo

Como se ha indicado en la introducción, en este ejemplo se va a utilizar el modelo [SVR](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html) para la regresión y se va a elegir el `kernel` `rbf`.

No es objeto de este *notebook* explicar los detalles de este modelo, pero el lector que esté interesado en profundizar en este modelo puede ver con más detalle los algoritmos que se utilizan para hacer los cálculos en la documentación oficial de [scikit-learn](https://scikit-learn.org/stable/modules/svm.html#svm-regression).

En `SVR` hay básicamente 2 parámetros que se utilizan para ajustar el modelo:

 - `C`
 - `Epsilon`
 
a los que vamos a darle diferentes valores.

In [15]:
from sklearn.svm import SVR

def crear_modelo():
    error = -1

    for C in [0.1, 1, 100, 1000]:
        for epsilon in [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.05, 0.1, 0.5, 1, 5, 10]:
            # Creamos el modelo con los parámetros seleccionados
            svr_rbf = SVR(kernel='rbf', C=C, gamma='auto', epsilon=epsilon)

            # Ajustamos el modelo a nuestros datos
            model = svr_rbf.fit(train_data, train_y)

            # Medir la calidad del modelo con el Test Set
            error_now = (model.predict(test_data) - test_y).std()

            # Guardar los parámetros si se ha mejorado el error
            if (error_now < error) or (error == -1):
                error = error_now
                C_good = C
                epsilon_good = epsilon
                
    return SVR(kernel='rbf', C=C_good, gamma='auto', epsilon=epsilon_good)

Como queremos crear diferentes modelos para cada hora, a la hora de crear el modelo tendremos que modificar las variables de entrada $X$, eliminando las columnas que no se van a tener en cuenta para el modelo. Para ese fin vamos a definir la siguiente función:

In [16]:
def eliminar_columnas(hour_now):
    """Eliminar las columnas que no se van a utilizar para el cálculo de las previsiones"""

    cols_drop = df.columns[(df.columns > hour_now) & (df.columns < '23:45')]
    for col in cols_drop:
        df.pop(col)

También vamos a necesitar otra función para guardar los modelos utilizando el módulo `joblib`

In [17]:
import os
import joblib


def guardar_modelo_svr(name):
    """Guardar los resultados del modelo"""

    folder = 'modelos/'
    if not os.path.exists(folder):
        os.makedirs(folder)

    filename = 'all_data_model_' + name + '.sav'
    joblib.dump(model, folder + filename)

In [18]:
df_orig = df.copy()

Pongamos en marcha los cálculos...

In [19]:
for hour in range(10, 22):
    print('\nCreando modelo para las ' + str(hour) + '...')
    df = df_orig.copy()
    eliminar_columnas(str(hour) + ':00')
    train_data, test_data, validation_data, train_y, test_y, validation_y = training_test_set()
    model = crear_modelo()
    model.fit(train_data, train_y)
    guardar_modelo_svr(str(hour) + '00')
    print('Modelo guardado!')
    print('Error de validación: ' + str((model.predict(validation_data) - validation_y).std()))
    
# Guardamos también el valor máximo 'max_value'
file = open('modelos/max_value.txt', 'w')
file.write(str(round(max_value, 2)))
file.close()


Creando modelo para las 10...
Modelo guardado!
Error de validación: 0.05416437029788017

Creando modelo para las 11...
Modelo guardado!
Error de validación: 0.058981848658358024

Creando modelo para las 12...
Modelo guardado!
Error de validación: 0.06336144583763553

Creando modelo para las 13...
Modelo guardado!
Error de validación: 0.04371170439656865

Creando modelo para las 14...
Modelo guardado!
Error de validación: 0.043686322515764785

Creando modelo para las 15...
Modelo guardado!
Error de validación: 0.0463053626299681

Creando modelo para las 16...
Modelo guardado!
Error de validación: 0.062346886832087146

Creando modelo para las 17...
Modelo guardado!
Error de validación: 0.05366725002713507

Creando modelo para las 18...
Modelo guardado!
Error de validación: 0.049804101853045124

Creando modelo para las 19...
Modelo guardado!
Error de validación: 0.04899598024343953

Creando modelo para las 20...
Modelo guardado!
Error de validación: 0.04791194047917602

Creando modelo pa

## Visualizando los resultados

Cargamos las librerias de [Plotly](https://plot.ly/python/)

In [20]:
import plotly.graph_objs as go
from plotly.offline import download_plotlyjs, init_notebook_mode, plot, iplot

init_notebook_mode(connected=True)

Seleccionamos los días que queremos mostrar

In [21]:
dias = df_orig.loc[df_orig.index.isin(validation_y.index), 'Dia']

Cargamos el modelo que queremos analizar:

In [22]:
hour = 10

# Cargamos el modelo
loaded_model = joblib.load('modelos/all_data_model_{}00.sav'.format(str(hour)))

# Creamos los datos de validación
df = df_orig.copy()
eliminar_columnas(str(hour) + ':00')
train_data, test_data, validation_data, train_y, test_y, validation_y = training_test_set()

Visualizamos

In [23]:
iplot({
    'data': [go.Scatter(
                x=dias,
                y=validation_y * max_value,
                name='Real'
            ),go.Scatter(
                x=dias,
                y=loaded_model.predict(validation_data) * max_value,
                name='Predicción'
    )],
    'layout': go.Layout(
                yaxis={
                    'title': 'Ventas €'
                }
    )
})