# Predicción de demanda con SVR

In [1]:
# Load Libraries
%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
from scipy import stats
import pandas as pd 


from sklearn.preprocessing import scale
import timeit

# Lectura de datos

- **ant**: antelación hasta el vuelo.

- **ruta**: trayecto de ida y vuelta ordenado alfabéticamente.
        
- **aeropuerto_origen**: aeropuerto donde despega el avión.

- **aeropuerto_destino**: aeropuerto donde aterriza el avión.
    
- **fecha_salida**: fecha de despegue del avión.
    
- **num_vuelo_operador**: identificador de número de vuelo.

- **month**: mes de vuelo.

- **weekday**: día de la semana de vuelo.
    
- **timezone**: franja horaria de vuelo.
    
- **year**: año de vuelo.
    
- **capacidad**: número máximo de pax en cada vuelo, puede variar en cada vuelo.
    
- **demand**: billetes vendidos en cada vuelo.
    
- **first**: código del principal competidor de la ruta del vuelo.
    
- **second**: código del segundo competidor de la ruta del vuelo.
    
- **first_ratio**: 
    
- **second_ratio**:

- **hit**:

- **first_weight**: peso de importancia del primer competidor en la ruta del vuelo respecto a I2.

- **second_weight**: peso de importancia del segundo competidor en la ruta del vuelo respecto a I2.

- **global_first_weight**: 

- **global_second_weight**: 

- **first_p**:

- **second_p**:

In [2]:
# Load the dataset 
datos = pd.read_csv("./datasets/datos_pred_demanda.csv", sep=';', decimal=',')
datos.head()

Unnamed: 0,ant,ruta,aeropuerto_origen,aeropuerto_destino,fecha_salida,num_vuelo_operador,month,weekday,timezone,year,...,second,first_ratio,second_ratio,hit,first_weight,second_weight,global_first_ratio,global_second_ratio,first_p,second_p
0,11,ACEMAD,ACE,MAD,2017-02-02,3857,2,Thursday,Mediodia,2017,...,UX,3.14034,0.0,2,0.0,0.0,2.520623,0.0,0.623683,0.0
1,11,ACEMAD,ACE,MAD,2017-02-03,3857,2,Friday,Mediodia,2017,...,UX,3.61,0.0,2,0.0,0.0,2.210075,0.0,0.846071,0.0
2,11,ACEMAD,ACE,MAD,2017-02-04,3857,2,Saturday,Mediodia,2017,...,UX,0.0,3.252252,1,0.0,1.0,0.0,1.595346,0.0,0.981601
3,11,ACEMAD,ACE,MAD,2017-02-05,3857,2,Sunday,Mediodia,2017,...,UX,3.094286,3.252252,2,0.0,1.0,0.0,1.485467,0.658558,0.955942
4,11,ACEMAD,ACE,MAD,2017-02-06,3857,2,Monday,Mediodia,2017,...,UX,2.022857,0.0,2,0.0,0.0,2.648854,0.0,0.387667,0.0


In [3]:
datos.shape

(943794, 24)

In [4]:
datos['ruta'].unique()

array(['ACEMAD', 'LGWMAD', 'MADPMI', 'MADSCQ', 'MADTXL'], dtype=object)

Tenemos casi un millón de patrones correspondientes a datos de 5 rutas diferentes y 24 características o variables.

Seleccionamos datos de antelacion 11 para tener un conjunto de datos asequible para esta clase.

In [6]:
# seleccionamos datos de antelacion 11 para tener un conjunto de datos asequible para esta clase
datos = datos[datos.ant==11]

In [7]:
datos.shape

(34242, 24)

# Tratamiento de datos

Vamos a ordenar los datos por fecha salida para cuando escojamos el conjunto de train, validation y test se respete el eje temporal

In [8]:
datos = datos.sort_values(by=['fecha_salida'], ascending=True)

Borramos las variables que no aportan información al modelo

In [9]:

del datos["num_vuelo_operador"]

Transformar variables categoricas en numericas.

1) Primero definimos las variables numericas y categoricas.

2) Aplicamos one hot enconding

In [10]:
categorical_vars = ['ruta', 'aeropuerto_origen', 'aeropuerto_destino', 'month', 'weekday', 'year', 
                    'nombre_blackout', 'first', 'second', 'timezone']

categorical_vars

['ruta',
 'aeropuerto_origen',
 'aeropuerto_destino',
 'month',
 'weekday',
 'year',
 'nombre_blackout',
 'first',
 'second',
 'timezone']

In [11]:
numerical_vars = list(set(datos.columns) - set(categorical_vars))
numerical_vars

['demand',
 'second_ratio',
 'hit',
 'global_second_ratio',
 'ant',
 'second_weight',
 'first_weight',
 'global_first_ratio',
 'first_p',
 'capacidad',
 'first_ratio',
 'second_p',
 'fecha_salida']

## One hot encoding

Importamos la libreria que hace one hot encoding

In [12]:
from sklearn.preprocessing import OneHotEncoder

Realizamos one hot encoding de las variables categoricas

In [13]:
ohe = OneHotEncoder(sparse = False)

ohe_fit = ohe.fit(datos[categorical_vars])
X_ohe = pd.DataFrame(ohe.fit_transform(datos[categorical_vars]))
X_ohe.columns = pd.DataFrame(ohe_fit.get_feature_names())


Visualizamos los datos iniciales y los que están con one hot encoding para ver la diferencia

In [14]:
datos.head()

Unnamed: 0,ant,ruta,aeropuerto_origen,aeropuerto_destino,fecha_salida,month,weekday,timezone,year,capacidad,...,second,first_ratio,second_ratio,hit,first_weight,second_weight,global_first_ratio,global_second_ratio,first_p,second_p
0,11,ACEMAD,ACE,MAD,2017-02-02,2,Thursday,Mediodia,2017,213,...,UX,3.14034,0.0,2,0.0,0.0,2.520623,0.0,0.623683,0.0
29080,11,MADTXL,MAD,TXL,2017-02-02,2,Thursday,Tarde,2017,176,...,UNKNOWN,2.557941,0.0,1,1.0,0.0,2.415747,0.0,0.640143,0.0
6007,11,LGWMAD,MAD,LGW,2017-02-02,2,Thursday,Matutina,2017,172,...,D8,1.0,0.0,1,1.0,0.0,1.339117,0.0,0.405146,0.0
6008,11,LGWMAD,MAD,LGW,2017-02-02,2,Thursday,Tarde_Noche,2017,176,...,D8,0.0,0.845015,1,0.0,1.0,0.0,1.013701,0.0,0.275469
8192,11,MADPMI,MAD,PMI,2017-02-02,2,Thursday,Tarde,2017,174,...,UX,0.0,1.813973,1,0.0,1.0,0.0,1.149599,0.0,0.991889


In [15]:
X_ohe.head()

Unnamed: 0,"(x0_ACEMAD,)","(x0_LGWMAD,)","(x0_MADPMI,)","(x0_MADSCQ,)","(x0_MADTXL,)","(x1_ACE,)","(x1_LGW,)","(x1_MAD,)","(x1_PMI,)","(x1_SCQ,)",...,"(x8_D8,)","(x8_UNKNOWN,)","(x8_UX,)","(x9_Manana,)","(x9_Matutina,)","(x9_Mediodia,)","(x9_Noche,)","(x9_Nocturna,)","(x9_Tarde,)","(x9_Tarde_Noche,)"
0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,1.0,0.0,0.0,1.0,0.0,0.0,...,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
2,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,1.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0
3,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
4,0.0,0.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0


Concatenamos los datos categoricos con one hot enconding y los numericos para tener el dataset completo

In [16]:
datos = pd.concat((X_ohe, datos[numerical_vars].reset_index()), axis=1)

In [17]:
datos.columns[datos.dtypes == object]

Index(['fecha_salida'], dtype='object')

Comprobamos que ahora todos los datos son numericos menos fecha salida que lo quitaremos por ser una importante del modelo

# Escalado

In [18]:
fecha_salida_values = datos['fecha_salida']
y = datos['demand']
del datos['fecha_salida']

Escalamos los datos mediante la media y la desviación típica.

Este paso es muy importante en un modelo machine learning ya que si las variables tienen escalas muy diferentes el modelo dará mucho más peso a las variables con valores mas altos.

In [20]:
datos_scale = pd.DataFrame(scale(datos))
datos_scale.columns = datos.columns

Visualizamos los datos iniciales y los escalados para ver la diferencia.

In [21]:
print(datos.head())
print(datos_scale.head())

   (x0_ACEMAD,)  (x0_LGWMAD,)  (x0_MADPMI,)  (x0_MADSCQ,)  (x0_MADTXL,)  \
0           1.0           0.0           0.0           0.0           0.0   
1           0.0           0.0           0.0           0.0           1.0   
2           0.0           1.0           0.0           0.0           0.0   
3           0.0           1.0           0.0           0.0           0.0   
4           0.0           0.0           1.0           0.0           0.0   

   (x1_ACE,)  (x1_LGW,)  (x1_MAD,)  (x1_PMI,)  (x1_SCQ,)  ...  hit  \
0        1.0        0.0        0.0        0.0        0.0  ...    2   
1        0.0        0.0        1.0        0.0        0.0  ...    1   
2        0.0        0.0        1.0        0.0        0.0  ...    1   
3        0.0        0.0        1.0        0.0        0.0  ...    1   
4        0.0        0.0        1.0        0.0        0.0  ...    1   

   global_second_ratio  ant  second_weight  first_weight  global_first_ratio  \
0             0.000000   11            0.0      

In [22]:
datos = datos_scale
datos['fecha_salida'] = fecha_salida_values
datos['demand'] = y

# Elección de los conjuntos de entrenamiento

1.1 Conjunto de Validación Fijo

Utilizaremos a modo de ejemplo los ratios habitualmente recomendados:

• Train: 70%.

• Validación: 15%.

• Test: 15%.


In [23]:
perc_values = [0.7, 0.15, 0.15];

In [24]:
# Selección del patrón de datos X y del target y
y = datos['demand']
X = datos.loc[:, datos.columns != 'demand']

In [25]:
from sklearn.model_selection import train_test_split

Creamos los conjuntos de train, validacion y test con el tamaño seleccionado pero de manera aleatoria

In [26]:
X_train_rand, X_valtest_rand, y_train_rand, y_valtest_rand = train_test_split(X, y, test_size=perc_values[1] + perc_values[2], random_state=1);

X_val_rand, X_test_rand, y_val_rand, y_test_rand = train_test_split(X_valtest_rand, y_valtest_rand, test_size= perc_values[2] / (perc_values[1] + perc_values[2]), random_state=1)

Creamos los conjuntos de train, validacion y test con el tamaño seleccionado pero respetando el eje temporal

In [27]:
# dimensiones de los conjuntos de train y test
n_train = int(X.shape[0] * perc_values[0])
n_val = int(X.shape[0] * perc_values[1])
n_test = int(X.shape[0] * perc_values[2])

# selección del conjunto de train
X_train = X.iloc[:n_train]
y_train = y.iloc[:n_train]

# selección del conjunto de validación
X_val = X.iloc[(n_train):(n_train+n_val)]
y_val = y.iloc[(n_train):(n_train+n_val)]

# selección del conjunto de test
X_test = X.iloc[(n_train+n_val):]
y_test = y.iloc[(n_train+n_val):]

Visualizamos el tamaño de los conjuntos para el set aleatorio

In [28]:
print('Train data size = ' + str(X_train_rand.shape))
print('Train target size = ' + str(y_train_rand.shape))
print('Validation data size = ' + str(X_val_rand.shape))
print('Validation target size = ' + str(y_val_rand.shape))
print('Test data size = ' + str(X_test_rand.shape))
print('Test target size = ' + str(y_test_rand.shape))

Train data size = (23969, 72)
Train target size = (23969,)
Validation data size = (5136, 72)
Validation target size = (5136,)
Test data size = (5137, 72)
Test target size = (5137,)


Visualizamos el tamaño de los conjuntos para el set con el eje temporal

In [29]:
print('Train data size = ' + str(X_train.shape))
print('Train target size = ' + str(y_train.shape))
print('Validation data size = ' + str(X_val.shape))
print('Validation target size = ' + str(y_val.shape))
print('Test data size = ' + str(X_test.shape))
print('Test target size = ' + str(y_test.shape))

Train data size = (23969, 72)
Train target size = (23969,)
Validation data size = (5136, 72)
Validation target size = (5136,)
Test data size = (5137, 72)
Test target size = (5137,)


Comprobamos que estos conjuntos tienen el mismo tamaño

Visualizamos las fecha de salida de los conjuntos para el set aleatorio

In [30]:
# eje temporal de cada conjunto
print('Train min date data = ' + np.amin(X_train_rand["fecha_salida"]))
print('Train max date data = ' + np.amax(X_train_rand["fecha_salida"]))

print('Val min date data = ' + np.amin(X_val_rand["fecha_salida"]))
print('Val max date data = ' + np.amax(X_val_rand["fecha_salida"]))

print('Test min date data = ' + np.amin(X_test_rand["fecha_salida"]))
print('Test max date data = ' + np.amax(X_test_rand["fecha_salida"]))

Train min date data = 2017-02-02
Train max date data = 2020-02-18
Val min date data = 2017-02-02
Val max date data = 2020-02-18
Test min date data = 2017-02-02
Test max date data = 2020-02-18


Visualizamos las fecha de salida de los conjuntos para el set con el eje temporal

In [31]:
# eje temporal de cada conjunto
print('Train min date data = ' + np.amin(X_train["fecha_salida"]))
print('Train max date data = ' + np.amax(X_train["fecha_salida"]))

print('Val min date data = ' + np.amin(X_val["fecha_salida"]))
print('Val max date data = ' + np.amax(X_val["fecha_salida"]))

print('Test min date data = ' + np.amin(X_test["fecha_salida"]))
print('Test max date data = ' + np.amax(X_test["fecha_salida"]))

Train min date data = 2017-02-02
Train max date data = 2019-05-02
Val min date data = 2019-05-03
Val max date data = 2019-09-19
Test min date data = 2019-09-19
Test max date data = 2020-02-18


Como podemos comprobar en este caso si varía.

Si nuestro problema es time depending como en este caso, ya que no debería ver el llenado del vuelo en días posteriores es conveniente usar la segunda aproximación en la que al hacer el split de los conjuntos de train, validación y test estamos teniendo en cuenta el eje temporal.

De otra manera nuestro modelo estaría haciendo "trampa" viendo el futuro.

Una vez hechas las comprobaciones borramos la variable fecha_salida ya que no es una variable del modelo.

In [32]:
del X_train['fecha_salida']
del X_val['fecha_salida']
del X_test['fecha_salida']


# Modelos

Scikit-Learn dispone de una extensa batería de modelos de Machine Learning disponible, siendo esta una de las grandes ventajas que tiene el uso de esta librería.

Otra de las razones de su popularidad es que proporciona un framework de uso que es general para todos los tipos de modelos. Básicamente consiste de 6 pasos:

1.Importar modelo que se quiere emplear. Ver lista de modelos supervisados en: https://scikit-learn.org/stable/supervised_learning.html


2.Importa métrica a emplear. Ver lista de métricas disponibles en https://scikit-learn.org/stable/modules/classes.html#module-sklearn.metrics.


3.Definir modelo.


4.Llamar al método fit para entrenar el modelo.


5.Llamar al método predict para generar las predicciones.


6.Calcular métrica usando las predicciones obtenidas en el paso anterior.


Veamos todos estos pasos con un ejemplo sencillo



1) Importar modelo, en este caso SV Regression


In [33]:
from sklearn import svm


2) Importar métrica, en este caso MAE y MSE

In [34]:
from sklearn.metrics import mean_absolute_error as mae
from sklearn.metrics import mean_squared_error as mse

3) Definir el método

In [35]:
model = svm.SVR(kernel='rbf')

4) Llamar al método fit para entrenar el modelo

Añadimos la función timeit para medir el tiempo que tarda el modelo.

De esta manera podremos hacer una estimación de cuanto tardará nuestro grid. Aunque esto dependerá de muchas otras cosas, por ejemplo, el parámetro C da la complejidad del modelo y C más grande más tardará en entrenar ese modelo.

In [36]:
## Ponemos un contador para ver cuanto tarda cada modelo
start = timeit.default_timer()

model.fit(X_train, np.array(y_train))

stop = timeit.default_timer()
print('Time: ', stop - start) 



Time:  69.43098426799997


5) Llamar al método predict para generar las predicciones.

In [37]:
start = timeit.default_timer()

pred_train = model.predict(X_train)
pred_val = model.predict(X_val)
pred_test = model.predict(X_test)

stop = timeit.default_timer()
print('Time: ', stop - start) 

Time:  82.12862859099994


In [38]:
# Comprobamos las primeras predicciones
print(pred_train[0:5])
print(y_train[0:5])

[143.2265089  132.00125724 114.20683671 114.53465262 132.9179983 ]
0    167
1    116
2    106
3     71
4    112
Name: demand, dtype: int64


6) Calcular métrica usando las predicciones obtenidas en el paso anterior.

In [39]:
# Calcular métricas de evaluación
mae_train = mae(y_train, pred_train);
mae_val = mae(y_val, pred_val);
mae_test = mae(y_test, pred_test);

mse_train = mse(y_train, pred_train);
mse_val = mse(y_val, pred_val);
mse_test = mse(y_test, pred_test);

In [146]:
print('Train: MAE = ' + str(mae_train) + ' - MSE = '  + str(mse_train))
print('Validation: MAE = ' + str(mae_val) + ' - MSE = '  + str(mse_val))
print('Test: MAE = ' + str(mae_test) + ' - MSE = '  + str(mse_test))

Train: MAE = 18.61089041884057 - MSE = 618.9943577197338
Validation: MAE = 17.54055701990211 - MSE = 511.7757674478486
Test: MAE = 21.878556160528888 - MSE = 838.5016006849002


Calculamos una nueva métrica el MAPE, que tienen en cuenta el rango del target.

In [41]:
def mape(y_true, y_pred):
    return np.mean(np.abs(y_true - y_pred)/y_pred) * 100

In [44]:
# Calcular métricas de evaluación
mape_train = mape(y_train, pred_train);
mape_val = mape(y_val, pred_val);
mape_test = mape(y_test, pred_test);

In [45]:
print('Train: MAPE = ' + str(mape_train))
print('Validation: MAPE = ' + str(mape_val))
print('Test: MAPE = ' + str(mape_test))

Train: MAPE = 14.687914614977924
Validation: MAPE = 13.102697932580979
Test: MAPE = 17.060076043595323


# Grid Search

Vamos a proceder a calcular los parámetros óptimos para nuestro modelo

Definimos los paramétros que queremos optimizar en este caso C, gamma, epsilon y el tipo de kernel a utilizar.

In [88]:
param_grid = [
  {'C': [0.1, 1], 'gamma': [0.01],'epsilon': [1],  'kernel': ['rbf']}
 ]

param_grid

In [89]:
from sklearn.model_selection import PredefinedSplit

In [90]:
# definicion del conjunto de validacion
ps = PredefinedSplit(test_fold=y_val)

In [91]:
from sklearn import svm
from sklearn.model_selection import GridSearchCV

In [92]:
# definicion del grid search para un conjunto de validacion
clf = GridSearchCV(svm.SVR(tol=0.005, cache_size=6000),
                     param_grid=param_grid,
                     n_jobs=2,
                     pre_dispatch="n_jobs",
                     cv=ps)


In [93]:
start = timeit.default_timer()

clf.fit(X_train, y_train)

stop = timeit.default_timer()
print('Time: ', stop - start) 



Time:  717.8999475999999


In [94]:
start = timeit.default_timer()

pred_train = clf.predict(X_train)
pred_val = clf.predict(X_val)
pred_test = clf.predict(X_test)

stop = timeit.default_timer()
print('Time: ', stop - start) 

Time:  75.37446856800034


In [95]:
# Calcular métricas de evaluación
mae_train = mae(y_train, pred_train);
mae_val = mae(y_val, pred_val);
mae_test = mae(y_test, pred_test);

mse_train = mse(y_train, pred_train);
mse_val = mse(y_val, pred_val);
mse_test = mse(y_test, pred_test);

mape_train = mape(y_train, pred_train);
mape_val = mape(y_val, pred_val);
mape_test = mape(y_test, pred_test);

In [96]:
print('Train: MAE = ' + str(mae_train) + ' - MSE = '  + str(mse_train) + ' - MAPE =' + str(mape_train))
print('Validation: MAE = ' + str(mae_val) + ' - MSE = '  + str(mse_val) + ' - MAPE =' + str(mape_val))
print('Test: MAE = ' + str(mae_test) + ' - MSE = '  + str(mse_test) + ' - MAPE =' + str(mape_test))

Train: MAE = 22.63916840923406 - MSE = 874.2535644742662 - MAPE =17.16714564314308
Validation: MAE = 20.40455812459802 - MSE = 680.2958031059139 - MAPE =15.212461728736582
Test: MAE = 24.829128519906085 - MSE = 1054.77780942016 - MAPE =18.844468876258354


# Exhaustive Grid Search

In [97]:
param_grid = [
  {'C': [1, 10, 100, 1000], 'epsilon': [0.01,0.1, 0.5], 'kernel': ['linear']},
  {'C': [1, 10, 100, 1000], 'gamma': [0.001, 0.0001],'epsilon': [0.01,0.1, 0.5],  'kernel': ['rbf']}
 ]


param_grid = [
  {'C': [0.1, 1, 10, 100], 'gamma': [0.01, 0.1, 0.001],'epsilon': [1, 0.1],  'kernel': ['rbf']}
 ]

Escogemos la lista de parametros de param_grid

In [98]:
params_values = param_grid[0]
params_values

{'C': [0.1, 1, 10, 100],
 'gamma': [0.01, 0.1, 0.001],
 'epsilon': [1, 0.1],
 'kernel': ['rbf']}

Calculamos el numero de iteraciones totales como la multiplicación de la longitud de los posibles valores de todos los hiperaparámetros.

In [99]:
num_iteraciones = len(params_values['C'])*len(params_values['gamma'])*len(params_values['epsilon'])

print('El numero de iteraciones es', num_iteraciones)

El numero de iteraciones es 24


In [100]:
kernel = params_values['kernel'][0]
metric = mae
error_val = []
error_val= pd.DataFrame(columns=('err_val', 'C', 'gamma', 'epsilon'))
num_iter = 0

In [101]:
start = timeit.default_timer()

for i in range(0,len(params_values['C'])):
    for j in range(0,len(params_values['gamma'])):
        for k in range(0,len(params_values['epsilon'])):
            
            # print control iteracion modelo
            print('Parametro C = ' + str(params_values['C'][i]) + 
                  ', parametro gamma = '  + str(params_values['gamma'][j]) +
                  ', parametro epsilon = '  + str(params_values['epsilon'][k]))
            
            # definicion del modelo con sus parametros
            model = svm.SVR(kernel=kernel, C=params_values['C'][i],
                            gamma=params_values['gamma'][j],
                            epsilon=params_values['epsilon'][k])
            
            # entrenamiento del modelo
            model.fit(X_train, np.array(y_train))
            
            # prediccion del conjunto de validacion
            pred_val = model.predict(X_val)
            
            # Calculo de la metrica de error
            error_val_iter = metric(y_val, pred_val)
            
            # print error
            print('Error validacion = ' + str(error_val_iter))
            
            # guarda el error
            error_val.loc[num_iter]=[error_val_iter,
                                          params_values['C'][i],
                                          params_values['gamma'][j],
                                          params_values['epsilon'][k]] 
            num_iter += 1

stop = timeit.default_timer()
print('Time: ', stop - start) 

Parametro C = 0.1, parametro gamma = 0.01, parametro epsilon = 1
Error validacion = 20.40455387993815
Parametro C = 0.1, parametro gamma = 0.01, parametro epsilon = 0.1
Error validacion = 20.40973137687326
Parametro C = 0.1, parametro gamma = 0.1, parametro epsilon = 1
Error validacion = 22.032192335086034
Parametro C = 0.1, parametro gamma = 0.1, parametro epsilon = 0.1
Error validacion = 22.03951045806986
Parametro C = 0.1, parametro gamma = 0.001, parametro epsilon = 1
Error validacion = 21.461841023494873
Parametro C = 0.1, parametro gamma = 0.001, parametro epsilon = 0.1
Error validacion = 21.439377646975522
Parametro C = 1, parametro gamma = 0.01, parametro epsilon = 1
Error validacion = 17.643435784616535
Parametro C = 1, parametro gamma = 0.01, parametro epsilon = 0.1
Error validacion = 17.68950523860765
Parametro C = 1, parametro gamma = 0.1, parametro epsilon = 1
Error validacion = 21.337792746335204
Parametro C = 1, parametro gamma = 0.1, parametro epsilon = 0.1
Error valida

Mostramos la tabla del error de validacion segun los diferentes parametros para elegir el modelo que mejor se ajuste a nuestros datos

In [102]:
error_val


Unnamed: 0,err_val,C,gamma,epsilon
0,20.404554,0.1,0.01,1.0
1,20.409731,0.1,0.01,0.1
2,22.032192,0.1,0.1,1.0
3,22.03951,0.1,0.1,0.1
4,21.461841,0.1,0.001,1.0
5,21.439378,0.1,0.001,0.1
6,17.643436,1.0,0.01,1.0
7,17.689505,1.0,0.01,0.1
8,21.337793,1.0,0.1,1.0
9,21.319188,1.0,0.1,0.1


Elegimos el modelo que menor error de validacion tenga

In [103]:
ind_min = error_val['err_val'].idxmin()
best_parameters = error_val.iloc[ind_min]
best_parameters

err_val    16.35448
C          10.00000
gamma       0.01000
epsilon     1.00000
Name: 12, dtype: float64

Reentrenamos el modelo con los parámetros óptimos y testeamos

In [104]:
model = svm.SVR(kernel=kernel, C = best_parameters['C'],
                gamma = best_parameters['gamma'], epsilon = best_parameters['epsilon'])

In [105]:
## Ponemos un contador para ver cuanto tarda cada modelo
start = timeit.default_timer()

model.fit(X_train, np.array(y_train))

stop = timeit.default_timer()
print('Time: ', stop - start) 

Time:  70.39024771699951


In [106]:
start = timeit.default_timer()

pred_train = model.predict(X_train)
pred_val = model.predict(X_val)
pred_test = model.predict(X_test)

stop = timeit.default_timer()
print('Time: ', stop - start) 

Time:  77.50729391799905


In [107]:
# Calcular métricas de evaluación
mae_train = mae(y_train, pred_train);
mae_val = mae(y_val, pred_val);
mae_test = mae(y_test, pred_test);

mse_train = mse(y_train, pred_train);
mse_val = mse(y_val, pred_val);
mse_test = mse(y_test, pred_test);

mape_train = mape(y_train, pred_train);
mape_val = mape(y_val, pred_val);
mape_test = mape(y_test, pred_test);

In [108]:
print('Train: MAE = ' + str(mae_train) + ' - MSE = '  + str(mse_train) + ' - MAPE =' + str(mape_train))
print('Validation: MAE = ' + str(mae_val) + ' - MSE = '  + str(mse_val) + ' - MAPE =' + str(mape_val))
print('Test: MAE = ' + str(mae_test) + ' - MSE = '  + str(mse_test) + ' - MAPE =' + str(mape_test))

Train: MAE = 15.962414259537693 - MSE = 478.0299124012799 - MAPE =13.00777558403998
Validation: MAE = 16.354480112707677 - MSE = 446.45647881209925 - MAPE =12.464165934330913
Test: MAE = 20.09988973861472 - MSE = 707.5859729529052 - MAPE =16.173794893011625
