# Wind Speed Data: Regression Models

In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
import pandas as pd

column_names = {
    'HORA (UTC)': 'Hora (UTC)',
    'VENTO, DIREï¿½ï¿½O HORARIA (gr) (ï¿½ (gr))': 'Dirección del Viento (grados)',
    'VENTO, VELOCIDADE HORARIA (m/s)': 'Velocidad del Viento (m/s)',
    'UMIDADE REL. MAX. NA HORA ANT. (AUT) (%)': 'Humedad Relativa Máxima (AUT) (%)',
    'UMIDADE REL. MIN. NA HORA ANT. (AUT) (%)': 'Humedad Relativa Mínima (AUT) (%)',
    'TEMPERATURA Mï¿½XIMA NA HORA ANT. (AUT) (ï¿½C)': 'Temperatura Máxima (AUT) (°C)',
    'TEMPERATURA Mï¿½NIMA NA HORA ANT. (AUT) (ï¿½C)': 'Temperatura Mínima (AUT) (°C)',
    'UMIDADE RELATIVA DO AR, HORARIA (%)': 'Humedad Relativa del Aire (%)',
    'PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)': 'Presión Atmosférica Horaria (mB)',
    'PRECIPITAï¿½ï¿½O TOTAL, HORï¿½RIO (mm)': 'Precipitación Total Horaria (mm)',
    'VENTO, RAJADA MAXIMA (m/s)': 'Rajada Máxima del Viento (m/s)',
    'PRESSï¿½O ATMOSFERICA MAX.NA HORA ANT. (AUT) (mB)': 'Presión Atmosférica Máxima Anterior (AUT) (mB)',
    'PRESSï¿½O ATMOSFERICA MIN. NA HORA ANT. (AUT) (mB)': 'Presión Atmosférica Mínima Anterior (AUT) (mB)'
}

wind_speed_data = pd.read_csv('wind_speed_data_treino_dv_df_2000_2010.csv').rename(columns = column_names)

wind_speed_data.head()

Unnamed: 0,Hora (UTC),Dirección del Viento (grados),Velocidad del Viento (m/s),Humedad Relativa Máxima (AUT) (%),Humedad Relativa Mínima (AUT) (%),Temperatura Máxima (AUT) (°C),Temperatura Mínima (AUT) (°C),Humedad Relativa del Aire (%),Presión Atmosférica Horaria (mB),Precipitación Total Horaria (mm),Rajada Máxima del Viento (m/s),Presión Atmosférica Máxima Anterior (AUT) (mB),Presión Atmosférica Mínima Anterior (AUT) (mB)
0,12:00,0.809017,1.8,69.0,60.0,22.6,20.7,61.0,888.2,0.0,3.8,888.2,887.7
1,13:00,0.965926,2.7,62.0,55.0,24.2,22.5,55.0,888.4,0.0,4.7,888.4,888.2
2,14:00,0.891007,2.0,56.0,50.0,25.5,24.3,51.0,888.1,0.0,4.9,888.4,888.1
3,15:00,0.848048,2.5,52.0,44.0,27.4,25.0,44.0,887.4,0.0,5.8,888.1,887.4
4,16:00,0.224951,2.4,50.0,43.0,27.1,25.5,46.0,886.5,0.0,5.8,887.4,886.5


In [4]:
X = wind_speed_data[["Dirección del Viento (grados)",
                     "Humedad Relativa del Aire (%)",
                     "Precipitación Total Horaria (mm)",
                     "Rajada Máxima del Viento (m/s)"]]

y = wind_speed_data[["Velocidad del Viento (m/s)"]]

## Diseñando loop para particiones de entrenamiento y validación

El objetivo de este ciclo, es el de en cada iteración aumentar en uno el número de días que se utilizan para entrenar, mientras se utiliza el día siguiente para testear.

Entonces, en cada iteración el dataset de entrenamiento incremente su tamaño en 24 registros.

Tal que:

- 1ra iteración
    - X_train, y_train -> primeros 24 registros
    - X_test, y_test -> los 24 registros que le siguen


- 2da iteración
    - X_train, y_train -> primeros 48 registros
    - X_test, y_test -> los 24 registros que le siguen


- 3ra iteración
    - X_train, y_train -> primeros 72 registros
    - X_test, y_test -> los 24 registros que le siguen


Esto funciona en este caso dado que el dataset está previamente ordenado.

In [98]:
# aqui range indica el numero de folds que se va a crear,
# se limita porque hay demasiados folds de 24 horas
num_folds = range(10)

final_index = 24
    
for fold in num_folds:

    X_train = X.iloc[:final_index]
    y_train = y.iloc[:final_index]
    
    X_test = X.iloc[final_index:final_index + 24]
    y_test = y.iloc[final_index:final_index + 24]
    
    final_index += 24
    
    print(f"Iteration {fold + 1}:")
    print("X_train shape:", X_train.shape)
    print("y_train shape:", y_train.shape)
    print("X_test shape:", X_test.shape)
    print("y_test shape:", y_test.shape)
    print("=" * 30)

Iteration 1:
X_train shape: (24, 4)
y_train shape: (24, 1)
X_test shape: (24, 4)
y_test shape: (24, 1)
Iteration 2:
X_train shape: (48, 4)
y_train shape: (48, 1)
X_test shape: (24, 4)
y_test shape: (24, 1)
Iteration 3:
X_train shape: (72, 4)
y_train shape: (72, 1)
X_test shape: (24, 4)
y_test shape: (24, 1)
Iteration 4:
X_train shape: (96, 4)
y_train shape: (96, 1)
X_test shape: (24, 4)
y_test shape: (24, 1)
Iteration 5:
X_train shape: (120, 4)
y_train shape: (120, 1)
X_test shape: (24, 4)
y_test shape: (24, 1)
Iteration 6:
X_train shape: (144, 4)
y_train shape: (144, 1)
X_test shape: (24, 4)
y_test shape: (24, 1)
Iteration 7:
X_train shape: (168, 4)
y_train shape: (168, 1)
X_test shape: (24, 4)
y_test shape: (24, 1)
Iteration 8:
X_train shape: (192, 4)
y_train shape: (192, 1)
X_test shape: (24, 4)
y_test shape: (24, 1)
Iteration 9:
X_train shape: (216, 4)
y_train shape: (216, 1)
X_test shape: (24, 4)
y_test shape: (24, 1)
Iteration 10:
X_train shape: (240, 4)
y_train shape: (240, 1)
X

una vez se ha verificado que el ciclo funciona como es debido, se procede con la comparación de modelos

## KNN

En este modelo, se itera sobre el número de vecinos. En este caso, el número mínimo de vecinos debe ser mayor o igual al número de registros. Dado que nuestro primer fold tiene 24 registros, el número máximo de vecinos sobre los que se puede iterar es 24. A continuación se define la **grid**

```
neighbors_grid = [1,3,5,7,10,15,20]
``` 

In [154]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
import numpy as np

# grilla de parametros a probar en knn regressor
neighbors_grid = [1,3,5,7,10,15,20]

# aqui range indica el numero de folds que se va a crear, se limita porque hay demasiados folds de 24 horas
num_folds = range(50)

scaler = StandardScaler()

lowest_rmse = np.inf

for n_neighbors in neighbors_grid:
    
    final_index = 24
    
    # lista para guardar las metricas en cada fold
    rmse_in_fold = []
    
    for fold in num_folds:

        X_train = X.iloc[:final_index]
        y_train = y.iloc[:final_index]
        
        X_test = X.iloc[final_index:final_index + 24]
        y_test = y.iloc[final_index:final_index + 24]
        
        final_index += 24
        
        X_train = scaler.fit_transform(X_train)
        X_test = scaler.fit_transform(X_test)

        # entrenamiento del modelo
        reg = KNeighborsRegressor(n_neighbors = n_neighbors)
        reg.fit(X_train, y_train)

        # calculando RMSE
        y_pred = reg.predict(X_test)
        mse = mean_squared_error(y_test, y_pred)
        rmse = np.sqrt(mse)      
        rmse_in_fold.append(rmse)
        
    rmse_mean = np.mean(rmse_in_fold)
    
    if(rmse_mean < lowest_rmse):
        best_params = n_neighbors
        lowest_rmse = rmse_mean

In [155]:
print(f"Número óptimo de vecinos: {best_params}")
print(f"Mejor RMSE: {lowest_rmse}")

Número óptimo de vecinos: 20
Mejor RMSE: 0.8228921248988412


In [129]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

reg = KNeighborsRegressor(n_neighbors = best_params)
reg.fit(X_train, y_train)

y_pred = reg.predict(X_test)

r2 = r2_score(y_test, y_pred)

r2

0.7899717535076868

Con base en los resultados, se puede concluir:

- El RMSE más bajo fué 0.8228 con 20 vecinos.

- El $R^2$ fué de 0.789, lo cuál indica que proximadamente el 78.99% de la variabilidad en la variable dependiente se puede explicar mediante las variables independientes.

## Ridge Regression

In [152]:
from sklearn.linear_model import Ridge

# grilla de parametros a probar en Ridge
alpha_grid = [0.1, 1.0, 10.0, 100, 1000]

# aqui range indica el numero de folds que se va a crear, se limita porque hay demasiados folds de 24 horas
num_folds = range(50)

scaler = StandardScaler()

lowest_rmse = np.inf

for alpha in alpha_grid:
    
    final_index = 24
    
    # lista para guardar las metricas en cada fold
    rmse_in_fold = []
    
    for fold in num_folds:

        X_train = X.iloc[:final_index]
        y_train = y.iloc[:final_index]
        
        X_test = X.iloc[final_index:final_index + 24]
        y_test = y.iloc[final_index:final_index + 24]
        
        final_index += 24
        
        X_train = scaler.fit_transform(X_train)
        X_test = scaler.fit_transform(X_test)

        # entrenamiento del modelo
        reg = Ridge(alpha = alpha)
        reg.fit(X_train, y_train)

        # calculando RMSE
        y_pred = reg.predict(X_test)
        mse = mean_squared_error(y_test, y_pred)
        rmse = np.sqrt(mse)
        rmse_in_fold.append(rmse)
        
    rmse_mean = np.mean(rmse_in_fold)
    
    if rmse_mean < lowest_rmse:
        best_params = alpha
        lowest_rmse = rmse_mean

In [153]:
print(f"Parámetro de regularización óptimo: {best_params}")
print(f"Mejor RMSE: {lowest_rmse}")

Parámetro de regularización óptimo: 100
Mejor RMSE: 0.8568079989572535


In [156]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

reg = Ridge(alpha = best_params)
reg.fit(X_train, y_train)

y_pred = reg.predict(X_test)

r2 = r2_score(y_test, y_pred)

r2

0.7736758933900864

Nótese que en este caso, el mejor parámetro de regularización es 100, con un RMSE de 0.85 y $R^2$ de 0.77

## Lasso Regression

In [157]:
from sklearn.linear_model import Lasso

# grilla de parametros a probar en Lasso
alpha_grid = [0.1, 1.0, 10.0, 100, 1000]

# aqui range indica el numero de folds que se va a crear, se limita porque hay demasiados folds de 24 horas
num_folds = range(50)

scaler = StandardScaler()

lowest_rmse = np.inf

for alpha in alpha_grid:
    
    final_index = 24
    
    # lista para guardar las metricas en cada fold
    rmse_in_fold = []
    
    for fold in num_folds:

        X_train = X.iloc[:final_index]
        y_train = y.iloc[:final_index]
        
        X_test = X.iloc[final_index:final_index + 24]
        y_test = y.iloc[final_index:final_index + 24]
        
        final_index += 24
        
        X_train = scaler.fit_transform(X_train)
        X_test = scaler.fit_transform(X_test)

        # entrenamiento del modelo
        reg = Lasso(alpha = alpha)
        reg.fit(X_train, y_train)

        # calculando RMSE
        y_pred = reg.predict(X_test)
        mse = mean_squared_error(y_test, y_pred)
        rmse = np.sqrt(mse)
        rmse_in_fold.append(rmse)
        
    rmse_mean = np.mean(rmse_in_fold)
    
    if rmse_mean < lowest_rmse:
        best_params = alpha
        lowest_rmse = rmse_mean

In [158]:
print(f"Parámetro de regularización óptimo: {best_params}")
print(f"Mejor RMSE: {lowest_rmse}")

Parámetro de regularización óptimo: 0.1
Mejor RMSE: 0.8576640106793569


In [159]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

reg = Lasso(alpha = best_params)
reg.fit(X_train, y_train)

y_pred = reg.predict(X_test)

r2 = r2_score(y_test, y_pred)

r2

0.7551466718568816

Nótese que en este caso, el mejor parámetro de regularización es 0.1, con un RMSE de 0.857 y $R^2$ de 0.755

## XG Boost

In [163]:
from xgboost import XGBRegressor
from itertools import product

# grilla de parametros a probar en XGBoost
param_grid = {
    'n_estimators': [10, 50, 100],
    'learning_rate': [0.01, 0.1, 0.2],
    'max_depth': [3, 5, 7]
}

# aqui range indica el numero de folds que se va a crear, se limita porque hay demasiados folds de 24 horas
num_folds = range(50)

scaler = StandardScaler()

lowest_rmse = np.inf

# Se crea una lista de diccionarios representando todas las posibles combinaciones
param_combinations = list(product(*param_grid.values()))

for params in param_combinations:
    # Desempaquetando los parámetros
    n_estimators, learning_rate, max_depth = params
    
    final_index = 24
    
    # lista para guardar las metricas en cada fold
    rmse_in_fold = []
    
    for fold in num_folds:

        X_train = X.iloc[:final_index]
        y_train = y.iloc[:final_index]
        
        X_test = X.iloc[final_index:final_index + 24]
        y_test = y.iloc[final_index:final_index + 24]
        
        final_index += 24
        
        X_train = scaler.fit_transform(X_train)
        X_test = scaler.fit_transform(X_test)

        # entrenamiento del modelo
        reg = XGBRegressor(
            n_estimators=n_estimators,
            learning_rate=learning_rate,
            max_depth=max_depth
        )
        reg.fit(X_train, y_train)

        # calculando RMSE
        y_pred = reg.predict(X_test)
        mse = mean_squared_error(y_test, y_pred)
        rmse = np.sqrt(mse)
        rmse_in_fold.append(rmse)
        
    rmse_mean = np.mean(rmse_in_fold)
    
    if rmse_mean < lowest_rmse:
        optim_n_estimators, optim_learning_rate, optim_max_depth = params
        lowest_rmse = rmse_mean

In [165]:
print("Parámetros mas optimos:")
print(f"Número de árboles: {optim_n_estimators} , learning_rate {optim_learning_rate} , max_depth {optim_max_depth}")
print(f"Mejor RMSE: {lowest_rmse}")

Parámetros mas optimos:
Número de árboles: 50 , learning_rate 0.1 , max_depth 3
Mejor RMSE: 0.856827578604703


In [171]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

reg = XGBRegressor(
            n_estimators=optim_n_estimators,
            learning_rate=optim_learning_rate,
            max_depth=optim_max_depth
        )
reg.fit(X_train, y_train)

y_pred = reg.predict(X_test)

r2 = r2_score(y_test, y_pred)

r2

0.7962835744986132

Con lo cuál el mejor modelo resulta de tener 50 árboles, con un learning rate de 0.1 y una profundidad máxima de 3 nodos. Para un RMSE de 0.856 y $R^2$ de 0.796

## SVM

Nota aclaratoria, en este caso se es consciente que no tienen ningún sentido utilizar el parámetro gamma cuando el kernel es 'linear'

```
svr_grid = [{'kernel': ['rbf'],
               'C': [0.001, 0.01, 0.1, 1, 10, 100],
               'gamma': [0.001, 0.01, 0.1, 1, 10, 100],
               'epsilon' : [0.01, 0.1, 0.2, 0.5, 1]},
              
              {'kernel': ['linear'],
               'C': [0.001, 0.01, 0.1, 1, 10, 100],
               'epsilon' : [0.01, 0.1, 0.2, 0.5, 1]}]
```

Sin embargo no se diseña el grid tal como el que se acaba de mostrar, porque se tuvo un problema en el desempaquetado de las variables al momento de diseñar los loops, por lo cuál se procede a resolver este tema con un condicional

In [174]:
from sklearn.svm import SVR
from itertools import product

# grilla de parametros a probar en SVM
svr_grid = {'kernel': ['rbf', 'linear'],
            'C': [0.1, 1, 10],
            'gamma': [0.1, 1, 10],
            'epsilon' : [0.1, 0.5, 1]
            }

# aqui range indica el numero de folds que se va a crear, se limita porque hay demasiados folds de 24 horas
num_folds = range(50)

scaler = StandardScaler()

lowest_rmse = np.inf

# Se crea una lista de diccionarios representando todas las posibles combinaciones
param_combinations = list(product(*svr_grid.values()))

for params in param_combinations:
    # Desempaquetando los parámetros
    kernel, C, gamma, epsilon = params
    
    final_index = 24
    
    # lista para guardar las metricas en cada fold
    rmse_in_fold = []
    
    for fold in num_folds:

        X_train = X.iloc[:final_index]
        y_train = y.iloc[:final_index]
        
        X_test = X.iloc[final_index:final_index + 24]
        y_test = y.iloc[final_index:final_index + 24]
        
        final_index += 24
        
        X_train = scaler.fit_transform(X_train)
        X_test = scaler.fit_transform(X_test)

        # entrenamiento del modelo
        if(kernel == 'rbf'):
            reg = SVR(
                kernel=kernel,
                C=C,
                gamma=gamma,
                epsilon=epsilon
            )
        else: 
            reg = SVR(
                kernel=kernel,
                C=C,
                epsilon=epsilon
            )
            
        reg.fit(X_train, y_train)

        # calculando RMSE
        y_pred = reg.predict(X_test)
        mse = mean_squared_error(y_test, y_pred)
        rmse = np.sqrt(mse)
        rmse_in_fold.append(rmse)
        
    rmse_mean = np.mean(rmse_in_fold)
    
    if rmse_mean < lowest_rmse:
        best_params = params
        lowest_rmse = rmse_mean

In [175]:
print("Parámetros mas optimos:")
print(best_params)
print(f"Mejor RMSE: {lowest_rmse}")

Parámetros mas optimos:
('rbf', 0.1, 0.1, 0.1)
Mejor RMSE: 0.8153139388461801


In [176]:
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

reg = SVR(
    kernel=best_params[0],
    C=best_params[1],
    gamma=best_params[2],
    epsilon=best_params[3])
reg.fit(X_train, y_train)

y_pred = reg.predict(X_test)

r2 = r2_score(y_test, y_pred)

r2

0.7927637862454311

Con lo cuál el mejor modelo resulta de tener un kernel gaussiano, con un término de regularización, valor de gamma y valor de épsilon de 0.1. Para un RMSE de 0.8153 y $R^2$ de 0.7927

## MLP

In [21]:
from itertools import product
from tensorflow.keras.layers import Dense
from tensorflow.keras.models import Sequential
from sklearn.metrics import mean_squared_error
import numpy as np
from sklearn.preprocessing import StandardScaler

# grilla de parametros a probar en SVM
mlp_grid = {'neurons_layer_1': [4, 10, 15, 30],
            'neurons_layer_2': [4, 10, 15, 30]
            }

# aqui range indica el numero de folds que se va a crear, se limita porque hay demasiados folds de 24 horas
num_folds = range(50)

scaler = StandardScaler()

lowest_rmse = np.inf

n_cols = X.shape[1]

# Se crea una lista de diccionarios representando todas las posibles combinaciones
param_combinations = list(product(*mlp_grid.values()))

for params in param_combinations:
    # Desempaquetando los parámetros
    neurons_layer_1, neurons_layer_2 = params
    
    final_index = 24
    
    # lista para guardar las metricas en cada fold
    rmse_in_fold = []
    
    for fold in num_folds:

        X_train = X.iloc[:final_index]
        y_train = y.iloc[:final_index]
        
        X_test = X.iloc[final_index:final_index + 24]
        y_test = y.iloc[final_index:final_index + 24]
        
        final_index += 24
        
        X_train = scaler.fit_transform(X_train)
        X_test = scaler.fit_transform(X_test)

        # Set up the model: model
        model = Sequential()

        # Add the first layer
        model.add(Dense(neurons_layer_1, activation = 'relu', input_shape = (n_cols,)))

        # Add the second layer
        model.add(Dense(neurons_layer_2, activation = 'relu'))

        # Add the output layer
        model.add(Dense(1))

        # Compile the model
        model.compile(optimizer = 'adam', loss = 'mean_squared_error')

        # Fit the model
        model.fit(X_train, y_train)

        # calculando RMSE
        y_pred = model.predict(X_test)
        mse = mean_squared_error(y_test, y_pred)
        rmse = np.sqrt(mse)
        rmse_in_fold.append(rmse)
        
    rmse_mean = np.mean(rmse_in_fold)
    
    if rmse_mean < lowest_rmse:
        best_params = params
        lowest_rmse = rmse_mean



In [24]:
best_params

(30, 30)

In [23]:
lowest_rmse

2.140124174789503

In [27]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)

X_train = scaler.fit_transform(X_train)
X_test = scaler.fit_transform(X_test)

# Set up the model: model
model = Sequential()

# Add the first layer
model.add(Dense(30, activation = 'relu', input_shape = (n_cols,)))

# Add the second layer
model.add(Dense(30, activation = 'relu'))

# Add the output layer
model.add(Dense(1))

# Compile the model
model.compile(optimizer = 'adam', loss = 'mean_squared_error')

# Fit the model
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

r2 = r2_score(y_test, y_pred)

r2



0.789838058100607

## Conclusiones 

Pese a que se pidió evaluar los modelos con MAPE, RMSE y $R^2$. La métrica MAPE no fué calculada, a continuación las razones:

- La variable **velocidad del viento** tiene valores de cero. Entonces cuando se calculaba el error porcentual entre el valor predicho y el valor real, en esos registros, el resultado de la división era **indefinido**

- Otra opción era poner un número extramadamente pequeño en el denominador para que la operación fuese almenos posible. Pero eso ocasionaba valores de MAPE extremadamente altos que no tienen sentido desde el punto de vista de evaluación de modelo.

| Modelo   | RMSE   | $R^2$    |
|----------|--------|-------|
| KNN      | 0.8228 | 0.7899|
| Ridge    | 0.8568 | 0.7736|
| Lasso    | 0.8576 | 0.7551|
| XGBoost  | 0.8568 | 0.7962|
| SVM      | 0.8153 | 0.7927|
| MLP      | 2.1401 | 0.7898|

Entonces, el modelo con el mejor valor de RMSE es la regresión mediante support vector machine, el mismo modelo tiene el segundo mejor $R^2$, por lo cuál es el modelo que mejor generaliza a los datos de predicción del viento.

## Limitaciones

Para efectos de la evaluación de los modelos, hay que considerar que por temas de tiempo de ejecución, se consideró solo 50 folds (que equivalen a 50 días de X_train en este caso)

Cabe la posibilidad de haber tenido mejores scores en RMSE y $R^2$ con un mayor numero de folds (y por ende volumen de datos de entrenamiento), pero se deja abierto a la discusión para posteriores ejecuciones.