## Filter methode (correlatie coëfficiënt)

Een regressie model correleert twee of meer waarden met elkaar gebaseerd op historische data (Zhao, 2012). Het is een methode die gebruikt kan worden om het energieverbruik te voorspellen met variabelen of meerdere weer factoren. Volgens Zhao (2012) zijn er meerdere onderzoeken uitgevoerd waarbij met een regressie model het energieverbruik is voorspeld op basis van weer parameters.  

Een voordeel van het gebruiken van regressie algoritmes is dat ze gemakkelijk te gebruiken, te interpreteren en te ontwikkelen zijn (Zhao, 2012). Daarnaast worden regressie algoritmes gebruikt om een relatie tussen de afhankelijke en onafhankelijke variabelen te vinden (V.Tu, 1996). Ook zijn de algoritmes niet afhankelijk van grote datasets om een nauwkeurig model te maken (A. M. G. Klein Tank, 1996). Nadelen zijn dat een regressie algoritme statistische kennis vereist. Daarnaast kost het veel tijd om met een regressie algoritme complexe niet lineaire relatie aan te tonen. 

De data die gebruikt wordt bestaat uit de maandelijkse energieconsumptie, waardoor er weinig datapunten beschikbaar zijn. Daarnaast is het doel van dit onderzoek bepalen welke weer factoren de energieconsumptie beïnvloeden. Daarom is er gekozen om gebruik te maken van een regressie model bij het maken van een machine learning model. 

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error, mean_absolute_error

In [2]:
#ophalen van de dataset
features = pd.read_csv('energie_features_inflatie.csv')
features

Unnamed: 0,Datum,energie,wind_richting,zon_perc,zon_straling,dag_vocht,max_vocht,min_vocht,vector_wind,wind,...,min_temp_6m,max_temp_6m,zon_uren_6m,duur_neerslag_6m,dag_neerslag_6m,max_neerslag_6m,dag_luchtdruk_6m,max_luchtdruk_6m,min_luchtdruk_6m,CPI_energie_6m
0,2001-01,9267,141.483871,27.967742,241.870968,90.161290,96.580645,79.483871,3.403226,3.693548,...,11.641935,19.548387,3.954839,1.854839,3.151613,1.567742,1012.616129,1015.319355,1009.887097,54.71
1,2001-02,8266,181.642857,32.250000,483.571429,88.000000,97.464286,73.964286,3.050000,3.639286,...,11.593548,22.809677,6.825806,0.709677,1.380645,0.903226,1017.519355,1019.232258,1015.712903,54.71
2,2001-03,8962,142.580645,17.419355,570.774194,85.548387,95.451613,72.354839,3.448387,3.829032,...,12.110000,19.946667,3.846667,1.680000,2.280000,1.186667,1013.006667,1015.930000,1010.070000,54.68
3,2001-04,8156,226.400000,34.766667,1220.166667,78.933333,96.333333,56.133333,3.390000,3.926667,...,7.700000,14.954839,3.161290,3.006452,3.393548,1.358065,1010.248387,1014.483871,1005.770968,55.02
4,2001-05,8304,134.645161,56.967742,2028.741935,71.645161,93.548387,50.322581,3.619355,3.835484,...,5.393333,10.120000,2.030000,3.100000,3.916667,1.366667,1002.100000,1006.016667,997.723333,55.08
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
247,2021-08,8981,225.741935,36.258065,1391.612903,81.419355,96.645161,62.548387,2.677419,2.958065,...,0.750000,7.860714,4.539286,2.035714,1.517857,0.450000,1017.864286,1021.328571,1014.757143,106.13
248,2021-09,9030,164.500000,46.433333,1165.900000,81.300000,97.066667,60.200000,2.160000,2.510000,...,1.754839,10.609677,4.545161,1.509677,1.100000,0.358065,1021.083871,1023.983871,1017.835484,107.18
249,2021-10,9410,200.580645,36.774194,619.709677,85.774194,96.516129,69.225806,3.045161,3.335484,...,1.606667,11.236667,6.826667,1.553333,1.476667,0.533333,1020.933333,1023.460000,1018.123333,107.97
250,2021-11,9678,206.033333,22.033333,276.566667,89.233333,96.766667,77.200000,2.383333,2.723333,...,6.216129,15.583871,6.096774,2.393548,3.358065,1.580645,1010.845161,1013.941935,1007.358065,108.22


Met de features in de categorieen die gevormd zijn in het notebook 'correlatie features' worden verschillende lineaire regressie machine learning modellen getraind. De features in de categorieen sterke features, alle features, medium features en sterke en medium features zijn getraind in een machine learning model.

### Sterke features
De correlatie coëfficiënt van de categorie sterke features heeft een waarde die boven de 0.7 ligt (User's guide to correlation coefficients, 2018). De features die in deze categorie vallen worden getraind in het lineaire regressie model.

In [3]:
features_sterk = features[['zon_straling_6m', 'zon_straling', 'zon_straling_1j', 'zon_uren', 'max_temp']] 
X = features_sterk.values
y = features['energie'].values 

In [4]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [5]:
LR = LinearRegression()
LR.fit(x_train,y_train)
y_prediction =  LR.predict(x_test)

In [6]:
score=r2_score(y_test,y_prediction)
print('r2 score = ',score)
print('RMSE = ',np.sqrt(mean_squared_error(y_test,y_prediction)))

r2 score =  0.551387949314025
RMSE =  403.5382246992704


### Alle features
Alle features worden worden getraind in het lineaire regressie model.

In [7]:
alle_features = features.drop(['Datum', 'energie'], axis=1)
X = alle_features.values 
y = features['energie'].values 

In [8]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [9]:
LR = LinearRegression()
LR.fit(x_train,y_train)
y_prediction =  LR.predict(x_test)

In [10]:
score=r2_score(y_test,y_prediction)
print('r2 score = ',score)
print('RMSE = ',np.sqrt(mean_squared_error(y_test,y_prediction)))

r2 score =  0.5557816378493328
RMSE =  401.5572437118778


### Medium features
De correlatie coëfficiënt van de categorie medium features heeft een waarde die tussen de 0.7 en 0.4 ligt (User's guide to correlation coefficients, 2018). De features die in deze categorie vallen worden getraind in het lineaire regressie model.

In [11]:
medium_features = features[['max_temp_6m', 'max_temp_1j', 'zon_straling_1m', 'gem_temp_6m', 'zon_uren_6m', 'zon_uren_1j',
                           'min_vocht_1m', 'min_vocht', 'min_vocht_6m', 'gem_temp', 'min_vocht_1j', 'gem_temp_1j',
                           'zon_uren_1m', 'dag_vocht_1m', 'min_temp_6m', 'dag_vocht_6m', 'min_temp_1j', 'min_temp',
                           'zon_perc', 'min_wind', 'dag_vocht', 'dag_vocht_1j', 'zon_perc_1j', 'min_wind_6m',
                           'min_wind_1j', 'zon_perc_1m', 'vector_wind', 'max_temp_1m', 'vector_wind_6m', 'zon_perc_6m',
                           'wind', 'vector_wind_1j', 'gem_temp_1m', 'wind_6m', 'duur_neerslag_6m', 'duur_neerslag',
                           'max_vocht_3m', 'wind_1j']]
X = medium_features.values 
y = features['energie'].values

In [12]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [13]:
LR = LinearRegression()
LR.fit(x_train,y_train)
y_prediction =  LR.predict(x_test)

In [14]:
score=r2_score(y_test,y_prediction)
print('r2 score = ',score)
print('RMSE = ',np.sqrt(mean_squared_error(y_test,y_prediction)))

r2 score =  0.608771564162971
RMSE =  376.8464408950607


## Sterke en medium features
De features in de categorie sterke en medium features worden getraind in het lineaire regressie model.

In [15]:
sterke_medium_features = features[['zon_straling_6m', 'zon_straling', 'zon_straling_1j', 'zon_uren', 'max_temp', 
                                   'max_temp_6m', 'max_temp_1j', 'zon_straling_1m', 'gem_temp_6m', 'zon_uren_6m', 'zon_uren_1j',
                                   'min_vocht_1m', 'min_vocht', 'min_vocht_6m', 'gem_temp', 'min_vocht_1j', 'gem_temp_1j',
                                   'zon_uren_1m', 'dag_vocht_1m', 'min_temp_6m', 'dag_vocht_6m', 'min_temp_1j', 'min_temp',
                                   'zon_perc', 'min_wind', 'dag_vocht', 'dag_vocht_1j', 'zon_perc_1j', 'min_wind_6m',
                                   'min_wind_1j', 'zon_perc_1m', 'vector_wind', 'max_temp_1m', 'vector_wind_6m', 'zon_perc_6m',
                                   'wind', 'vector_wind_1j', 'gem_temp_1m', 'wind_6m', 'duur_neerslag_6m', 'duur_neerslag',
                                   'max_vocht_3m', 'wind_1j']]
X = sterke_medium_features.values 
y = features['energie'].values

In [16]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [17]:
LR = LinearRegression()
LR.fit(x_train,y_train)
y_prediction =  LR.predict(x_test)

In [18]:
score=r2_score(y_test,y_prediction)
print('r2 score = ',score)
print('RMSE = ',np.sqrt(mean_squared_error(y_test,y_prediction)))

r2 score =  0.6262159422385801
RMSE =  368.349087645709


### Bronnenlijst
Zhao, H.-x. (2012, april 27). A review on the prediction of building energy consumption. Opgehaald van ScienceDirect: https://www.sciencedirect.com/science/article/pii/S1364032112001438 <br>
V.Tu, J. (1996, November). Advantages and disadvantages of using artificial neural networks versus logistic regression for predicting medical outcomes. Opgehaald van Science Direct: https://www.sciencedirect.com/science/article/pii/S0895435696000029 <br>
A. M. G. Klein Tank, T. A. (1996). Klimaatverandering: realistische scenario's voor impact-studies. Opgehaald van Wageningen Universiteit en Research: https://edepot.wur.nl/362459 <br>
User's guide to correlation coefficients. (2018). Opgehaald van Elsevier: https://reader.elsevier.com/reader/sd/pii/S2452247318302164?token=E11A0EBE00E0C7F51CBA210587E78A590D766D3D4B80A302BC236F5F595425F4A1D3DC7598492D811D47690577FE563D&originRegion=eu-west-1&originCreation=20221029124403 <br>