Het uitvoeren van een machine learning model 

Naast de verschillende features is er ook gekeken naar de verschillende soorten machine learning modellen die gebruikt kunnen worden. In eerder uitgevoerd onderzoek waarbij de energieconsumptie in gebouwen voorspeld wordt, blijkt dat een regressie model effectief is om de energie consumptie te voorspellen aan de hand van weer features. Voor een regressie model is er historische data nodig. Dit is verzameld voor de energie consumptie en de weer features. Daarnaast kan een regressie model de correlatie coëfficiënt bepalen. Hiermee kan er gekeken worden of er een relatie is tussen de features en de energieconsumptie (Zhao, 2012). 

Vanwege deze redenen is er gekozen om gebruik te maken van een regressie model (Gupta, 2022) met verschillende features. In dit machine learning model is er voorspeld op basis van de features temperatuur, wind, zonuren en inflatie. Deze features zijn meegenomen omdat er onderzocht is dat er een relatie is tussen deze factoren (Deze informatie is afkomstig uit het geschreven paper).


In [15]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn import preprocessing, svm
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score
from sklearn.metrics import mean_squared_error, mean_absolute_error

De dataset waarbij de features de waarde van de laatste maand hebben wordt opgehaald en leesbaar gemaakt. Omdat in dit regressie model alleen de features temperatuur, wind, zon en inflatie worden meegenomen worden de andere features uit de dataset verwijderd.

In [16]:
dataset = pd.read_csv('Data_laatste_maand.csv')

In [17]:
dataset.drop(columns=['Unnamed: 0', 'Q_last_month', 'SP_last_month'], inplace=True)
dataset

Unnamed: 0,Datum,NettoVerbruikBerekend_30,Temp_last_month,Wind_last_month,Zon_last_month,Infl_last_month
0,2000-01,8847,,,,
1,2000-02,8235,4.329032,3.980645,1.806452,52.22
2,2000-03,8738,5.855172,4.296552,3.682759,52.29
3,2000-04,7912,6.796774,3.677419,2.583871,52.73
4,2000-05,8221,9.986667,2.840000,5.116667,52.74
...,...,...,...,...,...,...
259,2021-08,8981,17.987097,2.416129,6.264516,115.79
260,2021-09,9030,16.935484,2.677419,5.325806,117.17
261,2021-10,9410,15.930000,2.160000,5.940000,123.29
262,2021-11,9678,11.612903,3.045161,3.945161,136.56


Doordat de waarde een plaats is opgeschoven is er voor de features in januari 200 geen waarde bekend. Met de dropna functie wordt deze rij uit de dataset gehaald.

In [18]:
dataset.dropna(inplace=True)

Met de correlatie functie wordt er gekeken of er een relatie is tussen de features. Wanneer de waarde negatief is, is er sprake van een negatieve relatie. De relatie is sterk wanneer deze boven de 0.5 of onder de -0.5 ligt. Hoe dichter de waarde bij de 1 of -1 ligt, hoe sterker de relatie is. In de tabel is te zien dat het aantal zonuren de sterkste realtie heeft met de energieconsumptie.

In [20]:
dataset.corr()

Unnamed: 0,NettoVerbruikBerekend_30,Temp_last_month,Wind_last_month,Zon_last_month,Infl_last_month
NettoVerbruikBerekend_30,1.0,-0.421654,0.212029,-0.603668,0.382205
Temp_last_month,-0.421654,1.0,-0.59822,0.740483,0.021698
Wind_last_month,0.212029,-0.59822,1.0,-0.543774,-0.06167
Zon_last_month,-0.603668,0.740483,-0.543774,1.0,0.049243
Infl_last_month,0.382205,0.021698,-0.06167,0.049243,1.0


De eerste stap in een regressie model is het bepalen van de X en y waarden. Vervolgens wordt de data verdeeld in een test dataset en een train dataset. Door dit te doen kan er met die waarden gecontroleerd worden of het model goed voorspeld. Met de r2 score wordt berekent hoeveel variantie er in de features wordt verklaard door de energieconsumptie. Hoe dichter de waarde bij de 1 ligt, hoe meer de features verklaard worden door de energieconsumptie. De root mean squared error geeft het verschil weer tussen de voorspelde en werkelijke waarde weer. 

In [7]:
X = dataset[['Temp_last_month', 'Wind_last_month', 'Zon_last_month', 'Infl_last_month']].values
y = dataset['NettoVerbruikBerekend_30'].values 

In [8]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 42)

In [9]:
LR = LinearRegression()
LR.fit(x_train,y_train)
y_prediction =  LR.predict(x_test)
y_prediction

array([ 8777.94986154,  9687.39540114,  9540.05361425,  9819.18543226,
        9204.61196871,  9838.70359668,  9336.34889977,  9918.46459735,
        8845.18526246,  8710.29167373,  9062.8084412 ,  8933.15568584,
        9376.67929243,  9201.82739076,  9348.84982334, 10064.59032583,
        9497.41983594,  8915.72246443,  9006.04981186,  8920.71453385,
        9254.1558345 ,  9449.27073798,  8554.21931255,  9444.83056183,
       10146.41053564,  8495.85892986,  8308.45843072,  8979.21327415,
        9272.88087616,  8662.51146957,  8648.78455564,  9152.67250411,
        8853.07872407,  9016.8887409 ,  8983.83353116,  9723.5817793 ,
        9736.93291737,  9980.81378592,  8812.6561776 ,  8943.80469682,
        9404.70530145,  8952.6194167 ,  9521.30033473,  9050.45848287,
        8489.89698843,  9529.13659881,  9800.04421605,  8380.14706876,
        9116.14389907,  9644.56145832,  9300.86960669,  9256.05526437,
        8647.81111272])

In [14]:
score=r2_score(y_test,y_prediction)
print('r2 score = ',score)
print('root_mean_squared error of = ',np.sqrt(mean_squared_error(y_test,y_prediction)))

r2 score =  0.48261348312700214
root_mean_squared error of =  437.1180875530664


Voor dit regressie model is de r2 0.48, dit betekent dat de relatie tussen de features en de energieconsumptie vrij laag is. Omdat de energieconsumptie in kWh wordt uitgedrukt zijn de waardes getallen in de 1000, hierbij is een root mean squared error van 437.12 relatief laag.

Bronnenlijst
Gupta, A. (2022, augustus 23). Python | Linear Regression using sklearn. Opgehaald van geeks for geeks: https://www.geeksforgeeks.org/python-linear-regression-using-sklearn/
Zhao, H.-x. (2012, april 27). A review on the prediction of building energy consumption. Opgehaald van ScienceDirect: https://www.sciencedirect.com/science/article/pii/S1364032112001438