In [1]:
# libraries
import pandas as pd
import numpy as np
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from keras.models import Sequential
from keras.layers import Dense
# Gaat het regenen of niet?

# TG        = Etmaalgemiddelde temperatuur (in 0.1 graden Celsius)
# FG        = Etmaalgemiddelde windsnelheid (in 0.1 m/s)
# UG        = Etmaalgemiddelde relatieve vochtigheid (in procenten)
# PG        = Etmaalgemiddelde luchtdruk herleid tot zeeniveau (in 0.1 hPa) berekend uit 24 uurwaarden
# RH        = Etmaalsom van de neerslag (in 0.1 mm) (-1 voor <0.05 mm)

In [6]:
# import data
tempdf = pd.read_csv('Data.txt', low_memory=False)
tempdf['TG'] = pd.to_numeric(tempdf['TG'], errors='coerce')
tempdf['FG'] = pd.to_numeric(tempdf['FG'], errors='coerce')
tempdf['UG'] = pd.to_numeric(tempdf['UG'], errors='coerce')
tempdf['PG'] = pd.to_numeric(tempdf['PG'], errors='coerce')
tempdf['RH'] = pd.to_numeric(tempdf['RH'], errors='coerce')

df = tempdf[['TG','FG','UG','PG','RH']].dropna(how='all')

# ik heb gekozen om RH om te zetten naar 0 of 1. bij 0 regent het niet, bij 1 regent het wel.
df['RH'] = np.where(df['RH']<= 0, 0 ,1)

# deze df sla ik op om later de orginele waardes nog te kunnen gebruiken
originaldf = df

df.describe()

Unnamed: 0,TG,FG,UG,PG,RH
count,23825.0,23824.0,16559.0,23829.0,23829.0
mean,99.013305,50.969862,82.332448,10150.417433,0.673885
std,59.214849,25.524074,8.557631,99.687823,0.4688
min,-122.0,0.0,35.0,9614.0,0.0
25%,58.0,31.0,77.0,10091.0,0.0
50%,100.0,46.0,83.0,10157.0,1.0
75%,147.0,67.0,89.0,10217.0,1.0
max,265.0,195.0,100.0,10459.0,1.0


In [3]:
# Data cleanup
df['UG'] = df ['UG'].replace('     ',df['UG'].mean())
df['RH'] = df ['RH'].replace('     ',df['RH'].mean())

# ik heb gekozen om de null waardes te vervangen voor een gemiddelde omdat ik niet de gehele row wil laten vallen. 
# Aangezien daar veel bruikbare data in zit.
df['TG'] = df ['TG'].fillna(df['TG'].mean())
df['FG'] = df ['FG'].fillna(df['FG'].mean())
df['UG'] = df ['UG'].fillna(df['UG'].mean())
df['RH'] = df ['RH'].fillna(df['UG'].mean())

# normaliseren van de data
df_s = preprocessing.scale(df)
df_s = pd.DataFrame(df_s, columns = df.columns)
df = df_s

df.describe()

Unnamed: 0,TG,FG,UG,PG,RH
count,23829.0,23829.0,23829.0,23829.0,23829.0
mean,2.3854720000000002e-17,-1.526702e-16,-1.561292e-15,2.972298e-15,-1.908378e-17
std,1.000021,1.000021,1.000021,1.000021,1.000021
min,-3.732788,-1.997184,-6.635205,-5.381085,-1.437498
25%,-0.6926913,-0.7824917,-0.3269695,-0.5960475,-1.437498
50%,0.01666471,-0.1947373,-1.99212e-15,0.0660332,0.6956531
75%,0.8104678,0.628119,0.5141286,0.6679248,0.6956531
max,2.80342,5.643624,2.476691,3.095554,0.6956531


In [4]:
# split test and train data
X = df.drop(columns=['RH'])

# de y geef ik de 'orginele' waarde mee. deze bestaat uit 0 of 1.
y = originaldf['RH']

print(y)
# Ik heb gekozen voor een kleine test size omdat er veel data is.
# En omdat ik het trainen belangrijker vind dan het vergelijken van de test en train data.
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.1)

0        1
1        1
2        1
3        1
4        1
        ..
23859    1
23860    1
23861    0
23862    0
23863    1
Name: RH, Length: 23829, dtype: int32


In [5]:
# setup en train model
model = Sequential()

# Ik heb gezien dat er van 50 naar 100 itteraties er WEINIG verbetering is in accuracy, bij het gebruik van dense 16, 8.
# epoch 1 - accuracy: 0.7121
# epoch 50 - accuracy: 0.8289
# epoch 100 - accuracy: 0.8316

# Ik heb gezien dat er vanaf 50 itteraties GEEN verbetering is in accuracy, bij het gebruik van dense 32, 16.
# Wat opvalt is dat er wel vanaf epoch 1 een hogere accuracy is in vergelijking tot een dense van 16, 8. 
# epoch 1 - accuracy: 0.7304
# epoch 50 - accuracy: 0.8328
# epoch 100 - accuracy: 0.8291


model.add(Dense(32, activation='relu', input_dim=4))
model.add(Dense(16, activation='relu', input_dim=4))

# Ik heb helaas geen wiskunde gestudeerd en zou niet kunnen uitleggen waarom sigmoid een goede keuzes is voor dit project.
model.add(Dense(1, activation='sigmoid'))

# Voor zo ver ik het gebrijp gebruik je Cross entropy om de berekenen hoeveel twee waarden van elkaar af liggen.
# In dit geval redeneer ik dat het gaat om de Binary afstand.
model.compile(optimizer='adam', loss = 'binary_crossentropy', metrics = ['accuracy']  )

# train het model
model.fit(X_train, y_train, epochs=100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.callbacks.History at 0x2c6b46c1070>

In [7]:
# test het model
score_test = model.evaluate(X_test, y_test)



In [12]:
# vraag het netwerk om een voorspelling te doen. Gaat het regenen of niet?
# normale waardes van:
# TG tussen de  -122 en de 265.    -Met normalisatie  -3.72 / 2.80
# FG tussen de  0 en de 195.       -Met normalisatie  -1.99 / 5.64
# UG tussen de  35 en de 100.      -Met normalisatie  -6.64 / 2.48
# PG tussen de  9614 en de 10459.  -Met normalisatie  -5.38 / 3.10

# RH tussen de  -1 en de 675.  <== deze hoef je dus niet op te geven.

# geef het in deze volgorde op in de array: TG FG UG PG
# [[67,118,91,10128]]  op deze dag regende het. YYYYMMDD : 19751231
# [[65,67,89, 10282]]  op deze dag regende het niet YYYYMMDD : 19751227

X = [[67,118,91,10128]]

#dit heb ik nog niet werkend gkregen.
Xn = preprocessing.scale(X)

print(model.predict_classes(Xn))
#print(np.argmax(model.predict(Xn), axis=-1))

[[1]]
[0]
