## Prototype

**Achtergrond**

Uit de deelvragen die in het onderzoeksverslag zijn uitgewerkt blijk dat semigestructureerde data het meeste inzicht biedt in de medische sector. Daarnaast kan semigestructureerde data, combinatie van gestructureerde en ongestructureerde data, interpreteerbaar zijn voor mensen met kennis uit de medische sector. Dit inzicht maakt dat het nuttig is om te kijken of machine learning modellen die zowel gestructureerde, semigestructureerde als ongestructureerde data verwerken interpreteerbaar zijn. 

Om hier antwoord op te kunnen geven is eerst bekeken hoe eerder uitgevoerde onderzoeken in de praktijk medische voorspellingen hebben gedaan met gestructureerde en ongestructureerde data. Een voorbeeld hiervan komt uit het onderzoek van Zhang (2020), waarin wordt voorspeld of mensen komen te overleiden tijdens de ziekenhuisopname, of mensen binnen 30 dagen nogmaals worden opgenomen in het ziekenhuis en als laatst of de patiënt langere tijd in het ziekenhuis moet verblijven. Om deze voorspellingen te kunnen doen wordt gebruik gemaakt van gestructureerde data, bestaand uit patiëntgegevens zoals leeftijd, geslacht, burgerlijke staat, etniciteit en verzekeringsinformatie. Daarnaast maakt Zhang (2020) ook gebruik van ongestructureerde data, bestaande uit klinische notities waaronder notities van verpleegkundige, artsen en radiologen. Om een vroegtijdige voorspelling te kunnen maken zijn alleen de eerste 24-uurnotities meegenomen in het onderzoek. 

Zoals eerder is benoemd is de data opgeschoond zodat de verschillende datasets gecombineerd kunnen worden (Zhang, 2020). De gestructureerde data is opgeschoond met one-hot enconding en de ongestructureerde data is opgeschoond met een CNN of LSTM model. De voorspellingen worden geformuleerd als een binair classificatieprobleem waarbij de voorspelling waar of niet waar is. Om te zien of het model goed presteert worden de mate van nauwkeurigheid gemeten met de F1-score, de prestatie met AUROC en de preciesheid met AUPRC. 

De resultaten uit het onderzoek (Zhang, 2020) laten zien dat deep learning modellen beter presteren dan traditionele machine learning modellen door de modellen op modelinvoer te vergelijken. Daarnaast zijn modellen nauwkeuriger te voorspellen wanneer gestructureerde en ongestructureerde data gecombineerd worden. Hiermee concludeert Zhang (2020) dat het gebruiken van gestructureerde en ongestructureerde data de gezondheidstoestand van een patiënt beter kunnen voorspellen door gebruik te maken van patiënt gegevens.  

**Methode**

Het prototype is opgezet om te onderzoeken of de datasetsoort invloed heeft op de mate van interpreteerbaarheid. Dit wordt gedaan door zowel gestructureerde, ongestructureerde en een combinatie van gestructureerde en ongestructureerde datasets te trainen. Om een binair classificatie probleem na te maken is er gekozen om te werken met een openbare gezichten dataset, waarin verschillende foto’s van mensen te vinden zijn. Hieruit is een selectie gemaakt van 30 vrouwen en 20 mannen en deze foto’s worden gebruikt als ongestructureerde data. Voor de gestructureerde data is een dataset aangemaakt die voor iedere foto van de ongestructureerde dataset het geslacht en de leeftijd beschrijft. Het prototype voorspelt of de persoon zwanger is of niet en ook deze data is beschreven in de gestructureerde dataset. Om te kijken welk machine learning model het best past bij de datasetsoort wordt er gebruik gemaakt van de AutoML H2O. Hier is voor gekozen omdat uit het onderzoek van Rik Smink blijk dat deze tool gratis is en makkelijk in gebruik is.


#### Gestructureerde data
Als eerst wordt de gestructureerde dataset in de AutoML getraind die bekijkt welk machine learning model het best presteerd. Het best presterende machine learning model wordt vervolgens getraind, zodat er bekeken kan worden of de resultaten interpreteerbaar zijn.

In [1]:
#importeren van de benodigde libraries
import h2o
from h2o.automl import H2OAutoML
import pandas as pd

In [2]:
#starten van H2O instantie
h2o.init()

Checking whether there is an H2O instance running at http://localhost:54321 . connected.


0,1
H2O_cluster_uptime:,9 hours 44 mins
H2O_cluster_timezone:,Europe/Berlin
H2O_data_parsing_timezone:,UTC
H2O_cluster_version:,3.38.0.4
H2O_cluster_version_age:,12 days
H2O_cluster_name:,H2O_from_python_cboxm_3g7xfz
H2O_cluster_total_nodes:,1
H2O_cluster_free_memory:,202.6 Mb
H2O_cluster_total_cores:,4
H2O_cluster_allowed_cores:,4


In [3]:
#data importeren
gezichtendata = h2o.import_file('gezichtendata.csv', sep = ';')
features = ['geslacht', 'leeftijd']
output = 'zwanger'

Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%


In [4]:
#de data opsplitsen in een test en trainings data
train, test = gezichtendata.split_frame(ratios=[0.8])

In [5]:
#het model bouwen
aml = H2OAutoML(max_models = 15, max_runtime_secs=60, seed = 1234)
aml.train(x = features, y = output, training_frame = train)

AutoML progress: |█
22:50:58.219: AutoML: XGBoost is not available; skipping it.
22:50:58.219: _response param, We have detected that your response column has only 2 unique values (0/1). If you wish to train a binary model instead of a regression model, convert your target column to categorical before training.
22:50:58.572: _response param, We have detected that your response column has only 2 unique values (0/1). If you wish to train a binary model instead of a regression model, convert your target column to categorical before training.
22:50:58.572: _min_rows param, The dataset size is too small to split for min_rows=100.0: must have at least 200.0 (weighted) rows, but have only 41.0.
22:50:58.575: _response param, We have detected that your response column has only 2 unique values (0/1). If you wish to train a binary model instead of a regression model, convert your target column to categorical before training.
22:50:58.874: _response param, We have detected that your response colu

Unnamed: 0,layer,units,type,dropout,l1,l2,mean_rate,rate_rms,momentum,mean_weight,weight_rms,mean_bias,bias_rms
,1,2,Input,0.0,,,,,,,,,
,2,10,Rectifier,0.0,0.0,0.0,0.003908,0.0036348,0.0,0.1123234,0.3931706,0.4965282,0.008331
,3,10,Rectifier,0.0,0.0,0.0,0.0042637,0.0048458,0.0,-0.0490057,0.3230122,0.9894446,0.0212399
,4,10,Rectifier,0.0,0.0,0.0,0.3190594,0.4453707,0.0,-0.0208494,0.3232805,0.996887,0.009797
,5,1,Linear,,0.0,0.0,0.3018297,0.4541911,0.0,0.1466766,0.4134663,-0.0118464,0.0

Unnamed: 0,mean,sd,cv_1_valid,cv_2_valid,cv_3_valid,cv_4_valid,cv_5_valid
mae,0.2608337,0.1388023,0.1522234,0.4469047,0.3356998,0.1026978,0.2666431
mean_residual_deviance,0.1390225,0.1240621,0.0439696,0.3363363,0.1705928,0.0294116,0.1148024
mse,0.1390225,0.1240621,0.0439696,0.3363363,0.1705928,0.0294116,0.1148024
r2,-inf,,-inf,-0.3453453,0.0901717,-inf,-0.0496219
residual_deviance,0.1390225,0.1240621,0.0439696,0.3363363,0.1705928,0.0294116,0.1148024
rmse,0.3425973,0.1645056,0.2096893,0.5799451,0.4130288,0.171498,0.338825
rmsle,0.2497467,0.0896892,0.1823531,0.3755187,0.2883005,0.1482156,0.2543457

Unnamed: 0,timestamp,duration,training_speed,epochs,iterations,samples,training_rmse,training_deviance,training_mae,training_r2
,2023-01-17 22:51:00,0.000 sec,,0.0,0,0.0,,,,
,2023-01-17 22:51:00,0.157 sec,41000 obs/sec,1.0,1,41.0,0.3447127,0.1188268,0.2479358,0.1607232
,2023-01-17 22:51:00,0.181 sec,17560 obs/sec,10.7073171,10,439.0,0.3395622,0.1153025,0.2353185,0.1856157

variable,relative_importance,scaled_importance,percentage
leeftijd,1.0,1.0,0.5140816
geslacht,0.9452164,0.9452164,0.4859184


In [6]:
#leaderbord bekijken van best presterende modellen
lb = aml.leaderboard
lb.head(rows=lb.nrows)

model_id,rmse,mse,mae,rmsle,mean_residual_deviance
DeepLearning_1_AutoML_9_20230117_225058,0.369735,0.136704,0.258185,0.260656,0.136704
DeepLearning_grid_1_AutoML_9_20230117_225058_model_1,0.376018,0.141389,0.247412,0.260559,0.141389
GLM_1_AutoML_9_20230117_225058,0.379513,0.14403,0.285668,0.270629,0.14403
GBM_2_AutoML_9_20230117_225058,0.386308,0.149234,0.288113,0.274379,0.149234
GBM_3_AutoML_9_20230117_225058,0.388022,0.150561,0.291192,0.276223,0.150561
DeepLearning_grid_1_AutoML_9_20230117_225058_model_2,0.390298,0.152332,0.279456,0.279304,0.152332
GBM_4_AutoML_9_20230117_225058,0.394613,0.15572,0.291926,0.281242,0.15572
GBM_grid_1_AutoML_9_20230117_225058_model_1,0.401181,0.160946,0.306972,0.288444,0.160946
XRT_1_AutoML_9_20230117_225058,0.41776,0.174524,0.307872,0.299992,0.174524
GBM_5_AutoML_9_20230117_225058,0.420657,0.176952,0.313672,0.304381,0.176952


Het best presterende model voor gestructureerde data is het Gradient Boosting Model (GBM). Het model leert door steeds nieuwe modellen toe te voegen waardoor de nauwkeurigheid vergroot wordt. Een simpele GBM kan alledaags worden uitgelegd omdat de componenten qua ontwerp overeenkomen met andere modellen. Echter hoe ingewikkelder de modellen zijn die gebruikt worden in het gradient boosting model, hoe lastiger deze te interpreteren zijn. De modellen kunnen vaak wel met tools uitgelegd worden en zijn daarom niet interpreteerbaar.

#### Ongestructureerde data
Vervolgens wordt de ongestructureerde data in de AutoML getraind die bekijkt welk machine learning model het best presteerd. Voordat de data in een AutoML getriand kan worden moeten de afbeeldingen eerst worden omgezet naar een CSV bestand. Dit is gedaan door verschillende kenmerken van de afbeelding mee te nemen, zoals breedte, lengte, grootte van het bestand en pixeldichtheid. 

In [7]:
#starten van H2O instantie
h2o.init()

Checking whether there is an H2O instance running at http://localhost:54321 . connected.


0,1
H2O_cluster_uptime:,9 hours 48 mins
H2O_cluster_timezone:,Europe/Berlin
H2O_data_parsing_timezone:,UTC
H2O_cluster_version:,3.38.0.4
H2O_cluster_version_age:,12 days
H2O_cluster_name:,H2O_from_python_cboxm_3g7xfz
H2O_cluster_total_nodes:,1
H2O_cluster_free_memory:,201.4 Mb
H2O_cluster_total_cores:,4
H2O_cluster_allowed_cores:,4


In [8]:
#data importeren
afbeeldingdata = h2o.import_file('afbeeldingdata.csv', sep = ';')
features = ['breedte', 'lengte', 'grootte', 'pixeldichtheid']
output = 'zwanger'

Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%


In [9]:
#de data opsplitsen in een test en trainings data
train, test = afbeeldingdata.split_frame(ratios=[0.8])

In [10]:
#het model bouwen
aml = H2OAutoML(max_models = 15, max_runtime_secs=60, seed = 1234)
aml.train(x = features, y = output, training_frame = train)

AutoML progress: |█
22:54:59.386: AutoML: XGBoost is not available; skipping it.
22:54:59.404: _train param, Dropping bad and constant columns: [grootte]
22:54:59.406: _response param, We have detected that your response column has only 2 unique values (0/1). If you wish to train a binary model instead of a regression model, convert your target column to categorical before training.
22:54:59.826: _train param, Dropping bad and constant columns: [grootte]
22:54:59.826: _response param, We have detected that your response column has only 2 unique values (0/1). If you wish to train a binary model instead of a regression model, convert your target column to categorical before training.
22:54:59.826: _min_rows param, The dataset size is too small to split for min_rows=100.0: must have at least 200.0 (weighted) rows, but have only 43.0.
22:54:59.827: _train param, Dropping bad and constant columns: [grootte]
22:54:59.827: _response param, We have detected that your response column has only 2

Unnamed: 0,layer,units,type,dropout,l1,l2,mean_rate,rate_rms,momentum,mean_weight,weight_rms,mean_bias,bias_rms
,1,3,Input,15.0,,,,,,,,,
,2,100,RectifierDropout,50.0,0.0,0.0,0.0473487,0.0940844,0.0,-0.2356399,0.3872255,0.9791975,1.0715194
,3,1,Linear,,0.0,0.0,0.0013181,0.0030947,0.0,-0.1632563,0.3714665,-0.249673,0.0

Unnamed: 0,mean,sd,cv_1_valid,cv_2_valid,cv_3_valid,cv_4_valid,cv_5_valid
mae,0.2894765,0.0447723,0.3179792,0.31341,0.2452832,0.3335525,0.2371577
mean_residual_deviance,0.1440363,0.0392467,0.163733,0.1529772,0.092008,0.1925611,0.1189022
mse,0.1440363,0.0392467,0.163733,0.1529772,0.092008,0.1925611,0.1189022
r2,0.0243851,0.0806321,0.0526877,0.1149178,0.0684187,-0.0269924,-0.0871062
residual_deviance,0.1440363,0.0392467,0.163733,0.1529772,0.092008,0.1925611,0.1189022
rmse,0.3765461,0.0530253,0.4046393,0.391123,0.3033283,0.4388178,0.344822
rmsle,0.2652719,0.0297227,0.2830927,0.2714848,0.2247239,0.2999588,0.2470992

Unnamed: 0,timestamp,duration,training_speed,epochs,iterations,samples,training_rmse,training_deviance,training_mae,training_r2
,2023-01-17 22:55:26,0.000 sec,,0.0,0,0.0,,,,
,2023-01-17 22:55:26,23.775 sec,53750 obs/sec,10.0,1,430.0,0.3934612,0.1548117,0.2693689,-0.0223104
,2023-01-17 22:55:31,28.772 sec,64229 obs/sec,7470.0,747,321210.0,0.3673519,0.1349474,0.2943497,0.1088653
,2023-01-17 22:55:32,30.385 sec,65118 obs/sec,10010.0,1001,430430.0,0.3655147,0.133601,0.2808735,0.1177563

variable,relative_importance,scaled_importance,percentage
pixeldichtheid,1.0,1.0,0.646185
breedte,0.3138591,0.3138591,0.2028111
lengte,0.2336854,0.2336854,0.151004


In [11]:
#leaderbord bekijken van best presterende modellen
lb = aml.leaderboard
lb.head(rows=lb.nrows)

model_id,rmse,mse,mae,rmsle,mean_residual_deviance
DeepLearning_grid_1_AutoML_10_20230117_225459_model_1,0.378804,0.143492,0.289668,0.266213,0.143492
GLM_1_AutoML_10_20230117_225459,0.39033,0.152358,0.299327,0.273442,0.152358
GBM_4_AutoML_10_20230117_225459,0.391138,0.152989,0.305765,0.275905,0.152989
GBM_2_AutoML_10_20230117_225459,0.391814,0.153518,0.302023,0.275181,0.153518
GBM_3_AutoML_10_20230117_225459,0.392406,0.153983,0.302436,0.276017,0.153983
GBM_grid_1_AutoML_10_20230117_225459_model_1,0.394022,0.155253,0.302743,0.27737,0.155253
DeepLearning_grid_1_AutoML_10_20230117_225459_model_2,0.400899,0.16072,0.345526,0.296804,0.16072
DeepLearning_1_AutoML_10_20230117_225459,0.409619,0.167788,0.333617,0.293805,0.167788
DRF_1_AutoML_10_20230117_225459,0.435447,0.189614,0.322715,0.311949,0.189614
XRT_1_AutoML_10_20230117_225459,0.437814,0.191681,0.328189,0.314776,0.191681


Het best presterende model is een deeplearning grid model.

#### Semigestructureerde data
Door de gestructureerde en ongestructureerde data samen te voegen en in een AutoML te trainen kan er bekeken worde nwel machine learning model het best presteerd. 

In [12]:
#starten van H2O instantie
h2o.init()

Checking whether there is an H2O instance running at http://localhost:54321 . connected.


0,1
H2O_cluster_uptime:,9 hours 51 mins
H2O_cluster_timezone:,Europe/Berlin
H2O_data_parsing_timezone:,UTC
H2O_cluster_version:,3.38.0.4
H2O_cluster_version_age:,12 days
H2O_cluster_name:,H2O_from_python_cboxm_3g7xfz
H2O_cluster_total_nodes:,1
H2O_cluster_free_memory:,195.7 Mb
H2O_cluster_total_cores:,4
H2O_cluster_allowed_cores:,4


In [13]:
#data importeren
gezichten_afbeelding = h2o.import_file('gezichten_afbeelding.csv', sep = ';')
features = ['geslacht', 'leeftijd', 'breedte', 'lengte', 'grootte', 'pixeldichtheid']
output = 'zwanger'

Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%


In [14]:
#de data opsplitsen in een test en trainings data
train, test = gezichten_afbeelding.split_frame(ratios=[0.8])

In [15]:
#het model bouwen
aml = H2OAutoML(max_models = 15, max_runtime_secs=60, seed = 1234)
aml.train(x = features, y = output, training_frame = train)

AutoML progress: |█
22:57:54.119: AutoML: XGBoost is not available; skipping it.
22:57:54.132: _train param, Dropping bad and constant columns: [grootte]
22:57:54.132: _response param, We have detected that your response column has only 2 unique values (0/1). If you wish to train a binary model instead of a regression model, convert your target column to categorical before training.
22:57:54.547: _train param, Dropping bad and constant columns: [grootte]
22:57:54.547: _response param, We have detected that your response column has only 2 unique values (0/1). If you wish to train a binary model instead of a regression model, convert your target column to categorical before training.
22:57:54.547: _min_rows param, The dataset size is too small to split for min_rows=100.0: must have at least 200.0 (weighted) rows, but have only 38.0.
22:57:54.547: _train param, Dropping bad and constant columns: [grootte]
22:57:54.547: _response param, We have detected that your response column has only 2

Unnamed: 0,layer,units,type,dropout,l1,l2,mean_rate,rate_rms,momentum,mean_weight,weight_rms,mean_bias,bias_rms
,1,5,Input,15.0,,,,,,,,,
,2,100,RectifierDropout,50.0,0.0,0.0,0.0054858,0.0157863,0.0,-0.0383196,0.2474771,0.047995,0.2399425
,3,1,Linear,,0.0,0.0,0.0007395,0.0007301,0.0,-0.1393451,0.3068932,-0.2552081,0.0

Unnamed: 0,mean,sd,cv_1_valid,cv_2_valid,cv_3_valid,cv_4_valid,cv_5_valid
mae,0.2543727,0.0593805,0.2981744,0.1623035,0.2762848,0.3055072,0.2295938
mean_residual_deviance,0.127374,0.0449111,0.1704141,0.0931823,0.1451472,0.1608407,0.0672856
mse,0.127374,0.0449111,0.1704141,0.0931823,0.1451472,0.1608407,0.0672856
r2,-inf,,0.0911248,0.1480472,0.2258817,0.2118808,-inf
residual_deviance,0.127374,0.0449111,0.1704141,0.0931823,0.1451472,0.1608407,0.0672856
rmse,0.3518992,0.0665291,0.4128124,0.3052578,0.3809819,0.4010494,0.2593947
rmsle,0.2474864,0.0316266,0.2803786,0.2046036,0.2567174,0.2701667,0.2255658

Unnamed: 0,timestamp,duration,training_speed,epochs,iterations,samples,training_rmse,training_deviance,training_mae,training_r2
,2023-01-17 22:58:25,0.000 sec,,0.0,0,0.0,,,,
,2023-01-17 22:58:25,27.311 sec,42222 obs/sec,10.0,1,380.0,0.360384,0.1298766,0.2614116,0.1357519
,2023-01-17 22:58:30,32.312 sec,52573 obs/sec,6930.0,693,263340.0,0.3151428,0.099315,0.2187361,0.3391205
,2023-01-17 22:58:32,34.216 sec,55023 obs/sec,10010.0,1001,380380.0,0.3052183,0.0931582,0.2086304,0.3800902

variable,relative_importance,scaled_importance,percentage
leeftijd,1.0,1.0,0.3423571
pixeldichtheid,0.5775104,0.5775104,0.1977148
breedte,0.5676944,0.5676944,0.1943542
geslacht,0.390326,0.390326,0.1336309
lengte,0.3853957,0.3853957,0.131943


In [16]:
#leaderbord bekijken van best presterende modellen
lb = aml.leaderboard
lb.head(rows=lb.nrows)

model_id,rmse,mse,mae,rmsle,mean_residual_deviance
DeepLearning_grid_1_AutoML_11_20230117_225754_model_1,0.357875,0.128075,0.253679,0.24911,0.128075
GLM_1_AutoML_11_20230117_225754,0.373824,0.139744,0.287866,0.264438,0.139744
GBM_3_AutoML_11_20230117_225754,0.392319,0.153914,0.292929,0.277283,0.153914
GBM_2_AutoML_11_20230117_225754,0.394044,0.15527,0.295499,0.279083,0.15527
GBM_4_AutoML_11_20230117_225754,0.395821,0.156675,0.300688,0.28127,0.156675
GBM_grid_1_AutoML_11_20230117_225754_model_1,0.398366,0.158695,0.300711,0.282867,0.158695
DeepLearning_1_AutoML_11_20230117_225754,0.402651,0.162128,0.301687,0.285503,0.162128
XRT_1_AutoML_11_20230117_225754,0.434279,0.188598,0.332553,0.312214,0.188598
DRF_1_AutoML_11_20230117_225754,0.443579,0.196762,0.322513,0.318213,0.196762
GBM_5_AutoML_11_20230117_225754,0.545187,0.297229,0.402778,0.390585,0.297229


Het best presterende model is een deeplearning grid model.

### Conclusie
De datasetsoorten hebben invloed op de AutoML doordat de data geformatteerd moet worden naar gestructureerde data voordat de AutoML daadwerkelijk een machine learning model erop kan toepassen. Voor gestructureerde data is het daarom een makkelijke en snelle manier om een passend machine learning model te trainen. Echter kost het voor ongestructureerde data zoals afbeeldingen meer tijd om hier een passen ML-model voor te vinden.