In [43]:
import json
import pandas as pd
import requests

In [44]:
# We doen een "aanvraag" bij de API:
response = requests.get('http://localhost:8080/medish_centrum_randstad/api/netlify?page=1')

In [45]:
# Checken wat voor data/type we binnen hebben gekregen
response.headers['content-type']

'application/json'

In [46]:
# Van de teruggekregen data maken we een pandas dataframe
df = pd.read_json(response.text)
df.head()

Unnamed: 0,status,total_nr_of_records,nr_of_pages,page_size,next,data
0,200,8192,82,100,http://localhost:8080/medish_centrum_randstad/...,"{'genetic': 84, 'length': 180, 'mass': 90, 'ex..."
1,200,8192,82,100,http://localhost:8080/medish_centrum_randstad/...,"{'genetic': 84, 'length': 204, 'mass': 79, 'ex..."
2,200,8192,82,100,http://localhost:8080/medish_centrum_randstad/...,"{'genetic': 84, 'length': 174, 'mass': 74, 'ex..."
3,200,8192,82,100,http://localhost:8080/medish_centrum_randstad/...,"{'genetic': 84, 'length': 187, 'mass': 78, 'ex..."
4,200,8192,82,100,http://localhost:8080/medish_centrum_randstad/...,"{'genetic': 84, 'length': 187, 'mass': 89, 'ex..."


In [51]:
df['data']

# wat we hier willen:

    # De data is opgeslagen in de 'data' kolom. De vorm waarin dit is opgeslagen is een dictionary (voor elke rij)
    # waarvan de keys de variabelen zijn, en de waardes de waardes voor elke 'patient'
    
    # Nu willen we dus elk dictionary verwerken tot een rij in het dataframe, zodat we een rij hebben voor elke patient
    

# Eerst heb ik alle dictionaries in een lijst gezet, om ze als het ware uit het "oude" dataframe te halen:

data_list = df.data.values.tolist()
    
# Hier kunnen we inspecteren hoe het eerste item, i.e., de eerste rij, eruit ziet:
print(data_list[0])
    

{'genetic': 84, 'length': 180, 'mass': 90, 'exercise': 2, 'smoking': 9, 'alcohol': 1, 'sugar': 2, 'lifespan': 86}


In [59]:
# Nu is het zaak om de dictionaries uit de gemaakte lijst allemaal samen te voegen in een datatframe

df_final = pd.DataFrame.from_dict(data_list)

# We kunnen ons nieuwe dataframe even bekijken:

print(df_final.head())
print()
print(df_final.tail())


   genetic  length  mass  exercise  smoking  alcohol  sugar  lifespan
0     84.0   180.0  90.0       2.0      9.0      1.0      2        86
1     84.0   204.0  79.0       3.0      2.0      7.0      3       100
2     84.0   174.0  74.0       3.0     20.0      3.0      2        87
3     84.0   187.0  78.0       2.0      6.0      5.0      3        91
4     84.0   187.0  89.0       2.0     12.0      0.0      2        83

      genetic  length  mass  exercise  smoking  alcohol  sugar  lifespan
8187     82.0   185.0  67.0       3.0     11.0      8.0      2        90
8188     82.0   183.0  72.0       2.0      1.0      5.0      4        88
8189     83.0   192.0  92.0       1.0     22.0      2.0      4        62
8190     81.0   175.0  60.0       3.0     13.0      7.0      2        93
8191     83.0   204.0  76.0       3.0      8.0      8.0      1        96


In [66]:
# Wat opvalt is dat het dataframe enigszins lijkt te zijn geordend, bij het eerst x aantal rijen zien we dit terug:
df_final.head(50)

Unnamed: 0,genetic,length,mass,exercise,smoking,alcohol,sugar,lifespan
0,84.0,180.0,90.0,2.0,9.0,1.0,2,86
1,84.0,204.0,79.0,3.0,2.0,7.0,3,100
2,84.0,174.0,74.0,3.0,20.0,3.0,2,87
3,84.0,187.0,78.0,2.0,6.0,5.0,3,91
4,84.0,187.0,89.0,2.0,12.0,0.0,2,83
5,84.0,175.0,74.0,2.0,2.0,3.0,3,89
6,84.0,196.0,68.0,2.0,14.0,8.0,1,80
7,84.0,182.0,83.0,1.0,1.0,8.0,3,77
8,84.0,176.0,91.0,1.0,17.0,1.0,2,73
9,84.0,180.0,74.0,1.0,5.0,9.0,2,73


In [67]:
# Om eventuele problemen met training/test subsets van de data te voorkomen, heb ik ervoor gekozen om de rijen
# in willekeurige volgorden te zetten:

df_final = df_final.sample(frac=1)

In [75]:
# Checken hoe het er nu uitziet:

print(df_final.head())
print()
print(df_final.tail())

# De rijen zijn nu inderdaad in willekeurige volgorde gezet.

      genetic  length   mass  exercise  smoking  alcohol  sugar  lifespan
7182     80.0   190.0   83.0       3.0     13.0      4.0      2        86
3276     79.0   189.0   78.0       1.0      0.0      1.0      4        79
3338     79.0   192.0   63.0       3.0      5.0      2.0      2       101
332      82.0   175.0   81.0       2.0      0.0      1.0      3        87
2006     80.0   166.0  100.0       0.0      1.0      5.0      4        59

      genetic  length   mass  exercise  smoking  alcohol  sugar  lifespan
7874     81.0   200.0   99.0       1.0      5.0      7.0      2        76
779      81.0   178.0   97.0       1.0      6.0      7.0      2        76
6460     78.0   172.0   65.0       3.0      0.0      3.0      2       100
7619     81.0   178.0   70.0       1.0     10.0      8.0      2        69
7864     79.0   191.0  103.0       1.0     21.0      8.0      3        53


In [70]:
# We hebben nu een werkbaar dataframe met al onze variabelen in de kolommen, en alle individuele patienten/datapunten
# in de rijen. We kunnen deze nu als een nieuwe csv file exporteren, zonder index:

df_final.to_csv('data_clean.csv', index=False, sep=';')