# Python functies voor Odata4
Functies voor ophalen, inspecteren en samenvoegen van data van CBS

## Meer info

- https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/snelstartgids-odata-v4
- https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/metadata-odata-v4
- Ook code voor R beschikbaar.

# Definieren functies

In [44]:
import pandas as pd
import requests
import re
import time

In [45]:
def get_odata(target_url):
    
    """"
    De functie gebruikt een API genaamd OData om data van het CBS op te halen.
    De data wordt in stukken opgehaald en in een pandas dataframe gezet.
    De URL moet er zo uitzien: "https://odata4.cbs.nl/CBS/83765NED"
    De code van de tabel die je zoekt vindt je via Statline.
    Ga naar de data in Statline op de website van het CBS en kijk naar de URL om de code te vinden.
    """
    
    data = pd.DataFrame()
    while target_url:
        r = requests.get(target_url).json()
        data = data.append(pd.DataFrame(r['value']))
        
        if '@odata.nextLink' in r:
            target_url = r['@odata.nextLink']
        else:
            target_url = None
            
    return data

De functie gebruikt een API genaamd OData om data van het CBS op te halen.
De data wordt in stukken opgehaald en in een pandas dataframe gezet.
De URL moet er zo uitzien: "https://odata4.cbs.nl/CBS/83765NED"
De code van de tabel die je zoekt vindt je via Statline.
Ga naar de data in Statline op de website van het CBS en kijk naar de URL om de code te vinden.
Deze API is hierarchisch. 

In [46]:
def get_observations(table_url, url_filter = ""):
    
    """Haal de tabel met metingen op. Filteren om minder of specifiekere data op te vragen is mogelijk as volgt:
    url_filter = $filter=WijkenEnBuurten eq 'GM0363' and Measure eq 'T001036'
    Door de filteren op deze kolommen kun je een plaats (land, gemeente, wijk of buurt) en dan een soort meting kiezen.
    Of gebruik $filter=Measure in ('M001607', 'M001636') Je hoeft niet beide kolommen te gebruiken voor het filter.
    """
    
    if url_filter == "":
        target_url = table_url + "/Observations"
    elif "$filter=" in url_filter:
        target_url = table_url + "/Observations" + "?" + url_filter
    else:
        print("WAARSCHUWING! FILTER NIET GOED GEFORMATTEERD. VERGELIJK MET VOORBEELDEN OF GA NAAR ")
        print("\n https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/filters-odata-v4")
        print("\n http://docs.oasis-open.org/odata/odata/v4.0/errata03/os/complete/part2-url-conventions/odata-v4.0-errata03-os-part2-url-conventions-complete.html#_Toc453752358")
        print("\n sectie 5.1.1.5")
        #return None
        pass
    
    data = get_odata(target_url)
    
    return(data)

url_voorbeeld = "https://odata4.cbs.nl/CBS/83765NED"

# Wat is de structuur van de data?

In [47]:
data_structuur = get_odata(url_voorbeeld)
print(data_structuur)
data_Mcodes = get_odata(url_voorbeeld+"/MeasureCodes")
print(data_Mcodes.columns)

        kind                   name                    url
0  EntitySet          MeasureGroups          MeasureGroups
1  EntitySet           MeasureCodes           MeasureCodes
2  EntitySet             Dimensions             Dimensions
3  EntitySet  WijkenEnBuurtenGroups  WijkenEnBuurtenGroups
4  EntitySet   WijkenEnBuurtenCodes   WijkenEnBuurtenCodes
5  EntitySet           Observations           Observations
6  Singleton             Properties             Properties
Index(['DataType', 'Decimals', 'Description', 'Format', 'Identifier', 'Index',
       'MeasureGroupId', 'PresentationType', 'Title', 'Unit'],
      dtype='object')


In [48]:
# Maak een csv van de codes om ze in Excel goed te bekijken
data_Mcodes.to_csv("MeasureCodes.csv", sep=";", na_rep="None")
data_Mcodes[['Title','Description','Identifier','MeasureGroupId']].to_csv("features_alles.csv", sep=";", na_rep="None")
data_Mcodes
#data_Mcodes['Title'].values
#data_Mcodes["Identifier"]

Unnamed: 0,DataType,Decimals,Description,Format,Identifier,Index,MeasureGroupId,PresentationType,Title,Unit
0,Long,0,,,T001036,7,M000352,Absolute,Aantal inwoners,aantal
1,Long,0,,,3000,9,T001038,Absolute,Mannen,aantal
2,Long,0,,,4000,10,T001038,Absolute,Vrouwen,aantal
3,Long,0,Aantal inwoners dat op 1 januari 0 tot 15 jaar...,,10680,12,10000,Absolute,0 tot 15 jaar,aantal
4,Long,0,Aantal inwoners dat op 1 januari 15 tot 25 jaa...,,53050,13,10000,Absolute,15 tot 25 jaar,aantal
5,Long,0,Aantal inwoners dat op 1 januari 25 tot 45 jaa...,,53310,14,10000,Absolute,25 tot 45 jaar,aantal
6,Long,0,Aantal inwoners dat op 1 januari 45 tot 65 jaa...,,53715,15,10000,Absolute,45 tot 65 jaar,aantal
7,Long,0,Aantal inwoners dat op 1 januari 65 jaar of ou...,,80200,16,10000,Absolute,65 jaar of ouder,aantal
8,Long,0,Het aantal inwoners dat op 1 januari ongehuwd ...,,1010,18,T001019,Absolute,Ongehuwd,aantal
9,Long,0,Het aantal inwoners dat op 1 januari gehuwd is...,,1020,19,T001019,Absolute,Gehuwd,aantal


In [62]:
# het voorbeeld van de website van CBS:
table_url = "https://odata4.cbs.nl/CBS/83765NED"

target_url = table_url + "/Observations"
data = get_odata(target_url)
#print(data.head())

In [50]:
#tabel 2019
#lastyear_url = "https://odata4.cbs.nl/CBS/84583NED"

## Filteren van query
Het filteren van de data maakt het downloaden sneller.
Het filteren van 'Observations' data kan door code van dit format achter de url te plakken:

**?$filter=WijkenEnBuurten eq 'GM0363' and Measure eq 'T001036'**

**$filter=Measure in ('M001607', 'M001636')**

De code uit de kolom WijkenEnBuurten kun je vinden met 

**get_odata(table_url + "/WijkenEnBuurtenCodes")**

De 'Title' kolom van deze tabel bevat de namen van wijken, zodat je kan zoeken met str.find, <>.str.contains of Regex.
Zoals wel vaken met tektskolommen moet je dan vertrouwen op de volledigheid en consistentie.
Achteraf controleren of je wel de juiste weijken hebt s dus wel aangeraden.
De kolom WijkenenBuurten bevat zowel landen, gemeenten, wijken als buurten.
Aan het voorvoegsel van twee letters kun je zien met welke soort regio je te maken hebt.

Zie https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/filters-odata-v4 voor meer uitleg.
Voor de volledige documentie, zie https://www.odata.org/getting-started/basic-tutorial/#topskip
of ga naar https://help.nintex.com/en-US/insight/OData/HE_CON_ODATAQueryCheatSheet.htm voor een beknopte cheatsheet

In [51]:
table_test = get_observations(url_voorbeeld, url_filter="$filter=contains(WijkenEnBuurten,'GM')")
#table_test = get_observations(url_voorbeeld)

In [52]:
print(table_test.columns)
print(table_test.head(5))
# Kolom ValueAttribute heeft geen waarden

Index(['Id', 'Measure', 'Value', 'ValueAttribute', 'WijkenEnBuurten'], dtype='object')
    Id  Measure    Value ValueAttribute WijkenEnBuurten
0  103  T001036  25286.0           None          GM1680
1  104     3000  12603.0           None          GM1680
2  105     4000  12683.0           None          GM1680
3  106    10680   3572.0           None          GM1680
4  107    53050   2558.0           None          GM1680


In [54]:
# Deze tabel bevat alle gemeente, maar GEEN info over wijken en buurten

data_gemeenten = get_odata(url_voorbeeld+"/WijkenEnBuurtenGroups")

print(data_gemeenten.size)
print(data_gemeenten.columns)
print(data_gemeenten.head(10))
# ParentId geeft voor wijken de buurt aan, voor wijken de plaatsnaam, voorplaatsnamen de gemeente etc.

2352
Index(['Description', 'Id', 'Index', 'ParentId', 'Title', 'Code'], dtype='object')
  Description      Id  Index ParentId                           Title  Code
0        None    WBGM      0     None  Wijken en buurten per gemeente      
1        None  GM1680      1     WBGM                     Aa en Hunze  1680
2        None  GM0738      2     WBGM                         Aalburg  0738
3        None  GM0358      3     WBGM                        Aalsmeer  0358
4        None  GM0197      4     WBGM                          Aalten  0197
5        None  GM0059      5     WBGM                   Achtkarspelen  0059
6        None  GM0482      6     WBGM                    Alblasserdam  0482
7        None  GM0613      7     WBGM                   Albrandswaard  0613
8        None  GM0361      8     WBGM                         Alkmaar  0361
9        None  GM0141      9     WBGM                          Almelo  0141


In [55]:
filter_gemeente = data_gemeenten['Title'] == 'Oss'
print(data_gemeenten[filter_gemeente])
selectie_gem = data_gemeenten[filter_gemeente]['Id'].values[0]
selectie_gem

    Description      Id  Index ParentId Title  Code
254        None  GM0828    254     WBGM   Oss  0828


'GM0828'

In [56]:
# Deze tabel bevat codes van wijken en buurten en toont bij welke gemeente ze horen. De gemeenten staan er ook in.
data_geocodes = get_odata(url_voorbeeld+"/WijkenEnBuurtenCodes")
print(data_geocodes.size)
print(data_geocodes.columns)
print(data_geocodes.head(10))
# Ik denk dat DimensionGroupId te maken heeft met hierarchische indeling maar niet hetzelfde is als parentId.
# DetailRegionCode is hetzelfde als Identifier

100002
Index(['Description', 'DetailRegionCode', 'DimensionGroupId', 'Identifier',
       'Index', 'Title'],
      dtype='object')
  Description DetailRegionCode DimensionGroupId  Identifier  Index  \
0                         None               NL        NL00      1   
1                       GM1680               GM      GM1680      2   
2                     WK168000           GM1680    WK168000      3   
3                   BU16800000           GM1680  BU16800000      4   
4                   BU16800009           GM1680  BU16800009      5   
5                     WK168001           GM1680    WK168001      6   
6                   BU16800100           GM1680  BU16800100      7   
7                   BU16800109           GM1680  BU16800109      8   
8                     WK168002           GM1680    WK168002      9   
9                   BU16800200           GM1680  BU16800200     10   

                     Title  
0                Nederland  
1              Aa en Hunze  
2          

In [57]:
# Gebruik van Regular Expressions sterk aanbevolen om verschil met hele woorden te zien,
# Maakt implementatie wel iets ingewikkelder.
filter_BU = data_geocodes['Identifier'].str.contains("BU")
filter_WK = data_geocodes['Identifier'].str.contains("WK")

filter_BUWKopgem = data_geocodes['DimensionGroupId'] == selectie_gem
#print(data_geocodes[filter_BUWKopgem])
selectie_WK = data_geocodes[filter_WK & filter_BUWKopgem]["Identifier"]
print(selectie_WK)
#selectie_BU = data_geocodes[filter_BU & filter_BUWKopgem]["Identifier"]
#print(selectie_BU)

11353    WK082800
11357    WK082801
11365    WK082802
11369    WK082803
11378    WK082804
11384    WK082805
11389    WK082806
11400    WK082807
11411    WK082808
11416    WK082809
11422    WK082810
11428    WK082811
11432    WK082812
11436    WK082813
11440    WK082814
11446    WK082815
11450    WK082816
11454    WK082817
11460    WK082818
11463    WK082819
11468    WK082820
11471    WK082821
11477    WK082822
Name: Identifier, dtype: object


In [58]:
url_test = "$filter=WijkenEnBuurten eq '"+selectie_gem+"'"
# Alleen op deze manier kan je een ID uit de geografische tabel in het url-filter plaatsen. Ook de spaties tellen.)
#table_test = get_observations(url_voorbeeld, url_filter=url_test)
#table_test.head()

In [63]:
def maak_lijst_plaatsen(database, plaatsnaam, soort, exact = True, is_gemeente=True):
    """Voer de code van de database, de naam van een gemeente in, en GM, WK of BU.
    Functie filtert met URL. Als exact = False, dan tellen zoekresultaten die de string bevatten ook mee.
    Exact filter
    Functie maakt een lijst van codes binnen die gemeente.
    Zoeken op plaats binnen een gemeente kan ook maar is niet robuust want dan worden alle gemeenten doorzocht."""

    url = "https://odata4.cbs.nl/CBS/" + database
    filter_url = "$filter="
    if is_gemeente:
        data_gemeenten = get_odata(url+"/WijkenEnBuurtenGroups")
        if exact:
            filter_gemeente = data_gemeenten['Title'] == plaatsnaam
        else:
            filter_gemeente = data_gemeenten['Title'].str.contains(plaatsnaam)
            if sum(filter_gemeente) == 1:
                pass
            else:
                print("Kies uit één van deze gemeenten en roep de functie nogmaals aan met de selectie. \n")
                print(data_gemeenten[filter_gemeente])
                return data_gemeenten[filter_gemeente]['Identifier']
        
        selectie_gem = data_gemeenten[filter_gemeente]["Id"].values[0]
        plaatsen = get_odata(url+"/WijkenEnBuurtenCodes"+"?"+filter_url+"DimensionGroupId eq '"+selectie_gem+"'")
    
    else:
        if exact:
            plaatsen = get_odata(url+"/WijkenEnBuurtenCodes"+filter_url+"Title eq '"+plaatsnaam+"'")
        else:
            plaatsen = get_odata(url+"/WijkenEnBuurtenCodes"+filter_url+"contains(Title, '"+plaatsnaam+"')")
        
    if soort == "GM":
        return plaatsen[plaatsen["Identifier"].str.contains("GM")]["Identifier"]
    elif soort == "WK":
        return plaatsen[plaatsen["Identifier"].str.contains("WK")]["Identifier"]
    elif soort == "BU":
        return plaatsen[plaatsen["Identifier"].str.contains("BU")]["Identifier"]
    pass

In [64]:
lijst_test = maak_lijst_plaatsen("83765NED", "Oss", "WK")
print(type(lijst_test))
lijst_test

<class 'pandas.core.series.Series'>


0      WK082800
4      WK082801
12     WK082802
16     WK082803
25     WK082804
31     WK082805
36     WK082806
47     WK082807
58     WK082808
63     WK082809
69     WK082810
75     WK082811
79     WK082812
83     WK082813
87     WK082814
93     WK082815
97     WK082816
101    WK082817
107    WK082818
110    WK082819
115    WK082820
118    WK082821
124    WK082822
Name: Identifier, dtype: object

# Samenvoegen data

In [65]:
def formatteer_tabel(df):
    """Formatteert een tabel met observaties naar een formaat met één kolom voor elke meting en één rij per plaats.
    De codes voor plaatsen worden de index, de kolommen krijgen als naam de Identifier van de measure.
    Dat betekent dat extra informatie over de hierarchie van measures of plaatsen nog moet worden toegevoegd.
    Deze functie verwijdert dubbele waarden en vult NaN's niet in."""
    
    df2 = df.pivot(index="Id", columns="Measure", values="Value")
    df2 = df2.merge(df[["Id","WijkenEnBuurten"]], how="left", left_index=True, right_on="Id").drop("Id", axis=1)
    df2 = df2.groupby("WijkenEnBuurten").first()
    return df2

#formatteer_tabel(table_test)

In [66]:
#test2 = table_test.pivot(index="Id", columns="Measure", values="Value") # Zelfs voor hele dataset snel te doen
#test2 = test2.merge(table_test[["Id","WijkenEnBuurten"]], how="left", left_index=True, right_on="Id").drop("Id", axis=1)
#test2.head(20)
#test2.groupby("WijkenEnBuurten").first()
# Deze tabel heeft het gewenste format, maar de tabel heeft een index als lijst van kolommen

table_final = formatteer_tabel(table_test)
table_final.head()


Unnamed: 0_level_0,1010,1014800_1,1014800_2,1014800_3,1014850_2,1014850_3,1014850_4,1016030,1016040,1020,...,ZW10320_2,ZW10340,ZW25805_1,ZW25805_2,ZW25806_1,ZW25806_2,ZW25807,ZW25808,ZW25810_1,ZW25810_2
WijkenEnBuurten,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
GM0003,5075.0,48.0,2830.0,1630.0,51.0,2140.0,1220.0,1733.0,1800.0,4997.0,...,1960.0,28.0,2560.0,1360.0,2650.0,1550.0,15.0,85.0,1790.0,960.0
GM0005,4599.0,68.0,2830.0,1680.0,31.0,2070.0,1280.0,1580.0,1526.0,4720.0,...,2020.0,14.0,2530.0,1380.0,2520.0,1510.0,14.0,86.0,1690.0,890.0
GM0007,3259.0,71.0,3520.0,2040.0,28.0,2370.0,1620.0,1179.0,1606.0,4294.0,...,2130.0,6.0,2230.0,1470.0,2400.0,1630.0,6.0,94.0,1810.0,1080.0
GM0009,3231.0,77.0,2890.0,1730.0,23.0,2100.0,1340.0,1176.0,987.0,3137.0,...,2000.0,9.0,2530.0,1440.0,2570.0,1610.0,15.0,85.0,1740.0,780.0
GM0010,10264.0,62.0,2890.0,1670.0,37.0,2160.0,1310.0,3585.0,3815.0,10894.0,...,2000.0,22.0,2650.0,1400.0,2660.0,1570.0,9.0,91.0,1750.0,1020.0


# Selecteren features

In [67]:
def feature_select(df, csv_file):
    selectie = set(pd.read_csv(csv_file, sep=";")["Identifier"])
    test = set(df.columns)
    selectie = [feature for feature in selectie if feature in df.columns]
    df = df[selectie]
    return df
    
def generate_feature_dict(csv_file):
    feature_frame = pd.read_csv(csv_file, sep=";")
    feature_dict = {a:b for a,b in zip(feature_frame['Identifier'], feature_frame['Title']) }
    return feature_dict

def wissel_naar_titels(df,feature_dict):
    titels = [feature_dict[Identifier] for Identifier in df.columns]
    df.columns = titels
    
    return df

In [68]:
feature_all = pd.read_csv("features_alles.csv",sep=";")
table_final = feature_select(table_final, "features_test2.csv")

# Het is handiger om pas op het laatste moment de identifiers in de kolomnamen te vervangen door de titels
table_final = wissel_naar_titels(table_final, generate_feature_dict("features_alles.csv"))
table_final.head(15)

Unnamed: 0_level_0,Tussenwoning,Twee-onder-één-kap-woning,Afstand tot grote supermarkt,Gemiddeld inkomen per inkomensontvanger,In bezit overige verhuurders,Percentage eengezinswoning,In bezit woningcorporatie,Gescheiden,Personen per soort uitkering; AO,Personenauto's totaal,...,Appartement,Oppervlakte water,Scholen binnen 3 km,40% personen met laagste inkomen,Huishoudens met een laag inkomen,Personen per soort uitkering; AOW,Vrijstaande woning,Oppervlakte land,Huishoudens totaal,Personenauto's; jonger dan 6 jaar
WijkenEnBuurten,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
GM0003,2560.0,1520.0,0.9,26.8,7.0,72.0,44.0,1024.0,720.0,5405.0,...,1790.0,80.0,6.3,45.8,10.2,2730.0,3110.0,2378.0,5600.0,1510.0
GM0005,2530.0,1500.0,1.1,28.9,8.0,86.0,23.0,635.0,580.0,4930.0,...,1690.0,41.0,3.8,40.0,5.1,2070.0,3040.0,4454.0,4399.0,1370.0
GM0007,2230.0,1720.0,2.6,26.8,9.0,94.0,19.0,730.0,560.0,5275.0,...,1810.0,172.0,1.9,45.3,7.3,2280.0,3610.0,10837.0,3989.0,1310.0
GM0009,2530.0,1440.0,1.8,29.6,5.0,91.0,18.0,463.0,200.0,3645.0,...,1740.0,42.0,2.5,38.6,5.0,1350.0,3070.0,4531.0,2958.0,990.0
GM0010,2650.0,1590.0,1.3,27.1,9.0,78.0,28.0,2021.0,1260.0,12155.0,...,1750.0,9437.0,6.7,45.0,9.4,5750.0,3160.0,13313.0,11527.0,3475.0
GM0014,2730.0,1580.0,0.6,26.9,25.0,36.0,36.0,14154.0,8410.0,71805.0,...,1910.0,616.0,10.6,49.0,15.1,23730.0,3920.0,9534.0,122280.0,25475.0
GM0015,2290.0,1540.0,1.6,27.3,7.0,92.0,19.0,603.0,520.0,6435.0,...,1750.0,103.0,3.1,42.4,5.2,2030.0,3590.0,8671.0,4821.0,1200.0
GM0017,2670.0,2080.0,1.2,40.3,17.0,77.0,14.0,1444.0,570.0,9480.0,...,1900.0,532.0,6.3,34.1,6.0,4960.0,4250.0,4542.0,8707.0,2680.0
GM0018,2700.0,1660.0,1.1,26.2,9.0,70.0,34.0,3033.0,2350.0,16135.0,...,1980.0,653.0,8.7,46.6,10.5,7150.0,3590.0,6646.0,15716.0,3890.0
GM0022,2690.0,1590.0,1.2,29.6,11.0,86.0,25.0,1355.0,900.0,10055.0,...,1990.0,110.0,5.4,42.0,5.7,4010.0,3710.0,6318.0,8330.0,2510.0


In [69]:
def concat_DataFrames(LoF):
    """Neemt een lijst of dict van DataFrames aan uit verschillende zoekopdrachten en maakt er één geheeld van.
    Kolommen moeten wel hetzelfde zijn."""
    
    if type(LoF) == list:
        fullframe = LoF[0]
        for frame in LoF[1:]:
            fullframe = pd.concat([fullframe,frame], axis=0, sort=False)
    elif type(LoF) == dict:
        keys = list(LoF.keys())
        fullframe = LoF[keys[0]]
        for key in keys[1:]:
            fullframe = pd.concat([fullframe,LoF[key]], axis=0, sort=False)
    else:
        pass
    
    return fullframe

In [70]:
# Alles bij elkaar (in één functie):

# Deze functie moet nog uitvoerig getest worden!!!

def parserOData4(database, plaatsen, feature_dict=None, custom_filter = ""):
    """Deze functie neemt een code van de dataset op Odata4 en van plaatsCODES aan.
    Je kan ook "GM", "BU" of "WK" invoeren in plaats van en lijst met codes
    om data uit alle gemeenten, buurten of wijken op te vragen.
    Het vraagt dan per code de dataset op en voegt de dataframes samen.
    De code van de dataset is de combinatie van cijfers en letters achteraan de url:
    https://odata4.cbs.nl/CBS/83765NED
    Je kan ook zelf een filter genereren dat achter de andere filters geplakt wordt.
    Zie docstring van get_observations voor meer info"""
    
    table_url = "https://odata4.cbs.nl/CBS/"+database
    if custom_filter != "":
        custom_filter = " and "+custom_filter
    
    
    if type(plaatsen) == list or type(plaatsen) == pd.Series:
        frames = {}
        for plaats in plaatsen:
            url_filter = "?$filter=WijkenEnBuurten eq '"+plaats+"'"+custom_filter
            frames[plaats] = formatteer_tabel(get_observations(table_url, url_filter))
            time.sleep(2)
        print("Download geslaagd.")
        observations = concat_DataFrames(frames)
        if type(feature_dict) == dict:
            # Geen functie voor nodig, één list comrpehesion is al voldoende
            feature_selectie = [feature for feature in feature_dict.keys() if (feature in observations.columns)]
            observations = observations[feature_selectie]
        return observations
    
    elif plaatsen == "GM":
        url_filter = "$filter=contains(WijkenEnBuurten,'GM')"
    elif plaatsen == "BU":
        url_filter = "$filter=contains(WijkenEnBuurten,'BU')"
    elif plaatsen == "WK":
        url_filter = "$filter=contains(WijkenEnBuurten,'WK')"
    else:
        url_filter = "$filter=WijkenEnBuurten eq '"+plaatsen+"'"
    
    
    url_filter = url_filter + custom_filter
    print(table_url + url_filter)
    observations = get_observations(table_url, url_filter)
    print("Download geslaagd.")
    
    observations = formatteer_tabel(observations)
    if type(feature_dict) == dict:
        # Geen functie voor nodig, één list comrpehesion is al voldoende
        feature_selectie = [feature for feature in feature_dict.keys() if (feature in observations.columns)]
        observations = observations[feature_selectie]
    
    return observations

In [71]:
#Test met GM
#parserOData4("83765NED", "GM")
#Test met enkele code
#parserOData4("83765NED",selectie_gem)
#Test beide met extra filter
#parserOData4("83765NED", "GM", custom_filter="contains(Measure, 'M000')")
parserOData4("83765NED", selectie_gem, custom_filter="contains(Measure, 'M000')")

https://odata4.cbs.nl/CBS/83765NED$filter=WijkenEnBuurten eq 'GM0828' and contains(Measure, 'M000')
Download geslaagd.


Unnamed: 0_level_0,M000100,M000114,M000173_1,M000173_2,M000179_1,M000179_2,M000200_2,M000219_2,M000221_2,M000223,M000224,M000226,M000232,M000297,M000302,M000368
WijkenEnBuurten,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
GM0828,554.0,2.3,904.0,10.0,705.0,7.0,7755.0,1450.0,3290.0,30.4,24.7,5.7,72500.0,39130.0,59.3,1.2


In [None]:
# Functie die lijsten maakt werkt!
#Test parser met lijst
#maak_lijst_plaatsen("83765NED","Oss", "WK")
#parserOData4("83765NED", maak_lijst_plaatsen("83765NED","Oss", "WK"))
#Test parser met lijst en extra filter
parserOData4("83765NED", maak_lijst_plaatsen("83765NED","Oss", "WK"), custom_filter="contains(Measure,'M000')")

# To do: 

- Fix Odata3 parser met slim gekozen filters en dezelfde functies als OData4
- Analyseer en bewerk NaN's. Veel algoritmen van SciKit kunnen niet overweg met NaN.

Dan zouden alle gewenste functies klaar moeten zijn en kan het notebook worden opgeschoont of omgezet naar .py
De hierarchische indeling van locaties moet nog wel toegevoegd worden maar omdat daar andere bestanden voor nodig zijn
is het netjes om in een ander notebook verder te gaan.
Bovendien zijn de codes in Odata4 niet direct gelinkt aan postcodes dus voor veel buurten is niet automatisch vast te stellen waar deze zich bevinden.
- Zoek een tabel waar postcodes en buurtcodes van CBS met elkaar gelinkt worden.