# Python functies voor Odata4
Functies voor ophalen, inspecteren en samenvoegen van data van CBS

## Meer info

- https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/snelstartgids-odata-v4
- https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/metadata-odata-v4
- Ook code voor R beschikbaar.

# Definieren functies

In [4]:
import pandas as pd
import requests

def get_odata(target_url):
    
    """"
    De functie gebruikt een API genaamd OData om data van het CBS op te halen.
    De data wordt in stukken opgehaald en in een pandas dataframe gezet.
    De URL moet er zo uitzien: "https://odata4.cbs.nl/CBS/83765NED"
    De code van de tabel die je zoekt vindt je via Statline.
    Ga naar de data in Statline op de website van het CBS en kijk naar de URL om de code te vinden.
    """
    
    data = pd.DataFrame()
    while target_url:
        r = requests.get(target_url).json()
        data = data.append(pd.DataFrame(r['value']))
        
        if '@odata.nextLink' in r:
            target_url = r['@odata.nextLink']
        else:
            target_url = None
            
    return data

De functie gebruikt een API genaamd OData om data van het CBS op te halen.
De data wordt in stukken opgehaald en in een pandas dataframe gezet.
De URL moet er zo uitzien: "https://odata4.cbs.nl/CBS/83765NED"
De code van de tabel die je zoekt vindt je via Statline.
Ga naar de data in Statline op de website van het CBS en kijk naar de URL om de code te vinden.
Deze API is hierarchisch. 

In [5]:
def get_observations(table_url, url_filter = ""):
    
    if url_filter == "":
        target_url = table_url + "/Observations"
    elif "?$filter=" in url_filter:
        target_url = table_url + "/Observations" + url_filter
    else:
        print("WAARSCHUWING! FILTER NIET GOED GEFORMATTEERD. VERGELIJK MET VOORBEELD OF GA NAAR ")
        print("\n https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/filters-odata-v4")
        #return None
        pass
    
    data = get_odata(target_url)
    print(data.head)
    
    return(data)

url_voorbeeld = "https://odata4.cbs.nl/CBS/83765NED"

# Wat is de structuur van de data?

In [6]:
data_structuur = get_odata(url_voorbeeld)
print(data_structuur)
data_Mcodes = get_odata(url_voorbeeld+"/MeasureCodes")
print(data_Mcodes.columns)

Unnamed: 0,kind,name,url
0,EntitySet,MeasureGroups,MeasureGroups
1,EntitySet,MeasureCodes,MeasureCodes
2,EntitySet,Dimensions,Dimensions
3,EntitySet,WijkenEnBuurtenGroups,WijkenEnBuurtenGroups
4,EntitySet,WijkenEnBuurtenCodes,WijkenEnBuurtenCodes
5,EntitySet,Observations,Observations
6,Singleton,Properties,Properties


In [None]:
data_Mcodes

In [39]:
data_Mcodes['Title'].values

array(['Aantal inwoners', 'Mannen', 'Vrouwen', '0 tot 15 jaar',
       '15 tot 25 jaar', '25 tot 45 jaar', '45 tot 65 jaar',
       '65 jaar of ouder', 'Ongehuwd', 'Gehuwd', 'Gescheiden',
       'Verweduwd', 'Westers totaal', 'Niet-westers totaal', 'Marokko',
       'Nederlandse Antillen en Aruba', 'Suriname', 'Turkije',
       'Overig niet-westers', 'Geboorte totaal', 'Geboorte relatief',
       'Sterfte totaal', 'Sterfte relatief', 'Huishoudens totaal',
       'Eenpersoonshuishoudens', 'Huishoudens zonder kinderen',
       'Huishoudens met kinderen', 'Gemiddelde huishoudensgrootte',
       'Bevolkingsdichtheid', 'Woningvoorraad', 'Gemiddelde woningwaarde',
       'Percentage eengezinswoning', 'Percentage meergezinswoning',
       'Percentage bewoond', 'Percentage onbewoond', 'Koopwoningen',
       'Huurwoningen totaal', 'In bezit woningcorporatie',
       'In bezit overige verhuurders', 'Eigendom onbekend',
       'Bouwjaar voor 2000', 'Bouwjaar vanaf 2000',
       'Gemiddeld elektri

In [40]:
#data_Mcodes.head(10)

In [20]:
# het voorbeeld:
#table_url = "https://odata4.cbs.nl/CBS/83765NED"

#target_url = table_url + "/Observations"
#data = get_odata(target_url)
#print(data.head())

   Id  Measure       Value ValueAttribute WijkenEnBuurten
0   0  T001036  17081507.0           None            NL00
1   1     3000   8475102.0           None            NL00
2   2     4000   8606405.0           None            NL00
3   3    10680   2781768.0           None            NL00
4   4    53050   2101648.0           None            NL00


In [3]:
#tabel 2019
#lastyear_url = "https://odata4.cbs.nl/CBS/84583NED"

Unnamed: 0,name,url
0,TableInfos,https://opendata.cbs.nl/oDataAPI/OData/84583NE...
1,UntypedDataSet,https://opendata.cbs.nl/oDataAPI/OData/84583NE...
2,TypedDataSet,https://opendata.cbs.nl/oDataAPI/OData/84583NE...
3,DataProperties,https://opendata.cbs.nl/oDataAPI/OData/84583NE...
4,CategoryGroups,https://opendata.cbs.nl/oDataAPI/OData/84583NE...
5,WijkenEnBuurten,https://opendata.cbs.nl/oDataAPI/OData/84583NE...


In [34]:
table_test = get_observations(url_voorbeeld, url_filter="?$filter=WijkenEnBuurten eq 'GM0363'")

Index(['Id', 'Measure', 'Value', 'ValueAttribute', 'WijkenEnBuurten'], dtype='object')

In [35]:
print(table_test.columns)
print(table_test.head(30))
# Kolom ValueAttribute heeft geen waarden

Index(['Id', 'Measure', 'Value', 'ValueAttribute', 'WijkenEnBuurten'], dtype='object')
       Id    Measure     Value ValueAttribute WijkenEnBuurten
0   88579    CRI3000       9.0           None          GM0363
1   88578    CRI2000       6.0           None          GM0363
2   88577    CRI1100       6.0           None          GM0363
3   88576     ST0003    6004.0           None          GM0363
4   88575     ST0001       1.0           None          GM0363
5   88573    A047040    5416.0           None          GM0363
6   88572    A047044   16533.0           None          GM0363
7   88571  T001455_2   21949.0           None          GM0363
8   88570    D000263      28.5           None          GM0363
9   88569    D000045       0.5           None          GM0363
10  88568    D000029       0.4           None          GM0363
11  88567    D000025       0.5           None          GM0363
12  88566    D000028       0.5           None          GM0363
13  88565    A018944   18750.0           None

## Filteren van query
Het filteren van de data maakt het downloaden sneller.
Het filteren van 'Observations' data kan door code van dit format achter de url te plakken:

**?$filter=WijkenEnBuurten eq 'GM0363' and Measure eq 'T001036'**

De code uit de kolom WijkenEnBuurten kun je vinden met 

**get_odata(table_url + "/WijkenEnBuurtenCodes")**

De 'Title' kolom van deze tabel bevat de namen van wijken, zodat je kan zoeken met str.find, <>.str.contains of Regex.
Zoals wel vaken met tektskolommen moet je dan vertrouwen op de volledigheid en consistentie.
Achteraf controleren of je alle wijken hebt is dus wel aangeraden.
De kolom WijkenenBuurten bevat zowel landen, gemeenten, wijken als buurten.
Aan het voorvoegsel van twee letters kun je zien met welke soort regio je te maken hebt.

Zie https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/filters-odata-v4 voor meer uitleg.

In [11]:
# Deze tabel bevat alle gemeente, maar GEEN info over wijken en buurten
data_gemeenten = get_odata(url_voorbeeld+"/WijkenEnBuurtenGroups")
print(data_gemeenten.size)
print(data_gemeenten.columns)
print(data_gemeenten.head(10))
# ParentId geeft voor wijken de buurt aan, voor wijken de plaatsnaam, voorplaatsnamen de gemeente etc.

1960
Index(['Description', 'Id', 'Index', 'ParentId', 'Title'], dtype='object')
  Description      Id  Index ParentId                           Title
0        None    WBGM      0     None  Wijken en buurten per gemeente
1        None  GM1680      1     WBGM                     Aa en Hunze
2        None  GM0738      2     WBGM                         Aalburg
3        None  GM0358      3     WBGM                        Aalsmeer
4        None  GM0197      4     WBGM                          Aalten
5        None  GM0059      5     WBGM                   Achtkarspelen
6        None  GM0482      6     WBGM                    Alblasserdam
7        None  GM0613      7     WBGM                   Albrandswaard
8        None  GM0361      8     WBGM                         Alkmaar
9        None  GM0141      9     WBGM                          Almelo


In [20]:
filter_gemeente = data_gemeenten['Title'] == 'Oss'
print(data_gemeenten[filter_gemeente])
selectie_gem = data_gemeenten[filter_gemeente]['Id'].values[0]
selectie_gem

    Description      Id  Index ParentId Title
254        None  GM0828    254     WBGM   Oss


'GM0828'

In [21]:
# Deze tabel bevat codes van wijken en buurten en toont bij welke gemeente ze horen. De gemeenten staan er ook in.
data_geocodes = get_odata(url_voorbeeld+"/WijkenEnBuurtenCodes")
print(data_geocodes.size)
print(data_geocodes.columns)
print(data_geocodes.head(10))
# Ik denk dat DimensionGroupId te maken heeft met hierarchische indeling maar niet hetzelfde is als parentId.
# DetailRegionCode is hetzelfde als Identifier

100002
Index(['Description', 'DetailRegionCode', 'DimensionGroupId', 'Identifier',
       'Index', 'Title'],
      dtype='object')
  Description DetailRegionCode DimensionGroupId  Identifier  Index  \
0                         None               NL        NL00      1   
1                       GM1680               GM      GM1680      2   
2                     WK168000           GM1680    WK168000      3   
3                   BU16800000           GM1680  BU16800000      4   
4                   BU16800009           GM1680  BU16800009      5   
5                     WK168001           GM1680    WK168001      6   
6                   BU16800100           GM1680  BU16800100      7   
7                   BU16800109           GM1680  BU16800109      8   
8                     WK168002           GM1680    WK168002      9   
9                   BU16800200           GM1680  BU16800200     10   

                     Title  
0                Nederland  
1              Aa en Hunze  
2          

In [28]:
# Gebruik van Regular Expressions sterk aanbevolen om verschil met hele woorden te zien,
# Maakt implementatie wel iets ingewikkelder.
#filter_groepen_BU = data_gemeenten['Id'].str.contains("GM")
filter_geocodes_BU = data_geocodes['Identifier'].str.contains("BU")
filter_geocodes_WK = data_geocodes['Identifier'].str.contains("WK")

filter_BUWKopgem = data_geocodes['DimensionGroupId'] == selectie_gem

In [41]:
#selectie_BU = data_geocodes[filter_geocodes_BU & filter_BUWKopgem]
#selectie_WK = data_geocodes[filter_geocodes_WK & filter_BUWKopgem]

# To do: 
- Bedenk efficiente methode om tabellen samen te voegen en maak er een functie van.