# Python functies voor Odata3
Functies voor ophalen, inspecteren en samenvoegen van data van CBS
Verschillen met indeling data CBS op OData4:

file:///C:/Users/DKuipers/AppData/Local/Temp/odata4-overstappen-odata3.pdf

handleiding voor data CBS op Odata3:
file:///C:/Users/DKuipers/AppData/Local/Temp/cbs-open-data-services.pdf

Het voornaamste verschil is dat Odata3 al op de klassieke (tidy) manier observaties opslaat. Verder verschillende de namen van de tabellen in één set, en de namen van de metingen. Er zijn verschillen in welke data wordt gemeten, Odata 4 heeft bijvoorbeeld niet de kolom "meest voorkomende postcode".

In [1]:
import pandas as pd
import requests

def get_odata(target_url):
    
    """"
    De functie gebruikt een API genaamd OData om data van het CBS op te halen.
    De data wordt in stukken opgehaald en in een pandas dataframe gezet.
    De URL moet er zo uitzien: "https://odata4.cbs.nl/CBS/83765NED"
    De code van de tabel die je zoekt vindt je via Statline.
    Ga naar de data in Statline op de website van het CBS en kijk naar de URL om de code te vinden.
    """
    
    data = pd.DataFrame()
    while target_url:
        r = requests.get(target_url).json()
        data = data.append(pd.DataFrame(r['value']))
        
        if '@odata.nextLink' in r:
            target_url = r['@odata.nextLink']
        else:
            target_url = None
            
    return data

In [3]:
test = get_odata(lastyear_url)
test['url'].values

array(['https://opendata.cbs.nl/oDataAPI/OData/84583NED/TableInfos',
       'https://opendata.cbs.nl/oDataAPI/OData/84583NED/UntypedDataSet',
       'https://opendata.cbs.nl/oDataAPI/OData/84583NED/TypedDataSet',
       'https://opendata.cbs.nl/oDataAPI/OData/84583NED/DataProperties',
       'https://opendata.cbs.nl/oDataAPI/OData/84583NED/CategoryGroups',
       'https://opendata.cbs.nl/oDataAPI/OData/84583NED/WijkenEnBuurten'],
      dtype=object)

UntypedDataSet bevat ook symbolen zoals %.
TypedDataSet bevat de data in een vorm die bedoeld is om met de computer te verwerken. 

In [4]:
test_info = get_odata(lastyear_url+"/TableInfos")

In [5]:
print(test_info.columns)
print(test_info[['ExplanatoryText','Frequency','ShortDescription','ShortTitle','Summary','Title']])
print(str(test_info['Description'].values[0]))

Index(['Catalog', 'DefaultPresentation', 'DefaultSelection', 'Description',
       'ExplanatoryText', 'Frequency', 'GraphTypes', 'ID', 'Identifier',
       'Language', 'MetaDataModified', 'Modified', 'OutputStatus', 'Period',
       'ReasonDelivery', 'SearchPriority', 'ShortDescription', 'ShortTitle',
       'Source', 'Summary', 'Title'],
      dtype='object')
  ExplanatoryText     Frequency  \
0                  Onregelmatig   

                                    ShortDescription  \
0  \nOverzicht van statistische gegevens van geme...   

                           ShortTitle  \
0  Kerncijfers wijken en buurten 2019   

                                             Summary  \
0  Kerncijfers over demografische en sociaal-econ...   

                                Title  
0  Kerncijfers wijken en buurten 2019  
INHOUDSOPGAVE

1. Toelichting
2. Definities en verklaring van symbolen
3. Koppelingen naar relevante tabellen en artikelen
4. Bronnen en methoden
5. Meer informatie 




In [8]:
test_wijken=get_odata(lastyear_url+"/WijkenEnBuurten")
test_wijken.head()

Unnamed: 0,Description,DetailRegionCode,Key,Municipality,Title
0,,,NL00,,Nederland
1,,GM1680,GM1680,GM1680,Aa en Hunze
2,,WK168000,WK168000,GM1680,Wijk 00 Annen
3,,BU16800000,BU16800000,GM1680,Annen
4,,BU16800009,BU16800009,GM1680,Verspreide huizen Annen


In [7]:
test_props = get_odata(lastyear_url+"/DataProperties")
print(test_props.columns)
print(test_props['Title'].values)

NameError: name 'test_data' is not defined

In [9]:
test_props.head(20)


Unnamed: 0,Datatype,Decimals,Default,Description,ID,Key,MapYear,ParentID,Position,PresentationType,Title,Type,Unit,odata.type
0,,,,,0,WijkenEnBuurten,2019.0,,0.0,,Wijken en buurten,GeoDetail,,Cbs.OData.GeoDetail
1,,,,De gemeenten in Nederland zijn onderverdeeld i...,1,,,,,,Regioaanduiding,TopicGroup,,Cbs.OData.TopicGroup
2,String,0.0,Impossible,De naam van de bestuurlijke gemeente. Deze naa...,2,Gemeentenaam_1,,1.0,1.0,,Gemeentenaam,Topic,naam,Cbs.OData.Topic
3,String,0.0,Impossible,"De gekozen regioaanduiding betreft: Gemeente, ...",3,SoortRegio_2,,1.0,2.0,,Soort regio,Topic,omschrijving,Cbs.OData.Topic
4,String,0.0,Impossible,"Gemeentecode heeft 4 posities, voorafgegaan do...",4,Codering_3,,1.0,3.0,,Codering,Topic,code,Cbs.OData.Topic
5,String,0.0,Impossible,Deze indicator geeft per wijk en buurt aan of ...,5,IndelingswijzigingWijkenEnBuurten_4,,1.0,4.0,,Indelingswijziging wijken en buurten,Topic,code,Cbs.OData.Topic
6,,,,De bevolking van Nederland op 1 januari.\r\n\r...,6,,,,,,Bevolking,TopicGroup,,Cbs.OData.TopicGroup
7,Long,0.0,Impossible,,7,AantalInwoners_5,,6.0,5.0,Absolute,Aantal inwoners,Topic,aantal,Cbs.OData.Topic
8,,,,,8,,,6.0,,,Geslacht,TopicGroup,,Cbs.OData.TopicGroup
9,Long,0.0,Impossible,,9,Mannen_6,,8.0,6.0,Absolute,Mannen,Topic,aantal,Cbs.OData.Topic


In [10]:
test_observations = get_odata(lastyear_url+"/TypedDataSet"+"?$top=10")

In [11]:
print(list(test_observations.columns))
print(test_observations["Codering_3"])
#print(test_observations["MeestVoorkomendePostcode_103"]) # Alleen voor buurten ingevuld.
#print(test_observations["SoortRegio_2"]) # Niet nodig, voorvoegsel codering bevat die informatie al.

['ALandbouwBosbouwEnVisserij_82', 'AantalInkomensontvangers_64', 'AantalInwoners_5', 'Actieven1575Jaar_69', 'AfstandTotGroteSupermarkt_96', 'AfstandTotHuisartsenpraktijk_95', 'AfstandTotKinderdagverblijf_97', 'AfstandTotSchool_98', 'Appartement_48', 'Appartement_56', 'BFNijverheidEnEnergie_83', 'BedrijfsvestigingenTotaal_81', 'Bevolkingsdichtheid_33', 'BouwjaarVanaf2000_46', 'BouwjaarVoor2000_45', 'Codering_3', 'Dekkingspercentage_104', 'Eenpersoonshuishoudens_29', 'EigenWoning_54', 'EigenWoning_62', 'EigendomOnbekend_44', 'GIHandelEnHoreca_84', 'GeboorteRelatief_25', 'GeboorteTotaal_24', 'Gehuwd_14', 'Gemeentenaam_1', 'GemiddeldAardgasverbruikTotaal_55', 'GemiddeldElektriciteitsverbruikTotaal_47', 'GemiddeldInkomenPerInkomensontvanger_65', 'GemiddeldInkomenPerInwoner_66', 'GemiddeldeHuishoudensgrootte_32', 'GemiddeldeWoningwaarde_35', 'Gescheiden_15', 'GeweldsEnSeksueleMisdrijven_80', 'HJVervoerInformatieEnCommunicatie_85', 'Hoekwoning_50', 'Hoekwoning_58', 'HuishOnderOfRondSociaalMin

In [58]:
def get_top_observations(table_url, url_filter = "", bottom=False):
    
    """Haal de tabel met metingen op. In tegenstelling tot Odata4 hoeft de tabel niet geformatteerd te worden.
    Odata3 beperkt echter hoeveel metingen je op kan halen. Kies uit de bovenste of onderste 9999 rijen.
    Als dat niet genoeg is moeten filters toegepast worden.
    Filteren om minder of specifiekere data op te vragen is mogelijk as volgt:
    url_filter = $filter=WijkenEnBuurten eq 'GM0363' and Measure eq 'T001036'
    Door de filteren op deze kolommen kun je een plaats (land, gemeente, wijk of buurt) kiezen.
    Of gebruik: $filter=Measure in ('M001607', 'M001636')
    Je hoeft niet beide kolommen te gebruiken voor het filter."""
    
    
    if bottom:
        side = "?$bottom=9999 &amp;"
    else:
        side = "?$top=9999 &amp;"
    
    if url_filter == "":
        target_url = table_url + "/TypedDataSet?" + side 
    elif "$filter=" in url_filter:
        target_url = table_url + "/TypedDataSet" + side + url_filter
    else:
        print("WAARSCHUWING! FILTER NIET GOED GEFORMATTEERD. VERGELIJK MET VOORBEELD OF GA NAAR ")
        print("\n https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/filters-odata-v4")
        #return None
        return(table_url + url_filter)
    
    print(target_url)
    data = get_odata(target_url)
    print(data.head)
    
    return(data)

lastyear_url = "https://opendata.cbs.nl/oDataAPI/OData/84583NED"

In [59]:
test_table = get_top_observations(lastyear_url, url_filter="$filter=contains(Codering_3,'GM')")
#test_table = get_odata(lastyear_url+"/TypedDataSet"+"?$top=9999"+"&amp;"+"$filter=contains(Codering_3,'GM')")
test_table

https://opendata.cbs.nl/oDataAPI/OData/84583NED/TypedDataSet?$top=9999 &amp;$filter=contains(Codering_3,'GM')
<bound method NDFrame.head of       ALandbouwBosbouwEnVisserij_82 AantalInkomensontvangers_64  \
0                           75980.0                        None   
1                             290.0                        None   
2                              20.0                        None   
3                              10.0                        None   
4                              10.0                        None   
5                              20.0                        None   
6                              15.0                        None   
7                               5.0                        None   
8                              10.0                        None   
9                               5.0                        None   
10                              NaN                        None   
11                              5.0                     

Unnamed: 0,ALandbouwBosbouwEnVisserij_82,AantalInkomensontvangers_64,AantalInwoners_5,Actieven1575Jaar_69,AfstandTotGroteSupermarkt_96,AfstandTotHuisartsenpraktijk_95,AfstandTotKinderdagverblijf_97,AfstandTotSchool_98,Appartement_48,Appartement_56,...,Woningvoorraad_34,k_0Tot15Jaar_8,k_15Tot25Jaar_9,k_20HuishoudensMetHoogsteInkomen_71,k_20PersonenMetHoogsteInkomen_68,k_25Tot45Jaar_10,k_40HuishoudensMetLaagsteInkomen_70,k_40PersonenMetLaagsteInkomen_67,k_45Tot65Jaar_11,k_65JaarOfOuder_12
0,75980.0,,17282163,,0.9,1.0,0.6,,,,...,7814912,2739819,2131944,,,4255450,,,4840946,3314004
1,290.0,,25386,,2.1,2.4,1.2,,,,...,11257,3462,2610,,,4347,,,8354,6613
2,20.0,,3595,,0.9,0.9,0.5,,,,...,1615,570,345,,,625,,,1150,900
3,10.0,,3450,,0.8,0.8,0.5,,,,...,1552,555,330,,,610,,,1085,860
4,10.0,,150,,2.1,2.6,1.7,,,,...,63,15,10,,,15,,,60,35
5,20.0,,1420,,0.9,3.8,1.3,,,,...,584,200,150,,,275,,,490,300
6,15.0,,1245,,0.6,3.8,1.2,,,,...,534,185,130,,,245,,,420,250
7,5.0,,175,,2.6,3.6,2.0,,,,...,50,10,15,,,25,,,70,45
8,10.0,,465,,2.7,2.2,2.2,,,,...,169,50,50,,,60,,,180,115
9,5.0,,335,,2.7,2.2,2.2,,,,...,145,35,35,,,45,,,120,90


## Filteren van query
Het filteren van de data maakt het downloaden sneller.
Het filteren van 'Observations' data kan door code van dit format achter de url te plakken:

**?$filter=WijkenEnBuurten eq 'GM0363' and Measure eq 'T001036'**

**$filter=Measure in ('M001607', 'M001636')**

De code uit de kolom WijkenEnBuurten kun je vinden met 

**get_odata(table_url + "/WijkenEnBuurtenCodes")**

De 'Title' kolom van deze tabel bevat de namen van wijken, zodat je kan zoeken met str.find, <>.str.contains of Regex.
Zoals wel vaken met tektskolommen moet je dan vertrouwen op de volledigheid en consistentie.
Achteraf controleren of je wel de juiste weijken hebt s dus wel aangeraden.
De kolom WijkenenBuurten bevat zowel landen, gemeenten, wijken als buurten.
Aan het voorvoegsel van twee letters kun je zien met welke soort regio je te maken hebt.

Zie https://www.cbs.nl/nl-nl/onze-diensten/open-data/open-data-v4/filters-odata-v4 voor meer uitleg.
Voor de volledige documentie, zie https://www.odata.org/getting-started/basic-tutorial/#topskip
of ga naar https://help.nintex.com/en-US/insight/OData/HE_CON_ODATAQueryCheatSheet.htm voor een beknopte cheatsheet

Een dataset uit ODATA3 (uit 2019) kan gebruikt worden om postcodes aan buurten te koppelen als andere geografische data niet gevonden kan worden.
Houd rekening met de limiet van 10000 rijen per verzoek.