# Welcome to the Datenguide Python Package

Within this notebook the functionality of the package will be explained and demonstrated with examples.

### Topics

- Import
- get region IDs
- get statstic IDs
- get the data
    - for single regions
    - for multiple regions

## 1. Import

**Import the helper functions 'get_all_regions' and 'get_statistics'**

**Import the module Query for the main functionality**

In [3]:
# ONLY FOR TESTING LOCAL PACKAGE
# %cd ..

from datenguidepy.query_helper import get_all_regions, get_statistics
from datenguidepy import Query

C:\Users\Alexandra\Documents\GitHub\datenguide-python


**Import pandas and matplotlib for the usual display of data as tables and graphs**

In [4]:
import pandas as pd
import matplotlib
%matplotlib inline

pd.set_option('display.max_colwidth', 150)

## 2. Get Region IDs
### How to get the ID of the region I want to query

Regionalstatistik - the database behind Datenguide - has data for differently granular levels of Germany. 

nuts:

        1 – Bundesländer
        2 – Regierungsbezirke / statistische Regionen
        3 – Kreise / kreisfreie Städte.
           
lau:

        1 - Verwaltungsgemeinschaften
        2 - Gemeinden.

the function `get_all_regions()` returns all IDs from all levels.

In [7]:
# get_all_regions returns all ids
get_all_regions()

Unnamed: 0_level_0,name,level,parent
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10,Saarland,nuts1,DG
11,Berlin,nuts1,DG
12,Brandenburg,nuts1,DG
13,Mecklenburg-Vorpommern,nuts1,DG
14,Sachsen,nuts1,DG
...,...,...,...
08311000,Freiburg im Breisgau,lau,08311
08421000,Ulm,lau,08421
09162000,München,lau,09162
09163000,Rosenheim,lau,09163


To get a specific ID, use the common pandas function `query()`


In [8]:
# e.g. get all "Bundesländer
get_all_regions().query("level == 'nuts1'")

Unnamed: 0_level_0,name,level,parent
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
10,Saarland,nuts1,DG
11,Berlin,nuts1,DG
12,Brandenburg,nuts1,DG
13,Mecklenburg-Vorpommern,nuts1,DG
14,Sachsen,nuts1,DG
15,Sachsen-Anhalt,nuts1,DG
16,Thüringen,nuts1,DG
1,Schleswig-Holstein,nuts1,DG
2,Hamburg,nuts1,DG
3,Niedersachsen,nuts1,DG


In [9]:
# e.g. get the ID of Havelland
get_all_regions().query("name =='Havelland'")

Unnamed: 0_level_0,name,level,parent
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
12063,Havelland,nuts3,12


## 3. Get statistic IDs
### How to find statistics

In [11]:
# get all statistics
get_statistics()

Unnamed: 0,statistics,short_description,long_description
0,RLE001,Regelleistungsempfänger,Regelleistungsempfänger\n \n \nErläuterung für folgende Statistik(en):\n22221 Statistik der Empfänger von Asylbewerberregelleis-\n tungen\n \...
1,BEV002,Gestorbene,Gestorbene\n \n \nErläuterung für folgende Statistik(en):\n12613 Statistik der Sterbefälle\n \nBegriffsinhalt:\nSterbefälle\n \nAls Sterbefälle we...
2,FLCX05,Bodenfläche,Bodenfläche\n \n \nErläuterung für folgende Statistik(en):\n33111 Flächenerhebung nach Art der tatsächlichen Nutzung\n \nBegriffsinhalt:\nBodenflä...
3,FLC005,Bodenfläche,Bodenfläche\n\n\nErläuterung für folgende Statistik(en):\n33111 Flächenerhebung nach Art der tatsächlichen Nutzung\n \nBegriffsinhalt:\nBodenfläch...
4,KIND35,Kinder,Missing
...,...,...,...
487,UMS011,Gesamtumsatz des Vorjahres,Gesamtumsatz des Vorjahres\n \n \nErläuterung für folgende Statistik(en):\n44231 Ergänzungserhebung im Bauhauptgewerbe\n \nBegriffsinhalt:\nGesamt...
488,UMS041,Baugewerblicher Umsatz des Vorjahres,Baugewerblicher Umsatz des Vorjahres\n \n \nErläuterung für folgende Statistik(en):\n44231 Ergänzungserhebung im Bauhauptgewerbe\n \nBegriffsinhal...
489,FLC006,Gebietsfläche,Erläuterung für folgende Statistik(en):\nFlächenerhebung nach Art der tatsächlichen Nutzung\n \nBegriffsinhalt:\nDie Angaben über die Gebietsfläch...
490,GEM001,Zahl der Gemeinden,Zahl der Gemeinden\n \n \nErläuterung für folgende Statistik(en):\n11111 Feststellung des Gebietsstandes\n \nBegriffsinhalt:\nZahl der Gemeinden\n...


If you already know the statsitic ID you are looking for - perfect. 

Otherwise you can use the pandas `query()` function so search e.g. for specific terms.

In [12]:
# find out the name of the desired statistic about birth
get_statistics().query('long_description.str.contains("Statistik der Geburten")', engine='python')

Unnamed: 0,statistics,short_description,long_description
58,AI0209,Lebendgeborene je 10.000 Einwohner,"wiki\n==Lebendgeborene je 10.000 Einwohner==\n===Aussage===\nDer Indikator gibt Auskunft darüber, wie viele Neugeborene\npro Jahr auf 10.000 Einwo..."
60,AI0211,Geburten-/Gestorbenenüberschuss je 10.000 Einw.,wiki\n==Geburtenüberschuss (+) bzw. Gestorbenenüberschuss (-) je\n10.000 Einwohner==\n===Aussage===\nDer Geburtensaldo bildet die natürliche Bevöl...
148,AI0219,Durchschnittsalter der Mutter bei der Geburt des 1. Kindes,wiki\n==Durchschnittsalter der Mutter bei der Geburt des 1.\nlebendgeborenen Kindes==\n\n===Aussage=== \nDer Indikator gibt Auskunft über das durc...
316,BEV001,Lebend Geborene,Lebend Geborene\n \n \nErläuterung für folgende Statistik(en):\n12612 Statistik der Geburten\n \nBegriffsinhalt:\nLebendgeborene\n \nLebendgeboren...
317,BEVDG1,Durchschnittsalter der Mutter bei der Geburt,Durchschnittsalter der Mutter bei der Geburt\n\n\nErläuterung für folgende Statistik(en):\n12612 Statistik der Geburten\n \nBegriffsinhalt:\nDurch...


## 4. get the data

The top level element is the Query. For each query fields can be added (usually statistics / measures) that you want to get information on.

A Query can either be done on a single region, or on multiple regions (e.g. all Bundesländer).

### Single Region

If I want information - e.g. all births for the past years in Berlin:

In [13]:
# create a query for the region 11
query = Query.region('11')

In [14]:
# add a field (the statstic) to the query
field_births = query.add_field('BEV001')

In [15]:
# get the data of this query
query.results().head()

Unnamed: 0,id,name,year,BEV001,BEV001_source_title_de,BEV001_source_valid_from,BEV001_source_periodicity,BEV001_source_name,BEV001_source_url
0,11,Berlin,1995,28648,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
1,11,Berlin,1996,29905,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
2,11,Berlin,1997,30369,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
3,11,Berlin,1998,29612,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
4,11,Berlin,1999,29856,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,


To get the short description in the result data frame instead of the cryptic ID (e.g. "Lebend Geborene" instead of BEV001) set the argument "verbose_statsitics"=True in the resutls:

In [29]:
query.results(verbose_statistics =True).head()

Unnamed: 0,id,name,year,NAT,Lebend Geborene (BEV001),BEV001_source_title_de,BEV001_source_valid_from,BEV001_source_periodicity,BEV001_source_name,BEV001_source_url
0,11,Berlin,1995,,13867,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
1,11,Berlin,1995,NATA,2814,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
2,11,Berlin,1995,NATD,11053,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
3,11,Berlin,1996,,14570,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
4,11,Berlin,1996,NATA,2965,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,


Now we only get the information about the count of births per year and the source of the data (year, value and source are default fields).
But there is more information in the statistic that we can get information on.

Let's look at the meta data of the statstic:

In [16]:
# get information on the field
field_births.get_info()

[1mkind:[0m
OBJECT

[1mdescription:[0m
Lebend Geborene

[1marguments:[0m
[4myear[0m: LIST of type SCALAR(Int)

[4mstatistics[0m: LIST of type ENUM(BEV001Statistics)
enum values:
R12612: Statistik der Geburten

[4mALTMT1[0m: LIST of type ENUM(ALTMT1)
enum values:
ALT000B20: unter 20 Jahre
ALT020B25: 20 bis unter 25 Jahre
ALT025B30: 25 bis unter 30 Jahre
ALT030B35: 30 bis unter 35 Jahre
ALT035B40: 35 bis unter 40 Jahre
ALT040UM: 40 Jahre und mehr
GESAMT: Gesamt

[4mGES[0m: LIST of type ENUM(GES)
enum values:
GESM: männlich
GESW: weiblich
GESAMT: Gesamt

[4mNATEL1[0m: LIST of type ENUM(NATEL1)
enum values:
NATAAO: Mutter und Vater Ausländer,  ohne Angabe der Nationalität
NATDDDO: Mutter und Vater Deutsche, Mutter Deutsche und Vater o.Angabe der Nat.
NATEETA: ein Elternteil Ausländer
GESAMT: Gesamt

[4mNAT[0m: LIST of type ENUM(NAT)
enum values:
NATA: Ausländer(innen)
NATD: Deutsche
GESAMT: Gesamt

[4mLEGIT2[0m: LIST of type ENUM(LEGIT2)
enum values:
LEGIT01A: Eltern mi

The arguments tell us what we can use for filtering (e.g. only data on baby girls (female)).

The fields tell us what more information can be displayed in our results. 

In [17]:
# add filter
field_births.add_args({'GES': 'GESW'})

In [18]:
# now only about half the amount of births are returned as only the results for female babies are queried
query.results().head()

Unnamed: 0,id,name,year,BEV001,BEV001_source_title_de,BEV001_source_valid_from,BEV001_source_periodicity,BEV001_source_name,BEV001_source_url
0,11,Berlin,1995,13867,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
1,11,Berlin,1996,14570,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
2,11,Berlin,1997,14672,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
3,11,Berlin,1998,14429,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
4,11,Berlin,1999,14644,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,


In [19]:
# add the field NAT (nationality) to the results
field_births.add_field('NAT')

<datenguidepy.query_builder.Field at 0x2079191a488>

**CAREFUL**: The information for the fields (e.g. nationality) is by default returned as a total amount. Therefore - if no argument "NAT" is specified in addition to the field, then only "None" will be displayed.

In order to get information on all possible values, the argument "ALL" needs to be added:
(the rows with value "None" are the aggregated values of all options)

In [20]:
field_births.add_args({'NAT': 'ALL'})

In [21]:
query.results().head()

Unnamed: 0,id,name,year,NAT,BEV001,BEV001_source_title_de,BEV001_source_valid_from,BEV001_source_periodicity,BEV001_source_name,BEV001_source_url
0,11,Berlin,1995,,13867,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
1,11,Berlin,1995,NATA,2814,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
2,11,Berlin,1995,NATD,11053,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
3,11,Berlin,1996,,14570,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
4,11,Berlin,1996,NATA,2965,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,


To display the short description of the enum values instead of the cryptic IDs (e.g. Ausländer(innen) instead of NATA), set the argument "verbose_enums = True" on the results:

In [27]:
query.results(verbose_enums=True).head()

Unnamed: 0,id,name,year,NAT,BEV001,BEV001_source_title_de,BEV001_source_valid_from,BEV001_source_periodicity,BEV001_source_name,BEV001_source_url
0,11,Berlin,1995,Gesamt,13867,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
1,11,Berlin,1995,Ausländer(innen),2814,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
2,11,Berlin,1995,Deutsche,11053,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
3,11,Berlin,1996,Gesamt,14570,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
4,11,Berlin,1996,Ausländer(innen),2965,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,


## Multiple Regions

To display data for multiple single regions, a list with region IDs can be used:

In [22]:
query_multiple = Query.region(['01', '02'])
query_multiple.add_field('BEV001')
query_multiple.results().sort_values('year').head()

Unnamed: 0,id,name,year,BEV001,BEV001_source_title_de,BEV001_source_valid_from,BEV001_source_periodicity,BEV001_source_name,BEV001_source_url
0,1,Schleswig-Holstein,1995,27430,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,2,Hamburg,1995,15872,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
1,1,Schleswig-Holstein,1996,28766,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
1,2,Hamburg,1996,16594,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
2,1,Schleswig-Holstein,1997,29080,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,


To display data for e.g. all 'Bundesländer' or for all regions within a Bundesland, you can use the function `all_regions()`:

- specify nuts level
- specify lau level
- specify parent ID (Careful: not only the regions for the next lower level will be returned, but all levels - e.g. if you specify a parent on nuts level 1 then the "children" on nuts 2 but also the "grandchildren" on nuts 3, lau 1 and lau 2 will be returned)

In [23]:
# get data for all Bundesländer
query_all = Query.all_regions(nuts=1)
query_all.add_field('BEV001')
query_all.results().sort_values('year').head(12)

Unnamed: 0,id,name,year,BEV001,BEV001_source_title_de,BEV001_source_valid_from,BEV001_source_periodicity,BEV001_source_name,BEV001_source_url
0,10,Saarland,1995,9727,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,16,Thüringen,1995,13788,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,14,Sachsen,1995,24004,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,1,Schleswig-Holstein,1995,27430,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,2,Hamburg,1995,15872,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,13,Mecklenburg-Vorpommern,1995,9878,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,3,Niedersachsen,1995,80994,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,4,Bremen,1995,6429,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,12,Brandenburg,1995,13494,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,5,Nordrhein-Westfalen,1995,182393,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,


In [24]:
# get data for all regions within Brandenburg
query_all = Query.all_regions(parent='12')
query_all.add_field('BEV001')
query_all.results().head()

Unnamed: 0,id,name,year,BEV001,BEV001_source_title_de,BEV001_source_valid_from,BEV001_source_periodicity,BEV001_source_name,BEV001_source_url
0,120,Brandenburg,1995,13494,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
1,120,Brandenburg,1996,15140,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
2,120,Brandenburg,1997,16370,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
3,120,Brandenburg,1998,17146,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
4,120,Brandenburg,1999,17928,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,


In [25]:
# get data for all nuts 3 regions within Brandenburg
query_all = Query.all_regions(parent='12', nuts=3)
query_all.add_field('BEV001')
query_all.results().sort_values('year').head()

Unnamed: 0,id,name,year,BEV001,BEV001_source_title_de,BEV001_source_valid_from,BEV001_source_periodicity,BEV001_source_name,BEV001_source_url
0,12051,"Brandenburg an der Havel, Kreisfreie Stadt",1995,435,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,12061,"Dahme-Spreewald, Landkreis",1995,694,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,12062,"Elbe-Elster, Landkreis",1995,677,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,12054,"Potsdam, Kreisfreie Stadt",1995,699,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
0,12063,"Havelland, Landkreis",1995,770,Statistik der Geburten,1995-01-01T00:00:00,JAEHRLICH,12612,
