In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
import pandas as pd

from pygenesis.destatis import get_cubefile
from pygenesis.cube import parse_cube, rename_axes

## Download a cube file

The `get_cubefile()` function will download the cube as csv cubefile and return the data as string.

In [3]:
data = get_cubefile({"name": "12111B1012",  "values": "true", "metadata": "true", "additionals": "false"})



In [6]:
type(data), len(data)

(str, 1617)

In [7]:
data.splitlines()[:20]

['* Der Benutzer DEI6I4B3UW der Benutzergruppe DE0142 hat am 08.06.2022 um 20:38:21 diesen Export angestossen.',
 'K;DQ;FACH-SCHL;GHH-ART;GHM-WERTE-JN;GENESIS-VBD;REGIOSTAT;EU-VBD;"mit Werten"',
 'D;12111B1012;;N;N;N;N',
 'K;DQ-ERH;FACH-SCHL',
 'D;12111',
 'K;DQA;NAME;RHF-BSR;RHF-ACHSE',
 'D;DINSG;1;1',
 'D;ALT041;2;2',
 'D;FAMST2;3;3',
 'K;DQZ;NAME;ZI-RHF-BSR;ZI-RHF-ACHSE',
 'D;STAG;4;4',
 'K;DQI;NAME;ME-NAME;DST;TYP;NKM-STELLEN;GHH-ART;GHM-WERTE-JN',
 'D;BEVZ01;Anzahl;GANZ;FALL;0;;N',
 'K;QEI;FACH-SCHL;FACH-SCHL;FACH-SCHL;ZI-WERT;WERT;QUALITAET;GESPERRT;WERT-VERFAELSCHT',
 'D;DG;ALT000B18;GESCH-L;09.05.2011;19;e;;0',
 'D;DG;ALT000B18;LEDIG;09.05.2011;13131811;e;;0',
 'D;DG;ALT000B18;OA;09.05.2011;2143;e;;0',
 'D;DG;ALT000B18;VERH-L;09.05.2011;367;e;;0',
 'D;DG;ALT000B18;VERW-L;09.05.2011;12;e;;0',
 'D;DG;ALT018B30;GESCH-L;09.05.2011;93942;e;;0']

## Parsing the cube file

The `parse_cube(data)` function can parse the raw string and return a dictionary with the different headers and the data section. Data is stored as pandas `DataFrame`.

In [8]:
cube = parse_cube(data)

In [9]:
cube

{'DQ':     FACH-SCHL GHH-ART GHM-WERTE-JN GENESIS-VBD REGIOSTAT EU-VBD
 0  12111B1012                    N           N         N      N,
 'DQ-ERH':   FACH-SCHL
 0     12111,
 'DQA':      NAME RHF-BSR RHF-ACHSE
 0   DINSG       1         1
 1  ALT041       2         2
 2  FAMST2       3         3,
 'DQZ':    NAME ZI-RHF-BSR ZI-RHF-ACHSE
 0  STAG          4            4,
 'DQI':      NAME ME-NAME   DST   TYP NKM-STELLEN GHH-ART GHM-WERTE-JN
 0  BEVZ01  Anzahl  GANZ  FALL           0                    N,
 'QEI':    FACH-SCHL-1 FACH-SCHL-2 FACH-SCHL-3     ZI-WERT      WERT QUALITAET  \
 0           DG   ALT000B18     GESCH-L  09.05.2011        19         e   
 1           DG   ALT000B18       LEDIG  09.05.2011  13131811         e   
 2           DG   ALT000B18          OA  09.05.2011      2143         e   
 3           DG   ALT000B18      VERH-L  09.05.2011       367         e   
 4           DG   ALT000B18      VERW-L  09.05.2011        12         e   
 5           DG   ALT018B30     GES

In [7]:
cube["QEI"]

Unnamed: 0,FACH-SCHL-1,FACH-SCHL-2,FACH-SCHL-3,ZI-WERT,WERT,QUALITAET,GESPERRT,WERT-VERFAELSCHT
0,DG,ALT000B18,GESCH-L,09.05.2011,19,e,,0
1,DG,ALT000B18,LEDIG,09.05.2011,13131811,e,,0
2,DG,ALT000B18,OA,09.05.2011,2143,e,,0
3,DG,ALT000B18,VERH-L,09.05.2011,367,e,,0
4,DG,ALT000B18,VERW-L,09.05.2011,12,e,,0
5,DG,ALT018B30,GESCH-L,09.05.2011,93942,e,,0
6,DG,ALT018B30,LEDIG,09.05.2011,9945132,e,,0
7,DG,ALT018B30,OA,09.05.2011,5472,e,,0
8,DG,ALT018B30,VERH-L,09.05.2011,1345596,e,,0
9,DG,ALT018B30,VERW-L,09.05.2011,2849,e,,0


In [9]:
cube["DQA"]

Unnamed: 0,NAME,RHF-BSR,RHF-ACHSE
0,DINSG,1,1
1,ALT041,2,2
2,FAMST2,3,3


## Renaming Axes

The `rename_axes(cube)` function can rename the columns of a data frame according to the metadata delivered with the cube file. `cube` has to be a dictionary as is returned by `parse_cube()`.

In [10]:
rename_axes(cube)

{'DQ':     FACH-SCHL GHH-ART GHM-WERTE-JN GENESIS-VBD REGIOSTAT EU-VBD
 0  12111B1012                    N           N         N      N,
 'DQ-ERH':   FACH-SCHL
 0     12111,
 'DQA':      NAME RHF-BSR RHF-ACHSE
 0   DINSG       1         1
 1  ALT041       2         2
 2  FAMST2       3         3,
 'DQZ':    NAME ZI-RHF-BSR ZI-RHF-ACHSE
 0  STAG          4            4,
 'DQI':      NAME ME-NAME   DST   TYP NKM-STELLEN GHH-ART GHM-WERTE-JN
 0  BEVZ01  Anzahl  GANZ  FALL           0                    N,
 'QEI':    DINSG     ALT041   FAMST2        STAG    BEVZ01 QUALITAET GESPERRT  \
 0     DG  ALT000B18  GESCH-L  09.05.2011        19         e            
 1     DG  ALT000B18    LEDIG  09.05.2011  13131811         e            
 2     DG  ALT000B18       OA  09.05.2011      2143         e            
 3     DG  ALT000B18   VERH-L  09.05.2011       367         e            
 4     DG  ALT000B18   VERW-L  09.05.2011        12         e            
 5     DG  ALT018B30  GESCH-L  09.05.2011