In [1]:
import re

import pandas as pd

In [2]:
PATH = 'raw/Pflegestatistik_2013_Baden-Württemberg.xls'
data = []

In [3]:
AGS_RE = re.compile(r'(LKR|SKR)\s+(\d{3})')

def get_ags_for_name(name):
    match = AGS_RE.search(name)
    if match is None:
        print(name)
        return None
    ags = '08%s' % match.group(2)
    return ags


def get_column_values(df, mapping, prefix):
    for c in df.columns:
        ags = get_ags_for_name(c)
        if ags is None:
            continue

        for k, v in mapping.items():
            val = df[df['key'].str.contains(k, regex=False).fillna(False)].iloc[0][c]
            val = re.sub('(\d+),(\d{2})', '\\1.\\2', str(val))
            if val in ('–', '-'):
                val = 0.0
            yield ags, prefix, v, float(val)

In [4]:
df = pd.read_excel(PATH, sheetname='Vergütung', skiprows=5)
df = df.rename(columns={
    'Art der Vergütung ': 'key'
})

cost_mapping = {
    'Pflegeklasse 1': 'costs_nursing_class_1',
    'Pflegeklasse 2': 'costs_nursing_class_2',
    'Pflegeklasse 3': 'costs_nursing_class_3',
    'Verpflegung': 'food',
}

data.extend(list(get_column_values(df, cost_mapping, 'costs')))
df.head()

key
Baden-Württemberg


Unnamed: 0,key,"Stuttgart, SKR 111","Böblingen, LKR 115","Esslingen, LKR 116","Göppingen, LKR 117","Ludwigsburg, LKR 118","Rems-Murr-Kreis, LKR 119","Heilbronn, SKR 121","Heilbronn, LKR 125","Hohenlohekreis, LKR 126",...,"Reutlingen, LKR 415","Tübingen, LKR 416","Zollernalbkreis, LKR 417","Ulm, SKR 421","Alb-Donau-Kreis, LKR 425","Biberach, LKR 426","Bodenseekreis, LKR 435","Ravensburg, LKR 436","Sigmaringen, LKR 437",Baden-Württemberg
0,,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,


In [5]:
df = pd.read_excel(PATH, sheetname='verfügbare Plätze Betten', skiprows=4)
df = df.rename(columns={
    'Art der verfügbaren Plätze': 'key'
})

bed_mapping = {
  '1-Bett-Zimmern': '1-bed',
  '2-Bett-Zimmern': '2-bed',
  '3-Bett-Zimmern': '3-bed',
  '4 und mehr-Bett-Zimmern': '4-bed'
}
data.extend(list(get_column_values(df, bed_mapping, 'beds')))
df.head()

key
Baden-Württemberg


Unnamed: 0,key,"Stuttgart, SKR 111","Böblingen, LKR 115","Esslingen, LKR 116","Göppingen, LKR 117","Ludwigsburg, LKR 118","Rems-Murr-Kreis, LKR 119","Heilbronn, SKR 121","Heilbronn, LKR 125","Hohenlohekreis, LKR 126",...,"Reutlingen, LKR 415","Tübingen, LKR 416","Zollernalbkreis, LKR 417","Ulm, SKR 421","Alb-Donau-Kreis, LKR 425","Biberach, LKR 426","Bodenseekreis, LKR 435","Ravensburg, LKR 436","Sigmaringen, LKR 437",Baden-Württemberg
0,,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,,,,,,,,,,...,,,,,,,,,,


In [6]:
df = pd.read_excel(PATH, sheetname='Personal', skiprows=4)
df = df.rename(columns={
    'Beschäftigungsverhältnis/             Tätigkeitsbereich/              Berufsabschluss': 'key'
})

personal_mapping = {
    'Vollzeitbeschäftigt': 'fully_employed',
#     'Teilzeitbeschäftigt': 'part-time',
    '   - über 50 % ': 'part-time-1',
    '      beschäftigt ': 'part-time-2',
    '   - geringfügig beschäftigt ': 'part-time-3',
    'Pflege und Betreuung': 'nursing_and_care',
    'soziale Betreuung': 'social_care',
    'zusätzliche Betreuung (§ 87b SGB XI)': 'other_care',
    'Personal insgesamt': 'total_personnel'
}

data.extend(list(get_column_values(df, personal_mapping, 'personal')))
df.head()

key
Baden-Württemberg


Unnamed: 0,key,"Stuttgart, SKR 111","Böblingen, LKR 115","Esslingen, LKR 116","Göppingen, LKR 117","Ludwigsburg, LKR 118","Rems-Murr-Kreis, LKR 119","Heilbronn, SKR 121","Heilbronn, LKR 125","Hohenlohekreis, LKR 126",...,"Reutlingen, LKR 415","Tübingen, LKR 416","Zollernalbkreis, LKR 417","Ulm, SKR 421","Alb-Donau-Kreis, LKR 425","Biberach, LKR 426","Bodenseekreis, LKR 435","Ravensburg, LKR 436","Sigmaringen, LKR 437",Baden-Württemberg
0,,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,...,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt,Personal insgesamt


In [7]:
df = pd.read_excel(PATH, sheetname='Pflegebedürftige', skiprows=4)
df = df.rename(columns={
    'Pflegestufen': 'key'
})

recipient_mapping = {
    'Pflegestufe I ': 'recipients_nursing_class_1',
    'Pflegestufe II ': 'recipients_nursing_class_2',
    'Pflegestufe III ': 'recipients_nursing_class_3',
    'Pflegestufe zugeordnet': 'recipients_nursing_class_unknown',
}


data.extend(list(get_column_values(df, recipient_mapping, 'recipients')))
df.head(30)

key
Unnamed: 2
Unnamed: 4
Unnamed: 6
Unnamed: 8
Unnamed: 10
Unnamed: 12
Unnamed: 14
Unnamed: 16
Unnamed: 18
Unnamed: 20
Unnamed: 22
Unnamed: 24
Unnamed: 26
Unnamed: 28
Unnamed: 30
Unnamed: 32
Unnamed: 34
Unnamed: 36
Unnamed: 38
Unnamed: 40
Unnamed: 42
Unnamed: 44
Unnamed: 46
Unnamed: 48
Unnamed: 50
Unnamed: 52
Unnamed: 54
Unnamed: 56
Unnamed: 58
Unnamed: 60
Unnamed: 62
Unnamed: 64
Unnamed: 66
Unnamed: 68
Unnamed: 70
Unnamed: 72
Unnamed: 74
Unnamed: 76
Unnamed: 78
Unnamed: 80
Unnamed: 82
Unnamed: 84
Unnamed: 86
Unnamed: 88
Baden-Württemberg
Unnamed: 90


Unnamed: 0,key,"Stuttgart, SKR 111",Unnamed: 2,"Böblingen, LKR 115",Unnamed: 4,"Esslingen, LKR 116",Unnamed: 6,"Göppingen, LKR 117",Unnamed: 8,"Ludwigsburg, LKR 118",...,"Biberach, LKR 426",Unnamed: 82,"Bodenseekreis, LKR 435",Unnamed: 84,"Ravensburg, LKR 436",Unnamed: 86,"Sigmaringen, LKR 437",Unnamed: 88,Baden-Württemberg,Unnamed: 90
0,,,,,,,,,,,...,,,,,,,,,,
1,,,,,,,,,,,...,,,,,,,,,,
2,,,,,,,,,,,...,,,,,,,,,,
3,,,,,,,,,,,...,,,,,,,,,,
4,,Pflegebedürftige insgesamt,vollstationäre Pflege zusammen,Pflegebedürftige insgesamt,vollstationäre Pflege zusammen,Pflegebedürftige insgesamt,vollstationäre Pflege zusammen,Pflegebedürftige insgesamt,vollstationäre Pflege zusammen,Pflegebedürftige insgesamt,...,Pflegebedürftige insgesamt,vollstationäre Pflege zusammen,Pflegebedürftige insgesamt,vollstationäre Pflege zusammen,Pflegebedürftige insgesamt,vollstationäre Pflege zusammen,Pflegebedürftige insgesamt,vollstationäre Pflege zusammen,Pflegebedürftige insgesamt,vollstationäre Pflege zusammen
5,,,,,,,,,,,...,,,,,,,,,,
6,,,,,,,,,,,...,,,,,,,,,,
7,,Insgesamt,,,,,,,,,...,,,,,,,,,,
8,Insgesamt,5292,4996,2864,2641,4053,3774,2252,2049,4030,...,1642,1462,1636,1541,2570,2390,1041,912,98781,90845
9,Pflegestufe I,2084,1958,1117,1024,1536,1393,913,812,1603,...,627,547,536,500,953,882,389,326,37345,33862


In [8]:
df = pd.DataFrame(data)
df = df.rename(columns={
    0: 'ags',
    1: 'type',
    2: 'key',
    3: 'value'
})
df['state'] = 'Baden-Württemberg'

part_time = df.groupby('ags').apply(lambda x: x[x['key'].str.contains('part-time')]['value'].sum()).reset_index()
part_time['state'] = 'Baden-Württemberg'
part_time['type'] = 'personal'
part_time['key'] = 'part-time'
part_time = part_time.rename(columns={0: 'value'})
df = df[~df['key'].str.contains('part-time')]
df = pd.concat([df, part_time])

df.to_csv('baden-wuerttemberg.csv', index=False)
df.head()

Unnamed: 0,ags,key,state,type,value
0,8111,food,Baden-Württemberg,costs,24.31
1,8111,costs_nursing_class_3,Baden-Württemberg,costs,95.98
2,8111,costs_nursing_class_1,Baden-Württemberg,costs,58.54
3,8111,costs_nursing_class_2,Baden-Württemberg,costs,75.29
4,8115,food,Baden-Württemberg,costs,23.55
