# Gesundheitsausgaben-Analyse

## Projektübersicht
Dieses Projekt analysiert Gesundheitsausgaben basierend auf verschiedenen Kategorien wie Finanzierungsquellen, Arten von Gesundheitsleistungen und Zeiträumen.

Ziel ist es, Einblicke in die Entwicklung der Gesundheitskosten zu gewinnen und Muster zu identifizieren, die zukünftige Entscheidungen in der Gesundheitspolitik beeinflussen können.

### **Projektziele:**
1. **Datenbereinigung:** Aufbereitung der Rohdaten durch Entfernen unnötiger Spalten.
2. **Datenanalyse:** Identifikation von Trends in den Gesundheitsausgaben.
3. **Visualisierung:** Erstellung von Diagrammen für die Interpretation.
4. **Berichterstellung:** Zusammenfassung der wichtigsten Erkenntnisse.

### **Verwendete Datensätze:**
Die Analyse basiert auf folgenden CSV-Dateien:
- `OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0.csv` (Gesundheitsleistungen und -güter)
- `OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0.csv` (Zeitreihen der Gesundheitsausgaben)
- `OGD_gesausgaben01_HVD_HCHF_1_HEADER.csv` (Metadaten über Spaltenbezeichnungen)

### **Projektstruktur:**
- `data/` → Enthält die Anfangsdaten
- `notebooks/` → Enthält das Jupyter Notebook
- `output/` → Speichert bereinigte und aggregierte Daten
- `scripts/` → Enthält wiederverwendbare Python-Funktionen

## Libraries

In [163]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

## 1. Datenanalyse

1. **Hauptdatensatz:**  
   - Datei: `OGD_gesausgaben01_HVD_HCHF_1.csv`  
   - Enthält die eigentlichen Gesundheitsausgaben-Daten.  

2. **Hilfsdatensätze:**  
   - `OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0.csv` – Gesundheitsleistungen und -güter (HC)  
   - `OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0.csv` – Zeitreihen der Gesundheitsausgaben  
   - `OGD_gesausgaben01_HVD_HCHF_1_HEADER.csv` – Header-Metadaten zur Beschreibung der Spalten  

#### Warum verwenden wir `;` als Delimiter?  

Die bereitgestellten CSV-Dateien verwenden das Semikolon (`;`) als Trennzeichen (wir glauben um Verwechslungen mit Dezimalpunkten oder -kommas zu vermeiden)

Daher muss beim Einlesen `delimiter=';'` explizit angegeben werden, um die Daten korrekt zu parsen.  


In [164]:
def read_dfs(file_path="data"):
    dataframes = {}
    for filename in os.listdir(file_path):
        if not filename.endswith('.csv'):
            continue
        file_path = os.path.join('data', filename)
        df_ = pd.read_csv(file_path, delimiter=';')
        df_name = filename.replace('.csv', '')
        dataframes[df_name] = df_
    return dataframes

dataframes = read_dfs()
df_main = dataframes['OGD_gesausgaben01_HVD_HCHF_1']
df_hc = dataframes['OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0']
df_time = dataframes['OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0']
df_header = dataframes['OGD_gesausgaben01_HVD_HCHF_1_HEADER']

def analyze_dataframe(df, name):
    print(f"\n--- {name} ---")
    
    print("\nErste 5 Zeilen:")
    display(df.head())

    # zufällige Stichprobe
    print("\nZufällige Stichprobe:")
    display(df.sample(5))

    # Überblick über die Struktur des DataFrames
    print("\nDateninfo:")
    df.info()

    # Deskriptive Statistiken
    print("\nDeskriptive Statistiken (numerische und kategoriale Werte):")
    display(df.describe())

    # Unique Werte für jede Spalte (nur für kategorische Spalten sinnvoll)
    print("\nAnzahl eindeutiger Werte pro Spalte:")
    for col in df.columns:
        unique_values = df[col].nunique()
        print(f"{col}: {unique_values} eindeutige Werte")
        # print(f"  Werte: {df[col].unique()}")  # unnötig zu viel output
        
    # ganz wichtig noch null werte!
    print(f"Fehlende Werte in {name}:")
    display(df.isnull().sum())

for df_name, df in dataframes.items():
    analyze_dataframe(df, df_name)


--- OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0 ---

Erste 5 Zeilen:


Unnamed: 0,code,name,Unnamed: 2,en_name,de_desc,de_link,en_desc,en_link,de_syn,en_syn
0,ZEITGES-2004,2004,,2004,,,,,,
1,ZEITGES-2005,2005,,2005,,,,,,
2,ZEITGES-2006,2006,,2006,,,,,,
3,ZEITGES-2007,2007,,2007,,,,,,
4,ZEITGES-2008,2008,,2008,,,,,,



Zufällige Stichprobe:


Unnamed: 0,code,name,Unnamed: 2,en_name,de_desc,de_link,en_desc,en_link,de_syn,en_syn
8,ZEITGES-2012,2012,,2012,,,,,,
14,ZEITGES-2018,2018,,2018,,,,,,
0,ZEITGES-2004,2004,,2004,,,,,,
15,ZEITGES-2019,2019,,2019,,,,,,
1,ZEITGES-2005,2005,,2005,,,,,,



Dateninfo:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   code        19 non-null     category
 1   name        19 non-null     int64   
 2   Unnamed: 2  0 non-null      float64 
 3   en_name     19 non-null     int64   
 4   de_desc     0 non-null      float64 
 5   de_link     0 non-null      float64 
 6   en_desc     0 non-null      float64 
 7   en_link     0 non-null      float64 
 8   de_syn      0 non-null      float64 
 9   en_syn      0 non-null      float64 
dtypes: category(1), float64(7), int64(2)
memory usage: 2.2 KB

Deskriptive Statistiken (numerische und kategoriale Werte):


Unnamed: 0,name,Unnamed: 2,en_name,de_desc,de_link,en_desc,en_link,de_syn,en_syn
count,19.0,0.0,19.0,0.0,0.0,0.0,0.0,0.0,0.0
mean,2013.0,,2013.0,,,,,,
std,5.627314,,5.627314,,,,,,
min,2004.0,,2004.0,,,,,,
25%,2008.5,,2008.5,,,,,,
50%,2013.0,,2013.0,,,,,,
75%,2017.5,,2017.5,,,,,,
max,2022.0,,2022.0,,,,,,



Anzahl eindeutiger Werte pro Spalte:
code: 19 eindeutige Werte
name: 19 eindeutige Werte
Unnamed: 2: 0 eindeutige Werte
en_name: 19 eindeutige Werte
de_desc: 0 eindeutige Werte
de_link: 0 eindeutige Werte
en_desc: 0 eindeutige Werte
en_link: 0 eindeutige Werte
de_syn: 0 eindeutige Werte
en_syn: 0 eindeutige Werte
Fehlende Werte in OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0:


code           0
name           0
Unnamed: 2    19
en_name        0
de_desc       19
de_link       19
en_desc       19
en_link       19
de_syn        19
en_syn        19
dtype: int64


--- OGD_gesausgaben01_HVD_HCHF_1_HEADER ---

Erste 5 Zeilen:


Unnamed: 0,code,name,en_name,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,C-ZEITGES-0,Zeit,Time,,,,,,,
1,C-HCGES-0,Gesundheitsleistungen_Güter (HC),Health care functions (HC),,,,,,,
2,F-HF1,HF.1 Finanzierungssystem Staat und verpflichte...,HF.1 Government schemes and compulsory contrib...,,,,,,,
3,F-HF11,HF.1.1 Finanzierungssystem Staat,HF.1.1 Government schemes,,,,,,,
4,F-HF12,HF.1.2 Verpflichtende Beitragssysteme: Kranken...,HF.1.2 Compulsory contributory health insuranc...,,,,,,,



Zufällige Stichprobe:


Unnamed: 0,code,name,en_name,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
6,F-HF122,HF.1.2.2 Verpflichtende private Krankenversich...,HF.1.2.2 Compulsory private insurance schemes,,,,,,,
10,F-HF23,HF.2.3 Finanzierungssystem Unternehmen,HF.2.3 Enterprise financing schemes,,,,,,,
5,F-HF121,HF.1.2.1 Finanzierungssystem Sozialversicherun...,HF.1.2.1 Social health insurance schemes,,,,,,,
3,F-HF11,HF.1.1 Finanzierungssystem Staat,HF.1.1 Government schemes,,,,,,,
13,F-HF32,HF.3.2 Selbstbehalte (Kostenteilung mit Dritten),HF.3.2 Cost-sharing with third-party payers,,,,,,,



Dateninfo:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   code        16 non-null     category
 1   name        16 non-null     category
 2   en_name     16 non-null     category
 3   Unnamed: 3  0 non-null      float64 
 4   Unnamed: 4  0 non-null      float64 
 5   Unnamed: 5  0 non-null      float64 
 6   Unnamed: 6  0 non-null      float64 
 7   Unnamed: 7  0 non-null      float64 
 8   Unnamed: 8  0 non-null      float64 
 9   Unnamed: 9  0 non-null      float64 
dtypes: category(3), float64(7)
memory usage: 3.1 KB

Deskriptive Statistiken (numerische und kategoriale Werte):


Unnamed: 0,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
count,0.0,0.0,0.0,0.0,0.0,0.0,0.0
mean,,,,,,,
std,,,,,,,
min,,,,,,,
25%,,,,,,,
50%,,,,,,,
75%,,,,,,,
max,,,,,,,



Anzahl eindeutiger Werte pro Spalte:
code: 16 eindeutige Werte
name: 16 eindeutige Werte
en_name: 16 eindeutige Werte
Unnamed: 3: 0 eindeutige Werte
Unnamed: 4: 0 eindeutige Werte
Unnamed: 5: 0 eindeutige Werte
Unnamed: 6: 0 eindeutige Werte
Unnamed: 7: 0 eindeutige Werte
Unnamed: 8: 0 eindeutige Werte
Unnamed: 9: 0 eindeutige Werte
Fehlende Werte in OGD_gesausgaben01_HVD_HCHF_1_HEADER:


code           0
name           0
en_name        0
Unnamed: 3    16
Unnamed: 4    16
Unnamed: 5    16
Unnamed: 6    16
Unnamed: 7    16
Unnamed: 8    16
Unnamed: 9    16
dtype: int64


--- OGD_gesausgaben01_HVD_HCHF_1 ---

Erste 5 Zeilen:


Unnamed: 0,C-ZEITGES-0,C-HCGES-0,F-HF1,F-HF11,F-HF12,F-HF121,F-HF122,F-HF2,F-HF21,F-HF22,F-HF23,F-HF3,F-HF31,F-HF32,F-HF4,F-ALLE_HF
0,ZEITGES-2004,HC-HC1-HC2,10808144,3806276,7001868,7001868,0,963953,821200,142753,0,2133249,1965609,167640,0,13905347
1,ZEITGES-2004,HC-HC3,2440161,2427924,12236,12236,0,39711,0,39711,0,544594,544594,0,0,3024465
2,ZEITGES-2004,HC-HC4,487615,36592,451023,451023,0,133839,0,133839,0,110471,105254,5218,0,731925
3,ZEITGES-2004,HC-HC5,2604742,3820,2600922,2600922,0,44169,44169,0,0,1673625,1334838,338787,0,4322536
4,ZEITGES-2004,HC-HC6,378498,293059,85439,85439,0,47713,0,7916,39797,79907,79907,0,0,506117



Zufällige Stichprobe:


Unnamed: 0,C-ZEITGES-0,C-HCGES-0,F-HF1,F-HF11,F-HF12,F-HF121,F-HF122,F-HF2,F-HF21,F-HF22,F-HF23,F-HF3,F-HF31,F-HF32,F-HF4,F-ALLE_HF
444,ZEITGES-2016,HC-HC1-HC2,17514438,6437355,11077084,11077084,0,1230160,1034891,195269,0,3082144,2770602,311542,0,21826742
651,ZEITGES-2021,HC-HC2,1879108,265860,1613248,1613248,0,287732,31879,255853,0,677519,604108,73411,0,2844359
112,ZEITGES-2007,HC-HC3,2810512,2797980,12531,12531,0,58167,0,58167,0,655381,655381,0,0,3524060
532,ZEITGES-2018,HC-HC13-HC23,7496009,1675613,5820395,5820395,0,236729,190148,46581,0,2630688,2421884,208804,0,10363426
692,ZEITGES-2022,HC-ALL_HC,38697530,17456301,21241229,21241229,0,3220972,2271108,829258,120607,7978880,7206073,772807,0,49897383



Dateninfo:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 729 entries, 0 to 728
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   C-ZEITGES-0  729 non-null    category
 1   C-HCGES-0    729 non-null    category
 2   F-HF1        729 non-null    category
 3   F-HF11       729 non-null    category
 4   F-HF12       729 non-null    category
 5   F-HF121      729 non-null    category
 6   F-HF122      729 non-null    category
 7   F-HF2        729 non-null    category
 8   F-HF21       729 non-null    category
 9   F-HF22       729 non-null    category
 10  F-HF23       729 non-null    category
 11  F-HF3        729 non-null    category
 12  F-HF31       729 non-null    category
 13  F-HF32       729 non-null    category
 14  F-HF4        729 non-null    category
 15  F-ALLE_HF    729 non-null    category
dtypes: category(16)
memory usage: 217.2 KB

Deskriptive Statistiken (numerische und kategoriale Werte):


Unnamed: 0,C-ZEITGES-0,C-HCGES-0,F-HF1,F-HF11,F-HF12,F-HF121,F-HF122,F-HF2,F-HF21,F-HF22,F-HF23,F-HF3,F-HF31,F-HF32,F-HF4,F-ALLE_HF
count,729,729,729,729,729,729,729,729,729,729,729,729,729,729,729,729
unique,19,43,622,567,513,513,1,491,380,248,20,534,515,217,1,672
top,ZEITGES-2021,HC-ALLE_HC,0,0,0,0,0,0,0,0,0,0,0,0,0,25367
freq,43,19,35,86,103,103,729,171,285,401,667,135,154,380,729,2



Anzahl eindeutiger Werte pro Spalte:
C-ZEITGES-0: 19 eindeutige Werte
C-HCGES-0: 43 eindeutige Werte
F-HF1: 622 eindeutige Werte
F-HF11: 567 eindeutige Werte
F-HF12: 513 eindeutige Werte
F-HF121: 513 eindeutige Werte
F-HF122: 1 eindeutige Werte
F-HF2: 491 eindeutige Werte
F-HF21: 380 eindeutige Werte
F-HF22: 248 eindeutige Werte
F-HF23: 20 eindeutige Werte
F-HF3: 534 eindeutige Werte
F-HF31: 515 eindeutige Werte
F-HF32: 217 eindeutige Werte
F-HF4: 1 eindeutige Werte
F-ALLE_HF: 672 eindeutige Werte
Fehlende Werte in OGD_gesausgaben01_HVD_HCHF_1:


C-ZEITGES-0    0
C-HCGES-0      0
F-HF1          0
F-HF11         0
F-HF12         0
F-HF121        0
F-HF122        0
F-HF2          0
F-HF21         0
F-HF22         0
F-HF23         0
F-HF3          0
F-HF31         0
F-HF32         0
F-HF4          0
F-ALLE_HF      0
dtype: int64


--- OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0 ---

Erste 5 Zeilen:


Unnamed: 0,code,name,FK,en_name,de_desc,de_link,en_desc,en_link,de_syn,en_syn,Kategorieebene
0,HC-HC1-HC2,HC.1+HC.2 Leistungen der kurativen und rehabil...,,HC.1+HC.2 Curative and rehabilitative care,,,,,,,
1,HC-HC3,HC.3 Langzeitpflege,,HC.3 Long-term care (health),,,,,,,
2,HC-HC4,HC.4 Hilfsleistungen der Gesundheitsversorgung,,HC.4 Ancillary services (non-specified by func...,,,,,,,
3,HC-HC5,HC.5 Medizinische Güter,,HC.5 Medical goods (non-specified by function),,,,,,,
4,HC-HC6,HC.6 Prävention,,HC.6 Preventive care,,,,,,,



Zufällige Stichprobe:


Unnamed: 0,code,name,FK,en_name,de_desc,de_link,en_desc,en_link,de_syn,en_syn,Kategorieebene
28,HC-HC34,HC.3.4 Häusliche Langzeitpflege,HC-HC3,HC.3.4 Home-based long-term care (health),,,,,,,Unterkategorie
9,HC-HC11-HC21,HC.1.1+HC.2.1 Stationäre kurative und rehabili...,HC-HC1-HC2,HC.1.1+HC.2.1 Inpatient curative and rehabilit...,,,,,,,Unterkategorie
3,HC-HC5,HC.5 Medizinische Güter,,HC.5 Medical goods (non-specified by function),,,,,,,
15,HC-HC13-HC23,HC.1.3+HC.2.3 Ambulante kurative und rehabilit...,HC-HC1-HC2,HC.1.3+HC.2.3 Outpatient curative and rehabili...,,,,,,,Unterkategorie
4,HC-HC6,HC.6 Prävention,,HC.6 Preventive care,,,,,,,



Dateninfo:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46 entries, 0 to 45
Data columns (total 11 columns):
 #   Column          Non-Null Count  Dtype   
---  ------          --------------  -----   
 0   code            46 non-null     category
 1   name            46 non-null     category
 2   FK              39 non-null     category
 3   en_name         46 non-null     category
 4   de_desc         0 non-null      float64 
 5   de_link         0 non-null      float64 
 6   en_desc         0 non-null      float64 
 7   en_link         0 non-null      float64 
 8   de_syn          0 non-null      float64 
 9   en_syn          0 non-null      float64 
 10  Kategorieebene  39 non-null     object  
dtypes: category(4), float64(6), object(1)
memory usage: 7.4+ KB

Deskriptive Statistiken (numerische und kategoriale Werte):


Unnamed: 0,de_desc,de_link,en_desc,en_link,de_syn,en_syn
count,0.0,0.0,0.0,0.0,0.0,0.0
mean,,,,,,
std,,,,,,
min,,,,,,
25%,,,,,,
50%,,,,,,
75%,,,,,,
max,,,,,,



Anzahl eindeutiger Werte pro Spalte:
code: 46 eindeutige Werte
name: 45 eindeutige Werte
FK: 7 eindeutige Werte
en_name: 46 eindeutige Werte
de_desc: 0 eindeutige Werte
de_link: 0 eindeutige Werte
en_desc: 0 eindeutige Werte
en_link: 0 eindeutige Werte
de_syn: 0 eindeutige Werte
en_syn: 0 eindeutige Werte
Kategorieebene: 1 eindeutige Werte
Fehlende Werte in OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0:


code               0
name               0
FK                 7
en_name            0
de_desc           46
de_link           46
en_desc           46
en_link           46
de_syn            46
en_syn            46
Kategorieebene     7
dtype: int64

### Ergebnisse:  

**1. Hauptdatensatz (Gesundheitsausgaben)**  
- **Anzahl:** 729 Zeilen, 16 Spalten.  
- **Datentypen:** Alle Spalten sind vom Typ `object`. Dies deutet darauf hin, dass möglicherweise numerische Werte als Text gespeichert wurden und eine Umwandlung notwendig sein könnte.  
- **Fehlende Werte:** Keine fehlenden Werte festgestellt.  
- **Mögliche Maßnahmen:** Überprüfung der Datenformate (z. B. Zahlen als Text) und mögliche Konvertierung in numerische Typen.  

---

**2. Gesundheitsleistungen und -güter (HC)**  
- **Anzahl:** 46 Zeilen, 10 Spalten.  
- **Fehlende Werte:**  
  - Spalten `de_desc`, `de_link`, `en_desc`, `en_link`, `de_syn`, `en_syn` enthalten ausschließlich fehlende Werte und sollten entfernt werden.  
  - Die Spalte `FK` weist 7 fehlende Werte auf, welche genauer überprüft werden müssen (z. B. Kategorie oder Obergruppe).  
- **Mögliche Maßnahmen:**  
  - Löschen irrelevanter Spalten mit ausschließlich fehlenden Werten.  
  - Umgang mit fehlenden Werten in `FK` (Ersatz, Gruppierung oder Löschung).  

---

**3. Zeitreihen der Gesundheitsausgaben**  
- **Anzahl:** 19 Zeilen, 10 Spalten.  
- **Fehlende Werte:**  
  - Die Spalte `Unnamed: 2` enthält nur `NaN`-Werte und sollte entfernt werden.  
  - Weitere Spalten (`de_desc`, `de_link`, etc.) sind ebenfalls vollständig leer.  
- **Datentypen:**  
  - Die Spalten `name` und `en_name` sind als `int64` klassifiziert – sollte überprüft werden, ob dies korrekt ist oder in `string`/`category` geändert werden muss.  
- **Mögliche Maßnahmen:**  
  - Entfernen leerer Spalten.  
  - Datentypen anpassen, falls erforderlich.  

---

**4. Header-Metadaten**  
- **Anzahl:** 16 Zeilen, 10 Spalten.  
- **Fehlende Werte:**  
  - Unbenannte Spalten `Unnamed: 3` bis `Unnamed: 9` enthalten ausschließlich fehlende Werte und können entfernt werden.  
- **Mögliche Maßnahmen:**  
  - Entfernen leerer Spalten zur Reduzierung unnötiger Daten.  

---

### Nächste Schritte:  
1. **Bereinigung der Daten:**  
   - Entfernen der vollständig leeren Spalten.  
   - Behandlung der fehlenden Werte in wichtigen Spalten (z. B. `FK`).  
   - Konvertierung der Spalten in geeignete Datentypen.  
   
2. **Speicherung des bereinigten Datensatzes** in einer Datei `korr.csv`.  

## 2. Datenbereinigung

**Beobachtungen zur Anzahl fehlender Werte:**  

- Der Hauptdatensatz enthält **keine** fehlenden Werte.  
- Der HC-Datensatz weist mehrere Spalten mit vollständig fehlenden Werten auf.  
- Unbenannte Spalten in den Zeitreihen- und Header-Daten enthalten nur NaN-Werte.  

**TODO:**  
- Entfernen unnötiger Spalten mit vollständig fehlenden Werten.  

In [165]:
df_hc_cleaned = df_hc.drop(columns=['de_desc', 'de_link', 'en_desc', 'en_link', 'de_syn', 'en_syn'])
df_time_cleaned = df_time.drop(columns=['Unnamed: 2', 'de_desc', 'de_link', 'en_desc', 'en_link', 'de_syn', 'en_syn'])
df_header_cleaned = df_header.drop(columns=['Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5', 'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9'])

print("Bereinigter HC-Datensatz:")
display(df_hc_cleaned.sample(5))

print("Bereinigter Zeitreihen-Datensatz:")
display(df_time_cleaned.head())

print("Bereinigter Header-Datensatz:")
display(df_header_cleaned.head())

Bereinigter HC-Datensatz:


Unnamed: 0,code,name,FK,en_name,Kategorieebene
30,HC-HC42,HC.4.2 Bildgebende Diagnoseverfahren,HC-HC4,HC.4.2 Imaging services,Unterkategorie
21,HC-HC23,HC.2.3 Ambulante rehabilitative Gesundheitsver...,HC-HC1-HC2,HC.2.3 Outpatient rehabilitative care,Unterkategorie
28,HC-HC34,HC.3.4 Häusliche Langzeitpflege,HC-HC3,HC.3.4 Home-based long-term care (health),Unterkategorie
35,HC-HC513,HC.5.1.3 Sonstige medizinische Verbrauchsgüter,HC-HC5,HC.5.1.3 Other medical non-durable goods,Unterkategorie
5,HC-HC7,HC.7 Verwaltung der Gesundheitsversorgung und ...,,HC.7 Governance and health system and financin...,


Bereinigter Zeitreihen-Datensatz:


Unnamed: 0,code,name,en_name
0,ZEITGES-2004,2004,2004
1,ZEITGES-2005,2005,2005
2,ZEITGES-2006,2006,2006
3,ZEITGES-2007,2007,2007
4,ZEITGES-2008,2008,2008


Bereinigter Header-Datensatz:


Unnamed: 0,code,name,en_name
0,C-ZEITGES-0,Zeit,Time
1,C-HCGES-0,Gesundheitsleistungen_Güter (HC),Health care functions (HC)
2,F-HF1,HF.1 Finanzierungssystem Staat und verpflichte...,HF.1 Government schemes and compulsory contrib...
3,F-HF11,HF.1.1 Finanzierungssystem Staat,HF.1.1 Government schemes
4,F-HF12,HF.1.2 Verpflichtende Beitragssysteme: Kranken...,HF.1.2 Compulsory contributory health insuranc...


### FK-Spalte (Fremdschlüssel)

Die FK-Spalte ist in einigen Zeilen leer (`NaN`), was darauf hindeutet, dass diese Zeilen übergeordnete Kategorien sind.  
Unser Ziel ist es, die Hierarchie der Gesundheitsleistungen zu verstehen und ggf. geeignete Anpassungen vorzunehmen.

**Zu untersuchende Aspekte:**

1. Anzahl der `NaN`- und nicht-`NaN`-Werte in der FK-Spalte.  
2. Identifikation der übergeordneten Kategorien anhand der FK-Spalte.  

In [166]:
# Anzahl der fehlenden Werte in der FK-Spalte
missing_fk = df_hc['FK'].isnull().sum()
total_rows = len(df_hc)

print(f"Anzahl der fehlenden FK-Werte (Überkategorien): {missing_fk}")
print(f"Anzahl der vorhandenen FK-Werte (Unterkategorien): {total_rows - missing_fk}")

# Anzeigen der Zeilen mit fehlender FK (Überkategorien)
df_hc_missing_fk = df_hc[df_hc['FK'].isnull()]
display(df_hc_missing_fk[['code', 'name']])

# Anzeigen der Zeilen mit vorhandener FK (Unterkategorien)
df_hc_with_fk = df_hc[df_hc['FK'].notnull()]
display(df_hc_with_fk[['code', 'name', 'FK']].head(10))

Anzahl der fehlenden FK-Werte (Überkategorien): 7
Anzahl der vorhandenen FK-Werte (Unterkategorien): 39


Unnamed: 0,code,name
0,HC-HC1-HC2,HC.1+HC.2 Leistungen der kurativen und rehabil...
1,HC-HC3,HC.3 Langzeitpflege
2,HC-HC4,HC.4 Hilfsleistungen der Gesundheitsversorgung
3,HC-HC5,HC.5 Medizinische Güter
4,HC-HC6,HC.6 Prävention
5,HC-HC7,HC.7 Verwaltung der Gesundheitsversorgung und ...
6,HC-ALL_HC,Alle HC - Alle Gesundheitsleistungen und -güter


Unnamed: 0,code,name,FK
7,HC-HC1,HC.1 Leistungen der kurativen Gesundheitsverso...,HC-HC1-HC2
8,HC-HC2,HC.2 Leistungen der rehabilitativen Gesundheit...,HC-HC1-HC2
9,HC-HC11-HC21,HC.1.1+HC.2.1 Stationäre kurative und rehabili...,HC-HC1-HC2
10,HC-HC11,HC.1.1 Stationäre kurative Gesundheitsversorgung,HC-HC1-HC2
11,HC-HC21,HC.2.1 Stationäre rehabilitative Gesundheitsve...,HC-HC1-HC2
12,HC-HC12-HC22,HC.1.2+HC.2.2 Tagesfälle der kurativen und reh...,HC-HC1-HC2
13,HC-HC12,HC.1.2 Tagesfälle der kurativen Gesundheitsver...,HC-HC1-HC2
14,HC-HC22,HC.2.2 Tagesfälle der rehabilitativen Gesundhe...,HC-HC1-HC2
15,HC-HC13-HC23,HC.1.3+HC.2.3 Ambulante kurative und rehabilit...,HC-HC1-HC2
16,HC-HC13,HC.1.3 Ambulante kurative Gesundheitsversorgung,HC-HC1-HC2


**Ergebnisse der FK-Analyse:**  

- Einträge mit fehlender FK markieren übergeordnete Kategorien.  
- Einträge mit vorhandener FK verweisen auf ihre jeweilige Oberkategorie.  
- Diese Hierarchie hilft uns, die Daten später besser zu analysieren und zu gruppieren.  

**Nächster Schritt:**  
- Erstellung einer neuen Spalte `Kategorieebene`, die zwischen übergeordneten und untergeordneten Kategorien unterscheidet.  
- Falls sinnvoll, Speicherung einer hierarchischen Struktur für spätere Analysen oder Visualisierungen.  


In [167]:
# Neue Spalte zur Kategorisierung hinzufügen (Über-/Unterkategorie)
df_hc['Kategorieebene'] = df_hc['FK'].apply(lambda x: 'Oberkategorie' if pd.isnull(x) else 'Unterkategorie')

# anzeigen der kartegorieebene
display(df_hc[['code', 'name', 'FK', 'Kategorieebene']].head(15))

# anzahl der Ober- und Unterkategorien anzeigen
print(df_hc['Kategorieebene'].value_counts())


Unnamed: 0,code,name,FK,Kategorieebene
0,HC-HC1-HC2,HC.1+HC.2 Leistungen der kurativen und rehabil...,,
1,HC-HC3,HC.3 Langzeitpflege,,
2,HC-HC4,HC.4 Hilfsleistungen der Gesundheitsversorgung,,
3,HC-HC5,HC.5 Medizinische Güter,,
4,HC-HC6,HC.6 Prävention,,
5,HC-HC7,HC.7 Verwaltung der Gesundheitsversorgung und ...,,
6,HC-ALL_HC,Alle HC - Alle Gesundheitsleistungen und -güter,,
7,HC-HC1,HC.1 Leistungen der kurativen Gesundheitsverso...,HC-HC1-HC2,Unterkategorie
8,HC-HC2,HC.2 Leistungen der rehabilitativen Gesundheit...,HC-HC1-HC2,Unterkategorie
9,HC-HC11-HC21,HC.1.1+HC.2.1 Stationäre kurative und rehabili...,HC-HC1-HC2,Unterkategorie


Kategorieebene
Unterkategorie    39
Name: count, dtype: int64


### Bereinigung der Sprach- und Null-Spalten

In den Datensätzen sind Spalten in deutscher und englischer Sprache enthalten.  
Da die englischen Spalten redundant sind, werden sie entfernt.  
Zusätzlich werden alle vollständig leeren Spalten identifiziert und aus den Daten gelöscht.

#### Schritte:
1. Entfernen der englischen Spalten.
2. Identifikation von komplett leeren Spalten.
3. Löschen der leeren Spalten, um die Datenqualität zu verbessern.
4. Überprüfung der Datenstruktur nach der Bereinigung.


In [168]:
def clean_df(dataframe, name):
    print(f"\n--- Bereinigung für {name} ---")

    # 1. Englische Spalten entfernen (beginnen mit 'en_')
    df_cleaned = df.drop(columns=[col for col in df.columns if col.startswith('en_')])

    # 2. Vollständig leerer Spalten
    empty_cols = df_cleaned.columns[df_cleaned.isnull().all()].tolist()
    print(f"Leere Spalten in {name}: {empty_cols}")

    # 3. Entfernen ovn leeren Spalten
    df_cleaned.drop(columns=empty_cols, inplace=True)

    # 4. Shape (Rows, Cols) nach Bereinigung
    print(f"Nach Bereinigung der englischen und leeren Spalten - {name}:")
    print(f"{name} shape:", df_cleaned.shape)

    # 5. Speichern der bereinigten DataFrames
    file_name = name + "_corr.csv"
    df_cleaned.to_csv(f'data/corr/{file_name}', index=False, sep=';')
    print(f"Bereinigte Datei für {name} gespeichert als {file_name}")

for name, df in dataframes.items():
    clean_df(df, name)


--- Bereinigung für OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0 ---
Leere Spalten in OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0: ['Unnamed: 2', 'de_desc', 'de_link', 'de_syn']
Nach Bereinigung der englischen und leeren Spalten - OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0:
OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0 shape: (19, 2)
Bereinigte Datei für OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0 gespeichert als OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0_corr.csv

--- Bereinigung für OGD_gesausgaben01_HVD_HCHF_1_HEADER ---
Leere Spalten in OGD_gesausgaben01_HVD_HCHF_1_HEADER: ['Unnamed: 3', 'Unnamed: 4', 'Unnamed: 5', 'Unnamed: 6', 'Unnamed: 7', 'Unnamed: 8', 'Unnamed: 9']
Nach Bereinigung der englischen und leeren Spalten - OGD_gesausgaben01_HVD_HCHF_1_HEADER:
OGD_gesausgaben01_HVD_HCHF_1_HEADER shape: (16, 2)
Bereinigte Datei für OGD_gesausgaben01_HVD_HCHF_1_HEADER gespeichert als OGD_gesausgaben01_HVD_HCHF_1_HEADER_corr.csv

--- Bereinigung für OGD_gesausgaben01_HVD_HCHF_1 ---
Leere Spalten in OGD_g

### Mergen der DataFrames und Datenvorbereitung

Um die verschiedenen DataFrames mit relevanten Informationen zu kombinieren, haben wir alle DataFrames anhand des gemeinsamen Schlüssels `code` zusammengeführt. Dies stellt sicher, dass alle relevanten Daten in einem einzigen DataFrame vorliegen und keine Informationen verloren gehen.

#### Schritte:
1. **Mergen der DataFrames**:
   - Wir haben die DataFrames `df_main`, `df_hc`, `df_time` und `df_header` mithilfe des gemeinsamen Schlüssels `code` zusammengeführt.
   - Ein `left join` wurde verwendet, um sicherzustellen, dass alle Zeilen aus dem Hauptdatensatz (`df_main`) erhalten bleiben, und nur passende Zeilen aus den anderen DataFrames hinzugefügt werden.

2. **Datenvorbereitung (Preprocessing)**:
   - **Extraktion der numerischen Werte**: Alle numerischen Spalten (z.B. `int64`, `float64`) wurden extrahiert und in einer separaten CSV-Datei gespeichert.
   - **Normalisierung der numerischen Werte**: Die numerischen Werte wurden mit einer Min-Max-Normalisierung skaliert und ebenfalls in einer separaten CSV-Datei gespeichert.
   - **Extraktion der nominalen (kategorischen) Werte**: Alle nominalen Werte (z.B. `object`, `category`) wurden extrahiert und ebenfalls in einer separaten CSV-Datei gespeichert.

#### Ergebnis:
- **df_merged_num.csv**: Enthält die numerischen Werte aus allen zusammengeführten DataFrames.
- **df_merged_norm.csv**: Enthält die normalisierten numerischen Werte.
- **df_merged_nom.csv**: Enthält die nominalen (kategorischen) Werte.

Das Mergen und die Datenvorbereitung sorgen dafür, dass alle relevanten Daten an einem Ort vorhanden sind und für die spätere Analyse bereitgestellt werden.


In [178]:
# Daten einlesen
df_main = pd.read_csv('data/corr/OGD_gesausgaben01_HVD_HCHF_1_corr.csv', delimiter=';')
df_hc = pd.read_csv('data/corr/OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0_corr.csv', delimiter=';')
df_time = pd.read_csv('data/corr/OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0_corr.csv', delimiter=';')
df_header = pd.read_csv('data/corr/OGD_gesausgaben01_HVD_HCHF_1_HEADER_corr.csv', delimiter=';')

# 1. Mergen der DataFrames (angenommen, 'code' ist der gemeinsame Schlüssel)
merged_df = pd.merge(df_hc_corr, df_time_corr, on='code', how='left')  # 'inner' für den Schnitt der beiden DataFrames
final_merged_df = pd.merge(merged_df, df_header_corr, on='code', how='left')

# Überprüfen der ersten Zeilen des finalen DataFrames
display(final_merged_df)


# Funktion zur Bereinigung und Speicherung der Daten
def preprocess_and_save(df, filename_prefix):
    # 1. Numerische Werte extrahieren
    df_numeric = df.select_dtypes(include=['int64', 'float64'])

    # Speichern der numerischen Werte in 'num.csv'
    df_numeric.to_csv(f'{filename_prefix}_num.csv', index=False, sep=';')

    # 2. Normalisierung der numerischen Werte (Min-Max Normalisierung)
    df_normalized = (df_numeric - df_numeric.min()) / (df_numeric.max() - df_numeric.min())

    # Speichern der normalisierten Werte in 'norm.csv'
    df_normalized.to_csv(f'{filename_prefix}_norm.csv', index=False, sep=';')

    # 3. Nominale Werte extrahieren
    df_nominal = df.select_dtypes(include=['object', 'category'])

    # Speichern der nominalen Werte in 'nom.csv'
    df_nominal.to_csv(f'{filename_prefix}_nom.csv', index=False, sep=';')

# Anwendung auf das gemergte DataFrame
# preprocess_and_save(df_merged, 'df_merged')

print("Daten wurden erfolgreich gespeichert.")


Unnamed: 0_level_0,name_x,FK,Kategorieebene,name_y,name
code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
HC-HC1-HC2,HC.1+HC.2 Leistungen der kurativen und rehabil...,,,,
HC-HC3,HC.3 Langzeitpflege,,,,
HC-HC4,HC.4 Hilfsleistungen der Gesundheitsversorgung,,,,
HC-HC5,HC.5 Medizinische Güter,,,,
HC-HC6,HC.6 Prävention,,,,
HC-HC7,HC.7 Verwaltung der Gesundheitsversorgung und ...,,,,
HC-ALL_HC,Alle HC - Alle Gesundheitsleistungen und -güter,,,,
HC-HC1,HC.1 Leistungen der kurativen Gesundheitsverso...,HC-HC1-HC2,Unterkategorie,,
HC-HC2,HC.2 Leistungen der rehabilitativen Gesundheit...,HC-HC1-HC2,Unterkategorie,,
HC-HC11-HC21,HC.1.1+HC.2.1 Stationäre kurative und rehabili...,HC-HC1-HC2,Unterkategorie,,


Daten wurden erfolgreich gespeichert.
