# Gesundheitsausgaben-Analyse

## Projektübersicht
Dieses Projekt analysiert Gesundheitsausgaben basierend auf verschiedenen Kategorien wie Finanzierungsquellen, Arten von Gesundheitsleistungen und Zeiträumen.

Ziel ist es, Einblicke in die Entwicklung der Gesundheitskosten zu gewinnen und Muster zu identifizieren, die zukünftige Entscheidungen in der Gesundheitspolitik beeinflussen können.

### Projektziele:
1. **Datenbereinigung:** Aufbereitung der Rohdaten durch Entfernen unnötiger Spalten.
2. **Datenanalyse:** Identifikation von Trends in den Gesundheitsausgaben.
3. **Visualisierung:** Erstellung von Diagrammen für die Interpretation.
4. **Berichterstellung:** Zusammenfassung der wichtigsten Erkenntnisse.

### Verwendete Datensätze:
Die Analyse basiert auf folgenden CSV-Dateien:
- `OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0.csv` (Gesundheitsleistungen und -güter)
- `OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0.csv` (Zeitreihen der Gesundheitsausgaben)
- `OGD_gesausgaben01_HVD_HCHF_1_HEADER.csv` (Metadaten über Spaltenbezeichnungen)

### Projektstruktur:
- `data/` → Enthält die Anfangsdaten
- `notebooks/` → Enthält das Jupyter Notebook
- `output/` → Speichert bereinigte und aggregierte Daten
- `scripts/` → Enthält wiederverwendbare Python-Funktionen

## Libraries

In [8]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

## 1. Datenanalyse

1. **Hauptdatensatz:**  
   - Datei: `OGD_gesausgaben01_HVD_HCHF_1.csv`  
   - Enthält die eigentlichen Gesundheitsausgaben-Daten.  

2. **Hilfsdatensätze:**  
   - `OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0.csv` – Gesundheitsleistungen und -güter (HC)  
   - `OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0.csv` – Zeitreihen der Gesundheitsausgaben  
   - `OGD_gesausgaben01_HVD_HCHF_1_HEADER.csv` – Header-Metadaten zur Beschreibung der Spalten  

#### Warum verwenden wir `;` als Delimiter?  

Die bereitgestellten CSV-Dateien verwenden das Semikolon (`;`) als Trennzeichen (wir glauben um Verwechslungen mit Dezimalpunkten oder -kommas zu vermeiden)

Daher muss beim Einlesen `delimiter=';'` explizit angegeben werden, um die Daten korrekt zu parsen.  


In [9]:
def read_dfs(file_path="data"):
    dataframes = {}
    for filename in os.listdir(file_path):
        if not filename.endswith('.csv') and not filename.startswith('OGD_gesausgaben01_HVD_HCHF'): # SCHEISS auf die anderen dateien
            continue
        df_ = pd.read_csv(file_path + "/" + filename, delimiter=';')
        df_name = filename.replace('.csv', '')
        dataframes[df_name] = df_
    return dataframes

def analyze_dataframe(df, name):
    print(f"\n--- {name} ---")

    print("\nErste 5 Zeilen:")
    display(df.head())

    print("\nZufällige Stichprobe:")
    display(df.sample(5))

    print("\nDateninfo:")
    df.info()

    print("\nStatistiken (numerische und kategoriale Werte):")
    display(df.describe())

    # Unique Werte für jede Spalte (nur für kategorische Spalten sinnvoll)
    print("\nAnzahl eindeutiger Werte pro Spalte:")
    for col in df.columns:
        unique_values = df[col].nunique()
        print(f"{col}: {unique_values} eindeutige Werte")
        # print(f"  Werte: {df[col].unique()}")  # unnötig zu viel output

    # ganz wichtig noch null werte!
    print(f"Fehlende Werte in {name}:")
    display(df.isnull().sum())

In [10]:
dataframes = read_dfs()
df_main = dataframes['OGD_gesausgaben01_HVD_HCHF_1']
df_hc = dataframes['OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0']
df_time = dataframes['OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0']
df_header = dataframes['OGD_gesausgaben01_HVD_HCHF_1_HEADER']

for df_name, df in dataframes.items():
    analyze_dataframe(df, df_name)


--- OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0 ---

Erste 5 Zeilen:


Unnamed: 0,code,name,Unnamed: 2,en_name,de_desc,de_link,en_desc,en_link,de_syn,en_syn
0,ZEITGES-2004,2004,,2004,,,,,,
1,ZEITGES-2005,2005,,2005,,,,,,
2,ZEITGES-2006,2006,,2006,,,,,,
3,ZEITGES-2007,2007,,2007,,,,,,
4,ZEITGES-2008,2008,,2008,,,,,,



Zufällige Stichprobe:


Unnamed: 0,code,name,Unnamed: 2,en_name,de_desc,de_link,en_desc,en_link,de_syn,en_syn
18,ZEITGES-2022,2022,,2022,,,,,,
16,ZEITGES-2020,2020,,2020,,,,,,
3,ZEITGES-2007,2007,,2007,,,,,,
4,ZEITGES-2008,2008,,2008,,,,,,
7,ZEITGES-2011,2011,,2011,,,,,,



Dateninfo:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19 entries, 0 to 18
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   code        19 non-null     object 
 1   name        19 non-null     int64  
 2   Unnamed: 2  0 non-null      float64
 3   en_name     19 non-null     int64  
 4   de_desc     0 non-null      float64
 5   de_link     0 non-null      float64
 6   en_desc     0 non-null      float64
 7   en_link     0 non-null      float64
 8   de_syn      0 non-null      float64
 9   en_syn      0 non-null      float64
dtypes: float64(7), int64(2), object(1)
memory usage: 1.6+ KB

Statistiken (numerische und kategoriale Werte):


Unnamed: 0,name,Unnamed: 2,en_name,de_desc,de_link,en_desc,en_link,de_syn,en_syn
count,19.0,0.0,19.0,0.0,0.0,0.0,0.0,0.0,0.0
mean,2013.0,,2013.0,,,,,,
std,5.627314,,5.627314,,,,,,
min,2004.0,,2004.0,,,,,,
25%,2008.5,,2008.5,,,,,,
50%,2013.0,,2013.0,,,,,,
75%,2017.5,,2017.5,,,,,,
max,2022.0,,2022.0,,,,,,



Anzahl eindeutiger Werte pro Spalte:
code: 19 eindeutige Werte
name: 19 eindeutige Werte
Unnamed: 2: 0 eindeutige Werte
en_name: 19 eindeutige Werte
de_desc: 0 eindeutige Werte
de_link: 0 eindeutige Werte
en_desc: 0 eindeutige Werte
en_link: 0 eindeutige Werte
de_syn: 0 eindeutige Werte
en_syn: 0 eindeutige Werte
Fehlende Werte in OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0:


code           0
name           0
Unnamed: 2    19
en_name        0
de_desc       19
de_link       19
en_desc       19
en_link       19
de_syn        19
en_syn        19
dtype: int64


--- OGD_gesausgaben01_HVD_HCHF_1_HEADER ---

Erste 5 Zeilen:


Unnamed: 0,code,name,en_name,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,C-ZEITGES-0,Zeit,Time,,,,,,,
1,C-HCGES-0,Gesundheitsleistungen_Güter (HC),Health care functions (HC),,,,,,,
2,F-HF1,HF.1 Finanzierungssystem Staat und verpflichte...,HF.1 Government schemes and compulsory contrib...,,,,,,,
3,F-HF11,HF.1.1 Finanzierungssystem Staat,HF.1.1 Government schemes,,,,,,,
4,F-HF12,HF.1.2 Verpflichtende Beitragssysteme: Kranken...,HF.1.2 Compulsory contributory health insuranc...,,,,,,,



Zufällige Stichprobe:


Unnamed: 0,code,name,en_name,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
2,F-HF1,HF.1 Finanzierungssystem Staat und verpflichte...,HF.1 Government schemes and compulsory contrib...,,,,,,,
12,F-HF31,HF.3.1 Selbstzahlungen ohne Selbstbehalte,HF.3.1 Out-of-pocket excluding cost-sharing,,,,,,,
10,F-HF23,HF.2.3 Finanzierungssystem Unternehmen,HF.2.3 Enterprise financing schemes,,,,,,,
4,F-HF12,HF.1.2 Verpflichtende Beitragssysteme: Kranken...,HF.1.2 Compulsory contributory health insuranc...,,,,,,,
9,F-HF22,HF.2.2 Finanzierungssystem Private Organisatio...,HF.2.2 NPISH financing schemes,,,,,,,



Dateninfo:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16 entries, 0 to 15
Data columns (total 10 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   code        16 non-null     object 
 1   name        16 non-null     object 
 2   en_name     16 non-null     object 
 3   Unnamed: 3  0 non-null      float64
 4   Unnamed: 4  0 non-null      float64
 5   Unnamed: 5  0 non-null      float64
 6   Unnamed: 6  0 non-null      float64
 7   Unnamed: 7  0 non-null      float64
 8   Unnamed: 8  0 non-null      float64
 9   Unnamed: 9  0 non-null      float64
dtypes: float64(7), object(3)
memory usage: 1.4+ KB

Statistiken (numerische und kategoriale Werte):


Unnamed: 0,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
count,0.0,0.0,0.0,0.0,0.0,0.0,0.0
mean,,,,,,,
std,,,,,,,
min,,,,,,,
25%,,,,,,,
50%,,,,,,,
75%,,,,,,,
max,,,,,,,



Anzahl eindeutiger Werte pro Spalte:
code: 16 eindeutige Werte
name: 16 eindeutige Werte
en_name: 16 eindeutige Werte
Unnamed: 3: 0 eindeutige Werte
Unnamed: 4: 0 eindeutige Werte
Unnamed: 5: 0 eindeutige Werte
Unnamed: 6: 0 eindeutige Werte
Unnamed: 7: 0 eindeutige Werte
Unnamed: 8: 0 eindeutige Werte
Unnamed: 9: 0 eindeutige Werte
Fehlende Werte in OGD_gesausgaben01_HVD_HCHF_1_HEADER:


code           0
name           0
en_name        0
Unnamed: 3    16
Unnamed: 4    16
Unnamed: 5    16
Unnamed: 6    16
Unnamed: 7    16
Unnamed: 8    16
Unnamed: 9    16
dtype: int64


--- OGD_gesausgaben01_HVD_HCHF_1 ---

Erste 5 Zeilen:


Unnamed: 0,C-ZEITGES-0,C-HCGES-0,F-HF1,F-HF11,F-HF12,F-HF121,F-HF122,F-HF2,F-HF21,F-HF22,F-HF23,F-HF3,F-HF31,F-HF32,F-HF4,F-ALLE_HF
0,ZEITGES-2004,HC-HC1-HC2,10808144,3806276,7001868,7001868,0,963953,821200,142753,0,2133249,1965609,167640,0,13905347
1,ZEITGES-2004,HC-HC3,2440161,2427924,12236,12236,0,39711,0,39711,0,544594,544594,0,0,3024465
2,ZEITGES-2004,HC-HC4,487615,36592,451023,451023,0,133839,0,133839,0,110471,105254,5218,0,731925
3,ZEITGES-2004,HC-HC5,2604742,3820,2600922,2600922,0,44169,44169,0,0,1673625,1334838,338787,0,4322536
4,ZEITGES-2004,HC-HC6,378498,293059,85439,85439,0,47713,0,7916,39797,79907,79907,0,0,506117



Zufällige Stichprobe:


Unnamed: 0,C-ZEITGES-0,C-HCGES-0,F-HF1,F-HF11,F-HF12,F-HF121,F-HF122,F-HF2,F-HF21,F-HF22,F-HF23,F-HF3,F-HF31,F-HF32,F-HF4,F-ALLE_HF
25,ZEITGES-2004,HC-HC34,1486039,1473803,12236,12236,0,39711,0,39711,0,21601,21601,0,0,1547351
622,ZEITGES-2020,HC-HC14,27096,759,26337,26337,0,0,0,0,0,0,0,0,0,27096
605,ZEITGES-2020,HC-HC7,939676,102387,837289,837289,0,671955,671955,0,0,0,0,0,0,1611631
440,ZEITGES-2015,HC-HC52,649241,0,649241,649241,0,113376,113376,0,0,989362,981367,7995,0,1751979
555,ZEITGES-2018,HC-HC65,51201,51201,0,0,0,0,0,0,0,0,0,0,0,51201



Dateninfo:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 729 entries, 0 to 728
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   C-ZEITGES-0  729 non-null    object
 1   C-HCGES-0    729 non-null    object
 2   F-HF1        729 non-null    object
 3   F-HF11       729 non-null    object
 4   F-HF12       729 non-null    object
 5   F-HF121      729 non-null    object
 6   F-HF122      729 non-null    object
 7   F-HF2        729 non-null    object
 8   F-HF21       729 non-null    object
 9   F-HF22       729 non-null    object
 10  F-HF23       729 non-null    object
 11  F-HF3        729 non-null    object
 12  F-HF31       729 non-null    object
 13  F-HF32       729 non-null    object
 14  F-HF4        729 non-null    object
 15  F-ALLE_HF    729 non-null    object
dtypes: object(16)
memory usage: 91.3+ KB

Statistiken (numerische und kategoriale Werte):


Unnamed: 0,C-ZEITGES-0,C-HCGES-0,F-HF1,F-HF11,F-HF12,F-HF121,F-HF122,F-HF2,F-HF21,F-HF22,F-HF23,F-HF3,F-HF31,F-HF32,F-HF4,F-ALLE_HF
count,729,729,729,729,729,729,729,729,729,729,729,729,729,729,729,729
unique,19,43,622,567,513,513,1,491,380,248,20,534,515,217,1,672
top,ZEITGES-2021,HC-HC1-HC2,0,0,0,0,0,0,0,0,0,0,0,0,0,194266
freq,43,19,35,86,103,103,729,171,285,401,667,135,154,380,729,2



Anzahl eindeutiger Werte pro Spalte:
C-ZEITGES-0: 19 eindeutige Werte
C-HCGES-0: 43 eindeutige Werte
F-HF1: 622 eindeutige Werte
F-HF11: 567 eindeutige Werte
F-HF12: 513 eindeutige Werte
F-HF121: 513 eindeutige Werte
F-HF122: 1 eindeutige Werte
F-HF2: 491 eindeutige Werte
F-HF21: 380 eindeutige Werte
F-HF22: 248 eindeutige Werte
F-HF23: 20 eindeutige Werte
F-HF3: 534 eindeutige Werte
F-HF31: 515 eindeutige Werte
F-HF32: 217 eindeutige Werte
F-HF4: 1 eindeutige Werte
F-ALLE_HF: 672 eindeutige Werte
Fehlende Werte in OGD_gesausgaben01_HVD_HCHF_1:


C-ZEITGES-0    0
C-HCGES-0      0
F-HF1          0
F-HF11         0
F-HF12         0
F-HF121        0
F-HF122        0
F-HF2          0
F-HF21         0
F-HF22         0
F-HF23         0
F-HF3          0
F-HF31         0
F-HF32         0
F-HF4          0
F-ALLE_HF      0
dtype: int64


--- OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0 ---

Erste 5 Zeilen:


Unnamed: 0,code,name,FK,en_name,de_desc,de_link,en_desc,en_link,de_syn,en_syn
0,HC-HC1-HC2,HC.1+HC.2 Leistungen der kurativen und rehabil...,,HC.1+HC.2 Curative and rehabilitative care,,,,,,
1,HC-HC3,HC.3 Langzeitpflege,,HC.3 Long-term care (health),,,,,,
2,HC-HC4,HC.4 Hilfsleistungen der Gesundheitsversorgung,,HC.4 Ancillary services (non-specified by func...,,,,,,
3,HC-HC5,HC.5 Medizinische Güter,,HC.5 Medical goods (non-specified by function),,,,,,
4,HC-HC6,HC.6 Prävention,,HC.6 Preventive care,,,,,,



Zufällige Stichprobe:


Unnamed: 0,code,name,FK,en_name,de_desc,de_link,en_desc,en_link,de_syn,en_syn
12,HC-HC12-HC22,HC.1.2+HC.2.2 Tagesfälle der kurativen und reh...,HC-HC1-HC2,HC.1.2+HC.2.2 Day curative and rehabilitative ...,,,,,,
37,HC-HC61,"HC.6.1 Information, Bildung und Beratung",HC-HC6,"HC.6.1 Information, education and counseling p...",,,,,,
10,HC-HC11,HC.1.1 Stationäre kurative Gesundheitsversorgung,HC-HC1-HC2,HC.1.1 Inpatient curative care,,,,,,
38,HC-HC62,HC.6.2 Immunisierungsprogramme,HC-HC6,HC.6.2 Immunisation programmes,,,,,,
20,HC-HC139,HC.1.3.9 Sonstige ambulante kurative Gesundhei...,HC-HC1-HC2,HC.1.3.9 All other outpatient curative care,,,,,,



Dateninfo:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 46 entries, 0 to 45
Data columns (total 10 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   code     46 non-null     object 
 1   name     46 non-null     object 
 2   FK       39 non-null     object 
 3   en_name  46 non-null     object 
 4   de_desc  0 non-null      float64
 5   de_link  0 non-null      float64
 6   en_desc  0 non-null      float64
 7   en_link  0 non-null      float64
 8   de_syn   0 non-null      float64
 9   en_syn   0 non-null      float64
dtypes: float64(6), object(4)
memory usage: 3.7+ KB

Statistiken (numerische und kategoriale Werte):


Unnamed: 0,de_desc,de_link,en_desc,en_link,de_syn,en_syn
count,0.0,0.0,0.0,0.0,0.0,0.0
mean,,,,,,
std,,,,,,
min,,,,,,
25%,,,,,,
50%,,,,,,
75%,,,,,,
max,,,,,,



Anzahl eindeutiger Werte pro Spalte:
code: 46 eindeutige Werte
name: 45 eindeutige Werte
FK: 7 eindeutige Werte
en_name: 46 eindeutige Werte
de_desc: 0 eindeutige Werte
de_link: 0 eindeutige Werte
en_desc: 0 eindeutige Werte
en_link: 0 eindeutige Werte
de_syn: 0 eindeutige Werte
en_syn: 0 eindeutige Werte
Fehlende Werte in OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0:


code        0
name        0
FK          7
en_name     0
de_desc    46
de_link    46
en_desc    46
en_link    46
de_syn     46
en_syn     46
dtype: int64

### Ergebnisse:  

**1. Hauptdatensatz (Gesundheitsausgaben)**  
- **Anzahl:** 729 Zeilen, 16 Spalten.  
- **Datentypen:** Alle Spalten sind vom Typ `object`. Dies deutet darauf hin, dass möglicherweise numerische Werte als Text gespeichert wurden und eine Umwandlung notwendig sein könnte.  
- **Fehlende Werte:** Keine fehlenden Werte festgestellt.  
- **Mögliche Maßnahmen:** Überprüfung der Datenformate (z. B. Zahlen als Text) und mögliche Konvertierung in numerische Typen.  

---

**2. Gesundheitsleistungen und -güter (HC)**  
- **Anzahl:** 46 Zeilen, 10 Spalten.  
- **Fehlende Werte:**  
  - Spalten `de_desc`, `de_link`, `en_desc`, `en_link`, `de_syn`, `en_syn` enthalten ausschließlich fehlende Werte und sollten entfernt werden.  
  - Die Spalte `FK` weist 7 fehlende Werte auf, welche genauer überprüft werden müssen (z. B. Kategorie oder Obergruppe).  
- **Mögliche Maßnahmen:**  
  - Löschen irrelevanter Spalten mit ausschließlich fehlenden Werten.  
  - Umgang mit fehlenden Werten in `FK` (Ersatz, Gruppierung oder Löschung).  

---

**3. Zeitreihen der Gesundheitsausgaben**  
- **Anzahl:** 19 Zeilen, 10 Spalten.  
- **Fehlende Werte:**  
  - Die Spalte `Unnamed: 2` enthält nur `NaN`-Werte und sollte entfernt werden.  
  - Weitere Spalten (`de_desc`, `de_link`, etc.) sind ebenfalls vollständig leer.  
- **Datentypen:**  
  - Die Spalten `name` und `en_name` sind als `int64` klassifiziert – sollte überprüft werden, ob dies korrekt ist oder in `string`/`category` geändert werden muss.  
- **Mögliche Maßnahmen:**  
  - Entfernen leerer Spalten.  
  - Datentypen anpassen, falls erforderlich.  

---

**4. Header-Metadaten**  
- **Anzahl:** 16 Zeilen, 10 Spalten.  
- **Fehlende Werte:**  
  - Unbenannte Spalten `Unnamed: 3` bis `Unnamed: 9` enthalten ausschließlich fehlende Werte und können entfernt werden.  
- **Mögliche Maßnahmen:**  
  - Entfernen leerer Spalten zur Reduzierung unnötiger Daten.

### Konvertierung der Daten in numerische Werte

In [11]:
# TWO DAYS AND 10 CHIPS PACKETS AND 50 COFFES LATER WE DISCOVERED THAT THE DATA IS NOT NUMERIC AND WE NEED TO REPLACE , WITH . AND CONVERT TO NUMERIC
# DHIS BULLSHIT IS NOT NUMERIC
# df_main.iloc[:, 2:] = df_main.iloc[:, 2:].replace(',', '.', regex=True).apply(pd.to_numeric)
# THIS IS NOT WORKING
# WE JUST SAVE THE DATAFRAME TO CSV AND READ IT AGAIN

# F*ck it, we save the data to csv and read it again

df_main.replace(',', '.', regex=True).to_csv('data/corr/OGD_gesausgaben01_HVD_HCHF_1_corr.csv', index=False, sep=';')  # replace , with . for numeric conversion
df_main = pd.read_csv('data/corr/OGD_gesausgaben01_HVD_HCHF_1_corr.csv', delimiter=';') 
df_main.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 729 entries, 0 to 728
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   C-ZEITGES-0  729 non-null    object 
 1   C-HCGES-0    729 non-null    object 
 2   F-HF1        729 non-null    float64
 3   F-HF11       729 non-null    float64
 4   F-HF12       729 non-null    float64
 5   F-HF121      729 non-null    float64
 6   F-HF122      729 non-null    float64
 7   F-HF2        729 non-null    float64
 8   F-HF21       729 non-null    float64
 9   F-HF22       729 non-null    float64
 10  F-HF23       729 non-null    float64
 11  F-HF3        729 non-null    float64
 12  F-HF31       729 non-null    float64
 13  F-HF32       729 non-null    float64
 14  F-HF4        729 non-null    float64
 15  F-ALLE_HF    729 non-null    float64
dtypes: float64(14), object(2)
memory usage: 91.3+ KB


### Bereinigung der Sprach- und Null-Spalten

In den Datensätzen sind Spalten in deutscher und englischer Sprache enthalten.  
Da die englischen Spalten redundant sind, werden sie entfernt.  
Zusätzlich werden alle vollständig leeren Spalten aus den Daten gelöscht.


In [12]:
def clean_df(dataframe, name):
    print(f"\n--- Bereinigung für {name} ---")

    # 1. Englische Spalten entfernen (beginnen mit 'en_')
    df_cleaned = df.drop(columns=[col for col in df.columns if col.startswith('en_')])

    # 2. Vollständig leerer Spalten
    empty_cols = df_cleaned.columns[df_cleaned.isnull().all()].tolist()
    print(f"Leere Spalten in {name}: {empty_cols}")

    # 3. Entfernen ovn leeren Spalten
    df_cleaned.drop(columns=empty_cols, inplace=True)

    # 4. Shape (Rows, Cols) nach Bereinigung
    print(f"Nach Bereinigung der englischen und leeren Spalten - {name}:")
    print(f"{name} shape:", df_cleaned.shape)

    # 5. Speichern der bereinigten DataFrames
    file_name = name + "_corr.csv"
    df_cleaned.to_csv(f'data/corr/{file_name}', index=False, sep=';')
    print(f"Bereinigte Datei für {name} gespeichert als {file_name}")

dataframes = read_dfs(file_path="data/corr")
for name, df in dataframes.items():
    clean_df(df, name)


--- Bereinigung für OGD_gesausgaben01_HVD_HCHF_1_corr ---
Leere Spalten in OGD_gesausgaben01_HVD_HCHF_1_corr: []
Nach Bereinigung der englischen und leeren Spalten - OGD_gesausgaben01_HVD_HCHF_1_corr:
OGD_gesausgaben01_HVD_HCHF_1_corr shape: (729, 16)
Bereinigte Datei für OGD_gesausgaben01_HVD_HCHF_1_corr gespeichert als OGD_gesausgaben01_HVD_HCHF_1_corr_corr.csv


### Ersetzung von Codes durch Namen

Nach der ersten Datenbereinigung werden die Codes in den Spalten `C-ZEITGES-0` und `C-HCGES-0`  
durch verständliche Namen ersetzt. Dies geschieht mit den Mapping-Tabellen aus den  
Header- und Gesundheitsleistungsdateien.

Bevor das getan werden kann, mappen wir die Oberkategorien in der HCGES Datei auf die Unterkategorien. 

Nach der Ersetzung speichern wir die aktualisierten Daten für die weitere Verarbeitung. Außerdem löschen wir die unnötigen Files.


In [13]:
df_main_corr = pd.read_csv('data/corr/OGD_gesausgaben01_HVD_HCHF_1_corr.csv', delimiter=';')
df_hc_corr = pd.read_csv('data/corr/OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0_corr.csv', delimiter=';')
df_time_corr = pd.read_csv('data/corr/OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0_corr.csv', delimiter=';')
df_header_corr = pd.read_csv('data/corr/OGD_gesausgaben01_HVD_HCHF_1_HEADER_corr.csv', delimiter=';')

# --- 1. Mapping für 'C-HCGES-0' mit df_hc_corr ---
hc_mapping = df_hc_corr.set_index('code')['name'].to_dict()
df_main_corr['C-HCGES-0'] = df_main_corr['C-HCGES-0'].apply(lambda x: hc_mapping.get(x, x))

# --- 2. Mapping für 'C-ZEITGES-0' mit df_time_corr ---
time_mapping = df_time_corr.set_index('code')['name'].to_dict()
df_main_corr['C-ZEITGES-0'] = df_main_corr['C-ZEITGES-0'].apply(lambda x: time_mapping.get(x, x))

# --- 3. Mapping der Spaltennamen mit df_header_corr ---
header_mapping = df_header_corr.set_index('code')['name'].to_dict()
df_main_corr.rename(columns=header_mapping, inplace=True)

df_main_corr.to_csv('data/corr/OGD_gesausgaben01_HVD_HCHF_1_corr.csv', index=False, sep=';')

# Löschen der nicht mehr benötigten Dateien
os.remove('data/corr/OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0_corr.csv')
os.remove('data/corr/OGD_gesausgaben01_HVD_HCHF_1_C-ZEITGES-0_corr.csv')
os.remove('data/corr/OGD_gesausgaben01_HVD_HCHF_1_HEADER_corr.csv')

FileNotFoundError: [Errno 2] No such file or directory: 'data/corr/OGD_gesausgaben01_HVD_HCHF_1_C-HCGES-0_corr.csv'

### Datenvorbereitung und Speicherung

Nach der Vorverarbeitung der Daten werden die bereinigten Daten in verschiedene Kategorien unterteilt und separat gespeichert.  

##### 1. Numerische Werte  
- Enthält alle Spalten mit numerischen Daten (z. B. `int64`, `float64`).  
- Diese Daten werden extrahiert und in einer separaten Datei gespeichert.  
- **Dateiname:** `num.csv`  

##### 2. Nominale Werte  
- Enthält alle kategorialen und textbasierten Daten (z. B. `category`, `object`).  
- Diese Werte werden extrahiert und separat gespeichert.  
- **Dateiname:** `nom.csv`  

##### 3. Normalisierte Werte  
- Für eine bessere Vergleichbarkeit und Skalierung werden die numerischen Daten normalisiert.  
- Die Min-Max-Normalisierung wird verwendet, um die Werte in den Bereich von 0 bis 1 zu bringen.  
- **Dateiname:** `norm.csv`


In [None]:
# Numerische Werte extrahieren
df_main_corr.info()
df_numeric = df_main_corr.select_dtypes(include=['int64', 'float64'])
df_numeric.to_csv('data/prep/num.csv', index=False, sep=';')

# Nominale Werte extrahieren (kategorische und objektbasierte Spalten)
df_nominal = df_main_corr.select_dtypes(include=['category', 'object'])
df_nominal.to_csv('data/prep/nom.csv', index=False, sep=';')

# Normalisierung der numerischen Werte (Min-Max-Normalisierung)
df_normalized = (df_numeric - df_numeric.min()) / (df_numeric.max() - df_numeric.min())
df_normalized.to_csv('data/prep/norm.csv', index=False, sep=';')