In [15]:
import pandas as pd
import seaborn as sns

In [16]:
# CSV-Datei einlesen
df = pd.read_csv(
    "../data/origin/einkommenZuerich.csv",
    delimiter=",",
    quotechar='"',
    encoding="utf-8"
)

In [17]:
# Überblick über Struktur
print("Datentypen:")
print(df.dtypes)

print("\nNullwerte pro Spalte:")
print(df.isnull().sum().sort_values(ascending=False))

print("\nForm:", df.shape)

print("\nErste 5 Zeilen:")
print(df.head())

print("\nEindeutige Werte pro Spalte:")
print(df.nunique().sort_values(ascending=False))

print("\nSpalten mit nur einem Wert:")
print(df.columns[df.nunique() <= 1])

# Doppelte Zeilen prüfen
print("\nDoppelte Zeilen:", df.duplicated().sum())


Datentypen:
StichtagDatJahr          int64
KreisSort                int64
KreisCd                  int64
KreisLang               object
SteuerTarifSort          int64
SteuerTarifCd            int64
SteuerTarifLang         object
SteuerEinkommen_p50    float64
SteuerEinkommen_p25    float64
SteuerEinkommen_p75    float64
dtype: object

Nullwerte pro Spalte:
StichtagDatJahr        0
KreisSort              0
KreisCd                0
KreisLang              0
SteuerTarifSort        0
SteuerTarifCd          0
SteuerTarifLang        0
SteuerEinkommen_p50    0
SteuerEinkommen_p25    0
SteuerEinkommen_p75    0
dtype: int64

Form: (864, 10)

Erste 5 Zeilen:
   StichtagDatJahr  KreisSort  KreisCd KreisLang  SteuerTarifSort  \
0             1999          1        1   Kreis 1                0   
1             1999          1        1   Kreis 1                1   
2             1999          1        1   Kreis 1                2   
3             1999          2        2   Kreis 2                0   

In [18]:
# Nur gewünschte Spalten behalten
df_reduced = df[[
    "StichtagDatJahr",
    "KreisCd",
    "SteuerTarifCd", #0=Grundtarif, 1=Verheiratetentarif
    "SteuerEinkommen_p50",
    "SteuerEinkommen_p25",
    "SteuerEinkommen_p75"
]]

# Übersicht der neuen Struktur
print(df_reduced.head())
print("\nNeue Form:", df_reduced.shape)


   StichtagDatJahr  KreisCd  SteuerTarifCd  SteuerEinkommen_p50  \
0             1999        1              0                 38.1   
1             1999        1              1                 83.5   
2             1999        1              2                 48.6   
3             1999        2              0                 38.0   
4             1999        2              1                 69.8   

   SteuerEinkommen_p25  SteuerEinkommen_p75  
0                17.40                65.50  
1                52.00               131.70  
2                26.65                87.35  
3                20.00                58.40  
4                49.10               101.50  

Neue Form: (864, 6)


In [19]:
# Funktion zur Qualitätsprüfung eines DataFrames
def check_data_quality(df_reduced, name="DataFrame"):
    print(f"📋 Qualitätsprüfung für {name}\n")

    # Datentypen
    print("1. Datentypen:")
    print(df_reduced.dtypes)

    # Nullwerte
    print("\n2. Nullwerte pro Spalte:")
    print(df_reduced.isnull().sum().sort_values(ascending=False))

    # Form
    print("\n3. Form (Zeilen, Spalten):", df_reduced.shape)

    # Eindeutige Werte
    print("\n4. Eindeutige Werte pro Spalte:")
    print(df_reduced.nunique().sort_values(ascending=False))

    # Doppelte Zeilen
    print("\n5. Anzahl doppelter Zeilen:", df_reduced.duplicated().sum())

    # Vorschau
    print("\n6. Erste 5 Zeilen:")
    print(df_reduced.head())

    print("\n" + "-"*60 + "\n")

# Qualitätsprüfung für df_aggregated
check_data_quality(df_reduced, "df_reduced)")


📋 Qualitätsprüfung für df_reduced)

1. Datentypen:
StichtagDatJahr          int64
KreisCd                  int64
SteuerTarifCd            int64
SteuerEinkommen_p50    float64
SteuerEinkommen_p25    float64
SteuerEinkommen_p75    float64
dtype: object

2. Nullwerte pro Spalte:
StichtagDatJahr        0
KreisCd                0
SteuerTarifCd          0
SteuerEinkommen_p50    0
SteuerEinkommen_p25    0
SteuerEinkommen_p75    0
dtype: int64

3. Form (Zeilen, Spalten): (864, 6)

4. Eindeutige Werte pro Spalte:
SteuerEinkommen_p75    610
SteuerEinkommen_p50    546
SteuerEinkommen_p25    438
StichtagDatJahr         24
KreisCd                 12
SteuerTarifCd            3
dtype: int64

5. Anzahl doppelter Zeilen: 0

6. Erste 5 Zeilen:
   StichtagDatJahr  KreisCd  SteuerTarifCd  SteuerEinkommen_p50  \
0             1999        1              0                 38.1   
1             1999        1              1                 83.5   
2             1999        1              2                 48.6

In [20]:
# Aggregierten vollständigen DataFrame speichern
df_reduced.to_csv(
    "../data/Cleaned/einkommenZuerichCleaned.csv",
    index=False,
    encoding="utf-8"
)

print("Datei wurde erfolgreich gespeichert!")

Datei wurde erfolgreich gespeichert!
