In [8]:
import pandas as pd
import seaborn as sns

In [9]:
# CSV-Datei einlesen
df = pd.read_csv(
    "../data/origin/bevoelkerungZuerich.csv",
    delimiter=",",
    quotechar='"',
    encoding="utf-8"
)

In [10]:
# Überblick über Struktur
print("Datentypen:")
print(df.dtypes)

print("\nNullwerte pro Spalte:")
print(df.isnull().sum().sort_values(ascending=False))

print("\nForm:", df.shape)

print("\nErste 5 Zeilen:")
print(df.head())

print("\nEindeutige Werte pro Spalte:")
print(df.nunique().sort_values(ascending=False))

print("\nSpalten mit nur einem Wert:")
print(df.columns[df.nunique() <= 1])

# Doppelte Zeilen prüfen
print("\nDoppelte Zeilen:", df.duplicated().sum())

# Werteüberblick über Alter und Geschlecht
if "Alter" in df.columns and "Geschlecht" in df.columns:
    print("\nAltersverteilung:")
    print(df["Alter"].value_counts().sort_index())

    print("\n👥 Geschlechterverteilung:")
    print(df["Geschlecht"].value_counts())

Datentypen:
StichtagDatJahr     int64
AlterVSort          int64
AlterVCd            int64
AlterV05Sort        int64
AlterV05Cd          int64
AlterV05Kurz       object
AlterV10Cd          int64
AlterV10Kurz       object
AlterV20Cd          int64
AlterV20Kurz       object
SexCd               int64
SexLang            object
SexKurz            object
KreisCd             int64
KreisLang          object
QuarSort            int64
QuarCd              int64
QuarLang           object
HerkunftSort        int64
HerkunftCd          int64
HerkunftLang       object
AnzBestWir          int64
dtype: object

Nullwerte pro Spalte:
StichtagDatJahr    0
AlterVSort         0
HerkunftLang       0
HerkunftCd         0
HerkunftSort       0
QuarLang           0
QuarCd             0
QuarSort           0
KreisLang          0
KreisCd            0
SexKurz            0
SexLang            0
SexCd              0
AlterV20Kurz       0
AlterV20Cd         0
AlterV10Kurz       0
AlterV10Cd         0
AlterV05Kurz       0
A

In [11]:
# Nur gewünschte Spalten behalten
df_reduced = df[[
    "StichtagDatJahr",
    "AlterV05Kurz",
    "KreisCd",
    "SexKurz",
    "QuarLang",
    "HerkunftCd",
    "AnzBestWir"
]]

# Übersicht der neuen Struktur
print(df_reduced.head())
print("\nNeue Form:", df_reduced.shape)


   StichtagDatJahr AlterV05Kurz  KreisCd SexKurz     QuarLang  HerkunftCd  \
0             1993          0-4        1       M      Rathaus           1   
1             1993          0-4        1       W      Rathaus           1   
2             1993          0-4        1       M      Rathaus           2   
3             1993          0-4        1       W      Rathaus           2   
4             1993          0-4        1       M  Hochschulen           1   

   AnzBestWir  
0          11  
1           8  
2           1  
3           6  
4           1  

Neue Form: (395968, 7)


In [12]:
# Anzahl Zeilen vor der Aggregation
print("Anzahl Zeilen vor Aggregation:", len(df_reduced))

# Aggregation durchführen
df_aggregated = df_reduced.groupby(
    ["StichtagDatJahr", "AlterV05Kurz", "KreisCd", "SexKurz", "HerkunftCd"],
    as_index=False
).agg({
    "AnzBestWir": "sum"
})

# Spalten sinnvoll auf Englisch umbenennen
df_aggregated.rename(columns={
    "StichtagDatJahr": "Year",
    "AlterV05Kurz": "AgeGroup",
    "KreisCd": "Kreis",
    "SexKurz": "Sex",
    "HerkunftCd": "Origin",
    "AnzBestWir": "PopulationCount"
}, inplace=True)

# Anzahl Zeilen nach der Aggregation
print("Anzahl Zeilen nach Aggregation:", len(df_aggregated))

# Überblick über die neuen Daten
print("\nErste Zeilen nach Aggregation:")
print(df_aggregated.head())


Anzahl Zeilen vor Aggregation: 395968
Anzahl Zeilen nach Aggregation: 31025

Erste Zeilen nach Aggregation:
   Year AgeGroup  Kreis Sex  Origin  PopulationCount
0  1993      0-4      1   M       1               66
1  1993      0-4      1   M       2               13
2  1993      0-4      1   W       1               54
3  1993      0-4      1   W       2               19
4  1993      0-4      2   M       1              478


## 🔄 Aggregation und Umbenennung der Spalten

Die Datensätze wurden aggregiert, indem gleiche Kombinationen von Jahr, Altersgruppe, Kreis, Geschlecht und Herkunft zusammengefasst und die Anzahl Personen summiert wurde.

Anschliessend wurden die Spalten auf sinnvolle englische Begriffe umbenannt (`Year`, `AgeGroup`, `Kreis`, `Sex`, `Origin`, `PopulationCount`), um die Datenstruktur klarer und international verständlich zu machen.


In [13]:
# Funktion zur Qualitätsprüfung eines DataFrames
def check_data_quality(df_aggregated, name="DataFrame"):
    print(f"📋 Qualitätsprüfung für {name}\n")

    # Datentypen
    print("1. Datentypen:")
    print(df_aggregated.dtypes)

    # Nullwerte
    print("\n2. Nullwerte pro Spalte:")
    print(df_aggregated.isnull().sum().sort_values(ascending=False))

    # Form
    print("\n3. Form (Zeilen, Spalten):", df_aggregated.shape)

    # Eindeutige Werte
    print("\n4. Eindeutige Werte pro Spalte:")
    print(df_aggregated.nunique().sort_values(ascending=False))

    # Doppelte Zeilen
    print("\n5. Anzahl doppelter Zeilen:", df_aggregated.duplicated().sum())

    # Vorschau
    print("\n6. Erste 5 Zeilen:")
    print(df_aggregated.head())

    print("\n" + "-"*60 + "\n")

# Qualitätsprüfung für df_aggregated
check_data_quality(df_aggregated, "df_aggregated (alle Altersgruppen)")


📋 Qualitätsprüfung für df_aggregated (alle Altersgruppen)

1. Datentypen:
Year                int64
AgeGroup           object
Kreis               int64
Sex                object
Origin              int64
PopulationCount     int64
dtype: object

2. Nullwerte pro Spalte:
Year               0
AgeGroup           0
Kreis              0
Sex                0
Origin             0
PopulationCount    0
dtype: int64

3. Form (Zeilen, Spalten): (31025, 6)

4. Eindeutige Werte pro Spalte:
PopulationCount    1836
Year                 32
AgeGroup             21
Kreis                12
Sex                   2
Origin                2
dtype: int64

5. Anzahl doppelter Zeilen: 0

6. Erste 5 Zeilen:
   Year AgeGroup  Kreis Sex  Origin  PopulationCount
0  1993      0-4      1   M       1               66
1  1993      0-4      1   M       2               13
2  1993      0-4      1   W       1               54
3  1993      0-4      1   W       2               19
4  1993      0-4      2   M       1           

## Interpretation und Vorgehen

Nach der Spaltenreduktion wurde der Datensatz sinnvoll aggregiert: Alle Zeilen mit identischen Kombinationen von Jahr, Altersgruppe, Kreis, Geschlecht und Herkunft wurden zusammengefasst und die Anzahl Personen (`AnzBestWir`) summiert.

Zusätzlich wurde ein separater Datensatz `df_65plus` erstellt, der nur Personen ab 65 Jahren enthält.

### Qualitätsprüfung `df_aggregated`:
- **Keine Nullwerte**, **keine Duplikate**, saubere Datentypen.
- **31'025 Zeilen**, deckt alle Altersgruppen ab.
- Daten sind vollständig und bereit für Analysen.

### Qualitätsprüfung `df_65plus`:
- **Keine Nullwerte**, **keine Duplikate**, korrekte Filterung.
- **10'379 Zeilen**, nur Altersgruppen ab 65 Jahren.
- Optimal für spezifische Analysen der älteren Bevölkerung.

In [14]:
# Aggregierten vollständigen DataFrame speichern
df_aggregated.to_csv(
    "../data/Cleaned/bevoelkerungZuerichCleaned.csv",
    index=False,
    encoding="utf-8"
)

print("Datei wurde erfolgreich gespeichert!")

Datei wurde erfolgreich gespeichert!
