In [20]:
import pandas as pd
import seaborn as sns

In [21]:
# CSV-Datei einlesen
df = pd.read_csv(
    "../data/origin/gebaeudeZuerich.csv",
    delimiter=",",
    quotechar='"',
    encoding="utf-8"
)

In [22]:
# Überblick über Struktur
print("Datentypen:")
print(df.dtypes)

print("\nNullwerte pro Spalte:")
print(df.isnull().sum().sort_values(ascending=False))

print("\nForm:", df.shape)

print("\nErste 5 Zeilen:")
print(df.head())

print("\nEindeutige Werte pro Spalte:")
print(df.nunique().sort_values(ascending=False))

print("\nSpalten mit nur einem Wert:")
print(df.columns[df.nunique() <= 1])

# Doppelte Zeilen prüfen
print("\nDoppelte Zeilen:", df.duplicated().sum())


Datentypen:
StichtagDatJahr           int64
DatenstandCd             object
QuarSort                  int64
QuarCd                    int64
QuarLang                 object
KreisSort                 int64
KreisCd                   int64
KreisLang                object
GbdArtLevel1Sort          int64
GbdArtLevel1Cd          float64
GbdArtLevel1Lang         object
GbdArtLevel2Sort          int64
GbdArtLevel2Cd            int64
GbdArtLevel2Lang         object
GbdArtLevel3Sort          int64
GbdArtLevel3Cd            int64
GbdArtLevel3Lang         object
GbdArtLevel4Sort          int64
GbdArtLevel4Cd            int64
GbdArtLevel4Lang         object
GbdArtSSZPubl1Sort        int64
GbdArtSSZPubl1Cd          int64
GbdArtSSZPubl1Lang       object
GbdArtSSZPubl2Sort        int64
GbdArtSSZPubl2Cd          int64
GbdArtSSZPubl2Lang       object
GbdArtSSZPubl3Sort        int64
GbdArtSSZPubl3Cd          int64
GbdArtSSZPubl3Lang       object
BauperiodeLevel1Cd        int64
BauperiodeLevel1Lang     obj

In [23]:
# Nur gewünschte Spalten behalten
df_reduced = df[[
    "StichtagDatJahr",
    "KreisCd",
    "GbdArtLevel1Lang",
    "GbdArtLevel2Lang",
    "GbdArtLevel3Lang",
    "GbdArtLevel4Lang",
    "BauperiodeLevel1Lang",
    "AnzGbd",
    "GbdFlaecheAufN",
    "GbdRauminhalt"
]]

# Übersicht der neuen Struktur
print(df_reduced.head(20))
print("\nNeue Form:", df_reduced.shape)


    StichtagDatJahr  KreisCd  \
0              2008        1   
1              2008        1   
2              2008        1   
3              2008        1   
4              2008        1   
5              2008        1   
6              2008        1   
7              2008        1   
8              2008        1   
9              2008        1   
10             2008        1   
11             2008        1   
12             2008        1   
13             2008        1   
14             2008        1   
15             2008        1   
16             2008        1   
17             2008        1   
18             2008        1   
19             2008        1   

                                     GbdArtLevel1Lang  \
0     Einfamilienhaus freistehend ohne Geschäftsräume   
1        Einfamilienhaus angebaut ohne Geschäftsräume   
2        Einfamilienhaus angebaut ohne Geschäftsräume   
3         Gebäude mit 2 Wohnungen ohne Geschäftsräume   
4         Gebäude mit 2 Wohnungen ohne Ges

In [24]:
# Alle einzigartigen Werte in der Spalte 'GbdArtLevel1Lang' anzeigen
unique_entries = df["GbdArtLevel1Lang"].unique()

# Ausgabe
print(unique_entries)


['Einfamilienhaus freistehend ohne Geschäftsräume'
 'Einfamilienhaus angebaut ohne Geschäftsräume'
 'Gebäude mit 2 Wohnungen ohne Geschäftsräume'
 'Gebäude mit mehr als 2 Wohnungen ohne Geschäftsräume'
 'Gebäude mit mehr als 2 Wohnungen mit Geschäftsräumen'
 'Wohngebäude für Gemeinschaften' 'Alterswohnhaus-/heim' 'Hotel'
 'Restaurant in Wohngebäude'
 'Andere Gebäude für kurzfristige Beherbergung' 'Geschäftshaus'
 'Bürogebäude' 'Gross- und Einzelhandelsgebäude'
 'Garagen (1-9 Parkplätze)' 'Garagen (mehr als 9 Parkplätze)'
 'Industriegebäude' 'Werkstattgebäude' 'Übriges Gebäude für Industrie'
 'Lager, Silo' 'Theater-, Konzert- und Kinogebäude'
 'Versammlungsgebäude, Mehrzweckhalle' 'Museen und Bibliotheken'
 'Schulhaus' 'Hort, Kindergarten' 'Hochschulgebäude'
 'Kranken- und Pflegeheime' 'Übriges Gebäude für Sport'
 'Landwirtschafts-, Gärtnerei- und Oekonomiegebäude'
 'Kirche, Moschee, Synagoge' 'Übriges Kultusgebäude'
 'Militär-, Luftschutz-, Polizei- und Feuerwehrgebäude'
 'Übrige Klein

In [25]:
# Nur noch einträge mit Wohngebäude
df_filtered = df_reduced[
    (df_reduced["GbdArtLevel1Lang"] == "Einfamilienhaus freistehend ohne Geschäftsräume") |
    (df_reduced["GbdArtLevel1Lang"] == "Einfamilienhaus angebaut ohne Geschäftsräume")
]

# Optional: Reset des Index (nicht zwingend nötig, aber manchmal praktischer)
df_filtered = df_filtered.reset_index(drop=True)

# Ausgabe prüfen
print(df_filtered.head())
print("\nNeue Form:", df_filtered.shape)


   StichtagDatJahr  KreisCd                                 GbdArtLevel1Lang  \
0             2008        1  Einfamilienhaus freistehend ohne Geschäftsräume   
1             2008        1     Einfamilienhaus angebaut ohne Geschäftsräume   
2             2008        1     Einfamilienhaus angebaut ohne Geschäftsräume   
3             2008        1  Einfamilienhaus freistehend ohne Geschäftsräume   
4             2008        1     Einfamilienhaus angebaut ohne Geschäftsräume   

            GbdArtLevel2Lang           GbdArtLevel3Lang GbdArtLevel4Lang  \
0  Gebäude mit einer Wohnung  Gebäude mit einer Wohnung      Wohngebäude   
1  Gebäude mit einer Wohnung  Gebäude mit einer Wohnung      Wohngebäude   
2  Gebäude mit einer Wohnung  Gebäude mit einer Wohnung      Wohngebäude   
3  Gebäude mit einer Wohnung  Gebäude mit einer Wohnung      Wohngebäude   
4  Gebäude mit einer Wohnung  Gebäude mit einer Wohnung      Wohngebäude   

  BauperiodeLevel1Lang  AnzGbd  GbdFlaecheAufN  GbdRauminhalt 

In [26]:
# Nur gewünschte Spalten behalten
df_reduced2 = df[[
    "StichtagDatJahr",
    "KreisCd",
    "BauperiodeLevel1Lang",
    "AnzGbd",
    "GbdFlaecheAufN",
]]

# Übersicht der neuen Struktur
print(df_reduced2.head(20))
print("\nNeue Form:", df_reduced2.shape)

    StichtagDatJahr  KreisCd BauperiodeLevel1Lang  AnzGbd  GbdFlaecheAufN
0              2008        1             Vor 1893       1              53
1              2008        1             Vor 1893      16            1285
2              2008        1          1980 - 1989       4             257
3              2008        1             Vor 1893      10            1259
4              2008        1          1930 - 1939       1             247
5              2008        1          1970 - 1979       1             100
6              2008        1             Vor 1893      26            2905
7              2008        1          1950 - 1959       2             337
8              2008        1          1960 - 1969       2             435
9              2008        1          1980 - 1989       1             210
10             2008        1          1990 - 1999       1             123
11             2008        1             Vor 1893     322           48550
12             2008        1          

In [27]:
# Gruppieren nach allen Spalten außer 'AnzGbd' und dann 'AnzGbd' aufsummieren
df_aggregated = (
    df_reduced2
    .groupby(["StichtagDatJahr", "KreisCd", "BauperiodeLevel1Lang"], as_index=False)
    .agg({"AnzGbd": "sum", "GbdFlaecheAufN": "sum"})
)

# Ausgabe
print(df_aggregated.head())
print("\nNeue Form:", df_aggregated.shape)


   StichtagDatJahr  KreisCd BauperiodeLevel1Lang  AnzGbd  GbdFlaecheAufN
0             2008        1          1893 - 1899      47           20235
1             2008        1          1900 - 1909      40           19420
2             2008        1          1910 - 1919      53           54396
3             2008        1          1920 - 1929      29           20603
4             2008        1          1930 - 1939      57           29005

Neue Form: (2891, 5)


In [28]:
# Funktion zur Qualitätsprüfung eines DataFrames
def check_data_quality(df_reduced2, name="DataFrame"):
    print(f"📋 Qualitätsprüfung für {name}\n")

    # Datentypen
    print("1. Datentypen:")
    print(df_reduced2.dtypes)

    # Nullwerte
    print("\n2. Nullwerte pro Spalte:")
    print(df_reduced2.isnull().sum().sort_values(ascending=False))

    # Form
    print("\n3. Form (Zeilen, Spalten):", df_reduced2.shape)

    # Eindeutige Werte
    print("\n4. Eindeutige Werte pro Spalte:")
    print(df_reduced2.nunique().sort_values(ascending=False))

    # Doppelte Zeilen
    print("\n5. Anzahl doppelter Zeilen:", df_reduced2.duplicated().sum())

    # Vorschau
    print("\n6. Erste 5 Zeilen:")
    print(df_reduced2.head())

    print("\n" + "-"*60 + "\n")

# Qualitätsprüfung für df_aggregated
check_data_quality(df_reduced2, "df_reduced2)")


📋 Qualitätsprüfung für df_reduced2)

1. Datentypen:
StichtagDatJahr          int64
KreisCd                  int64
BauperiodeLevel1Lang    object
AnzGbd                   int64
GbdFlaecheAufN           int64
dtype: object

2. Nullwerte pro Spalte:
StichtagDatJahr         0
KreisCd                 0
BauperiodeLevel1Lang    0
AnzGbd                  0
GbdFlaecheAufN          0
dtype: int64

3. Form (Zeilen, Spalten): (107591, 5)

4. Eindeutige Werte pro Spalte:
GbdFlaecheAufN          7666
AnzGbd                   307
StichtagDatJahr           17
BauperiodeLevel1Lang      15
KreisCd                   12
dtype: int64

5. Anzahl doppelter Zeilen: 3265

6. Erste 5 Zeilen:
   StichtagDatJahr  KreisCd BauperiodeLevel1Lang  AnzGbd  GbdFlaecheAufN
0             2008        1             Vor 1893       1              53
1             2008        1             Vor 1893      16            1285
2             2008        1          1980 - 1989       4             257
3             2008        1      

In [29]:
# Aggregierten vollständigen DataFrame speichern
df_reduced2.to_csv(
    "../data/Cleaned/gebauedeZuerichCleaned.csv",
    index=False,
    encoding="utf-8"
)

print("Datei wurde erfolgreich gespeichert!")

Datei wurde erfolgreich gespeichert!


In [30]:

# Filtere nur die Jahre 2023 und 2024
df_filtered_years = df_reduced2[df_reduced2["StichtagDatJahr"].isin([2021, 2022, 2023, 2024])]

# Gruppiere nach Jahr und summiere die Anzahl Gebäude
yearly_summary = (
    df_filtered_years
    .groupby("StichtagDatJahr", as_index=False)
    .agg({"AnzGbd": "sum"})
)

# Ausgabe
print(yearly_summary)

   StichtagDatJahr  AnzGbd
0             2021   54415
1             2022   54413
2             2023   54378
3             2024   54487


In [31]:
# Nur 2024 filtern und Spalte entfernen
df_2024 = df_reduced2[df_reduced2["StichtagDatJahr"] == 2024].drop(columns=["StichtagDatJahr"])

# Ausgabe zur Kontrolle
print(df_2024.head())
print("\nNeue Form:", df_2024.shape)


        KreisCd BauperiodeLevel1Lang  AnzGbd  GbdFlaecheAufN
100769        1             Vor 1893       1              53
100770        1          1930 - 1939       1             247
100771        1             Vor 1893      23            1931
100772        1          1970 - 1979       1             100
100773        1          1980 - 1989       4             257

Neue Form: (6822, 4)


In [32]:
# DataFrame speichern
df_2024.to_csv(
    "../data/Cleaned/gebauedeZuerich2024Cleaned.csv",
    index=False,
    encoding="utf-8"
)

print("Datei wurde erfolgreich gespeichert!")

Datei wurde erfolgreich gespeichert!
