In [1]:
#Fixe WC's
import geopandas as gpd

# Datei laden
wcFix = gpd.read_file("/Users/dominiqueulrich/PycharmProjects/EGM_2025/data/Rohdaten/zueri_wc_geojson/data/stzh.poi_zueriwc_view.json")

# Datentypen prüfen
print("Datentypen:")
print(wcFix.dtypes)

# Nullwerte zählen
print("\nNullwerte pro Spalte:")
print(wcFix.isnull().sum().sort_values(ascending=False))

# Shape & Vorschau
print("\n Form:", wcFix.shape)
print("\n Erste 5 Zeilen:")
print(wcFix.head())

# Anzahl eindeutiger Werte je Spalte
print("\n Eindeutige Werte pro Spalte:")
print(wcFix.nunique().sort_values(ascending=False))

# Duplikate prüfen
print("\n️ Doppelte Zeilen:", wcFix.duplicated().sum())
print(" Doppelte Geometrien:", wcFix.geometry.duplicated().sum())

# Spalten mit nur einem Wert?
print("\n Spalten mit nur einem Wert:")
print(wcFix.columns[wcFix.nunique() <= 1])

# Beispiel: Welche wcFix-Typen gibt es?
print("\n Typenübersicht:")
print(wcFix["typ"].value_counts())


Datentypen:
adr_inter                        object
adresse                          object
adrzus_int                       object
behindertenparkplatz             object
bemerkung                        object
ccmail                           object
da                               object
datum                            object
datum_cms                        object
dep                              object
editor                           object
erforderlichedokumente           object
fax                              object
hausnummer                       object
hindernisfreiheit                object
infrastruktur                    object
isbetriebsferien_gebaeude        object
isbetriebsferien_schalter        object
kategorie                        object
mail                             object
name                             object
namenzus                         object
objectid                         object
oeffnungszeiten_gebaeude_di      object
oeffnungszeiten_gebaeude_do 

### 📝 Datenprüfung: Fixe öffentliche Toiletten Zürich (ZüriWC)

Die erste Prüfung des Datensatzes zeigt, dass 25 öffentliche Toilettenstandorte in der Stadt Zürich erfasst wurden. Insgesamt sind 59 Attribute pro Eintrag vorhanden.

**Datenstruktur:**
- Alle Einträge enthalten gültige Geometrien (Punktdaten).
- Die Daten liegen überwiegend im `object`-Format vor, einschliesslich einiger Spalten, die potenziell als kategorisch oder numerisch sinnvoll wären (z.B. `kreis`, `gebuehren`).

**Nullwerte:**
- Mehrere Spalten enthalten fast ausschliesslich fehlende Werte, darunter `adr_inter`, `adrzus_int`, `datum_cms`, `fax`, `tel2` u.a.
- Diese Felder erscheinen redundant oder irrelevant für unsere Analyse und können entfernt werden.

**Spalten mit nur einem (oder keinem) eindeutigen Wert:**
- 37 Spalten zeigen nur eine Ausprägung oder sind komplett leer.
- Diese Felder tragen keine differenzierende Information bei und können für eine reduzierte, analytische Version des Datensatzes ausgeschlossen werden.

**Duplikate:**
- Es existieren keine doppelten Zeilen oder Geometrien → gute Datenqualität hinsichtlich Eindeutigkeit.

**Erste Einblicke:**
- Es existieren nur zwei Typen von Toiletten: `nicht rollstuhlgängig` (21x) und `Pissoir` (4x).
- Alle Einträge sind auf 10 verschiedene Stadt-Kreise (`kreis`) verteilt.
- Das Attribut `gebuehren` weist fünf verschiedene Textvarianten auf (z.B. „Gebührenfrei“, „Gebührenfrei.“) → Vereinheitlichung notwendig.

**Fazit:**
Für die weitere Analyse empfiehlt sich eine Reduktion des Datensatzes auf relevante Spalten wie Name, Typ, Gebühren, Öffnungszeiten, Standort (Koordinaten & Adresse) und Kreis. Optional kann durch den Import weiterer Dateien (z.B. `mobil_view.json`) eine Erweiterung auf mobile oder temporäre Toilettenstandorte erfolgen.


In [2]:
# Relevante Spalten auswählen
wcFix_reduced = wcFix[[
    "poi_id",
    "name",
    "typ",
    "kreis",
    "adresse",
    "geometry"
]].copy()

# Überblick über die reduzierte Version
print("Neue Form:", wcFix_reduced.shape)
print("\nErste 5 Zeilen:")
print(wcFix_reduced.head())


Neue Form: (25, 6)

Erste 5 Zeilen:
  poi_id                                       name                    typ  \
0  wc030        Kollerwiese (nicht rollstuhlgängig)  nicht rollstuhlgängig   
1  wc034      Wasserschöpfi (nicht rollstuhlgängig)  nicht rollstuhlgängig   
2  wc041                   Militärstrasse (Pissoir)                Pissoir   
3  wc018  Hafen Wollishofen (nicht rollstuhlgängig)  nicht rollstuhlgängig   
4  wc045                  Zeughausstrasse (Pissoir)                Pissoir   

   kreis                 adresse                  geometry  
0      3         Schlossgasse 21   POINT (8.51911 47.3686)  
1      3  Friesenbergstrasse 130   POINT (8.5084 47.36506)  
2      4       Militärstrasse 45  POINT (8.53152 47.37742)  
3      2         Seestrasse 495b  POINT (8.53959 47.33806)  
4      4      Zeughausstrasse 56  POINT (8.52974 47.37624)  


In [3]:
#Mobile WC's
import geopandas as gpd

# Datei laden
wcMobil = gpd.read_file("/Users/dominiqueulrich/PycharmProjects/EGM_2025/data/Rohdaten/zueri_wc_geojson/data/stzh.poi_zueriwc_mobil_view.json")

# Datentypen prüfen
print("Datentypen:")
print(wcMobil.dtypes)

# Nullwerte zählen
print("\nNullwerte pro Spalte:")
print(wcMobil.isnull().sum().sort_values(ascending=False))

# Shape & Vorschau
print("\n Form:", wcMobil.shape)
print("\n Erste 5 Zeilen:")
print(wcMobil.head())

# Anzahl eindeutiger Werte je Spalte
print("\n Eindeutige Werte pro Spalte:")
print(wcMobil.nunique().sort_values(ascending=False))

# Duplikate prüfen
print("\n️ Doppelte Zeilen:", wcMobil.duplicated().sum())
print(" Doppelte Geometrien:", wcMobil.geometry.duplicated().sum())

# Spalten mit nur einem Wert?
print("\n Spalten mit nur einem Wert:")
print(wcMobil.columns[wcMobil.nunique() <= 1])



Datentypen:
adr_inter                        object
adresse                          object
adrzus_int                       object
behindertenparkplatz             object
bemerkung                        object
ccmail                           object
da                               object
datum                            object
datum_cms                        object
dep                              object
editor                           object
erforderlichedokumente           object
fax                              object
hausnummer                       object
hindernisfreiheit                object
infrastruktur                    object
isbetriebsferien_gebaeude        object
isbetriebsferien_schalter        object
kategorie                        object
mail                             object
name                             object
namenzus                         object
objectid                         object
oeffnungszeiten_gebaeude_di      object
oeffnungszeiten_gebaeude_do 

### 📝 Datenprüfung: Mobile WC-Anlagen Zürich (ZüriWC – mobil)

Der Datensatz enthält **20 mobile öffentliche Toilettenanlagen** in der Stadt Zürich mit **53 Attributen** pro Eintrag. Alle Einträge enthalten gültige Geometriedaten in Form von Punktobjekten.

**Datenstruktur:**
- Alle Datentypen sind als `object` klassifiziert, außer der Spalte `geometry`.
- 20 verschiedene `poi_id`, `adresse`, `zvv_label` etc. → keine Duplikate vorhanden.

**Nullwerte:**
- Mehrere Felder (z.B. `adr_inter`, `datum_cms`, `fax`, `hausnummer`) weisen durchgehend oder nahezu vollständig Nullwerte auf.
- Diese Spalten liefern keinen Mehrwert für die Analyse und können entfernt werden.

**Spalten mit nur einem (oder keinem) eindeutigen Wert:**
- 39 Spalten haben nur eine Ausprägung oder sind leer (z.B. `zahlungsmittel_telefon`, `oeffnungszeiten_schalter_*`, `suchen`).
- → Diese Spalten sind **nicht relevant** für analytische Fragestellungen.

**Duplikate:**
- Es sind **keine doppelten Zeilen oder Geometrien** vorhanden – die Datenqualität ist gut.

**Inhaltliche Auffälligkeiten:**
- Die Spalte `bemerkung` enthält teilweise hilfreiche Informationen zur saisonalen Verfügbarkeit der Anlagen (z.B. „von April bis Oktober geöffnet“) – dies kann für eine temporale Nutzungsanalyse verwendet werden.
- Die Spalten `typ` und `kreis` fehlen im mobilen Datensatz. Eine spätere Ergänzung ist sinnvoll, wenn mobile WCs ebenfalls in die Versorgungsscore-Berechnung aufgenommen werden sollen.

**Fazit:**
Für die weitere Arbeit empfiehlt sich eine Reduktion des mobilen WC-Datensatzes auf die wichtigsten Spalten: Name, Adresse, Bemerkung, Infrastruktur, Öffnungszeiten (falls relevant) und Geometrie. Optional kann die `bemerkung`-Spalte analysiert werden, um **zeitliche Verfügbarkeit** (z.B. Sommerbetrieb) herauszufiltern. Die fehlende `typ`- und `kreis`-Zuordnung sollte später ergänzt werden (z.B. per Spatial Join mit Kreis-Shapefile).



In [4]:
# Relevante Spalten auswählen
wcMobil_reduced = wcMobil[[
    "poi_id",
    "name",
    "adresse",
    "geometry",
    "bemerkung"
]].copy()

# Überblick über die reduzierte Version
print("Neue Form:", wcMobil_reduced.shape)
print("\nErste 5 Zeilen:")
print(wcMobil_reduced.head())


Neue Form: (20, 5)

Erste 5 Zeilen:
     poi_id                          name                       adresse  \
0   wcm7353          Mobiles WC Hürstholz         Mobiles WC Hürstwiese   
1   wcm7352         Mobiles WC Hohenstein         Mobiles WC Hohenstein   
2   wcm7346       Mobiles WC Kanzleiareal       Mobiles WC Kanzleiareal   
3   wcm7348  Mobiles Pissoir Piazza Cella  Mobiles Pissoir Piazza Cella   
4  wcm11626           Mobiles WC MFO-Park           Mobiles WC MFO Park   

                   geometry                                          bemerkung  
0   POINT (8.5199 47.41796)  Die mobile WC-Anlage ist jeweils von Anfang Ap...  
1  POINT (8.48758 47.36086)         Die mobile WC-Anlage ist ganzjährig offen.  
2  POINT (8.52521 47.37551)       Die mobile WC-Anlagen sind ganzjährig offen.  
3  POINT (8.52711 47.37838)                                               None  
4   POINT (8.5397 47.41228)  Die mobile WC-Anlage ist jeweils von Anfang Ap...  


In [5]:
# Nur Zeilen behalten, wo 'bemerkung' exakt "Die mobile WC-Anlage ist ganzjährig offen." enthält
wcMobil_ganzjaehrig = wcMobil_reduced[
    wcMobil_reduced["bemerkung"] == "Die mobile WC-Anlage ist ganzjährig offen."
].copy()

# Danach die Spalte 'bemerkung' entfernen
wcMobil_ganzjaehrig.drop(columns=["bemerkung"], inplace=True)

# Überblick über das Ergebnis
print("Neue Form (nur ganzjährig geöffnete mobile WC):", wcMobil_ganzjaehrig.shape)
print("\nErste 5 Zeilen:")
print(wcMobil_ganzjaehrig.head())


Neue Form (nur ganzjährig geöffnete mobile WC): (3, 4)

Erste 5 Zeilen:
     poi_id                                name  \
1   wcm7352               Mobiles WC Hohenstein   
5  wcm11632          Mobiles WC Röschibachplatz   
7   wcm7345  Mobiles WC Emilie-Lieberherr-Platz   

                              adresse                  geometry  
1               Mobiles WC Hohenstein  POINT (8.48758 47.36086)  
5          Mobiles WC Röschibachplatz   POINT (8.52863 47.3932)  
7  Mobiles WC Emilie-Lieberherr-Platz  POINT (8.53071 47.38349)  


In [6]:
import pandas as pd

# Sicherstellen, dass die mobilen WCs die gleichen Spalten haben wie die fixen
wcMobil_ganzjaehrig["typ"] = "mobil"  # Typ ergänzen
wcMobil_ganzjaehrig["kreis"] = None   # Kreis-Spalte hinzufügen und leer lassen

# Spaltenreihenfolge wie bei den fixen WCs anpassen
wcMobil_ganzjaehrig = wcMobil_ganzjaehrig[[
    "poi_id",
    "name",
    "typ",
    "kreis",
    "adresse",
    "geometry"
]]

# Fixe und mobile WCs zusammenführen
wc_gesamt = pd.concat([wcFix_reduced, wcMobil_ganzjaehrig], ignore_index=True)

# Überblick über den neuen kombinierten DataFrame
print("Form gesamter WC-Datensatz:", wc_gesamt.shape)
print("\nErste 5 Zeilen:")
print(wc_gesamt.head())


Form gesamter WC-Datensatz: (28, 6)

Erste 5 Zeilen:
  poi_id                                       name                    typ  \
0  wc030        Kollerwiese (nicht rollstuhlgängig)  nicht rollstuhlgängig   
1  wc034      Wasserschöpfi (nicht rollstuhlgängig)  nicht rollstuhlgängig   
2  wc041                   Militärstrasse (Pissoir)                Pissoir   
3  wc018  Hafen Wollishofen (nicht rollstuhlgängig)  nicht rollstuhlgängig   
4  wc045                  Zeughausstrasse (Pissoir)                Pissoir   

  kreis                 adresse                  geometry  
0     3         Schlossgasse 21   POINT (8.51911 47.3686)  
1     3  Friesenbergstrasse 130   POINT (8.5084 47.36506)  
2     4       Militärstrasse 45  POINT (8.53152 47.37742)  
3     2         Seestrasse 495b  POINT (8.53959 47.33806)  
4     4      Zeughausstrasse 56  POINT (8.52974 47.37624)  


In [7]:
# Einträge ohne Kreis anzeigen
wc_ohne_kreis = wc_gesamt[wc_gesamt["kreis"].isnull()]

# Überblick
print("Anzahl Einträge ohne Kreis:", wc_ohne_kreis.shape[0])
print(wc_ohne_kreis.head())


Anzahl Einträge ohne Kreis: 3
      poi_id                                name    typ kreis  \
25   wcm7352               Mobiles WC Hohenstein  mobil  None   
26  wcm11632          Mobiles WC Röschibachplatz  mobil  None   
27   wcm7345  Mobiles WC Emilie-Lieberherr-Platz  mobil  None   

                               adresse                  geometry  
25               Mobiles WC Hohenstein  POINT (8.48758 47.36086)  
26          Mobiles WC Röschibachplatz   POINT (8.52863 47.3932)  
27  Mobiles WC Emilie-Lieberherr-Platz  POINT (8.53071 47.38349)  


In [8]:
# gezielt Kreis ergänzen anhand der poi_id
wc_gesamt.loc[wc_gesamt["poi_id"] == "wcm7352", "kreis"] = 9
wc_gesamt.loc[wc_gesamt["poi_id"] == "wcm11632", "kreis"] = 10
wc_gesamt.loc[wc_gesamt["poi_id"] == "wcm7345", "kreis"] = 5

# Kontrolle: nur die bearbeiteten Einträge anzeigen
print(wc_gesamt[wc_gesamt["poi_id"].isin(["wcm7352", "wcm11632", "wcm7345"])])


      poi_id                                name    typ kreis  \
25   wcm7352               Mobiles WC Hohenstein  mobil     9   
26  wcm11632          Mobiles WC Röschibachplatz  mobil    10   
27   wcm7345  Mobiles WC Emilie-Lieberherr-Platz  mobil     5   

                               adresse                  geometry  
25               Mobiles WC Hohenstein  POINT (8.48758 47.36086)  
26          Mobiles WC Röschibachplatz   POINT (8.52863 47.3932)  
27  Mobiles WC Emilie-Lieberherr-Platz  POINT (8.53071 47.38349)  


In [9]:
# Funktion zur Qualitätsprüfung eines DataFrames
def check_data_quality(df, name="DataFrame"):
    print(f"📋 Qualitätsprüfung für {name}\n")

    # Datentypen
    print("1. Datentypen:")
    print(df.dtypes)

    # Nullwerte
    print("\n2. Nullwerte pro Spalte:")
    print(df.isnull().sum().sort_values(ascending=False))

    # Form
    print("\n3. Form (Zeilen, Spalten):", df.shape)

    # Eindeutige Werte
    print("\n4. Eindeutige Werte pro Spalte:")
    print(df.nunique().sort_values(ascending=False))

    # Doppelte Zeilen
    print("\n5. Anzahl doppelter Zeilen:", df.duplicated().sum())

    # Vorschau
    print("\n6. Erste 5 Zeilen:")
    print(df.head())

    print("\n" + "-"*60 + "\n")

# Qualitätsprüfung für den zusammengeführten WC-Datensatz
check_data_quality(wc_gesamt, "wc_gesamt (Fixe + Mobile WCs)")


📋 Qualitätsprüfung für wc_gesamt (Fixe + Mobile WCs)

1. Datentypen:
poi_id        object
name          object
typ           object
kreis         object
adresse       object
geometry    geometry
dtype: object

2. Nullwerte pro Spalte:
poi_id      0
name        0
typ         0
kreis       0
adresse     0
geometry    0
dtype: int64

3. Form (Zeilen, Spalten): (28, 6)

4. Eindeutige Werte pro Spalte:
poi_id      28
name        28
adresse     28
geometry    28
kreis       10
typ          3
dtype: int64

5. Anzahl doppelter Zeilen: 0

6. Erste 5 Zeilen:
  poi_id                                       name                    typ  \
0  wc030        Kollerwiese (nicht rollstuhlgängig)  nicht rollstuhlgängig   
1  wc034      Wasserschöpfi (nicht rollstuhlgängig)  nicht rollstuhlgängig   
2  wc041                   Militärstrasse (Pissoir)                Pissoir   
3  wc018  Hafen Wollishofen (nicht rollstuhlgängig)  nicht rollstuhlgängig   
4  wc045                  Zeughausstrasse (Pissoir)    

## 🧠 Interpretation der Qualitätsprüfung: `wc_gesamt` (Fixe + Mobile WCs)

Nach dem Zusammenführen der **fixen** und **mobilen** (ganzjährig geöffneten) öffentlichen WC-Standorte zeigt die abschließende Qualitätsprüfung folgendes Bild:

### 🔍 Datenstruktur:
- Alle 28 Einträge haben **vollständig ausgefüllte Werte** → **keine Nullwerte** in `poi_id`, `name`, `typ`, `kreis`, `adresse` oder `geometry`.
- Die Spaltentypen sind korrekt gesetzt:
  - Kategorische Daten (`object`) für `poi_id`, `name`, `typ`, `kreis`, `adresse`.
  - Räumliche Geodaten (`geometry`) für die Standortkoordinaten.

### 📊 Inhaltliche Prüfung:
- **28 einzigartige Standorte** (`poi_id`, `name`, `adresse`, `geometry` eindeutig).
- **10 verschiedene Kreise** sind vertreten (`kreis`).
- **3 verschiedene Typen** existieren (`typ`: `Pissoir`, `nicht rollstuhlgängig`, `mobil`).

### 🛠️ Warum dieses Vorgehen sinnvoll war:
- Durch die Vereinheitlichung der Spaltenstruktur konnten fixe und mobile Standorte sauber zusammengeführt werden.
- Die Ergänzung fehlender Informationen (`typ = mobil`, `kreis` ergänzen) sicherte die Vergleichbarkeit beider Gruppen.
- Die Reduktion auf relevante Spalten (`poi_id`, `name`, `typ`, `kreis`, `adresse`, `geometry`) sorgt für eine kompakte, übersichtliche Datenbasis für die weitere Analyse (z.B. räumliche Versorgungskarten).

### ✅ Fazit:
Der kombinierte WC-Datensatz `wc_gesamt` ist sauber, konsistent und bereit für weitere Analysen oder Visualisierungen.


In [11]:
# Gesamten WC-Datensatz als CSV speichern
wc_gesamt.to_csv(
    "../../data/Cleaned/WcStandorte.csv",
    index=False,
    encoding="utf-8"
)

print("Der kombinierte WC-Datensatz wurde erfolgreich gespeichert!")


Der kombinierte WC-Datensatz wurde erfolgreich gespeichert!
