# Analyse Bevölkerungsbefragung Stadt Zürich

### Autorin: Tabea Eggler

# 1. Daten

### 1.1 Beschreibung der Daten

- Datensatz: Bevölkerungumfrage der Stadt Zürich
- Zeitraum: 2019, 2021, 2023
- Analysierte Frageblöcke: Zufriedenheit mit den Einrichtungen und Angeboten der Stadt (F4) und Zufriedenheit mit den Gegebenheiten im Quartier (F25)
- Variabel Typen: Qualitativ/Kategorisch, Polytomous, Ordinal
- Variabel Levels: Überhaupt nicht zufrieden (1) - Sehr zufrieden (6), Weiss nicht, Keine Angabe

### 1.2 Selektion Variabeln

Primäre Variabel: Zufriedenheit Grünraum im Quartier (F25, A3016ae01)

Sekundäre Variabeln:
- Zufriedenheit Angebot Grünanlagen und Parks (F4, A2004ac01)
- Zufriedenheit Freizeitgestaltung im Quartier (F25, A3016ad01)

Zusätzlich geladene Variabel
- Jahr

### 1.3 Datensatz laden und strukturieren

In [14]:
# load libraries

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_theme(style="whitegrid")

from scipy.stats import spearmanr
from scipy.stats import chi2_contingency
import statsmodels.api as sm

In [15]:
# load dataset

columns_to_load = [
    'A2004ac01',  # satisfaction with greenspace in city
    'A3016ae01',  # satisfaction with greenspace in district
    'A3016ad01',  # satisfaction with leisure
    'Jahr'       # year
]

file_path = './data_shz_2019_2023.csv'
df = pd.read_csv(file_path, usecols=columns_to_load)

In [16]:
# rename columns

df.rename(columns={
    'A2004ac01': 'Satisfaction_GreenSpace_City',
    'A3016ae01': 'Satisfaction_GreenSpace_District',
    'A3016ad01': 'Satisfaction_Leisure',
    'Jahr': 'Year'
}, inplace=True)

In [18]:
# mapping for ordinal data (object to numeric)

satisfaction_mapping = {
    'Note 1 (überhaupt nicht zufrieden)': 1,
    'Note 2': 2,
    'Note 3': 3,
    'Note 4': 4,
    'Note 5': 5,
    'Note 6 (sehr zufrieden)': 6,
    'Weiss nicht': -1,
    'Keine Angabe': -1
}

# apply mapping
ordinal_columns = ['Satisfaction_GreenSpace_City', 'Satisfaction_GreenSpace_District', 'Satisfaction_Leisure']
for col in ordinal_columns:
    df[col] = pd.to_numeric(df[col].replace(satisfaction_mapping), errors='coerce')
    
    
df.head()

Unnamed: 0,Year,Satisfaction_GreenSpace_City,Satisfaction_Leisure,Satisfaction_GreenSpace_District
0,2019,5.0,3.0,3.0
1,2019,5.0,4.0,5.0
2,2019,6.0,6.0,6.0
3,2019,6.0,6.0,6.0
4,2019,5.0,6.0,6.0


In [19]:
# info about dataset
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15615 entries, 0 to 15614
Data columns (total 4 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   Year                              15615 non-null  int64  
 1   Satisfaction_GreenSpace_City      15615 non-null  float64
 2   Satisfaction_Leisure              15615 non-null  float64
 3   Satisfaction_GreenSpace_District  15615 non-null  float64
dtypes: float64(3), int64(1)
memory usage: 488.1 KB
None


In [20]:
# check for missing values
print(df.isnull().sum())

Year                                0
Satisfaction_GreenSpace_City        0
Satisfaction_Leisure                0
Satisfaction_GreenSpace_District    0
dtype: int64


# 2. Explorative Datenanalyse

### 2.1 Überischt Verteilung über Jahre (Grouped Bar Charts)

### 2.2 Zusammenhänge der Variabeln (Contingency Table as Heatmap)

# 3. Hypothesen

### 3.1 Hypothese 1

### 3.2 Hypothese 2

### 3.3 Hypothese 3

# 4. Fazit und Ausblick