## Open Government Data, provided by **OpenDataZurich**
*Autogenerated Python starter code for data set with identifier* **bau_neubau_whg_projstatus_eigart_statzone_jahr_od5023**

## Dataset
# **Neubauwohnungen am Jahresende nach Bauprojektstatus, Eigentumsart und Statistischer Zone**

## Description


Der Datensatz enthält die Anzahl bewilligter und im Bau befindlicher Wohnungen in Neubauprojekten nach Eigentumsart und statistischer Zone.


**Hinweis:**


Seit 2021 wird in der Stadt Zürich ein neues Gebäude- und Wohnungsregister verwendet. Infolge der damit einhergehenden technischen Anpassungen, Änderungen und Bereinigungen können einzelne Daten von früheren Publikationen abweichen. Ein technisches Problem beim Datenerfassungsprozess von Neubauprojekten Wohnen hat dazu geführt, dass seit 2021 neu bewilligte Projekte verzögert im Gebäude- und Wohnungsregister eingeflossen sind. Da diese Projekte grösstenteils in 2023 erfasst wurden, liegen diese in den beiden Vorjahren 2021 und 2022 tiefer.

[]()

**Hinweis:**


StichtagDatJahr entspricht dem Stichtag am Jahresende für Neubauprojekte mit Status Bewilligt harmonisiert und Baubegonnen.


[]()

**Bauprojektstatus:**


- «Bewilligt harmonisiert»: Bauprojekte, welche am Jahresende bewilligt, sistiert oder zum Bau freigegeben sind. Freigegebene oder sistierte Projekte werden seit 2021 im Gebäude- und Wohnungsregister erfasst. Davor wurden diese beide Status auch als bewilligt erfasst. Bei sistierten Projekten handelt es sich um bewilligte Projekte, die zum Beispiel wegen Einsprachen blockiert sind. 
- «Baubegonnen»:  Bauprojekte, welche am Jahresende baubegonnen sind.


[]()

**Eigentumsart**


- Öffentliches Eigentum: Bund, Kanton Zürich, Stadt Zürich inklusive städtischer Stiftungen und anderes öffentliches Eigentum
- Wohnbaugenossenschaften: Nur Wohnbaugenossenschaften
- Andere private Gesellschaften: Aktien-, Kollektiv- und Kommanditgesellschaften, Handels-, Produktiv-, Versicherungs- und übrige Genossenschaften, Gesellschaften mit beschränkter Haftung, Pensionskassen, Vereine, private Stiftungen, gemischtes Eigentum und Religionsgemeinschaften
- Privatpersonen: Einzelpersonen, Erbgemeinschaften und mehrere natürliche Personen
- Im Stochwerkeigentum: Stockwerkeigentumsgesellschaften


[]()

**Alternativprojekte**

Werden für ein geplantes Bauprojekt dem Amt für Baubewilligungen zwei Projekte eingereicht, von denen nur eines ausgeführt wird, handelt es sich bei einem der beiden Projekte um ein Alternativprojekt. Da diese Projekte nicht immer eindeutig identifizierbar sind, kann der Bauprojektstatus «bewilligt» auch Alternativprojekte enthalten.

[]()

**Stand und Nachführung:**

Das Gebäude- und Wohnungsregister der Stadt Zürich wird ständig nachgeführt.

[]()

**Statistische Wohnung**


Als statistische Wohnung zählen bestehende Wohnungen, welche über eine Kocheinrichtung verfügen und zu Wohnzwecken (keine zweckentfremdeten Wohnungen) verwendet werden.


[]()



## Data set links

[Direct link by OpenDataZurich for dataset](https://data.stadt-zuerich.ch/dataset/bau_neubau_whg_projstatus_eigart_statzone_jahr_od5023)

https://data.stadt-zuerich.ch/dataset/bau_neubau_whg_projstatus_eigart_statzone_jahr_od5023/download/BAU502OD5023.csv<br>


## Metadata
- **Publisher** `Statistik Stadt Zürich, Präsidialdepartement`
- **Maintainer** `Open Data Zürich`
- **Maintainer_email** `opendata@zuerich.ch`
- **Keywords** `Bauen und Wohnen`
- **Tags** `['bautaetigkeit', 'eigentum', 'neubau', 'sachdaten', 'sasa', 'tabelle', 'wohnung', 'zeitreihe']`
- **Metadata_created** `2021-02-05T19:47:20.084278`
- **Metadata_modified** `2025-06-14T21:04:10.943118`


## Imports and helper functions

In [None]:
import matplotlib.pyplot as plt
import pandas as pd 

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    """
    Return pandas df if url is parquet or csv file. Return None if not.
    """
    extension = url.rsplit(".",1)[-1]
    if extension == 'parquet':
        data = pd.read_parquet(url)
    elif extension == 'csv':
        data = pd.read_csv(url, sep=",", on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
        # if dataframe only has one column or less the data is not comma separated, use ";" instead
        if data.shape[1] <= 1:
            data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
            if data.shape[1] <= 1:
                print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    else:
        print("Cannot load data! Please provide an url with csv or parquet extension.")
        data = None
    return data

## Load the data

In [None]:
df = get_dataset('https://data.stadt-zuerich.ch/dataset/bau_neubau_whg_projstatus_eigart_statzone_jahr_od5023/download/BAU502OD5023.csv')

## Analyze the data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Contact**: opendata@zuerich.ch