## Open Government Data, provided by **OpenDataZurich**
*Autogenerated Python starter code for data set with identifier* **bfs_ste_bev_hauptsprachen_top50_od3011**

## Dataset
# **Häufigste Hauptsprachen**

## Description

Die 50 häufigsten Hauptsprachen der 15-Jährigen und Älteren der ständigen Wohnbevölkerung in der Stadt Zürich. Die Auswertung basiert auf dem gepoolten Zielpersonendatensatz der Strukturerhebung.

**Strukturerhebung:**

- Die [Strukturerhebung](https://www.bfs.admin.ch/bfs/de/home/statistiken/bevoelkerung/erhebungen/se.html) ist ein Element der Volkszählung. Sie ergänzt die Registerdaten und wird seit 2010 jährlich vom BFS als Stichprobenerhebung in der gesamten Schweiz durchgeführt.

- **Datenerhebung**: Die Strukturerhebungsdaten werden mittels schriftlicher Befragung erhoben. Die ausgewählten Zielpersonen sind mindestens 15 Jahre alt und machen Angaben zur eigenen Person (Zielpersonendatensatz) sowie zu den weiteren Personen im Haushalt (Haushaltsdatensatz). Im Haushaltsdatensatz werden somit auch Daten zu Personen ausgewiesen, die jünger als 15 Jahre alt sind. Die Fragebögen gibt es in den Landessprachen (Deutsch, Französisch, Italienisch und Rätoromanisch) mit Übersetzungshilfen in Englisch, Spanisch, Portugiesisch, Türkisch, Albanisch, Serbisch/Kroatisch/Bosnisch/Montenegrinisch. 

- **Stichprobe**: Weil die Auswertungen auf Stichprobendaten beruhen, werden erstens die Zahlen gerundet, zudem werden Konfidenzintervalle angegeben.

- **Poolingdatensatz**: Zusätzlich zu den Daten für Einzeljahre stellt das BFS kumulierte Datensätze über eine gewisse Zeitperiode zur Verfügung. Damit können genauere Ergebnisse erzielt werden als mit einer einzigen Stichprobe. Die Daten beziehen sich dann aber nicht mehr auf ein bestimmtes Referenzdatum, sondern sind Mittelwerte der Durchschnittsbevölkerung über die gesamte betrachtete Zeitperiode.
 

[]()

**Hauptsprache**

- **Erhebung der Hauptsprache**: 
Bei der Hauptsprache wird nach derjenigen Sprache gefragt, in der eine Person denkt und die sie am besten beherrscht. Die Befragten können mehrere Sprachen als Hauptsprachen angeben.

- **Ausgewählte Sprachen**: Die häufigsten fünfzig Hauptsprachen in der Stadt Zürich im betrachteten Zeitraum.

 

[]()

**Konfidenzintervalle**

- Die Unsicherheiten der Auswertungen werden mit Konfidenzintervallen abgeschätzt. Das 95% -Konfidenzintervall bezeichnet den Bereich, der bei unendlicher Wiederholung eines Zufallsexperiments mit einer Wahrscheinlichkeit von 95 Prozent den wahren Wert der Grundgesamtheit einschliesst. Das Konfidenzintervall wird auch als Vertrauensintervall oder Erwartungsbereich bezeichnet.

 

[]()

**Definition**

- **Ständige Wohnbevölkerung**: 
Für die Bevölkerungszahlen bestehen verschiedene Definitionen, welche [auf der Webseite von Statistik Stadt Zürich](https://www.stadt-zuerich.ch/de/politik-und-verwaltung/statistik-und-daten/daten/bevoelkerung/bestand-und-entwicklung/bevoelkerungsdefinition.html) ersichtlich sind.

 

[]()



## Data set links

[Direct link by OpenDataZurich for dataset](https://data.stadt-zuerich.ch/dataset/bfs_ste_bev_hauptsprachen_top50_od3011)

https://data.stadt-zuerich.ch/dataset/bfs_ste_bev_hauptsprachen_top50_od3011/download/BEV301OD3011.csv<br>


## Metadata
- **Publisher** `Bundesamt für Statistik (BFS)`
- **Maintainer** `Open Data Zürich`
- **Maintainer_email** `opendata@zuerich.ch`
- **Keywords** `Bevölk­erung`
- **Tags** `['sachdaten', 'sasa', 'sprache', 'tabelle', 'zeitreihe']`
- **Metadata_created** `2019-07-29T13:23:21.945577`
- **Metadata_modified** `2025-05-22T06:59:58.353576`


## Imports and helper functions

In [None]:
import matplotlib.pyplot as plt
import pandas as pd 

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    """
    Return pandas df if url is parquet or csv file. Return None if not.
    """
    extension = url.rsplit(".",1)[-1]
    if extension == 'parquet':
        data = pd.read_parquet(url)
    elif extension == 'csv':
        data = pd.read_csv(url, sep=",", on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
        # if dataframe only has one column or less the data is not comma separated, use ";" instead
        if data.shape[1] <= 1:
            data = pd.read_csv(url, sep=';', on_bad_lines='warn', encoding_errors='ignore', low_memory=False)
            if data.shape[1] <= 1:
                print("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
    else:
        print("Cannot load data! Please provide an url with csv or parquet extension.")
        data = None
    return data

## Load the data

In [None]:
df = get_dataset('https://data.stadt-zuerich.ch/dataset/bfs_ste_bev_hauptsprachen_top50_od3011/download/BEV301OD3011.csv')

## Analyze the data

In [None]:
# drop columns that have no values
df.dropna(how='all', axis=1, inplace=True)

In [None]:
print(f'The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables).')
print(f'There seem to be {df.duplicated().sum()} exact duplicates in the data.')

In [None]:
df.info(memory_usage='deep', verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(exclude='number'))
except:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context('display.float_format', '{:,.2f}'.format):
        display(df.describe(include='number'))
except:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno
msno.matrix(df, labels=True, sort='descending');

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=.9)
    plt.tight_layout()
    plt.show()
except:
    print("No numercial data to plot.") 

In [None]:
# continue your code here...

**Contact**: opendata@zuerich.ch