## Open Government Data, provided by **Statistisches Amt des Kantons Basel-Stadt - DCC Data Competence Center**
*Autogenerated Python starter code for data set with identifier* **100092**

## Dataset
# **Geborene nach Geschlecht, Staatsangehörigkeit, Wohnviertel und Geburtsdatum**

## Data set links

[Direct data shop link for dataset](https://data.bs.ch/explore/dataset/100092)

## Metadata
- **Dataset_identifier** `100092`
- **Title** `Geborene nach Geschlecht, Staatsangehörigkeit, Wohnviertel und Geburtsdatum`
- **Description** `Dieser Datensatz zeigt die Geborenen im Kanton Basel-Stadt nach Geschlecht, Staatsangehörigkeit, Wohnviertel und Geburtsdatum. Die Daten werden täglich aktualisiert, wobei nur Geburten berücksichtigt werden, die mindestens 15 Tage zurückliegen. Aufgrund von Nachmeldungen kann es jederzeit zu Änderungen bei bereits veröffentlichten Werten kommen. In den Daten des laufenden Jahres und bis ca. Juli auch in jenen des zurückliegenden Jahres sind ausser den Lebendgeborenen auch die Totgeborenen berücksichtigt, weil die Angabe zur Lebensfähigkeit jeweils erst im Juli des Folgejahres verfügbar ist. In weiter zurückliegenden Jahren sind nur die Lebendgeborenen berücksichtigt. Auch die Angabe zur Anzahl Kinder, die zusammen geboren wurden (Mehrlingsgeburten), ist jeweils erst ca. im Juli des Folgejahrs verfügbar. <br><br>Die hier veröffentlichten Werte können aus methodischen Gründen von denjenigen in der <a href='https://statistik.bs.ch/unterthema/3' target='_blank'>kantonalen öffentlichen Statistik (https://statistik.bs.ch/unterthema/3)</a> abweichen: In Letzterer werden nachträglich gemeldete Geburten während vier Monaten gesammelt, danach gelten die Zahlen als definitiv. Später eintreffende Meldungen werden im letzten noch nicht abgeschlossenen Monat gezählt. In diesem Datensatz werden sie im Monat des Geburtsdatums gezählt.<br><br>Aus Gründen des Persönlichkeitsschutzes können im <a href='https://data.bs.ch/explore/dataset/100099/' target='_blank'>monatlichen Datensatz (https://data.bs.ch/explore/dataset/100099/)</a> mehr Attribute veröffentlicht werden als im vorliegenden Datensatz. Quelle: Statistisches Amt Basel-Stadt, Bevölkerungsstatistik.`
- **Contact_name** `Open Data Basel-Stadt`
- **Issued** `2020-09-25`
- **Modified** `2026-01-22T02:16:12+00:00`
- **Rights** `NonCommercialAllowed-CommercialAllowed-ReferenceRequired`
- **Temporal_coverage_start_date** `None`
- **Temporal_coverage_end_date** `None`
- **Themes** `['Bevölkerung']`
- **Keywords** `['Nationalität', 'Alter', 'Zeitreihe', 'Demographie', 'Geburten', 'Neugeboren']`
- **Publisher** `Statistisches Amt`
- **Reference** `None`


## Imports and helper functions

In [None]:
import os
import pandas as pd
import requests
import matplotlib.pyplot as plt

%matplotlib inline

In [None]:
plt.style.use("ggplot")

params = {
    "text.color": (0.25, 0.25, 0.25),
    "figure.figsize": [18, 6],
}

plt.rcParams.update(params)

In [None]:
# helper function for reading datasets with proper separator
def get_dataset(url):
    r = requests.get(url, params={"format": "csv", "timezone": "Europe%2FZurich"})
    data_path = os.path.join(os.getcwd(), "..", "data")
    if not os.path.exists(data_path):
        os.makedirs(data_path)
    csv_path = os.path.join(data_path, "100092.csv")
    with open(csv_path, "wb") as f:
        f.write(r.content)
    data = pd.read_csv(
        url, sep=";", on_bad_lines="warn", encoding_errors="ignore", low_memory=False
    )
    # if dataframe only has one column or less the data is not ";" separated
    if data.shape[1] <= 1:
        print(
            "The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code."
        )
    return data

## Load data

The dataset is read into a dataframe

In [None]:
# Read the dataset
df = get_dataset('https://data.bs.ch/explore/dataset/100092/download')

## Analyze data

In [None]:
# drop columns that have no values
df.dropna(how="all", axis=1, inplace=True)

In [None]:
print(
    f"The dataset has {df.shape[0]:,.0f} rows (observations) and {df.shape[1]:,.0f} columns (variables)."
)
print(f"There seem to be {df.duplicated().sum()} exact duplicates in the data.")

In [None]:
df.info(memory_usage="deep", verbose=True)

In [None]:
df.head()

In [None]:
# display a small random sample transposed in order to see all variables
df.sample(3).T

In [None]:
# describe non-numerical features
try:
    with pd.option_context("display.float_format", "{:,.2f}".format):
        display(df.describe(exclude="number"))
except ValueError:
    print("No categorical data in dataset.")

In [None]:
# describe numerical features
try:
    with pd.option_context("display.float_format", "{:,.2f}".format):
        display(df.describe(include="number"))
except ValueError:
    print("No numercial data in dataset.")

In [None]:
# check missing values with missingno
# https://github.com/ResidentMario/missingno
import missingno as msno

msno.matrix(df, labels=True, sort="descending");

In [None]:
# plot a histogram for each numerical feature
try:
    df.hist(bins=25, rwidth=0.9)
    plt.tight_layout()
    plt.show()
except ValueError:
    print("No numercial data to plot.")

In [None]:
# continue your code here...

**Questions about the data?** Open Data Basel-Stadt | opendata@bs.ch