## Open Government Data, provided by **Statistisches Amt des Kantons Basel-Stadt - Fachstelle OGD**
date: 2025-09-12

## Dataset
# **Geborene nach Geschlecht, Staatsangehörigkeit und Geburtsmonat**

## Data set links

[Direct data shop link for dataset](https://data.bs.ch/explore/dataset/100099)

*Autogenerated Python starter code for data set with identifier* **100099**

## Metadata
- **Dataset_identifier** `100099`
- **Title** `Geborene nach Geschlecht, Staatsangehörigkeit und Geburtsmonat`
- **Description** `Dieser Datensatz zeigt die Geborenen im Kanton Basel-Stadt nach Geschlecht, Staatsangehörigkeit und Geburtsmonat sowie nach Alter, Staatsangehörigkeit und Zivilstand der Eltern. Die Daten werden monatlich aktualisiert, wobei die Zahlen eines Monats jeweils am 16. Tag des nächsten Monats publiziert werden. Aufgrund von Nachmeldungen kann es jederzeit zu Änderungen bei bereits veröffentlichten Werten kommen. In den Daten der Jahre bis 2023 sind nur die Lebendgeborenen berücksichtigt, in denjenigen der Jahre seit 2024 auch die Totgeborenen. Dies liegt daran, dass die Angabe zur Lebensfähigkeit jeweils erst im Juli des Folgejahres verfügbar ist. Auch die Angaben zur Geburtenfolge und zum Zivilstand der Eltern sind jeweils erst im Juli des Folgejahres verfügbar. <br><br>Die hier veröffentlichten Werte können aus methodischen Gründen von denjenigen in der <a href='https://statistik.bs.ch/unterthema/3' target='_blank'>kantonalen öffentlichen Statistik (https://statistik.bs.ch/unterthema/3)</a> abweichen: In Letzterer werden nachträglich gemeldete Geburten während vier Monaten gesammelt, danach gelten die Zahlen als definitiv. Später eintreffende Meldungen werden im letzten noch nicht abgeschlossenen Monat gezählt. In diesem Datensatz werden sie im Monat des Geburtsdatums gezählt. <br><br>Aus Gründen des Persönlichkeitsschutzes können im <a href='https://data.bs.ch/explore/dataset/100092/' target='_blank'>Datensatz mit dem Geburtsdatum (https://data.bs.ch/explore/dataset/100092/)</a> weniger Attribute veröffentlicht werden als im vorliegenden Datensatz. <br><br>Eine leere Zelle bedeutet «Wert unbekannt».`
- **Contact_name** `Open Data Basel-Stadt`
- **Issued** `2021-01-19`
- **Modified** `2025-09-12T01:01:17+00:00`
- **Rights** `NonCommercialAllowed-CommercialAllowed-ReferenceRequired`
- **Temporal_coverage_start_date** `None`
- **Temporal_coverage_end_date** `None`
- **Themes** `['Bevölkerung']`
- **Keywords** `['Alter', 'Altersstruktur', 'Bevölkerungsbestand', 'Demographie', 'Geburtsort', 'Familie', 'Haushalt', 'Geburten', 'Bevölkerungsstruktur', 'Neugeboren']`
- **Publisher** `Statistisches Amt`
- **Reference** `None`


# Load packages

In [None]:
library(tidyverse)

# Load data
The dataset is read into a dataframe

In [None]:
get_dataset <- function(url) {
  # Create directory if it does not exist
  data_path <- file.path(getwd(), '..', 'data')
  if (!dir.exists(data_path)) {
    dir.create(data_path, recursive = TRUE)
  }
  # Download the CSV file
  csv_path <- file.path(data_path , '100099.csv')
  download.file(url, csv_path, mode = "wb")

  # Read the CSV file
  data <- tryCatch(
      read.csv(csv_path, sep = ";", stringsAsFactors = FALSE, encoding = "UTF-8"),
      warning = function(w) NULL,
      error = function(e) NULL
  )
  # if dataframe only has one column or less the data is not ";" separated
  if (is.null(data) || ncol(data) <= 1) {
      stop("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
  }
  return(data)
}

In [None]:
df = get_dataset('https://data.bs.ch/explore/dataset/100099/download')

# Analyze data

In [None]:
glimpse(df)

In [None]:
str(df)

In [None]:
head(df)

In [None]:
tail(df)

In [None]:
# Remove columns that have no values
df <- Filter(function(x) !all(is.na(x)), df)

# Remove rows with missing values (if appropriate)
df <- na.omit(df)

In [None]:
# display a small random sample transposed in order to see all variables
t(sample_n(df, 5))

In [None]:
# the size of the data frame in memory
size <- object.size(df)
#  the size in bytes
print(size)

In [None]:
# describe numerical features
summary(df[, sapply(df, is.numeric)])

In [None]:
# describe non-numerical features
summary(df[, sapply(df, Negate(is.numeric))])

In [None]:
# check missing values
df %>%
  mutate(row = row_number()) %>%
  gather(key = "variable", value = "value", -row) %>%
  ggplot(aes(x = variable, y = row)) +
  geom_tile(aes(fill = is.na(value)), color = "black") +
  scale_fill_manual(values = c("TRUE" = "grey", "FALSE" = "red")) +
  labs(x = "", y = "", fill = "Missing") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

In [None]:
# plot a histogram for each numerical feature
df %>%
  select_if(is.numeric) %>%
  gather() %>%
  ggplot( aes(value)) +
  geom_histogram(bins = 10, color = "white", fill = "red") +
    facet_wrap(~key, scales = 'free_x')

# Continue your code here...

------------------------------------------------------------------------

# Questions about the data?
Fachstelle für OGD Basel-Stadt | opendata@bs.ch