## Open Government Data, provided by **Statistisches Amt des Kantons Basel-Stadt - Fachstelle OGD**
date: 2025-05-12

## Dataset
# **Veranstaltungen mit potenziellem Einfluss auf Veloverkehr**

## Data set links

[Direct data shop link for dataset](https://data.bs.ch/explore/dataset/100074)

*Autogenerated Python starter code for data set with identifier* **100074**

## Metadata
- **Dataset_identifier** `100074`
- **Title** `Veranstaltungen mit potenziellem Einfluss auf Veloverkehr`
- **Description** `<p>Dieser Datensatz zeigt ausgewählte Veranstaltungen und Veranstaltungsreihen. Der Datensatz ist ursprünglich aufgebaut worden, um das Verkehrsaufkommen bei kantonalen Fahrrad-Zählstellen – welches unter anderem auch durch Veranstaltungen beeinflusst wird – besser interpretieren zu können. Aus diesem Grund sind nicht alle Veranstaltungen auf dem Kantonsgebiet im Datensatz enthalten, sondern nur diejenigen, von denen man sich einen potentiellen Einfluss auf die Anzahl an Zählstellen gezählten Velos erwartet. Der Datensatz wird durch das Statistische Amt Basel-Stadt nach bestem Wissen und Gewissen gepflegt und aktualisiert. Es besteht kein Anspruch auf Richtigkeit oder Vollständigkeit der gemachten Angaben. </p><p>Bei Veranstaltungen, welche nicht einer eindeutigen Örtlichkeit zugeordnet werden konnten (z.B. Basler Fasnacht), wurde wo möglich eine Adresse erfasst, an der besonders viel Personenaufkommen erwartet wird. Wo dies nicht möglich war, wurde keine Örtlichkeit erfasst.</p>`
- **Contact_name** `Fachstelle für OGD Basel-Stadt`
- **Issued** `2020-03-31`
- **Modified** `2025-05-09T16:31:26+00:00`
- **Rights** `NonCommercialAllowed-CommercialAllowed-ReferenceRequired`
- **Temporal_coverage_start_date** `None`
- **Temporal_coverage_end_date** `None`
- **Themes** `['Raum und Umwelt', 'Öffentliche Ordnung und Sicherheit']`
- **Keywords** `['Adresse', 'Event', 'Ausgang', 'Velo', 'Ansammlung', 'Konzert', 'Publikum']`
- **Publisher** `Statistisches Amt`
- **Reference** `https://statistik.bs.ch/`


# Load packages

In [None]:
library(tidyverse)

# Load data
The dataset is read into a dataframe

In [None]:
get_dataset <- function(url) {
  # Create directory if it does not exist
  data_path <- file.path(getwd(), '..', 'data')
  if (!dir.exists(data_path)) {
    dir.create(data_path, recursive = TRUE)
  }
  # Download the CSV file
  csv_path <- file.path(data_path , '100074.csv')
  download.file(url, csv_path, mode = "wb")

  # Read the CSV file
  data <- tryCatch(
      read.csv(csv_path, sep = ";", stringsAsFactors = FALSE, encoding = "UTF-8"),
      warning = function(w) NULL,
      error = function(e) NULL
  )
  # if dataframe only has one column or less the data is not ";" separated
  if (is.null(data) || ncol(data) <= 1) {
      stop("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
  }
  return(data)
}

In [None]:
df = get_dataset('https://data.bs.ch/explore/dataset/100074/download')

# Analyze data

In [None]:
glimpse(df)

In [None]:
str(df)

In [None]:
head(df)

In [None]:
tail(df)

In [None]:
# Remove columns that have no values
df <- Filter(function(x) !all(is.na(x)), df)

# Remove rows with missing values (if appropriate)
df <- na.omit(df)

In [None]:
# display a small random sample transposed in order to see all variables
t(sample_n(df, 5))

In [None]:
# the size of the data frame in memory
size <- object.size(df)
#  the size in bytes
print(size)

In [None]:
# describe numerical features
summary(df[, sapply(df, is.numeric)])

In [None]:
# describe non-numerical features
summary(df[, sapply(df, Negate(is.numeric))])

In [None]:
# check missing values
df %>%
  mutate(row = row_number()) %>%
  gather(key = "variable", value = "value", -row) %>%
  ggplot(aes(x = variable, y = row)) +
  geom_tile(aes(fill = is.na(value)), color = "black") +
  scale_fill_manual(values = c("TRUE" = "grey", "FALSE" = "red")) +
  labs(x = "", y = "", fill = "Missing") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

In [None]:
# plot a histogram for each numerical feature
df %>%
  select_if(is.numeric) %>%
  gather() %>%
  ggplot( aes(value)) +
  geom_histogram(bins = 10, color = "white", fill = "red") +
    facet_wrap(~key, scales = 'free_x')

# Continue your code here...

------------------------------------------------------------------------

# Questions about the data?
Fachstelle für OGD Basel-Stadt | opendata@bs.ch