## Open Government Data, provided by **Statistisches Amt des Kantons Basel-Stadt - Fachstelle OGD**
date: 2025-09-12

## Dataset
# **Sauberkeitsindex pro Monat und Strassenabschnitt**

## Data set links

[Direct data shop link for dataset](https://data.bs.ch/explore/dataset/100288)

*Autogenerated Python starter code for data set with identifier* **100288**

## Metadata
- **Dataset_identifier** `100288`
- **Title** `Sauberkeitsindex pro Monat und Strassenabschnitt`
- **Description** `<p class=''>Dieser Datensatz enthält den Sauberkeitsindex für alle Strassenabschnitte in der Stadt Basel. Zur Berechnung des Sauberkeitsindex wird wie folgt vorgegangen:</p><p>Auf den Kehrrichtfahrzeugen sind Kameras installiert, die während der Einsätze Videoaufnahmen der Strassen machen. Ein Computer durchsucht anschliessend diese Videoaufnahmen nach Abfällen. Dieser sortiert die Abfälle in verschiedene Abfallkategorien (Zigarettenstummel, Papier, PET-Flaschen etc.) und zählt die Anzahl der gefundenen Abfälle jeder Kategorie. Zusätzlich wird für jede Abfallkategorie der Verschmutzungsgrad und der Störfaktor bestimmt. Daraus wird der Sauberkeitsindex berechnet. Danach werden die Videoaufnahmen aus Datenschutzgründen umgehend gelöscht.</p><p></p><p>Der Sauberkeitsindex wird auf einer Skala von 0 bis 5 angegeben, wobei die Werte folgendermassen beurteilt werden:<br><span style='font-family: inherit; font-size: 0.875rem;'>Kleiner als 3: schlecht<br></span><span style='font-family: inherit; font-size: 0.875rem;'>Zwischen 3 und 4: mittel<br></span><span style='font-family: inherit; font-size: 0.875rem;'>Grösser als 4: gut</span></p><p>
Der Grosse Rat beauftragt das Tiefbauamt mit dem Erreichen eines Indexes für die gesamte Stadt von mindestens 4.5.
</p><p></p><p></p><p></p><p class=''>Der Datensatz wird monatlich mit den Daten des Vormonats aktualisiert.</p>`
- **Contact_name** `Open Data Basel-Stadt`
- **Issued** `2024-07-15`
- **Modified** `2025-09-01T07:02:10+00:00`
- **Rights** `NonCommercialAllowed-CommercialAllowed-ReferenceRequired`
- **Temporal_coverage_start_date** `2024-02-06T23:00:00+00:00`
- **Temporal_coverage_end_date** `2025-08-30T22:00:00+00:00`
- **Themes** `['Öffentliche Ordnung und Sicherheit', 'Raum und Umwelt', 'Bevölkerung']`
- **Keywords** `['Sauberkeit', 'Kehrricht', 'Abfall', 'Reinigung', 'Stadtreinigung', 'Strassennetz', 'Stadthygiene', 'Verschmutzung', 'Müll']`
- **Publisher** `Stadtreinigung`
- **Reference** `None`


# Load packages

In [None]:
library(tidyverse)

# Load data
The dataset is read into a dataframe

In [None]:
get_dataset <- function(url) {
  # Create directory if it does not exist
  data_path <- file.path(getwd(), '..', 'data')
  if (!dir.exists(data_path)) {
    dir.create(data_path, recursive = TRUE)
  }
  # Download the CSV file
  csv_path <- file.path(data_path , '100288.csv')
  download.file(url, csv_path, mode = "wb")

  # Read the CSV file
  data <- tryCatch(
      read.csv(csv_path, sep = ";", stringsAsFactors = FALSE, encoding = "UTF-8"),
      warning = function(w) NULL,
      error = function(e) NULL
  )
  # if dataframe only has one column or less the data is not ";" separated
  if (is.null(data) || ncol(data) <= 1) {
      stop("The data wasn't imported properly. Very likely the correct separator couldn't be found.\nPlease check the dataset manually and adjust the code.")
  }
  return(data)
}

In [None]:
df = get_dataset('https://data.bs.ch/explore/dataset/100288/download')

# Analyze data

In [None]:
glimpse(df)

In [None]:
str(df)

In [None]:
head(df)

In [None]:
tail(df)

In [None]:
# Remove columns that have no values
df <- Filter(function(x) !all(is.na(x)), df)

# Remove rows with missing values (if appropriate)
df <- na.omit(df)

In [None]:
# display a small random sample transposed in order to see all variables
t(sample_n(df, 5))

In [None]:
# the size of the data frame in memory
size <- object.size(df)
#  the size in bytes
print(size)

In [None]:
# describe numerical features
summary(df[, sapply(df, is.numeric)])

In [None]:
# describe non-numerical features
summary(df[, sapply(df, Negate(is.numeric))])

In [None]:
# check missing values
df %>%
  mutate(row = row_number()) %>%
  gather(key = "variable", value = "value", -row) %>%
  ggplot(aes(x = variable, y = row)) +
  geom_tile(aes(fill = is.na(value)), color = "black") +
  scale_fill_manual(values = c("TRUE" = "grey", "FALSE" = "red")) +
  labs(x = "", y = "", fill = "Missing") +
  theme(axis.text.x = element_text(angle = 45, hjust = 1))

In [None]:
# plot a histogram for each numerical feature
df %>%
  select_if(is.numeric) %>%
  gather() %>%
  ggplot( aes(value)) +
  geom_histogram(bins = 10, color = "white", fill = "red") +
    facet_wrap(~key, scales = 'free_x')

# Continue your code here...

------------------------------------------------------------------------

# Questions about the data?
Fachstelle für OGD Basel-Stadt | opendata@bs.ch