In [2]:
# Load libraries
library(tidyverse)

── [1mAttaching core tidyverse packages[22m ──────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mdplyr    [39m 1.1.4     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mggplot2  [39m 3.5.0     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtidyr    [39m 1.3.1
[32m✔[39m [34mpurrr    [39m 1.0.2     
── [1mConflicts[22m ────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


In [1]:
# This cell downloads the original data from data.bs.ch and saves it in the raw folder
# It has been downloaded on 2024-03-01

# download_link <- "https://data.bs.ch/api/explore/v2.1/catalog/datasets/100138/exports/csv?lang=de&timezone=Europe%2FBerlin&use_labels=true&delimiter=%3B"
# download.file(download_link, destfile = "/raw/100138.csv")

In [4]:
# Load original data
original_data <- read_delim("raw/100138.csv", delim = ";")

[1mRows: [22m[34m1664159[39m [1mColumns: [22m[34m23[39m
[36m──[39m [1mColumn specification[22m [36m────────────────────────────────────────────────────────[39m
[1mDelimiter:[22m ";"
[31mchr[39m  (14): Wanderungstyp, Wochentag, Staatsangehörigkeit, Geschlecht, Von Ko...
[32mdbl[39m   (7): Jahr, Monat, Kalenderwoche, Tag-Nr., Alter, Aufenthaltsdauer in J...
[34mdate[39m  (2): Datum, Startdatum Woche

[36mℹ[39m Use `spec()` to retrieve the full column specification for this data.
[36mℹ[39m Specify the column types or set `show_col_types = FALSE` to quiet this message.


In [28]:
# Peek into the original data
head(original_data)

Wanderungstyp,Datum,Jahr,Monat,Kalenderwoche,Startdatum Woche,Tag-Nr.,Wochentag,Staatsangehörigkeit,Geschlecht,⋯,Von Land,Von Kanton,Von Gemeinde,Von Wohnviertel,Nach Kontinent,Nach Land,Nach Kanton,Nach Gemeinde,Nach Wohnviertel,Anzahl
<chr>,<date>,<dbl>,<dbl>,<dbl>,<date>,<dbl>,<chr>,<chr>,<chr>,⋯,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<dbl>
Zuzug,2003-08-08,2003,8,32,2003-08-04,220,Fr,Ausländer,W,⋯,,,,,Schweiz,Schweiz,BS,Riehen,Riehen,1
Zuzug,2003-08-08,2003,8,32,2003-08-04,220,Fr,Ausländer,W,⋯,,,,,Schweiz,Schweiz,BS,Riehen,Riehen,1
Zuzug,2003-08-07,2003,8,32,2003-08-04,219,Do,Ausländer,M,⋯,,,,,Schweiz,Schweiz,BS,Basel,Breite,1
Zuzug,2003-08-07,2003,8,32,2003-08-04,219,Do,Ausländer,W,⋯,,,,,Schweiz,Schweiz,BS,Basel,Gundeldingen,1
Zuzug,2003-08-07,2003,8,32,2003-08-04,219,Do,Schweizer,M,⋯,,,,,Schweiz,Schweiz,BS,Basel,St. Alban,2
Zuzug,2003-08-07,2003,8,32,2003-08-04,219,Do,Schweizer,W,⋯,,,,,Schweiz,Schweiz,BS,Basel,Iselin,1


In [41]:
data <- filter(original_data, Wanderungstyp != "Umzug")

In [42]:
# Save new dataframe with less columns
data <- select(data,
  -"Datum",
  -"Kalenderwoche",
  -"Startdatum Woche",
  -"Tag-Nr.",
  -"Wochentag",
  -"Aufenthaltsdauer in Jahren",
  -"Von Gemeinde",
  -"Nach Gemeinde"
)

In [43]:
# Generate factors
columns <- c(
  "Wanderungstyp",
  "Staatsangehörigkeit",
  "Geschlecht",
  "Von Kontinent",
  "Von Land",
  "Von Kanton",
  "Von Wohnviertel",
  "Nach Kontinent",
  "Nach Land",
  "Nach Kanton",
  "Nach Wohnviertel"
)
data[, columns] <- lapply(data[, columns], as.factor)

In [44]:
# Remove spaces from column names
colnames(data) <- make.names(colnames(data))

In [45]:
# Rename column names
data <- rename(data,
  Staatsangehoerigkeit = Staatsangehörigkeit,
  VonKontinent = Von.Kontinent,
  VonLand = Von.Land,
  VonKanton = Von.Kanton,
  VonWohnviertel = Von.Wohnviertel,
  NachKontinent = Nach.Kontinent,
  NachLand = Nach.Land,
  NachKanton = Nach.Kanton,
  NachWohnviertel = Nach.Wohnviertel
)

In [46]:
# Sort data
data <- arrange(data, Jahr, Monat)

In [47]:
# Repeat each row n times if Anzahl is > 1
# For the final visualization, we want to have an individual data point for each migration

# Create a vector of row indices to repeat
row_indices <- rep(seq_len(nrow(data)), ifelse(data$Anzahl > 1, data$Anzahl - 1, 0))

# Create the expanded dataframe by indexing the original dataframe
expanded_data <- data[row_indices, ]

In [48]:
# Bind the copied rows to the project data
data <- rbind(data, expanded_data)

In [49]:
# Re-sort the project data
data <- arrange(data, Jahr, Monat, Alter)

In [50]:
# Remove the Anzahl column, it's no longer needed
data <- select(data, -"Anzahl")

In [51]:
# Peek into the project data
head(data)
tail(data)
summary(data)

Wanderungstyp,Jahr,Monat,Staatsangehoerigkeit,Geschlecht,Alter,VonKontinent,VonLand,VonKanton,VonWohnviertel,NachKontinent,NachLand,NachKanton,NachWohnviertel
<fct>,<dbl>,<dbl>,<fct>,<fct>,<dbl>,<fct>,<fct>,<fct>,<fct>,<fct>,<fct>,<fct>,<fct>
Wegzug,1985,1,Ausländer,M,0,Schweiz,Schweiz,BS,St. Alban,unbekannt,,,
Zuzug,1985,1,Schweizer,M,1,Schweiz,,,,Schweiz,Schweiz,BS,Riehen
Zuzug,1985,1,Schweizer,W,1,Schweiz,,,,Schweiz,Schweiz,BS,St. Johann
Zuzug,1985,1,Ausländer,W,1,Europa (ohne Schweiz),,,,Schweiz,Schweiz,BS,Vorstädte
Zuzug,1985,1,Ausländer,M,1,Europa (ohne Schweiz),,,,Schweiz,Schweiz,BS,Gundeldingen
Zuzug,1985,1,Ausländer,M,1,Europa (ohne Schweiz),,,,Schweiz,Schweiz,BS,St. Alban


Wanderungstyp,Jahr,Monat,Staatsangehoerigkeit,Geschlecht,Alter,VonKontinent,VonLand,VonKanton,VonWohnviertel,NachKontinent,NachLand,NachKanton,NachWohnviertel
<fct>,<dbl>,<dbl>,<fct>,<fct>,<dbl>,<fct>,<fct>,<fct>,<fct>,<fct>,<fct>,<fct>,<fct>
Wegzug,2023,9,Ausländer,M,81,Schweiz,Schweiz,BS,Matthäus,Schweiz,Schweiz,BL,
Zuzug,2023,9,Schweizer,M,82,Schweiz,Schweiz,BL,,Schweiz,Schweiz,BS,Riehen
Wegzug,2023,9,Ausländer,W,86,Schweiz,Schweiz,BS,Vorstädte,unbekannt,unbekannt,unbekannt,
Zuzug,2023,9,Schweizer,W,86,Unbekannt,Unbekannt,Unbekannt,,Schweiz,Schweiz,BS,Hirzbrunnen
Zuzug,2023,9,Schweizer,W,87,Schweiz,Schweiz,BL,,Schweiz,Schweiz,BS,St. Johann
Wegzug,2023,9,Schweizer,W,97,Schweiz,Schweiz,BS,Gundeldingen,Schweiz,Schweiz,VS,


 Wanderungstyp        Jahr          Monat        Staatsangehoerigkeit
 Wegzug:465174   Min.   :1985   Min.   : 1.000   Ausländer:510368    
 Zuzug :484976   1st Qu.:1994   1st Qu.: 4.000   Schweizer:439782    
                 Median :2005   Median : 7.000                       
                 Mean   :2005   Mean   : 6.649                       
                 3rd Qu.:2015   3rd Qu.: 9.000                       
                 Max.   :2023   Max.   :12.000                       
                                                                     
 Geschlecht     Alter                           VonKontinent   
 M:506606   Min.   :  0.00   Schweiz                  :694917  
 W:443544   1st Qu.: 23.00   Europa (ohne Schweiz)    :190562  
            Median : 29.00   Asien                    : 17914  
            Mean   : 30.88   Unbekannt                : 17271  
            3rd Qu.: 38.00   Nordamerika              : 16737  
            Max.   :138.00   Lateinamerika und Karibik: 

In [54]:
# Save project data as CSV
write_csv(data, "tidy/migration.csv")

In [58]:
# In order to host the data on GitHub, we need to divide the migration data into smaller chunks.
# GitHub has a file size limit of 50MB.
# However, we are going to create much more chunks - one per month!!
# On the website, users will be able to select a starting year and month.
# The site will load only the needed data.
# Once the animation is done, the subsequent data will be loaded.

In [None]:
# Read final data
final_data <- read_delim("tidy/migration.csv", delim = ",")

In [61]:
chunks <- final_data %>%
  mutate(year_month = paste(Jahr, Monat, sep = "-")) %>%
  group_by(year_month) %>%
  group_split()

In [68]:
chunks[465]

Wanderungstyp,Jahr,Monat,Staatsangehoerigkeit,Geschlecht,Alter,VonKontinent,VonLand,VonKanton,VonWohnviertel,NachKontinent,NachLand,NachKanton,NachWohnviertel,year_month
<chr>,<dbl>,<dbl>,<chr>,<chr>,<dbl>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>,<chr>
Zuzug,2023,9,Ausländer,M,0,Europa (ohne Schweiz),Dänemark,Unbekannt,,Schweiz,Schweiz,BS,Iselin,2023-9
Zuzug,2023,9,Schweizer,M,0,Schweiz,Schweiz,BL,,Schweiz,Schweiz,BS,Riehen,2023-9
Wegzug,2023,9,Schweizer,M,0,Schweiz,Schweiz,BS,Clara,Lateinamerika und Karibik,Jamaika,Ausland,,2023-9
Wegzug,2023,9,Schweizer,W,0,Schweiz,Schweiz,BS,Bettingen,Schweiz,Schweiz,BL,,2023-9
Wegzug,2023,9,Schweizer,M,0,Schweiz,Schweiz,BS,Wettstein,Schweiz,Schweiz,BL,,2023-9
Wegzug,2023,9,Schweizer,W,0,Schweiz,Schweiz,BS,Gundeldingen,Schweiz,Schweiz,BL,,2023-9
Zuzug,2023,9,Schweizer,W,0,Schweiz,Schweiz,LU,,Schweiz,Schweiz,BS,Iselin,2023-9
Zuzug,2023,9,Ausländer,W,0,Schweiz,Schweiz,VD,,Schweiz,Schweiz,BS,Matthäus,2023-9
Wegzug,2023,9,Schweizer,W,0,Schweiz,Schweiz,BS,Klybeck,Schweiz,Schweiz,BL,,2023-9
Zuzug,2023,9,Schweizer,M,0,Schweiz,Schweiz,ZH,,Schweiz,Schweiz,BS,Bruderholz,2023-9


In [56]:
# Approach of creating chunks of data based on number of rows
# chunk_size <- 300000
# chunks <- split(final_data, (seq_len(nrow(final_data)) - 1) %/% chunk_size)

In [89]:
# Save each chunk as a separate csv file
output_dir <- "tidy/chunks/"
for (i in seq_along(chunks)) {
  write_csv(chunks[[i]], paste0(output_dir, chunks[[i]][1, "Jahr"], "-", chunks[[i]][1, "Monat"], ".csv"))
}