## *YouTube*-Daten sammeln mit `vosonSML`

In diesem Beispiel-Notebook schauen wir uns an, wie wir Kommentare zu *YouTube*-Videos mit dem `R`-Paket [`vosonSML`](https://github.com/vosonlab/vosonSML) sammeln können.

Bevor wir loslegen, müssen wir zunächst die benötigten Pakete laden. Neben `vosonSML` sind das in diesem Fall [`dplyr`](https://dplyr.tidyverse.org/) um die Daten zu explorieren sowie [`readr`](https://readr.tidyverse.org/) um die Daten zu exportieren (Hinweis: Wenn Sie den Code lokal auf Ihrem Rechner ausführen wollen, müssen Sie die Pakete in `R` ggf. erst mit dem Befehl `install.packages()` installieren).

### Pakete laden

In [None]:
library(dplyr)
library(readr)
library(vosonSML)

### Authentifizierung

Im zweiten Schritt müssen wir uns mit unserem API-Schlüssel authentifizieren. Zur Erinnerung: Für einen API-Schlüssel benötigt man einen Google-Account sowie ein über die [*Google* Cloud Console](https://console.cloud.google.com/welcome?project=youtubedata-478512) erstelltes Projekt mit aktivierter [*YouTube* Data API v3](https://developers.google.com/youtube/v3?hl=de). Eine genauere Anleitung dazu findet sich in den Slides zur fünften Seminarsitzung (vom 19.11.2025) sowie im [Guide "How to Collect Data with the YouTube Data API" von Kohne et al. (2024)](https://www.gesis.org/fileadmin/admin/Dateikatalog/pdf/guides/13_Kohne_et_al_How_to_YouTube.pdf).

In [None]:
auth_yt <- Authenticate("youtube", 
                             apiKey = "INSERT_API_KEY_HERE") # hier den API Key einfügen

### Datensammlung

Zunächst erstellen wir einen Vektor mit zwei exemplarischen Videos aus den Ergebnissen der Suche "Bundestagswahl 2025" auf *YouTube*.

In [None]:
video_urls <- c("https://www.youtube.com/watch?v=5A-ggbcnwcg",
               "https://www.youtube.com/watch?v=a6ZaJ38cy7U")

Zur Erinnerung: Der Wert hinter dem Parameter v gibt die Video-ID an.

Jetzt können wir die Kommentare zu den Videos sammeln. Wir begrenzen die Sammlung auf maximal 2000 Kommentare pro Video. Wenn wir weniger Kommentare sammelm möchten (z.B. um das tägliche API-Kontigent zu schonen), können wir den Wert entsprechend reduzieren.

**NB**: Es können in den Datensätzen mehr als die angegebene maximale Anzahl an Kommentaren enthalten sein, da die Funktion `Collect()` aus dem Paket `vosonSML` auch bis zu 20 Antworten (Replies) pro Kommentar sammelt.

In [None]:
comments_yt <- auth_yt |> 
  Collect(videoIDs = video_urls,
          maxComments = 2000)

### Datencheck

In [None]:
names(comments_yt)

In [None]:
glimpse(comments_yt)

### Datenexport

Wir können die Daten auch wieder in einer `csv`-Datei speichern.

*Hinweis*: Im *Jupyter Lab*-Interface können wir die Datei über einen Rechtsklick im File Explorer auf der linken Seite auch herunterladen und lokal speichern.

In [None]:
write_csv(comments_yt, "./comments_yt.csv")