# Quantitative Textanalyse: *Word Clouds*

Schön, dass du wieder dabei bist! In diesem *Notebook* wollen wir uns damit beschäftigen, wie man sogenannte *Word Clouds* oder *Wortwolken* in R erzeugen kann. 

Hierzu nutzen wir zunächst den Text der Wikipediaseite der Stadt Bielefeld (https://de.wikipedia.org/wiki/Bielefeld)! Mit dieser *Word Cloud* können wir visualisieren, welche Worte auf der Wikipediaseite besonders häufig genannt werden. Oder anders ausgedrückt, wir können untersuchen, wie die **Stadt Bielefeld** auf Wikipedia dargestellt wird.

## Was sind Word Clouds und für welche Informationen kann man sie gut nutzen?

<img width="440" align = "right" hspace="40" src="WordcloudDataStorytelling.png"/> 

<div style="text-align: left" style=“line-height: 150%“>
<p></p>  
<p><b>Wortwolken</b> oder <b>Word Clouds</b> ermöglichen die visuelle Darstellung von Textinhalten. Die hier dargestellte Wortwolke visualisiert unterschiedliche Definitionen des Begriffs <i>Data Storytelling</i>. In unserem Beispiel schauen wir uns hierzu später den <b>Wikipediaartikel der Stadt Bielefeld</b> an.</p> 

<p>Es lassen sich auch ganz andere Textformen oder auch Textelemente mit Hilfe von Word Clouds visualisieren, egal ob Wikipediaartikel, PDF-Dokumente, Twitter-Feeds oder ganze Bücher, fast jede Textform ist nutzbar.</p> 
    
Die Wörter aus denen eine Word Cloud besteht sind zum Beispiel **unterschiedlich groß**. Je größer ein Wort in der Wortwolke ist, desto häufiger wird es im zugrundeliegenden Text genutzt. Das größte Wort stellt beispielsweise den **Themenschwerpunkt** eines Textes heraus. Zusammen mit weiteren, etwas kleineren Wörtern der Word Cloud lassen sich so vielleicht schon **thematische Zusammenhänge** erkennen oder **besonders relevante Themen** eines Textes.
</div>      

Neben der **Größe** gibt es noch andere Möglichkeiten, die Häufigkeit bestimmter Wörter innerhalb eines Textes mithilfe von Word Clouds zu visualisieren. Beispielsweise über eine **farbliche Kennzeichnung**. Das sieht dann zum Beispiel so aus, dass das meistgenutzte Wort in rot hervorgehoben wird (natürlich sind auch andere Farben möglich oder die Farbzuordnung wird dem Zufall überlassen).

Hierin liegt die **Stärke von Wortwolken**: Ohne, dass der ganze Text gelesen werden muss, kann mit dieser Visualisierungsform zügig ein erster Eindruck über das relevante Thema oder die relevanten Themen eines Textelements gewonnen werden.

Gerade wenn Word Clouds in Präsentationen genutzt werden, bieten diese den Vorteil, mehr Aufmerksamkeit auf sich zu ziehen als eine schlichte Auflistung von thematischen Schwerpunkten eines Textes.

In R lassen sich die Möglichkeiten zur Visualisierung einer Wortwolke ganz einfach umsetzten. Egal, ob über die Größe der Wörter oder eine farbliche Unterscheidung – auch eine Kombination verschiedener Visualisierungsformen ist möglich. R bietet uns die Möglichkeit, selbst eine Word Cloud zu erstellen.

Die erste Frage, die sich jetzt stellt, ist: ***Wie kann ich einen Text in R einlesen?***

Hierfür gibt es verschiedene Lösungen. Abhängig davon, in welcher Form der Text vorliegt, können wir die Aufgabe über entsprechende Pakete und Befehle lösen.
    

**Gut zu wissen**: Wir werden dir in diesem Notebook auch einige Vorgehensweisen zeigen, die dann besonders wichtig werden, wenn du mit einer eigenen RStudio-Installation und nicht mit einem Jupyter Notebook arbeitest.

# Word Cloud in R erstellen

## R-Projekt für die Word Cloud anlegen
Als erstes erstellen wir in RStudio ein neues *Projekt*. Dazu klickt man auf "File", dann auf "New Project..." und anschließend auf "New Directory". Als "Project Type" wählt man "New Project". Nun geben wir unserem Projekt einen Namen und wählen den Speicherort auf unserem Rechner aus. Den Speicherort oder den Speicherpfad merken wir uns, diesen brauchen wir gleich. R erstellt nun ein neues Projekt.

Die Texte, die wir als Dateien vorliegen haben und für die Word Cloud nutzen wollen kopieren wir nun in diesen Ordner. Den Wikipedia Eintrag der Stadt Bielefeld haben wir als Textdatei vorliegen, das Dateiformat lässt sich an der Dateiendung `.txt` erkennen. (Falls die Dateiendung bei dir nicht angezeigt wird, kannst du auch mit einem Rechtsklick auf die Datei unter Eigenschaften den Dateityp nachsehen). Jetzt befindet sich die Datei im Projektordner und wir können beginnen das Script zum Generieren einer Word Cloud zu erstellen. Du kannst auch ein bestehendes Projekt nutzen, dann muss die Textdatei einfach in den entsprechenden Ordner eingefügt werden.


## Script für die Word Cloud: Pakete installieren und laden
Im ersten Schritt installieren wir alle Pakete, die Befehle und Funktionen enthalten, die wir benötigen. Da die **Pakete** in unserer Jupyter Notebook Umgebung bereits vorinstalliert sind, sind die Pakete hier auskommentiert. In R selbst müsstest du sie aber bei der Erstbenutzung zunächst installieren.

Außerdem müssen wir diese Pakte sozusagen in R noch aktivieren oder laden. Das erfolgt mit dem `library()` Befehl.

In [None]:
# Installieren der Pakete, die zum  Erstellen einer Word Cloud benötigt werden

# install.packages("tm")
# install.packages("SnowballC")
# install.packages("wordcloud")
# install.packages("wordcloud2")
# install.packages("RColorBrewer")
# install.packages("stringi")
# install.packages("Rcpp")


# Laden der benötigten Pakete

library("tm")
library("SnowballC")
library("wordcloud")
library("RColorBrewer")
library("stringi")
library("Rcpp")
library("NLP")


## Script für die Word Cloud: Text einlesen
Wir erstellen zunächst ein Objekt `Wiki-Bielefeld`. Diesem Objekt weisen wir unseren Text als Inhalt zu. Hierzu lesen wir den Text in R ein. R liest mit Hilfe des Befehls `stri_read_lines()` den Text als Ganzes ein und teilt den Text dabei in einzelne Textzeilen auf. 


In [None]:
# Einlesen des Textes Zeile für Zeile

Wiki_Bielefeld <- stri_read_lines("Bielefeld_Wikipedia_Eintrag.txt")


## Ausprobieren

Lass dir doch einmal das erstellte Objekt `Wiki_Bielefeld` ausgeben. Dann kannst du die Struktur sehen, mit der R den Text aufteilt.

In [None]:
Wiki_Bielefeld

## Script für die Word Cloud: Textkorpus erstellen
In diesem Schritt fassen wir alle Texte, die wir in R mit den ersten drei Schritten eingelesen haben, zu einem **Textkorpus** zusammen. Bei unserem Beispiel handelt sich dabei nur um die Textdatei mit dem Wikipediaeintrag der Stadt Bielefeld. Wenn wir zum Beispiel eine Word Cloud zu allen Städten mit mehr als 100.000 Einwohner:innen in OWL erstellen wollen, würden wir auch die Wikipediaartikel der Städte Gütersloh und Paderborn zum Textkorpus hinzufügen, nachdem wir sie für R lesbar gemacht haben. Den so zusammengefassten Korpus weisen wir dem Objekt `dokumente` zu.

In [None]:
# Daten als Corpus laden, auch für mehrere Dateien ist das notwendig

dokumente <- Corpus(VectorSource(Wiki_Bielefeld))


# hier kannst du dir den erstellten Daten-Corpus noch einmal mit ansehen 
# gerade bei mehreren Dateien, die zu einem Daten-Corpus zusammengefasst werden, ist das ratsam

inspect(dokumente)

## Script für die Word Cloud: Matrix anlegen und sortierten Datensatz erstellen

Mit Hilfe des Objektes `dokumente` können wir nun eine **Matrix** mit den Wörtern aus unseren Texten anlegen. So wird die Häufigkeit, mit der die Wörter in unserem Texten vorkommen dargestellt. Außerdem werden die Wörter nach der Häufigkeit ihres Vorkommens sortiert. Beginnend beim Wort mit der höchsten absoluten Häufigkeit wird eine **absteigende Liste** erstellt. Diese sortierte Liste wird anschließend in einen eigenen Datensatz `daten` geschrieben. Auf diesem basiert dann im nächsten Schritt unsere Word Cloud.

In [None]:
# hier wird eine Matrix angelegt, die die Haeufigkeit der Begriffe aus den Texten beinhaltet
# Anlegen der Dokumenten-Matrix und Objektzuweisung

doku_matrix <- TermDocumentMatrix(dokumente)
matrix <- as.matrix(doku_matrix)


# absteigende Sortierung erstellen beginnend mit dem Wort, dass am meisten vorkommt
vektor <- sort(rowSums(matrix),decreasing = TRUE)

# Datensatz erstellen, der die Wörter mit ihrer Häufigkeit enthält und nach der vorher angelegten Sortierung sortiert ist
daten <- data.frame(word = names(vektor),freq = vektor)


## Script für die Word Cloud:  Word Cloud erstellen
Jetzt können wir mit dem Dataframe `daten` als Basis eine Word Cloud erstellen. Als erstes legen wir den **Seed** fest. Das heißt, die Word Cloud wird immer nach dem gleichen Schema erstellt. Der Vorteil hierbei ist, dass so die Word Cloud reproduzierbar ist und nicht jedes Mal mit einem neuen Aussehen erstellt wird.

Dann legen wir fest, dass unsere Word Cloud aus den Wörtern, die in unserem Dataframe enthalten sind besteht `(d$words)` und dabei nach der Worthäufigkeit strukturiert ist `(d$freq)`. Über `min.freq` legen wir fest, wie oft  ein Wort mindestens in unserem Datensatz `daten` vorkommen muss, damit es in die Word Cloud übernommen wird. Wir können auch begrenzen, aus wie vielen Wörtern die Word Cloud besteht. 

Die Anordnung der Wörter kann zufällig erfolgen. Wir lassen unsere Wortwolke aber nicht zufällig erstellen. Dies erfolgt über `random.order = FALSE`. Mit dem Wert 0.40 (40 %) legen wir fest, welcher Anteil an Wörtern  nicht waagerecht dargestellt wird. Der letzte Ausdruck legt die Farbauswahl für die Word Cloud fest.

***Was fällt dir beim Erstellen der Word Cloud auf?***

In [None]:
# Festlegen einer Vorlage für die Word Cloud, damit diese reproduziert werden kann und nicht
# bei jeder Erstellung zufaellig erzeugt wird

set.seed(4321)

# Erstellen der Word Cloud - die Woerter mit der groeßten Haeufigkeit (freq) werden am groeßten dargestellt
# die minimale Haeufigkeit damit ein Wort dargestellt wird ist 1
# die Word Cloud besteht aus max. 100 Woertern (max.Words)
# die Anordnung ist nicht zufaellig
# rot.per legt fest, welcher Anteil an Woertern nicht waagerecht dargestellt wird

Wortwolke1 <- wordcloud(words = daten$word,freq = daten$freq, scale = c(12,1), min.freq = 1,
          max.words = 100, random.order = FALSE, rot.per = 0.40, 
          colors = brewer.pal(8, "Dark2"))
          

## Stop Words - "Stopp-Wörter" und weitere Aufbereitung

**Die erstellte Word Cloud ist noch nicht aussagekräftig!** 

Die Wörter, die am häufigsten vorkommen sind „der“, „die“, „das“, „und“ und ähnliche. Diese Wörter kommen gerade in deutschen Texten sehr oft vor, sind für die Word Cloud aber nicht besonders aussagekräftig. Um die Texte, die wir benutzen, von diesen *Füllwörtern* zu befreien gibt, es für R **Stop-Word-Listen**. Diese entfernen alle gängigen Wörter, wie eben „der“, „die“, „das“ und „und“ aus der Liste der Wörter, die in die Word Cloud übernommen werden. 

Hierzu weisen wir unserem erstellten Korpus-Objekt `dokumente` mit einem Befehl einfach diese Stop-Word-Liste zu und die Wörter der Liste fallen aus der Wertung. Diese Stop-Word-Listen gibt es dabei für verschiedene Sprachen.

Außer den Stopp-Wörtern, ist es außerdem sinnvoll Zahlen (z.B. ausgeschriebene Jahreszahlen wie "1995"), überflüssige Leerzeichen oder auch die Zeichensetzung zu entfernen, um möglichst nur auf die relevanten Informationen und die relevanten Wörter zuzugreifen. 

Analysiert man beispielsweise ein Twitter-Feed, ist es außerdem sinnvoll weitere Sonderzeichen wie die Raute (#) zu entfernen oder auch das @-Zeichen. Zusätzlich kann man alle Buchstaben als Kleinbuchstaben definieren, um ein einheitliches Schriftbild zu erhalten.

Diese Bereinigungen weisen wir hierzu nach und nach unserem Korpus-Objekt zu. 

***Schau dir die Word Cloud an, die nach der Aufbereitung entsteht. Was fällt dir auf?***

In [None]:
### Stop Words - "Stopp-Woerter" und weitere Aufbereitung###

# alle Großbuchstaben werden zu Kleinbuchstaben 
dokumente <- tm_map(dokumente, content_transformer(tolower))


# Stoppwoerter entfernen z.B. der, die, das, und usw. Deutsch und Englisch
dokumente <- tm_map(dokumente, removeWords, stopwords("english"))
dokumente <- tm_map(dokumente, removeWords, stopwords("german"))


# Zahlen entfernen
dokumente <- tm_map(dokumente, removeNumbers)

# ueberschuessige Leerzeichen entfernen
dokumente <- tm_map(dokumente, stripWhitespace)

# Zeichensetzung entfernen
dokumente <- tm_map(dokumente, removePunctuation)

# Text aufbereiten, entfernen von Sonderzeichen
sonder_z <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))
dokumente <- tm_map(dokumente, sonder_z, "/")
dokumente <- tm_map(dokumente, sonder_z, "@")
dokumente <- tm_map(dokumente, sonder_z, "\\|")


# hier wird eine Matrix angelegt, die die Haeufigkeit der Begriffe aus den Texten beinhaltet
doku_matrix2 <- TermDocumentMatrix(dokumente)
matrix2 <- as.matrix(doku_matrix2)
vektor2 <- sort(rowSums(matrix2),decreasing = TRUE)
daten2 <- data.frame(word = names(vektor2),freq = vektor2)


# Festlegen einer "Vorlage" für die Word Cloud, damit diese reproduziert werden kann und nicht
# bei jeder Erstellung zufaellig erstellt wird
set.seed(4321)


# Erstellen der Word Cloud - die Woerter mit der groeßten Haeufigkeit (freq) werden am groeßten dargestellt
# die minimale Haeufigkeit damit ein Wort dargestellt wird ist 1
# die Word Cloud besteht aus max. 100 Woertern (max.Words)
# die Anordnung ist nicht zufaellig
# rot.per legt fest welcher Anteil an Woertern nicht waagerecht dargestellt wird
wordcloud2 <- wordcloud(words = daten2$word, freq = daten2$freq, scale = c(8,1), min.freq = 1,
          max.words = 100, random.order = FALSE, rot.per = 0.40, 
          colors = brewer.pal(8, "Dark2"))

## Eigene Stop Words

Wie du in der zuletzt erstellten Word Cloud siehst, reicht je nach Text die Aufbereitung mit den vordefinierten Stoppwörter-Listen noch nicht aus und wir finden immer noch Wörter, die unsere Word Cloud in ihrer Aussagefähigkeit einschränken. Um auch diese Wörter aus der Word Cloud auszuschließen zu können, können wir eigene Wörter als Stop Words definieren. Diese Liste weisen wir wiederum unserem Objekt `dokumente` zu.

In [None]:
### eigene Stop Words
dokumente <- tm_map(dokumente, removeWords, c("sowie", "wurden", "wurde", "seit", "heute", "heut", 
                "teil", "befindet", "weiter", "erst", "etwa", "rund", "gibt", 
                "liegt", "zwei", "statt", "weitere", "finden", "erste")) 

# hier wird eine Matrix angelegt, die die Haeufigkeit der Begriffe aus den Texten beinhaltet
doku_matrix3 <- TermDocumentMatrix(dokumente)
matrix3 <- as.matrix(doku_matrix3)
vektor3 <- sort(rowSums(matrix3),decreasing = TRUE)
daten3 <- data.frame(word = names(vektor3),freq = vektor3)


# Festlegen einer "Vorlage" für die Word Cloud, damit diese reproduziert werden kann und nicht
# bei jeder Erstellung zufaellig erstellt wird
set.seed(4321)


# Erstellen der Word Cloud - die Woerter mit der groeßten Haeufigkeit (freq) werden am groeßten dargestellt
# die minimale Haeufigkeit damit ein Wort dargestellt wird ist 1
# die Word Cloud besteht aus max. 100 Woertern (max.Words)
# die Anordnung ist nicht zufaellig
# rot.per legt fest welcher Anteil an Woertern nicht waagerecht dargestellt wird
wordcloud3 <- wordcloud(words = daten3$word, freq = daten3$freq,scale = c(8,1), min.freq = 1,
          max.words = 100, random.order = FALSE, rot.per = 0.40, 
          colors = brewer.pal(8, "Dark2"))

## Ausprobieren
In der Liste mit den eigenen Stop Words fehlen noch ein paar Wörter. Füge die Wörter zur Liste hinzu und lass dir die neue Word Cloud ausgeben.

In [None]:
## Loesungsvorschlag
###eigene Stop Words###
dokumente <- tm_map(dokumente, removeWords, c("drei","viele","siehe","jedoch","mehrere","isbn")) 



# hier wird eine Matrix angelegt die die Haeufigkeit der Begriffe aus den Texten beinhaltet
doku_matrix4 <- TermDocumentMatrix(dokumente)
matrix4 <- as.matrix(doku_matrix4)
vektor4 <- sort(rowSums(matrix4),decreasing = TRUE)
daten4 <- data.frame(word = names(vektor4),freq = vektor4)


# Festlegen einer "Vorlage" für die Word Cloud, damit diese reproduziert werden kann und nicht
# bei jeder Erstellung zufaellig erstellt wird
set.seed(4321)


# Erstellen der Word Cloud - die Woerter mit der groeßten Haeufigkeit (freq) werden am groeßten dargestellt
# die minimale Haeufigkeit damit ein Wort dargestellt wird ist 1
# die Word Cloud besteht aus max. 100 Woertern (max.Words)
# die Anordnung ist nicht zufaellig
# rot.per legt fest welcher Anteil an Woertern nicht waagerecht dargestellt wird

wordcloud4 <- wordcloud(words = daten4$word, freq = daten4$freq, scale = c(8,1), min.freq = 1,
          max.words = 100, random.order = FALSE, rot.per = 0.40, 
          colors = brewer.pal(8, "Dark2"))

## Hinweis
Es gibt darüber hinaus die Möglichkeit, mit einem weiteren Befehl Wörter auf ihren Wortstamm zu reduzieren. Beispielsweise werden so die Wörter „Bielefeld“ und „Bielefelder“ zusammengefasst. Das kann je nach Forschungsinteresse oder Fragestellung durchaus nützlich sein. Wir verzichten hier jedoch auf diesen Befehl, dieser führt stellenweise nämlich auch zur Verfälschung des Analyseergebnisses und kürzt unter anderem Wortendungen weg. Den entsprechenden Befehl und die Word Cloud, die mit ihm ausgegeben wird, siehst du, wenn du das folgende Skript ausführst.

In [None]:
###Hinweis###

# Woerter auf ihren Wortstamm reduzieren, sodass beispielsweise Bielefelder und Bielefeld zusammengefasst werden
dokumente <- tm_map(dokumente, stemDocument)




# hier wird eine Matrix angelegt, die die Haeufigkeit der Begriffe aus den Texten beinhaltet
doku_matrix5 <- TermDocumentMatrix(dokumente)
matrix5 <- as.matrix(doku_matrix5)
vektor5 <- sort(rowSums(matrix5),decreasing = TRUE)
daten5 <- data.frame(word = names(vektor5),freq = vektor5)


# Festlegen einer "Vorlage" für die Word Cloud, damit diese reproduziert werden kann und nicht
# bei jeder Erstellung zufaellig erstellt wird
set.seed(4321)


# Erstellen der Word Cloud - die Woerter mit der groeßten Haeufigkeit (freq) werden am groeßten dargestellt
# die minimale Haeufigkeit damit ein Wort dargestellt wird ist 1
# die Word Cloud besteht aus max. 100 Woertern (max.Words)
# die Anordnung ist nicht zufaellig
# rot.per legt fest welcher Anteil an Woertern nicht waagerecht dargestellt wird
wordcloud5 <- wordcloud(words = daten5$word, freq = daten5$freq, scale = c(8,1), min.freq = 1,
          max.words = 100, random.order = FALSE, rot.per = 0.40, 
          colors = brewer.pal(8, "Dark2"))

# Websites direkt auslesen und eine Word Cloud erstellen
Mit R lassen sich nicht nur Textdateien auswerten, du kannst auch direkt auf **Websites** zugreifen und die Texte dort für die Erstellung von Word Clouds nutzen. An den Befehlen für die Aufbereitung der Texte ändert sich nichts. Es gibt ein paar Ergänzungen, aber den generellen Ablauf kennen wir schon aus der Erstellung der Word Cloud auf Basis von Textdokumenten.

Wir benötigen allerdings zusätzliche R-Funktionen und Befehle. Hierzu installieren und laden wir einige neue Pakete.

In [None]:
# benoetigte Pakete
library("rvest")
library("dplyr")
library("htmltools")
library("tm")
library("SnowballC")
library("wordcloud")
library("wordcloud2")
library("RColorBrewer")
library("stringi")
library("magrittr") 
library("dplyr")    
library("ggplot2")
library("xml2")


## Websites mit R lesen
Um Websites mit R zu lesen, benötigen wir zunächst die URL der Seite, die wir nutzen möchten. Wir bleiben bei unserem Beispiel, dem Wikipediaeintrag der Stadt Bielefeld.

Dieser ist unter der Adresse https://de.wikipedia.org/wiki/Bielefeld zu erreichen.


## URL Adresse 
Die URL-Adresse definieren wir als eigenes Objekt, somit müssen wir nicht immer den kompletten Link angeben müssen. Das neuerstellte Objekt ist `Wiki_Bi_Eintrag`.

## HTML und XML einlesen
Textdokumente, wie .txt-Dateien und Websites, unterscheiden sich in Bezug auf ihre Formatierung, da es sich um völlig unterschiedliche Quellen für das gleiche Textelement handelt. Um die Website mit R einzulesen, nutzen wir daher den Befehl `read_html()`. Dies macht das Format der Website für R nutzbar. Den Inhalt, den wir damit auslesen, weisen wir dem neuen Objekt `Wiki_Bi_html` zu. 

In [None]:
# Abrufen des Wikipediaartikels der Stadt Bielefeld ueber die URL 
Wiki_Bi_Eintrag <- "https://de.wikipedia.org/wiki/Bielefeld"

Wiki_Bi_html <- read_html(Wiki_Bi_Eintrag)

Wiki_Bi_html
str(Wiki_Bi_html)

### Kurzer Exkurs: Quellcode

Um von einer Website nur den relevanten Text für die **Word Cloud** zu nutzen, ist ein Blick in den Quellcode der Website notwendig. Keine Sorge, das klingt komplizierter als es eigentlich ist. 

Öffne in einem Browser Deiner Wahl (*Firefox, Google Chrome, Opera, Microsoft Edge*) den Wikipediaeintrag der Stadt Bielefeld. Klicke jetzt mit der rechten Maustaste irgendwo auf die Seite, zum Beispiel neben das Wappen von Bielefeld. In dem Kontextmenü, das sich öffnet, klickst du auf „Untersuchen“. In deinem Browser öffnet sich jetzt ein neues Menü neben dem Wikipediaeintrag. Dieses Fenster zeigt an, aus welchen Elementen die Seite besteht. 

Ganz oben in dem neuen Menü ist ein Button, auf dem ein kleiner Mauszeiger zu sehen ist. Wenn du auf diesen Button klickst, leuchtet dieser blau auf und ist aktiviert. Sobald du irgendwo anders draufklickst, deaktiviert sich dieser Button wieder. Lass den Button aktiviert und fahr einfach über den Wikipedia-Eintrag ohne etwas anzuklicken. 

Es leuchten  verschiedene Kästchen blau auf. Teilweise sind die auch noch mit einem orangefarbenen Rahmen versehen. Wenn du zum Beispiel den Mauszeiger auf das Wikipedia-Logo bewegst, ist dieses blau hinterlegt. Außerdem siehst du unter dem Logo eine kleine Textbox. Der Titel dieser Box lautet: „a.mw-wiki-logo“. Das sind HTML-Element und CSS-Klasse des Logos auf der Website. Mit der CSS-Klasse lassen sich später alle Elemente der Website finden, die auch zu dieser Klasse gehören. Dabei sind HTML-Element und CSS-Klasse mit einem Punkt voneinander getrennt. In diesem Beispiel ist das Logo in einem „a“ HTML-Element (das macht das Bild zu einem anklickbaren Link) und hat die CSS-Klasse „mw-wiki-logo“ (damit wird die Darstellung des Bildes gesteuert).

Für die Word Cloud brauchen wir das Wikipedia-Logo oder auch die linke Navigationsleiste für den Wikipedia Artikel nicht. Wir schauen daher zu welcher CSS-Klasse der Textkörper des Wikipediaartikels gehört.

Wenn du den Mauszeiger auf die freie Fläche zwischen „Inhaltsverzeichnis“ und der Tabelle mit den „Basisdaten“ auf der rechten Seite bewegst, leuchtet der ganze Text blau auf oder ist blau hinterlegt.
Das ist das für uns relevante Element auf der Website des Wikipediaeintrags der Stadt Bielefeld: "div.mw-parser-output". Auch hier sind wieder HTML-Element und CSS-Klasse involviert: „div“ (das fügt alle anderen Elemente, die in diesem div-Element enthalten sind, zusammen) und „mw-parser-output“ (auch hiermit wird die Darstellung gesteuert). Da wir nicht alle div-Elemente haben möchten, sondern nur die, die zur Klasse „mw-parser-output“ gehören, können wir das „div“ streichen. Für das Einlesen in R reicht uns die Klasse: „.mw-parser-output“.

## Einlesen des relevanten Textelements von einer Website
Nachdem wir ermittelt haben, wie genau der Text, der uns interessiert, auf der Webseite zu finden ist, können wir ihn in R einlesen. Hierzu schreiben wir den Text in ein neues Objekt, sodass dieses Objekt nur noch den Text beinhaltet. Dies gelingt uns mit dem folgenden Skript. Anschließend geben wir das Objekt zur Überprüfung aus. 

In [None]:
# Einlesen des Inhaltes / Textes --> ueber den Pfad .mw-parser-output 
# hierzu ist ein Auslesen des Quellcodes der Internetseite notwendig

Wiki_Bi_Text <- (Wiki_Bi_html %>%
                  html_nodes(".mw-parser-output") %>%
                  html_text())


# Ausgabe des Textes zur Ueberpruefung
Wiki_Bi_Text

## Text Ausgabe
Dir ist bestimmt aufgefallen, dass der Text, den du gerade ausgegeben hast, noch etwas chaotisch aussieht. Das liegt unter anderem daran, dass zum Beispiel auch die Zeilenumbrüche `\n` im Textelement als Text vermerkt sind.

Du kannst dir mit dem nachfolgenden Befehl den Text ausgeschrieben ausgeben lassen, das sieht dann schon deutlich übersichtlicher aus.

In [None]:
# Ausgabe des Textes in Zeilen, das ist wesentlich uebersichtlicher
writeLines(Wiki_Bi_Text)

## Ausgabe in Textdatei
Bevor wir eine Word Cloud aus dem Textobjekt `Wiki_Bi_Text` erstellen, speichern wir den Text mit Hilfe von R in einer seperaten Textdatei ab. Diese Datei wird innerhalb des Befehls benannt (`Wiki_Bi_Download.txt`) und automatisch in unserem Projektordner gespeichert.

Diese Textdatei lesen wir anschließend, wie wir es oben mit der .txt-Datei schon kennengelernt haben, direkt wieder in R ein und können nun, wie oben bereits beschrieben, die nötigen Anpassungen und Bereinigungen vornehmen, um eine Word Cloud zu erstellen. 

In [None]:
# Ausgabe/Exportierung des (Tabllen-)Objektes mit Titel und Beschreibung in eine Textdatei (.txt)

write.table(Wiki_Bi_Text, "Wiki_Bi_Download.txt", sep = "\n", row.names = FALSE, na = "")

## Erstellen der Word Cloud

Analog zum Vorgehen bei einer Textdatei erfolgt jetzt das Aufbereiten der Texte als auch das Erstellen der Word Cloud.


## Script für die Word Cloud: Text einlesen

In [None]:
# Einlesen des Textes Zeile für Zeile
Wiki_Bielefeld_down <- stri_read_lines("Wiki_Bi_Download.txt")


## Script für die Word Cloud: Textkorpus erstellen

In [None]:
# Daten als Corpus laden 
doku_down <- Corpus(VectorSource(Wiki_Bielefeld_down))


## Stop Words - "Stopp-Wörter" und weitere Aufbereitung

In [None]:
# alle Großbuchstaben werden zu Kleinbuchstaben 
doku_down <- tm_map(doku_down, content_transformer(tolower))


# Stoppwoerter entfernen z.B. der, die, das, und usw. Deutsch und Englisch
doku_down <- tm_map(doku_down, removeWords, stopwords("english"))
doku_down <- tm_map(doku_down, removeWords, stopwords("german"))


# Zahlen entfernen
doku_down <- tm_map(doku_down, removeNumbers)


# ueberschuessige Leerzeichen entfernen
doku_down <- tm_map(doku_down, stripWhitespace)


# Zeichensetzung entfernen
doku_down <- tm_map(doku_down, removePunctuation)


# Text aufbereiten, entfernen von Sonderzeichen
sonder_z_down <- content_transformer(function (x , pattern ) gsub(pattern, " ", x))
doku_down <- tm_map(doku_down, sonder_z_down, "/")
doku_down <- tm_map(doku_down, sonder_z_down, "@")
doku_down <- tm_map(doku_down, sonder_z_down, "\\|")
doku_down <- tm_map(doku_down, sonder_z_down, "–") 
doku_down <- tm_map(doku_down, sonder_z_down, "↑")                               


# Definieren von eigenen Stoppwoertern
doku_down <- tm_map(doku_down, removeWords, c(
  "wurde", "sowie", "wurden", "seit", "heute", "heut", "teil", "befindet", "weiter", "erst", "etwa", "rund", 
  "gibt", "liegt", "zwei", "statt", "weitere", "finden", "erste", "abgerufen", "isbn"))


## Script für die Word Cloud: Matrix anlegen und sortierten Datensatz erstellen

In [None]:
# hier wird eine Matrix angelegt, die die Haeufigkeit der Begriffe aus den Texten beinhaltet
doku_matrix_down <- TermDocumentMatrix(doku_down)
matrix_down <- as.matrix(doku_matrix_down)
vektor_down <- sort(rowSums(matrix_down),decreasing = TRUE)
daten_down <- data.frame(word = names(vektor_down),freq = vektor_down)


## Script für die Word Cloud:  Word Cloud erstellen

In [None]:
# Festlegen einer "Vorlage" für die Word Cloud, damit diese reproduziert werden kann und nicht
# bei jeder Erstellung zufaellig erstellt wird
set.seed(4321)


# Erstellen der Word Cloud - die Woerter mit der groeßten Haeufigkeit (freq) werden am groeßten dargestellt
# die minimale Haeufigkeit damit ein Wort dargestellt wird ist 1
# die Word Cloud besteht aus max. 100 Woertern (max.Words)
# die Anordnung ist nicht zufaellig
# rot.per legt fest welcher Anteil an Woertern nicht waagerecht dargestellt wird
w_down <- wordcloud(words = daten_down$word, freq = daten_down$freq,scale = c(8,1), min.freq = 1,
          max.words = 100, random.order = FALSE, rot.per = 0.40, 
          colors = brewer.pal(8, "Dark2"))

## Anmerkung zum Unterschied Textdatei und Webdokument

Wie du siehst, sind die Word Clouds, die auf der Basis von Textdateien und Webites erstellt wurden, nicht komplett identisch. Gerade die abgerufene Website beinhaltet noch andere Textelemente wie zum Beispiel die Einzelnachweise des Artikels oder auch die Liste deutscher Großstädte. Wir haben also beim Abrufen des Artikels von der Website nicht exakt die gleiche Grundlage, wie bei der Textdatei des Artikels.

Dies muss unbedingt bei der Auswertung der beiden Word Clouds berücksichtigt werden. Auch die Aufbereitung wird hierdurch beeinflusst, so müssen unter Umständen andere/weitere eigene Stoppwörter ausgewählt werden.


# Abschluss
Wir haben gesehen, dass die Erstellung von Word Clouds auf Grundlage der unterschiedlichsten Textformen möglich ist. Je nach Textgrundlage und Format ist eine dementsprechende sorgfältige und unterschiedliche Aufbereitung notwendig.

Beachtest du dies und kommunizierst offen und transparent, wie deine Word Cloud entstanden ist und auf welcher Datengrundlage sie beruht, steht einer Verwendung bei der nächsten Visualisierung von Daten nichts mehr im Weg!

# Literatur

**R**
* https://www.petitessen.net/wordcloud/#comments

* http://www.sthda.com/english/wiki/text-mining-and-word-cloud-fundamentals-in-r-5-simple-steps-you-should-know

* https://www.rdocumentation.org/packages/wordcloud/versions/2.6/topics/wordcloud

* https://r-graph-gallery.com/wordcloud.html

**Stadt Bielefeld**

* https://de.wikipedia.org/wiki/Bielefeld