# Einführung in Text Mining mit dem Natural Language Toolkit

## Quellen, auf denen dieser Workshop aufbaut

Der vorliegende Workshop basiert zu einem Großteil auf: Alex, Beatrice and Llewellyn, Clare. (2020) Library Carpentry: Text & Data Mining. Centre for Data, Culture & Society, University of Edinburgh. http://librarycarpentry.org/lc-tdm/. Licensed under [CC-BY 4.0](https://creativecommons.org/licenses/by/4.0/) 2016–2020 by [Library Carpentry](https://librarycarpentry.org/). Die konkret übernommenen Inhalte sowie Abweichungen von der Vorlage werden unter "Details" genauer beschrieben. Der vorliegende Workshop nutzt die Inhalte der Vorlage im Rahmen der CC-BY-4.0-Lizenz, wurde aber ohne Beteiligung der Urheber der Vorlage erstellt und auch nicht von diesen geprüft oder aktiv unterstützt.
<details>
Aus der o. g. Vorlage wurde der grundsätzliche Aufbau des Workshops beginnend mit einer kurzen Einführung in das Thema Text Mining, die Bedienung von Jupyter Notebooks, Grundlagen in Python und die Demonstration exemplarischer NLTK-Funktionen übernommen. Konkret übernommene Inhalte werden unten genauer beschrieben. Alle Textinhalte, die aus der Vorlage übernommen wurden, wurden vom Englischen ins Deutsche übersetzt und häufig sprachlich umformuliert. 
<br/><br/>     
Die Abschnitte 
<ul>
    <li>"Was ist Text Mining und wofür kann es eingesetzt werden?"</li>
    <li>"Datenzusammenstellung: Wie komme ich an geeignetes wissenschaftliches Textmaterial?"</li>
</ul>
wurden nicht aus der Vorlage übernommen. Die Quellen der Inhalte werden in den Abschnitten selbst angegeben.
<br/><br/>    
Als Textmaterial wird im vorliegenden Workshop der CORD-19-Datensatz verwendet statt eines Ausschnitts aus der Medical History of British India collection wie in der Vorlage. 
<br/><br/>    
Der Abschnitt "Bedienung Jupyter Notebook" inkl. Screenshots wurde relativ unabhängig von der Vorlage erstellt. 
<br/><br/> 
Beim Abschnitt "Python" wurde sich inhaltlich stark am Aufbau der Vorlage orientiert, die verwendeten Beispiele und Erklärungstexte aber abgeändert. Dies betrifft die Unterabschnitte
<ul>
    <li>"Print-Funktion"</li>
    <li>"Variablen"</li>
    <li>"Einige wichtige Datentypen"</li>
    <li>"Datentyp Liste"</li>
    <li>"for Schleife"</li>
    <li>"if/elif/else-Ausdrücke"</li>
    <li>"Datentyp Dictionary"</li>
</ul>
    
Die folgenden Unterabschnitte wurden neu hinzugefügt:
<ul>
    <li>"list comprehension"</li>
    <li>"len() Funktion zur Ausgabe der Anzahl der Elemente einer Liste"</li>
</ul>
    
Da der vorliegende Workshop im Gegensatz zur Vorlage den CORD-19-Datensatz als Datengrundlage für die Text-Mining-Analysen verwendet, wurde der Abschnitt "Datenzusammenstellung aus dem CORD-19-Korpus" neu erstellt und basiert nicht auf der Vorlage.
    
Bei den Abschnitten, die sich mit konkreten NLTK-Funktionen beschäftigen, d. h. alle Abschnitte ab "Python-Bibliotheken für die folgenden Analysen", orientiert sich der vorliegende Workshop sehr eng an der Vorlage. Insbesondere wurden die Codebeispiele aus der Vorlage übernommen, wenn auch mit teilweise leicht abgeänderten Variablenbezeichnungen (z. B. <code>lower_cord_tokens</code> statt <code>lower_india_tokens</code>).
</details>

Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python
– Analyzing Text with the Natural Language Toolkit. http://www.nltk.org/book/

COVID-19 Open Research Dataset (CORD-19), https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge. Im Rahmen des Workshops werden Abstracts unter CC-BY-Lizenzen aus der metadata.csv-Datei des Datensatzes (Stand: 10.03.2021) ausgewertet.

Weitere verwendete Literatur (wird im Jupyter Notebook an den entsprechenden Stellen zitiert):

[1] Drees, B. (2016). Text und Data Mining: Herausforderungen und Möglichkeiten für Bibliotheken. Perspektive Bibliothek, 5(1), 49–73. https://doi.org/10.11588/pb.2016.1.33691

[2] What Is Text Mining? A Beginner's Guide. https://monkeylearn.com/text-mining/

[3] Rakesh Agrawal, Tomasz Imieliński, and Arun Swami. 1993. Mining association rules between sets of items in large databases. SIGMOD Rec. 22, 2 (June 1, 1993), 207–216. DOI:https://doi.org/10.1145/170036.170072

[4] A Friendly Introduction to Text Clustering. https://towardsdatascience.com/a-friendly-introduction-to-text-clustering-fa996bcefd04 

[5] Weeber M, Vos R, Klein H, De Jong-Van Den Berg LT, Aronson AR, Molema G. Generating hypotheses by discovering implicit associations in the literature: a case report of a search for new potential therapeutic uses for thalidomide. J Am Med Inform Assoc. 2003 May-Jun;10(3):252-9. doi: 10.1197/jamia.M1158. Epub 2003 Jan 28. PMID: 12626374; PMCID: PMC342048.

[6] Perkins, J. (2014) Python 3 Text Processing with NLTK 3 Cookbook, ISBN 9781782167853 



## Inhalte des Workshops

* Theorie
  * Was ist Text Mining und wofür kann es eingesetzt werden?
      * Mögliche Definition und Ablauf
      * Text-Mining-Methoden
      * Anwendungsbeispiel
      * Datenzusammenstellung: Wie komme ich an geeignetes wissenschaftliches Textmaterial?
* Praxis: Untersuchung von Abstracts aus dem CORD-19-Datensatz
  * Bedienung Jupyter-Notebook
  * Einführung in Python
    * Vorteile
    * Print-Funktion
    * Variablen
    * Einige wichtige Datentypen
    * Ausgabe des Typs einer Variable mit der Funktion type()
    * Datentyp Liste
    * for-Schleifen
      * list comprehensions
    * if/elif/else-Ausdrücke
    * Datentyp Dictionary
  * Ziele der Analyse des CORD-19-Datensatzes
  * Datenzusammenstellung aus dem CORD-19-Korpus
  * Datenaufbereitung
    * Extrahieren der Abstracts aus einer csv-Datei und Schreiben in eine Textdatei
    * Tokenisierung
    * Normalisierung (Umwandlung aller Tokens in Kleinschreibung)
    * Stoppwortentfernung
  * Analyse
    * Konkordanzliste (Kontexte von Token)
    * Häufigkeitsverteilung
        * Diagramm
        * Wortwolke
    * Kollokationen (häufig zusammen auftretende Token)

## Theorie
### Was ist Text Mining und wofür kann es eingesetzt werden?

**Mögliche Definition und Ablauf**

* Text Mining kann als die automatisierte, systematische, auf Algorithmen gestützte statistische Auswertung großer Datenmengen bezeichnet werden und
* dient der Auffindung von (bisher unbekannten) Zusammenhängen, strukturellen Ähnlichkeiten sowie deren Nutzung zur Extrapolation (z.B. Vorhersage von Eigenschaften)
![grafik-3.png](attachment:grafik-3.png) in Anlehnung an https://www.fosteropenscience.eu/node/2152 

**Einfache Text-Mining-Methoden** [2]

* Worthäufigkeiten
* Konkordanzen (Kontexte, in denen ein Wort auftaucht)
* Kollokationen (häufig zusammen auftretende Wörter)

**Fortgeschrittene Text-Mining-Methoden** [1, 2]

* Musterextraktion
  * Assoziationsanalyse [3]
    * Identifikation häufig zusammen auftretender Attribute
    * häufige Anwendung: Warenkorbanalyse
* Clustering [4]
  * Gruppierung von ähnlichen Daten in Cluster
  * "unsupervised learning": Cluster sind nicht vordefiniert
  * Beispiele für Clustering-Algorithmen
    * hierarchisches Clustering
    * *k*-means-Clustering
* Klassifikation
  * "supervised learning": Klassen sind im Voraus bekannt
  * Beispiele für Klassifikationsalgorithmen
    * Nächste-Nachbarn-Klassifikation
    * Entscheidungsbäume
* Regressionsanalyse
* Computerlinguistische Ansätze 
  * wichtiges Hilfsmittel: Ontologien
  * Anwendung: z. B. Named Entity Recognition
  
**Anwendungsbeispiel: Suche nach Krankheiten, die potenziell mit Thalidomid behandelt werden können**

Unter Nutzung des Swanson-ABC-Modells und des Unified Medical Language System (UMLS) Metathesaurus konnten Weeber et al. (2003) Krankheiten identifizieren, die möglicherweise mit Thalidomid behandelt werden können. [5]

<figure>
    <img display:inline-block align="left" src="Jupyter_Notebook_Screenshots/Anwendungsbeispiel_Text_Mining_Thalidomid.png">
    <br clear="all" />
</figure>

### Datenzusammenstellung: Wie komme ich an geeignetes wissenschaftliches Textmaterial?

**Arten von Textmaterial**
* Volltexte
* Abstracts
* Metadaten
* ...

**Datenformate**
* Maschinenlesbar, strukturiert (z. B. XML, CSV) -> sehr gut für TDM-Anwendungen geeignet
* Maschinenlesbar (z. B. PDF mit durchsuchbarem Volltext) -> für TDM-Anwendungen geeignet
* Nicht maschinenlesbar (z. B. PDF, in denen die Seiten als Bilder vorliegen) -> ohne OCR nicht für TDM-Anwendungen geeignet

**Wissenschaftliche Volltexte und Abstracts z. B. aus OA-Journals wie**
  * SpringerOpen (Abruf von Artikeln per API im XML-JATS-Format)
    * https://dev.springernature.com/
  * Elsevier (Abruf von Artikeln per API in Elsevier-spezifischem Format)
    * https://dev.elsevier.com/
  * PlosOne (Bulk-Download aller Artikel im XML-JATS-Format möglich)
    * https://plos.org/text-and-data-mining/
  * ...
  
**Abstracts aus Datenbanken, z. B.**
  * PubMed (Abruf von Abstracts per API)
    * Artikel auf der Webseite: https://pubmed.ncbi.nlm.nih.gov/33540487/
    * Abruf der Artikelmetadaten per API: https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi?db=pubmed&id=33540487&retmode=xml&rettype=abstract
  * SCOAP3 (Hochenergiephysik)
    * https://github.com/SCOAP3/scoap3-next/wiki/API-documentation

**Thematische, öffentlich verfügbare Korpora, z. B.**
  * COVID-19 Open Research Dataset (CORD-19) 
    * https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
    * Dieses Datenset wird für den heutigen Workshop verwendet
    
**Unterstützung bei der Beschaffung von Literatur für TDM-Projekte**

Die ULB Darmstadt unterstützt Sie dabei, Literatur für Text-und-Data-Mining-Anwendungen zu beschaffen. Falls Sie beispielsweise bestimmte Zeitschriften, die die ULB lizenziert, im Rahmen einer TDM-Analyse auswerten möchten, bieten wir an, mit den betreffenden Verlagen in Kontakt zu treten und die Nutzungsbedingungen zu klären (z. B. ob der Verlag die gewünschten Artikel, ggf. in strukturierten Formaten, bereitstellen würde oder ob ein automatisiertes Harvesten von Artikeln von der Verlagswebseite erlaubt ist). Bitte wenden Sie sich diesbezüglich an das Team Text und Data Mining der ULB (tdm@ulb.tu-darmstadt.de).

## Praxis: Untersuchung von Abstracts aus dem CORD-19-Datensatz

### Bedienung Jupyter Notebook

**Editor-Oberfläche**
* Markdown-Zellen (Freitext)
* Code-Zellen (Softwarecode + Output)

Wechsel zwischen Zelltypen über die Menüleiste
<figure>
    <img display:inline-block align="left" src="Jupyter_Notebook_Screenshots/Jupyter_Change_Celltype.png">
    <br clear="all" />
</figure>

**Neue Zelle erstellen**

* Eine bestehende Zelle mit einfachem Linksklick auswählen
* Über das Plus-Symbol in der Menüleiste eine neue Zelle darunter einfügen
* Über das Dropdown-Menü (s. o.) den Zelltyp auswählen

<figure>
    <img display:inline-block align="left" width=550 src="Jupyter_Notebook_Screenshots/Add_Cell_Below_v1.png">
    <br clear="all" />
</figure>

**Übung**

Erzeugen Sie bitte unter dieser Zelle eine neue leere Markdown-Zelle.

**Zelle löschen**

* Zelle mit einfachem Linksklick öffnen 
* im Menü Edit -> Delete Cells
* Alternative: Nutzen des Ausschneiden-Symbols (Zelle befindet sich anschließend in der Zwischenablage)

<figure>
    <img display:inline-block align="left" width=550 src="Jupyter_Notebook_Screenshots/Cut_Cell_v1.png">
    <br clear="all" />
</figure>

**Übung**

Löschen Sie bitte die gerade oben erzeugte Zelle.

**Bearbeitungsmodi**

1\. Command Mode (blauer Zellenrand)
* Zellen können als Ganzes bearbeitet werden
* einfacher Klick auf eine Zelle öffnet diese im Command Mode
<figure>
    <img display:inline-block align="left" src="Jupyter_Notebook_Screenshots/Jupyter_Cell_Command_Mode.png">
    <br clear="all" />
</figure>

2\. Edit Mode (grüner Zellenrand) 
* Zellinhalt der einzelnen Zelle kann bearbeitet werden
* Doppelklick auf eine Zelle öffnet diese im Edit Mode
* Wechsel zurück in den Command Mode mit ESC
<figure>
    <img display:inline-block align="left" src="Jupyter_Notebook_Screenshots/Jupyter_Cell_Edit_Mode.png">
    <br clear="all" />
</figure>

**Formatierung Freitext mit Markdown**

Bei Markdown handelt es sich um eine Auszeichnungssprache, mit der sich Texte durch einfache Befehle formatieren lassen. Ein Cheatsheet mit wichtigen Markdown-Befehlen befindet sich unter https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet.

Beispiele für Markdown-Auszeichnungen

Kursivschrift  
\*Beispieltext\* = *Beispieltext*  

Fettschrift  
\*\*Beispieltext\*\* = **Beispieltext** 

Überschriften  
\# Überschrift = **Überschrift** (1. Ebene)  
\## Überschrift = **Überschrift** (2. Ebene)  
... 

Übersicht Markdownbefehle: https://github.com/adam-p/markdown-here/wiki/Markdown-Cheatsheet

Nachdem Text in eine Markdown-Zelle eingetragen worden ist, muss die Zelle mit dem Run-Button in der Menüleiste ausgeführt werden, damit die Formatierung wirksam wird.
<figure>
    <img display:inline-block align="left" width = 550 src="Jupyter_Notebook_Screenshots/Run_Cell.png">
    <br clear="all" />
</figure>


*Aufgabe 1:*  
* *Erzeugen Sie bitte unter dieser Zelle eine neue Markdown-Zelle.* 
* *Tragen Sie in diese Zelle eine Überschrift "Markdown-Formatierung testen" ein. Die Überschrift soll sich auf der dritten Ebene befinden.*
* *Bitte geben Sie darunter in Fettschrift ein (ohne die Anführungszeichen): "Dieser Text soll fett dargestellt werden."*

<p>
<details>
1. Markieren Sie die aktuelle Zelle mit einem Klick in den linken weißen Rand. Die Zelle sollte danach einen blauen Rahmen haben. (Falls die Zelle einen grünen Rahmen hat, drücken Sie bitte einmal die Escape-Taste.)<br/>
2. Klicken Sie danach in der Menüleiste auf das Plus-Symbol. Die neue Zelle ist zunächst vom Typ "Code", erkennbar an dem Zähler "In [ ]:" vor der Zelle.<br/>
3. Bitte wählen Sie im Dropdown-Menü in der Menüleiste den Typ "Markdown" aus.<br/>
    4. Tragen Sie in die Zelle den String <code>### Markdown-Formatierung testen</code> ein.<br/>
5. Tragen Sie in die Zeile unter der Überschrift ein: <code>**Dieser Text soll fett dargestellt werden.**</code><br/>
6. Bestätigen Sie mit der Schaltfläche "Run" in der Menüleiste
</details>
    </p>

## Python

### Vorteile

* große Vielfalt frei zugänglicher Softwarebibliotheken (heutiger Workshop: Natural Language Toolkit)
* Python-Code kann in allen Betriebssystemen ausgeführt werden, auf denen der Python-Interpreter installiert werden kann
* Python-Code kann direkt im Jupyter Notebook ausgeführt werden

### Print-Funktion 

Um zu testen, dass Python-Code tatsächlich im Jupyter-Notebook ausgeführt werden kann, soll mittels der Funktion ```print()``` der String "Die Python-Ausgabe funktioniert!" ausgegeben werden.

*Aufgabe: Erzeugen Sie in einer neuen Code-Zelle eine Python-Ausgabe mit dem String "Die Python-Ausgabe funktioniert!"*
<p>
<details>
1. Erzeugen Sie wie in Aufgabe 1 beschrieben eine neue Zelle, belassen sie aber im Dropdown-Menü auf "Code" und wechseln nicht auf "Markdown".<br/>
2. Doppelklicken Sie auf die Zelle und geben den folgenden Code ein: 
<code>print("Die Python-Ausgabe funktioniert!")</code><br/>
3. Führen Sie die Zelle mit dem Run-Button in der Menüleiste aus.
</details>
</p>

### Variablen

Variablen sind "Container", in denen Werte abgelegt und später wieder ausgelesen werden können. 

Vorlage: ```x = "Die Python-Ausgabe funktioniert!"```

Ausgeben des Inhalts der Variable.

Vorlage: ```x```

#### Zuweisen und Ausgeben von Variablen

Variablennamen können weitgehend frei gewählt werden. (Einige wenige Regeln müssen eingehalten werden, z. B. darf der Name nicht mit einer Zahl beginnen und keine Leerzeichen enthalten):

Vorlage: `aussage = "Die Python-Ausgabe funktioniert!"`

Ausgeben des Inhalts der Variable `aussage`

Vorlage: ```aussage```

### Einige wichtige Datentypen
* Integer (Ganzzahlen)
* Float (Kommazahlen)
* String (Zeichenketten)
* List (Listen von Werten)
* Dictionaries (Listen von Schlüssel-Wert-Paaren)

### Ausgabe des Typs einer Variable mit der Funktion type

Vorlage: `type(aussage)`

### Datentyp Liste

In einer Liste können Daten in geordneter Form gespeichert werden, beispielsweise die Wörter und Satzzeichen eines Satzes. Im folgenden Beispiel wird der Satz "Dies ist ein Beispielsatz." in einer Liste mit dem Namen ```satz``` gespeichert.

Vorlage: `satz = ['Dies', 'ist', 'ein', 'Beispielsatz', '.']`

Ausgabe der Liste `satz`

Vorlage: ```satz```

Jedes Element einer Liste hat eine Indexnummer, entsprechend seiner Position in der Liste:
<figure>
    <img display:inline-block align="left" width="450" src="Jupyter_Notebook_Screenshots/Nummerierung_Liste_Beispielsatz_v1.png">
    <br clear="all" />
</figure>

Ausgabe des zweiten Listenelements

Vorlage: `satz[1]`

### for-Schleifen

Ziel: Mit einer ```for```-Schleife sollen alle Elemente der Liste ```satz``` nacheinander ausgegeben werden.

Die Syntax einer ```for```-Schleife hat die Form ```for x in y:``` Dabei ist ```y``` ein iterierbares Objekt, also ein Objekt, das mehrere Elemente enthält, beispielsweise eine Liste. Beim ersten Schleifendurchlauf wird der Variablen ```x``` das erste Element der Liste zugewiesen, beim zweiten Schleifendurchlauf das zweite usw. Sobald die Liste vollständig durchlaufen wurde, bricht die Schleife ab. 

Der Code unter der ersten Zeile gibt an, was jeweils mit der Variable getan werden soll. Der Code muss eingerückt werden (z. B. mit vier Leerzeichen oder einem Tab), damit Python erkennt, dass es sich um den Anweisungskörper der Schleife handelt. Im folgenden Beispiel sollen die Elemente der Liste ```satz``` mithilfe der ```print()``` Funktion ausgegeben werden.

Vorlage: 
```python 
for element in satz:
    print(element)
```

Im nächsten Schritt werden wir eine ```for``` Schleife verwenden, um alle Wörter in einer Liste in Kleinschreibung umzuwandeln.

### list comprehensions

Eine *list comprehension* in Python ist eine Vorschrift, mit der in einfacher Form aus den Elementen einer bestehenden Liste eine neue Liste erzeugt werden kann. Dabei kann auf jedes Element der ursprünglichen Liste eine Verarbeitungsanweisung angewendet werden.

Im folgenden Beispiel sollen alle Elemente der Liste ```satz``` in Kleinschreibung umgewandelt und in eine neue Liste ```satz_kleingeschrieben``` eingetragen werden.

Die entsprechende Anweisung 
```python
satz_kleingeschrieben = [element.lower() for element in satz]
``` 
steht in eckigen Klammern und zeigt damit an, dass es sich bei ```satz_kleingeschrieben``` um eine Liste handelt. Der erste Teil ```element.lower()``` enthält eine Anweisung, in diesem Fall, dass auf die Variable ```element``` die Funktion ```lower()``` angewendet werden soll, die den Inhalt von ```element``` in Kleinschreibung umwandelt. Im zweiten Teil wird dann festgelegt, dass es sich bei ```element``` um die Inhalte der Liste ```satz``` handelt, die nacheinander durchlaufen werden.

Vorlage: ```satz_kleingeschrieben = [element.lower() for element in satz]```

Ausgabe der neuen Liste

Vorlage: ```satz_kleingeschrieben```

### len() Funktion zur Ausgabe der Anzahl der Elemente einer Liste

Die ```len()``` Funktion gibt die Anzahl der Elemente einer Liste zurück

Vorlage: ```len(satz_kleingeschrieben)```

Die ```len()```-Funktion wird im Folgenden zur Veranschaulichung der Funktionsweise von ```if/elif/else```-Ausdrücken verwendet.

### if/elif/else-Ausdrücke

Mit ```if/elif/else```-Ausdrücken kann die Ausführung von Code an Bedingungen geknüpft werden. Wenn die in der ```if```-Anweisung formulierte Bedingung wahr ist, wird die der zugehörige Code im Anweisungskörper ausgeführt. Mit ```elif```-Bedingungen ("else if") können weitere Bedingungen formuliert werden, die vom Interpreter von oben nach unten durchlaufen werden. Wenn eine Bedingung wahr ist, wird der entsprechende Code ausgeführt. Die folgenden ```elif```-Ausdrücke sowie ggf. der else-Ausdruck am Ende werden dann nicht mehr ausgewertet.

In [None]:
if len(satz) == 2:
    print("Die Liste enthält 2 Elemente.")
elif len(satz) > 2:
    print("Die Liste enthält mehr als 2 Elemente.")
else:
    print("Die Liste enthält weniger als 2 Elemente.")

Im Workshop werden wir durch eine List Comprehension, die eine ```if```-Anweisung enthält, nicht sinntragende Wörter (z. B. "the", "and", "under") aus einer Wortliste entfernen. Solche Wörter werden auch als Stoppwörter bezeichnet.

### Datentyp Dictionary

In Dictionaries können Schlüssel-Wert-Paare hinterlegt werden. Im Folgenden wird ein Dictionary mit dem Namen *universitäten_dict* mit den Key/Value-Paaren Universitätsname/Studierendenanzahl angelegt:

"TU Darmstadt" : 25900,  
"GU Frankfurt" : 45000,  
"JGU Mainz" : 33000  

Vorlage: `universitäten_dict = {"TU Darmstadt" : 25900, "GU Frankfurt" : 45000, "JGU Mainz" : 33000}`

Über den Schlüssel (hier: Universitätsname) kann die Studierendenzahl ausgegeben werden. Exemplarische Ausgabe der Studierendenzahl der JGU Mainz:

Vorlage: `universitäten_dict["JGU Mainz"]`

Im Workshop werden wir ein Dictionary verwenden, um Wörter (key) und ihre Häufigkeit (value) abzuspeichern.

### Ziele der Analyse des CORD-19-Datensatzes

* Visualisieren der häufigsten charakteristischen Begriffe in einer Untermenge der verfügbaren Abstracts
* Erstellung einer Konkordanzliste für ein Token
* Ermittlung von Kollokationen

### Datenzusammenstellung aus dem CORD-19-Korpus

1. Datenstruktur ansehen unter https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge
  * Gesamt-Datenset sehr groß (36 GB)
  * um in annehmbarer Zeit zu Ergebnissen zu kommen, Konzentration auf die Abstracts in der Datei metadata.csv (ca. 720 MB, Download unter https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge?select=metadata.csv)
  * Abstracts befinden sich in der Spalte "abstract"
<figure>
    <img display:inline-block align="left" src="Jupyter_Notebook_Screenshots/Cord-19-CSV-Preview.png">
    <br clear="all" />
</figure>

[Bild vergrößern](Jupyter_Notebook_Screenshots/Cord-19-CSV-Preview.PNG)
  * Ziel: Eine Auswahl der verfügbaren Abstracts soll in eine Textdatei hintereinanderkopiert werden, um diese anschließend zu analysieren (z. B. Worthäufigkeiten zu bestimmen). Es soll nur eine Auswahl der Abstracts analyisert werden, da eine Analyse aller Abstracts während des Workshops zu lange dauern würde.

2. Recherche, ob es für das Datenset schon Programme gibt
  * ja, z. B. https://github.com/allenai/cord19
  * Code benötigt die Python-Bibliothek csv
  * Link zur Dokumentation der csv-Bibliothek: https://docs.python.org/3/library/csv.html
  

Im Folgenden wird exemplarisch gezeigt, wie aus der ```metadata.csv```-Datei Abstracts extrahiert und hintereinander in eine Textdatei geschrieben werden können. Für den Workshop wurde bereits eine Textdatei mit Abstracts, die unter einer CC-BY-Lizenz stehen, mit einem Zufallsverfahren erzeugt. Diese Datei (```abstracts_cord_19_random.txt```) wird im Rahmen des Workshops analysiert. Das Skript, mit dem die Abstracts ausgewählt worden sind (```cord-19.py```) sowie eine Liste mit den Metadaten der ausgewählten Abstracts (```metadata_selected_articles.csv```) befindet sich im Ordner "Zusatzmaterial" der Hessenbox-Freigabe.

**Einlesen der CORD-19-CSV-Datei**

1\. csv-Bibliothek importieren:  

In [None]:
import csv

2\. csv-Datei öffnen

```python
csv_file_object = open('metadata.csv', encoding = "UTF-8")
```

```csv_file_object``` = Variable, in die die csv-Datei geschrieben werden soll, sodass sie als Dateiobjekt in Python zur Verfügung steht

```'metadata.csv'``` = Name der csv-Datei (Die Datei befindet sich im gleichen Ordner wie das Jupyter-Notebook, ansonsten müsste hier der Dateipfad angegeben werden.)

```'encoding = UTF-8'``` (Angabe der Zeichencodierung zur korrekten Ausgabe von Sonderzeichen)

In [None]:
csv_file_object = open('metadata.csv', encoding = "UTF-8")

3\. Die Python-Bibliothek csv stellt eine DictReader-Klasse zur Verfügung, der man die eingelesene csv-Datei übergeben kann: 

In [None]:
reader = csv.DictReader(csv_file_object)

4\. Die Inhalte der csv-Datei liegen nun in der Variable ```reader``` vor. Diese kann mit einer ```for```-Schleife durchlaufen werden. Jeder Durchlauf liefert eine Zeile der csv-Datei in Form eines Dictionaries zurück.

Exemplarisch kann mit der folgenden Schleife die erste Zeile (also das erste Dictionary) ausgegeben werden. (Die  Schleife bricht nach der ersten Zeile ab, da es beim Ausgeben aller Zeilen der CSV-Datei passieren kann, dass sich das Jupyter-Notebook aufhängt).

In [None]:
for row in reader:
    print(row)
    break

5\. Jede Zeile der csv-Datei ist demnach ein Dictionary. Die Spaltennamen sind dabei die Schlüssel und Spalteninhalte die Werte des Dictionaries. Daher kann auf das Abstract oben folgendermaßen zugegriffen werden: 

In [None]:
row["abstract"]

**Schreiben des Abstracts in eine Textdatei**

6\. Datei anlegen, in die das Abstract geschrieben werden soll:

```python
abstract_output_file = open("example_abstract_cord-19.txt", "w", encoding="UTF-8")
```

```"example_abstract_cord-19.txt"```: Name der Datei, die angelegt werden soll. Wird wie hier kein Pfad angegeben, wird die Datei in das aktuelle Verzeichnis geschrieben.

```abstract_output_file``` = Variable, in die das Dateiobjekt geschrieben wird.

```"w"``` Die Datei wird im "write"-Modus geöffnet, d. h. Inhalte können in die Datei geschrieben werden. Existiert die Datei bereits, werden die Inhalte überschrieben, ansonsten wird die Datei neu erstellt.

```encoding="UTF-8"``` Die Angabe der Zeichenkodierung ist wichtig, damit Sonderzeichen korrekt in die Datei geschrieben werden.

In [None]:
abstract_output_file = open("example_abstract_cord-19.txt", "w", encoding="UTF-8")

7\. Abstract in die Datei schreiben. Rückgabewert ist die Länge des geschriebenen Strings.

In [None]:
abstract_output_file.write("{} ".format(row["abstract"]))

8\. Datei schließen

In [None]:
abstract_output_file.close()

**Zusammengefasster Ablauf, mit dem 10 Abstracts der CSV-Datei in eine Textdatei geschrieben werden können** 

(in Anlehnung an https://github.com/allenai/cord19)

In [None]:
import csv

# Textdatei erzeugen, in die die Abstracts aus der csv-Datei kopiert werden sollen
abstract_output_file = open("10_abstracts_cord-19.txt", "w", encoding="UTF-8")

counter = 0

# open the file
f_in = open('metadata.csv', encoding="UTF-8")

reader = csv.DictReader(f_in)

for row in reader:
    # Kommentar 1: Zur Begrenzung auf 10 Abstracts
    counter += 1
    if counter == 11:
        break
    else:
    # Kommentar 2: Wenn alle Abstracts ausgelesen werden sollen, kann der Code zwischen den Kommentaren 1 und 2 entfernt werden
        # Metadatenstrings anhand Spaltenkopf auslesen
        abstract = row['abstract']

        # Abstracts in Datei schreiben
        abstract_output_file.write("{} ".format(abstract))

f_in.close()     

**Für die folgenden Analysen verwendete Datei**

Für die folgende Analyse wird die Datei ```abstracts_cord_19_random.txt``` verwendet, bei der durch ein Zufallsverfahren insgesamt 9607 Abstracts, die jeweils unter einer CC-BY-Lizenz stehen, aus der CORD-19 ```metadata.csv```-Datei ausgewählt worden sind. Das Python-Skript ```cord-19.py``` zur Auswahl der Abstracts, eine Liste mit den Metadaten der Artikel, deren Abstracts ausgewählt worden sind (```metadata_selected_articles.csv```), sowie eine Datei mit einer Übersicht, wie viele der Artikel des Datensatzes insgesamt unter einer CC-BY-Lizenz stehen (```number_of_articles.txt```), befinden sich im Ordner "Zusatzmaterial" der Hessenbox-Freigabe. Die ebenfalls mitgelieferte metadata.csv-Datei stammt von https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge.

### Python-Bibliotheken für die folgenden Analysen

#### Verwendete Python-Bibliotheken

* nltk
  * "NLTK is a leading platform for building Python programs to work with human language data."
  * siehe https://www.nltk.org/
* matplotlib
  * "Matplotlib is a comprehensive library for creating static, animated, and interactive visualizations in Python."
  * siehe https://matplotlib.org/
* wordcloud
  * Dient zur Erzeugung von Wortwolken
  * siehe https://pypi.org/project/wordcloud/

#### Import-Möglichkeiten in Python 

(siehe z. B. https://www.digitalocean.com/community/tutorials/how-to-import-modules-in-python-3):

1. Import eines gesamten Moduls
```python
import nltk
```
Allen Funktionen, die im Paket existieren, muss beim Aufruf der Paketname vorangestellt werden, z. B.
```python
nltk.download()
```
2. Import eines Moduls bzw. einer Funktion in einem Modul inklusive Umbenennung
```python
import matplotlib.pyplot as plt
```
Der vorangestellte Name beim Aufruf von Paketen kann so selbst gewählt werden:
```python
plt.figure(figsize=())
```
3. Import einzelner Funktionen direkt aus dem Modul
```python
from nltk.text import Text
```
Die Funktion kann ohne Präfix direkt aufgerufen werden:
```python
Text()
```

### Datenaufbereitung

Import der NLTK-Bibliothek, die für alle folgenden Textbearbeitungsschritte benötigt wird.

Vorlage: ```import nltk```

### Tokenisierung

#### NLTK-Tokenizer-Modell herunterladen
Benötigt wird im Reiter Models das Tokenizer-Paket "punkt". 

<figure>
    <img display:inline-block align="left" src="Jupyter_Notebook_Screenshots/NLTK-Downloader.png">
    <br clear="all" />
</figure>

Vorlage: `nltk.download()`

"This tokenizer divides a text into a list of sentences
by using an unsupervised algorithm to build a model for abbreviation
words, collocations, and words that start sentences.  It must be
trained on a large collection of plaintext in the target language
before it can be used.

The NLTK data package includes a pre-trained Punkt tokenizer for
English.

Punkt knows that the periods in Mr. Smith and Johann S. Bach do not mark sentence boundaries.  And sometimes sentences can start with non-capitalized words. i is a good variable name."

https://www.nltk.org/_modules/nltk/tokenize/punkt.html

### Tokenisierung

**1. Öffne die Datei 'abstracts_cord_19_random.txt' als file-Objekt**

Durch den Befehl `open` wird die lokale Datei `abstracts_cord_19_random.txt` in eine Variable `file` vom Typ `TextIOWrapper` geschrieben. Der Parameter `'r'` gibt an, dass die Datei im Lesemodus geöffnet wird und die Angabe der Zeichenkodierung (`UTF-8`) stellt sicher, dass Sonderzeichen richtig dargestellt werden.

Vorlage: `file = open('abstracts_cord_19_random.txt', 'r', encoding = 'UTF-8')`

Auf Objekte der Klasse TextIOWrapper können verschiedene Methoden angewandt werden, beispielsweise ```read(num)```, um eine bestimmte Anzahl ```num``` Buchstaben aus dem Objekt in einen String umzuwandeln. Wird ```num``` weggelassen, wird die gesamte Datei als String ausgegeben. 

(Für weitere Methoden der Klasse TextIOWrapper siehe z. B. https://overiq.com/python-101/file-handling-in-python/).

**2. Wandle das File-Objekt in einen String um**

Anwendung der read-Methode auf das file-Objekt und Schreiben des Rückgabewerts der Methode in die Variable abstracts_cord_raw

Vorlage: `abstracts_cord_raw = file.read()`

Ausgeben der ersten 1000 Zeichen des Inhalts der Variable abstracts_cord_raw. (Bei der Ausgabe des kompletten Inhalts kann es sein, dass sich das Jupyter-Notebook aufhängt. Wenn der komplette Inhalte wiedergegeben werden soll, lautet der Befehl einfach `abstracts_cord_raw`, ohne eckige Klammern).

Vorlage: `abstracts_cord_raw[0:1000]`

*Übung: Bitte geben Sie die nächsten 1000 Zeichen aus.*

<p>
<details>
    Vorlage: <code>abstracts_cord_raw[1000:2000]</code>
</details>
    </p>

**3. Eigentlicher Tokenisierungsschritt**

Zerlegung des Abstract-Strings in einzelne Begriffe / Tokens. Dazu muss zunächst das ```word_tokenize``` Modul des NLTK importiert werden.

Vorlage: ```from nltk.tokenize import word_tokenize```

Übergibt man der ```word_tokenize```-Funktion einen String, liefert die Funktion eine Liste der einzelnen Tokens, aus denen der String aufgebaut ist, zurück. (Die Funktion liefert dabei einzelne Wörter und Satzzeichen zurück, ist aber auf den ```Punkt```-Tokenizer angewiesen, der zunächst eine Zerlegung des Strings in einzelne Sätze durchführt, siehe https://www.nltk.org/_modules/nltk/tokenize.html).

Vorlage: `cord_tokens = word_tokenize(abstracts_cord_raw)`

Ausgabe der ersten 20 Tokens

Vorlage: `cord_tokens[0:20]`

### Normalisierung (Umwandlung aller Tokens in Kleinschreibung)

Ziel: alle Tokens klein schreiben, um Wörter, die sich nur in der Groß-/Kleinschreibung unterscheiden, zusammenfassen zu können.

Die Funktion ```lower()``` wandelt einen beliebigen String in Kleinbuchstaben um. Um diese Funktion auf alle Tokens in der Liste oben anzuwenden, kann eine List Comprehension eingesetzt werden:

```python
lower_cord_tokens = [word.lower() for word in cord_tokens]
```

Gelesen werden kann diese als:

lower_cord_tokens ist die Menge aller kleingeschriebenen Tokens "word", wobei "word" ein Element aus der Liste cord_tokens ist. 

Vorlage: `lower_cord_tokens = [word.lower() for word in cord_tokens]`

Ausgabe der ersten 20 kleingeschriebenen Tokens zur Überprüfung

Vorlage: `lower_cord_tokens[0:20]`

### Konkordanzliste

Im Folgenden sollen die Konkordanzen eines bestimmten Tokens angezeigt werden. Konkordanzen sind die Kontexte, in denen ein bestimmtes Token vorkommt. Dazu kann die ```Text```-Klasse im ```text```-Paket des NLTK verwendet werden. Werden dieser Klasse die soeben erzeugten ```lower_cord_tokens``` zugeordnet, können mit der ```condordance```-Methode dieser Klasse die Kontexte jedes beliebigen Tokens ausgegeben werden.

Zunächst muss aus dem NLTK-```text```-Paket die ```Text```-Klasse importiert werden:

Vorlage: ```from nltk.text import Text```

Anschließend kann eine Instanz ```t``` der Klasse ```Text``` angelegt werden, wobei als Argument die Liste ```lower_cord_tokens``` übergeben wird.

Vorlage: ``` t = Text(lower_cord_tokens)```

Mit der Methode ```concordance``` können daraufhin die Kontexte eines frei wählbaren Tokens ausgegeben werden. Mit dem Parameter ```width``` kann angegeben werden, wie groß das Kontextfenster um den Suchbegriff sein soll, und mit ```lines```, wie viele Ergebniszeilen ausgegeben werden sollen.

Vorlage: ```t.concordance('vaccine', width=80, lines=25)```

*Übung: Bitte geben Sie die Konkordanzen für ein selbst gewähltes Token aus (z. B. 'patient', 'virus', ...)*

<p>
<details>
    Vorlage: <code>t.concordance('patient', width=80, lines=25)</code>
</details>
    </p>

### Häufigkeitsverteilung

Mit der NLTK-Funktion ```FreqDist``` (= Frequency Distribution) wird gezählt, wie oft jedes Token in einer Liste von Tokens auftaucht.

1\. Import der ```FreqDist-Funktion``` aus dem ```nltk.probability```-Modul

Vorlage: `from nltk.probability import FreqDist`

2\. Schreiben der Häufigkeitsverteilung in eine Variable ```fdist```:

Vorlage: `fdist = FreqDist(lower_cord_tokens)`

```fdist``` hat die Form eines Dictionarys, mit den Tokens als Schlüssel und der jeweiligen Anzahl als Wert. Um das nachzuprüfen, kann der Inhalt von ```fdist``` ausgegeben werden.

Vorlage: `fdist`

3\. Visualisierung der Häufigkeitsverteilung durch Anwendung der Methode ```plot()``` auf die Variable ```fdist```. 

Ausgegeben werden die häufigsten Token in absteigender Reihenfolge. Mit dem ersten Parameter, hier `30`, kann angegeben werden, wie viele Tokens angezeigt werden sollen. Mit dem Parameter `title` wird der Titel des Diagramms festgelegt (siehe https://www.nltk.org/api/nltk.probability.html?highlight=freqdist#nltk.probability.FreqDist.plot).

Vorlage: `fdist.plot(30,title='Häufigkeitsverteilung der 30 häufigsten Token in der CORD-19-Abstractsammlung')`

Ergebnis: Man erkennt, dass die hier aufgeführten Token zum großen Teil nicht sinntragend sind (z. B. einzelne Zeichen wie Apostroph, Punkt und Doppelpunkt, daneben nicht-sinntragende Wörter wie Artikel oder Konjunktionen). Um sinnvolle Ergebnisse zu erhalten, sollten diese sogenannten "Stoppworte" entfernt werden.

### Häufigkeitsverteilung nach Stoppwortentfernung

Download einer vorgefertigten NLTK-Stoppwortliste

Vorlage: `nltk.download('stopwords')`

Heruntergeladene Stoppwörter importieren

Vorlage: `from nltk.corpus import stopwords`

Um zu sehen, welche Stoppworte in der Liste vorhanden sind, können diese ausgegeben werden (siehe https://www.geeksforgeeks.org/removing-stop-words-nltk-python/).

Vorlage: `stopwords.words("english")`

Zusätzlich ist es sinnvoll, auch Satz- und Sonderzeichen und einzelne Ziffern zu entfernen. Das ```String```-Modul enhält die beiden Strings ```string.punctuation``` und ```string.digits``` (siehe https://thomas-cokelaer.info/tutorials/python/module_string.html), die dazu genutzt werden können. Um auf die beiden Strings zugreifen zu können, muss zunächst das ```string```-Modul importiert werden.

Vorlage: ```import string```

Anschließend können die beiden Strings testweise ausgegeben werden.

1\. Ausgabe von ```string.punctuation```

Vorlage: ```string.punctuation```

2\. Ausgabe von ```string.digits```

Vorlage: ```string.digits```

Um ```string.punctuation``` und ```string.digits``` mit den Stoppworten in ```stopwords.words("english")``` zu kombinieren, müssen ```string.punctuation``` und ```string.digits``` zuerst in den Datentyp ```list``` umgewandelt werden. Anschließend wird aus der kombinierten Liste ein sog. ```set``` erzeugt. Ein Set unterscheidet sich von einer Liste u. a. darin, dass jedes Element nur ein einziges Mal vorkommt und die Elemente ungeordnet vorliegen.

Im Folgenden wird ein Set ```remove_these``` mit allen Stoppwörtern, Satzzeichen und Ziffern erzeugt. Die Prüfung, ob ein Element in einem Set vorhanden ist, ist schneller als die Prüfung, ob ein Element in einer Liste vorhanden ist (siehe z. B. https://www.oreilly.com/library/view/high-performance-python/9781449361747/ch04.html).

Vorlage: ```remove_these = set(stopwords.words('english') + list(string.punctuation) + list(string.digits))```

Inhalt von ```remove_these``` ausgeben:

Vorlage: ```remove_these```

Alle Stoppworte aus der Liste ```lower_cord_tokens``` entfernen. Dazu wird erneut eine List comprehension verwendet:

```python
filtered_text = [w for w in lower_cord_tokens if not w in remove_these]
```

Diese kann übersetzt werden in:

Schreibe alle Tokens w in die Liste ```filtered_text```, die in der Liste ```lower_cord_tokens``` vorkommen, sofern sie nicht im Set ```remove_these``` enthalten sind.

oder 

Die Menge ```filtered_text``` enthält alle Tokens w, die in der Menge ```lower_cord_tokens``` vorkommen und nicht im Set ```remove_these``` enthalten sind.

Vorlage: `filtered_text = [w for w in lower_cord_tokens if not w in remove_these]`

Berechnung einer neuen Häufigkeitsverteilung auf der Grundlage der neuen Tokenliste ```filtered_text``` ohne Stoppwörter

Vorlage: `fdist_filtered = FreqDist(filtered_text)`

Visualisierung der 30 häufigsten Token nach Entfernung der Stoppwörter

Vorlage: `fdist_filtered.plot(30, title = 'Frequency distribution for 30 most common tokens in the CORD-19 abstracts (excluding stopwords and punctuation)')`

### Word Cloud

Erzeugung einer Wortwolke mittels des wordcloud-Packages

Vorlage: 

`import matplotlib.pyplot as plt
from wordcloud import WordCloud`


`cloud = WordCloud(colormap="hsv", width=1920,height=1080).generate_from_frequencies(fdist_filtered)
plt.figure(figsize=(16,12))
plt.imshow(cloud, interpolation='bilinear')
plt.axis('off')
plt.show()`

### Kollokationen

Es könnte interessant sein, zu erfahren, welche Begriffe häufig zusammen vorkommen. Um diese Begriffe zu finden, kann nach Kollokationen gesucht werden, d. h. zwei Wörter, die im Text häufiger zusammen auftauchen, als durch Zufall erklärt werden kann. 

Für die Suche nach Kollokationen stellt das NLTK das Modul ```nltk.collocations``` zur Verfügung und darin die Funktionen ```BigramCollocationFinder``` und ```BigramAssocMeasures()```. Diese müssen zunächst importiert werden:

Vorlage: 
```from nltk.collocations import BigramCollocationFinder
from nltk.collocations import BigramAssocMeasures```

Die Funktion ```BigramCollocationFinder``` erzeugt zwei Häufigkeitsverteilungen, eine für jedes Wort und eine andere für Bigramme. [6] Das erste Argument enhält die zu untersuchende Wortliste, in diesem Fall ```filtered_text```, d. h. den um Stoppworte bereinigten und kleingeschriebenen Text. Das zweite Argument, in diesem Fall ```5```, erlaubt ein Fenster von 5 Wörtern zwischen kollokierten Wörtern.

Vorlage: ```finder = BigramCollocationFinder.from_words(filtered_text, 5)```

Um zu verhindern, dass selten auftretende Bigramme mit berücksichtigt werden, wird mit der Methode ```apply_freq_filter(10)``` eingestellt, dass Bigramme nur dann berücksichtigt werden sollen, wenn sie mindestens 10-mal vorkommen.

Vorlage: ```finder.apply_freq_filter(10)```

Um die gefundenen Bigramme zu bewerten, stehen über die Klasse ```BigramAssocMeasures``` verschiedene Bewertungsfunktionen zur Verfügung. Zunächst wird eine Instanz der Klasse ```BigramAssocMeasures()``` angelegt. 

Vorlage: ```bigram_measures = BigramAssocMeasures()```

Im Folgenden werden mit der Methode ```likelihood_ratio``` die Top ```10``` Bigramme ermittelt.

Vorlage: ```finder.nbest(bigram_measures.likelihood_ratio, 10)```

## Ausblick

Das Natural Language Toolkit bietet eine Vielzahl weiterer Funktionen, die über die gezeigten einführenden Beispiele hinausgehen, wie beispielsweise unter https://www.oreilly.com/library/view/natural-language-processing/9780596803346/ zusammengefasst wird:

* Extract information from unstructured text, either to guess the topic or identify "named entities"
* Analyze linguistic structure in text, including parsing and semantic analysis
* Access popular linguistic databases, including WordNet and treebanks
* Integrate techniques drawn from fields as diverse as linguistics and artificial intelligence

(Die Inhalte des verlinkten Buchs müssten denen der freien Version unter https://www.nltk.org/book/ entsprechen.)

## Vielen Dank für die Aufmerksamkeit!

Haben Sie Fragen?

Falls im Nachgang des Workshops noch Fragen aufkommen sollten, können Sie sich gerne jederzeit an uns wenden (tdm@ulb.tu-darmstadt.de).