# 💻 spaCy Basics: Eine Einführung in die Grundlagen des NLP-Frameworks

Über das Notebook hinausgehende grundlegende Ressourcen zu [spaCy](https://spacy.io/) sind über folgende Links zu erreichen:

- Dokumentation und Tutorials: https://spacy.io/usage
- Übersicht zu den Sprachmodellen: https://spacy.io/models bzw. https://spacy.io/models/de
- API: https://spacy.io/api
- Kurs - Modernes NLP mit spaCy: https://course.spacy.io/de
- Video Tutorials: https://www.youtube.com/c/ExplosionAI
- Sammlung von weiteren Ressourcen zu spaCy: https://spacy.io/universe, https://explosion.ai/software

## Download der deutschen Sprachmodelle

SpaCy stellt zahlreiche Sprachmodelle in verschiedenen Sprachen und Größen zur Verfügung. Hier eine Übersicht zu den aktuell verfügbaren deutschen Sprachmodellen:

| Typ | Name | Größe | Link |
|-------|------| ------|------|
| small | de_core_news_sm | 13 MB | https://spacy.io/models/de#de_core_news_sm |
| medium | de_core_news_md | 42 MB | https://spacy.io/models/de#de_core_news_md |
| large | de_core_news_lg | 541 MB | https://spacy.io/models/de#de_core_news_lg |
| transformer-based | de_dep_news_trf | 391 MB | https://spacy.io/models/de#de_dep_news_trf |

Der Download im Notebook erfolgt durch den nachfolgenden Befehl; hier wird das deutsche Small-Modell heruntergeladen. In angewandten Kontexten im Nachgang des Workshops ist die Arbeit mit den größeren Sprachmodellen zu empfehlen.

In [None]:
# Bitte diese Codezelle ausführen und das Medium-Sprachmodell herunterladen
!python -m spacy download de_core_news_sm

## Import

Nach dem Import der Bibliothek wird die Version gecheckt: Die spaCy-Version der Bibliothek muss mit der Versionsnummer des Sprachmodells übereinstimmen.

In [None]:
import spacy

In [None]:
# check version
print(spacy.__version__)

## Informationen zum Sprachmodell

### Laden des Sprachmodells

Nach Konvention wird die Variable `nlp` genannt, die das geladene Sprachmodell enthält. Einzelne Komponenten können über den Parameter `disable` vom Laden ausgeschlossen werden.

In [None]:
nlp = spacy.load('de_core_news_sm') 

# Zum Ausschalten einzelner Komponenten
# nlp = spacy.load('de_core_news_md', disable=['parser', 'tagger'])

### Metadaten zum Sprachmodell

Mit den folgenden Befehlen lassen sich Informationen zu den Metadaten des Sprachmodells ausgeben.

In [None]:
# Pfad, in dem das Sprachmodell liegt
nlp.path

In [None]:
# Metadaten zum Sprachmodell
nlp.meta

In [None]:
# Informationen zum Sprachmodell
print(nlp.meta["name"])
print(nlp.meta["lang"])
print(nlp.meta["version"])

In [None]:
# Beschreibung der Pipeline
nlp.meta["description"]

In [None]:
# Anzeigen der verfügbaren NER-Labels
nlp.meta["labels"]["ner"]

Mit `spacy.explain()` lassen sich einzelne Bezeichnungen, die von spaCy genutzt werden, näher erläutern.

In [None]:
# spacy explain
spacy.explain("ORG")

In [None]:
for ent in nlp.meta["labels"]["ner"]:
    print(f"{ent}: {spacy.explain(ent)}")

## spaCy im Einsatz: Einstieg in Named Entity Recognition als ein Beispiel

### Textdaten einlesen

Der Text aus der Datei `kafka_verwandlung_1915.txt` ist entnommen von: 

> Kafka, Franz: Die Verwandlung. Leipzig, 1915. In: Deutsches Textarchiv <https://www.deutschestextarchiv.de/kafka_verwandlung_1915/1>, abgerufen am 19.02.2024.

In [None]:
with open("../daten/kafka_verwandlung_1915.txt") as f:
    text = f.read()

In [None]:
print(text[:300])

### Doc-Objekt erstellen

Wenn wir das Sprachmodell auf den Text anwenden, dann erhalten wir ein `Doc-Objekt`. Dieses stellt uns nun  alle Informationen bereit, die über spaCys Pipeline-Komponenten dem Text hinzugefügt wurden.

In [None]:
# This is were the magic happens!
doc = nlp(text)

### Informationen im Token-Objekt

Neben dem `Doc-Objekt` sind auch die `Token-Objekte` ein wichtiger Baustein in der Architektur von spaCy. Alle verfügbaren Attribute, die sich beim `Token-Objekt` abrufen lassen finden sich hier: https://spacy.io/api/token#attributes . Nachfolgend eine kleine Übersicht zu den Attributen mit einer Erläuterung mittels `spacy.explain()`.

In [None]:
for token in doc[:20]:
    print(f"""Token: {token}  
              Lemmata: {token.lemma_} 
              POS: {token.pos_}
              explain POS: {spacy.explain(token.pos_)}
              TAG: {token.tag_}
              explain TAG: {spacy.explain(token.tag_)}
              Dependency: {token.dep_}
              explain Dependency: {spacy.explain(token.dep_)}
              Entity: {token.ent_type_}""")

### Informationen im Doc-Objekt

Auch über das `Doc-Objekt` können wir auf verschiedene hilfreiche Informationen zugreifen. Näheres hierzu unter: https://spacy.io/api/doc

In [None]:
# Datentyp
type(doc)

In [None]:
# Sprache des verwendeten Sprachmodells
doc.lang_

In [None]:
# Anzahl der Token im Doc-Objekt
print(doc.__len__())

#### Sätze extrahieren

In [None]:
# Ausgabe der Sätze
for sent in doc.sents:
    print(sent)
    print("-----")

#### [Named Entities](https://spacy.io/api/entityrecognizer) identifizieren (out-of-the-box)

Es gibt verschiedene Möglichkeiten, auf die im Text erkannten Entitäten zuzugreifen.

##### `doc.ents`

Die Entitäten sind hier als Datentyp `span` in einem Tupel angelegt. Die Span kann über den entsprechenden Text und das Label repräsentiert werden.

In [None]:
print(type(doc.ents))           # Datentyp des .ents-Attributs
print(len(doc.ents))            # Anzahl der erkannten NEs
print(doc.ents)                 # Ausgabe des Tupels der erkannten Entitäten

In [None]:
# Ausgabe der erkannten Entitäten mit den entsprechenden Indexpositionen (auf Token-Ebene)

for ent in doc.ents:
    print(ent.text, ent.start, ent.end)

In [None]:
for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char)

In [None]:
# Ausgabe der erkannten Entitäten mit dem zugehörigen Entity-Label

for ent in doc.ents:
    print(ent.text, ent.label_)

Über das Attribut `.label_` können z.B. einzelne Kategorien von Named Entities mit Hilfe einer for-Schleife angezeigt werden.

In [None]:
# Nur Entitäten anzeigen, die als ORG gelabelt wurden

for ent in doc.ents:
    if ent.label_ == 'ORG':
        print(ent.text, ent.label_, )

##### Zugriff auf Entitäten über `Token-Objekt` 

Auf der Token-Ebene lassen sich über weitere Attribute etwa die Info zur Position im IOB-Format mit `.ent_iob_` abrufen.

IOB ist ein etabliertes Annotationsschema für die Auszeichnung von NEs. Es steht für *Inside*, *Outside*, *Beginning*:
- **I (Inside):** Das Token ist Teil einer Entität, aber nicht das erste Token dieser Entität.
- **O (Outside):** Das Token ist nicht Teil einer benannten Entität.
- **B (Beginning):** Das Token ist der Anfang einer Entität.


In [None]:
# Prüfen der IOB-Label für PER-Entitäten

for token in doc:
    if token.ent_type_ == "PER":
        print(f"Token: {token}, \n\tEntity: {token.ent_type_}, IOB-Positon: {token.ent_iob_}\n")

In [None]:
# Zum Vergleich für alle im Text erkannten Token 

for token in doc:
    print(f"Token: {token}, \n\tEntity: {token.ent_type_}, IOB-Positon: {token.ent_iob_}\n")

Um eine Übersicht der in dem Text einmal vorkommenden Named Entities einer Kategorie zu erhalten, kann man mit Sets arbeiten.

In [None]:
# Anzahl der unique PER-Entities ermitteln

persons = set()

for ent in doc.ents:
    if ent.label_ == "PER":
        persons.add(ent.text)

print(len(persons))
print(persons)

In [None]:
# Anzahl der unique Entitäten-Typen ermitteln

for entity in ["PER", "ORG", "LOC", "MISC"]:
    print(entity)
    print(len({ ent.text for ent in doc.ents if ent.label_ == entity }))               # hier wird eine Set-Comprehension verwendet, damit können wir den Code aus der vorherigen Codezelle in einer Zeile schreiben; für den Anfang ist es empfehlenswert, alles auszuschreiben
    print(sorted(list({ ent.text for ent in doc.ents if ent.label_ == entity })))      # Das per Set-Comprehension generierte Set wird in eine Liste umgewandelt und sortiert
    print('\n')

## Visualisieren der Entities

SpaCy ermöglicht es, mit einem einfachen Befehl, die Named Entities in dem Text zu visualisieren. Erfolgt die Darstellung in einem JupyterNotebook, dann muss der Parameter `jupyter=True` gesetzt werden. Die Visualisierung des Textes lässt sich zudem als html-Datei speichern.

In [None]:
from spacy import displacy

In [None]:
displacy.render(doc, style="ent", jupyter=True)

### Speichern der Visualisierung in html

In [None]:
html = displacy.render(doc, style="ent", page=True, jupyter=False)
with open("../daten/output/visu-example-kafka_verwandlung_1915.html", "w", encoding="utf-8") as f:
    f.write(html)

---

### 📝 **Jetzt:** Aufgabe 1 - Sprachmodelle vergleichen

- Laden Sie das Sprachmodell `de_core_news_md` herunter und erzeugen Sie für "Die Verwandlung" mit dem Medium-Sprachmodell ein neues Doc-Objekt.
- Visualisieren Sie erneut die Entitäten für den Text und speichern Sie die Visualisierung als HTML-Datei.
- Vergleichen Sie die NER-Ergebnisse des kleinen und mittleren Sprachmodells.

*Hinweis: In den nachfolgenden beiden Aufgaben werden dieselben Arbeitsschritte noch mal auf andere Texte angewendet.* 

⏳ 15 Minuten

In [None]:
# Bitte diese Codezelle ausführen und das Medium-Sprachmodell herunterladen
!python -m spacy download de_core_news_md

In [None]:
# Ihre Lösung

---

### 📝 **Jetzt:** Aufgabe 2 - NER auf einen Tagungsbericht anwenden

- Wenden Sie das Sprachmodell `de_core_news_md` auf den Tagungsbericht an, mit dem wir bereits in der vorherigen Einheit zu Regulären Ausdrücken gearbeitet haben.
- Visualisieren Sie erneut die Entitäten für den Text und speichern Sie die Visualisierung als HTML-Datei.
- Vergleichen Sie die NER-Ergebnisse für die unterschiedlichen Textarten.

⏳ 10 Minuten

In [58]:
example_text = """Der Arbeitskreis „Digital Humanities Munich“ (dhmuc) widmete seinen ersten Workshop 2016 dem Thema „Digitale Daten in den Geisteswissenschaften. Interdisziplinäre Perspektiven für semantische und strukturelle Analysen“. Insgesamt 14 Vorträge erörterten aktuelle Forschungen und Infrastrukturen im Bereich der maschinellen Textanalyse.
Folgende Institutionen zeichneten für die Organisation des Workshops verantwortlich: dhmuc – Arbeitskreis “Digital Humanities Munich”, das Institut für Computerlinguistik Universität Zürich , das Historische Seminar der Ludwig-Maximilians-Universität München , die IT-Gruppe Geisteswissenschaften (ITG) der Ludwig-Maximilians-Universität München sowie die Bayerische Akademie der Wissenschaften .

Einführung
ECKHART ARNOLD (München), MARK HENGERER (München), NOAH BUBENHOFER (Zürich) und CHRISTIAN RIEPL (München) machten klar, dass das Vorhandensein grosser Mengen an digitalen Textkorpora den Geisteswissenschaften neue Zukunftsperspektiven eröffnet, gleichzeitig aber auch neue Herausforderungen an die Disziplinen stellt. Der Brückenschlag zwischen Philologie und Informationstechnologie erfordert von den Forschenden ein hohes Mass an Technikaffinität. Das Verständnis von Text als Daten und dessen interaktive graphische Visualisierung verändert die hermeneutischen Herangehensweisen und Methoden.

Panel 1: Korpora
Im Eröffnungsreferat stellte PETER MAKAROV (Zürich) sein PhD Projekt zum Thema „Towards automated content event analysis: Mining for protest events“ vor. Es ist Teil des POLCON Projekts unter Professor Hanspeter Kriesi. Das Projekt bewegt sich zwischen Politikwissenschaft und Computerlinguistik. Ziel ist, herauszufinden, inwiefern moderne Natural Language Processing Technik die thematische Extraktion von Daten aus dem Internet unterstützen kann. Konkret geht es in der Studie um die Extraktion von News-Texten im Zusammenhang mit Öffentlichen Protesten.
Methodisch setzt das Projekt auf Machine-Learning-Verfahren. Hierzu müssen geeignete Klassifizierungsmodelle erstellt und Entwicklungszyklen implementiert werden, mit deren Hilfe Trainings-Korpora erstellt werden können. In einem iterativen Prozess werden diese Trainingsdaten annotiert und verbessert. Dabei hat sich gezeigt, dass linguistische Standardmodelle zur Annotation nicht geeignet waren, um die Identifikation von Textstellen, die Protest indizierten, zu verbessern. Daher werden vereinfachte, besser auf die konkrete Fragestellung zugeschnittene Annotationssysteme entwickelt.
DANIEL KNUCHEL (Zürich) referierte unter dem Titel „HIV/AIDS diskurslinguistisch – ein multimediales Korpus“ über sein Promotionsprojekt. In diesem analysiert er, welches Wissen heute zum Thema HIV/AIDS in der Öffentlichkeit zirkuliert. Dazu baute der Referent ein Korpus aus unterschiedlichen Quellen (Massenmedien, Selbsthilfe-Blogs, Social Media) auf. Er wies darauf hin, dass bei solchen Vorhaben nebst den konzeptuellen und technischen Fragen die rechtlichen Bedingungen zur Datennutzung frühzeitig geklärt werden müssen. Wichtig sei zudem, dass von Anfang an auf Nachhaltigkeit geachtet werde, um spätere Nutzungen der Daten zu ermöglichen.
MAX HADERSBECK (München) berichtete in seinem Vortrag über die Erfahrungen mit der FinderApp “WittFind“. Die webbasierte Applikation steht Forschenden nun seit vier Jahren zur Verfügung, um den Open Access zugänglichen Teil des Nachlasses von Ludwig Wittgenstein nach Wörtern, Phrasen, Sätzen und semantischen Begriffen zu durchsuchen. Sie setzt dazu regelbasierte computerlinguistische Verfahren ein. WittFind zeichnet sich dadurch aus, dass die gefundenen Textstellen zusammen mit dem Faksimileextrakt dargestellt werden und eine Überprüfung anhand des Originaltexts jederzeit möglich ist.
Unter anderem am Beispiel des englischen Neologismus “cherpumple” stellte SUSANNE GRANDMONTAGNE (München), das System „NeoCrawler“ vor. NeoCrawler verfolgt die Entstehung und Verbreitung von Neologismen im Internet. Die Ergebnisse werden automatisiert für weitere linguistische Analysen aufbereitet. Zudem stellt das System Zeitreihenverlaufsanalysen zur Verfügung. Eine Benutzeroberfläche unterstützt die manuelle Kategorisierung der erhobenen Daten. Aus rechtlichen Gründen kann diese Möglichkeit jedoch nicht im Rahmen von Crowd Sourcing genutzt werden.
Die prosopographische Erforschung der Herrschaftselite der Habsburgermonarchie steht im Zentrum des Projekts „Kaiserhof“ , das MARK HENGERER und GERHARD SCHÖN (München) vorstellten. Nebst der eindeutigen Identifikation von Personen ist die Messbarkeit qualitativer Aspekte eine der hauptsächlichen Herausforderungen, um Netzwerke und „Reichweiten von Integration“ visualisieren zu können. Dabei hat sich der Ansatz bewährt, von Begriffen mittlerer Reichweite auszugehen. Visualisierungen (etwa von Verwandtschaftsbeziehungen oder Geolokalisierungen) sind in diesem Zusammenhang von hohem heuristischem Wert.

Natural Language Processing / Suche 
Zeitangaben sind eine zentrale Information in historischen Dokumenten. Das war der Ausgangspunkt für die Präsentation von NATALIA KORCHAGINA (Zürich) zu “Natural language processing for historical documents“. Doch die maschinelle Textextraktion aus den oft handschriftlichen Dokumenten ist komplex. Ziel des Forschungsvorhabens der Referentin ist es, ein Tool für die automatisierte Extraktion von Zeitangaben aus historischen Texten zu entwickeln. Als Quellengrundlage dient ein Korpus von digitalisierten Schweizer Rechtstexten zwischen dem 10. und 18. Jahrhundert.
In einer ersten Phase des Projekts wurde unter Nutzung des an der Universität Heidelberg entwickelten Zeittaggers HeidelTime ein fehlerfreies, aber kleines manuell annotiertes Gold Standard Korpus erstellt. Auf dieser Grundlage wird sodann mit einem hybriden Vorgehen, das machine-learning und regelbasierte Methoden kombiniert, ein grösseres Silver Standard Korpus erarbeitet, das für die Extraktion von Zeitangaben herangezogen werden kann.
Zeitgenössische Rechtstexte standen im Zentrum des Forschungsprojekts von KYOKO SUGISAKI (Zürich). Sie präsentierte in ihrem Vortrag unter dem Titel “Natural language processing in speziellen Textsorten, z.B. legislative Texte“ ihre soeben abgeschlossene Doktorarbeit. Am Beispiel von online verfügbaren Schweizer Gesetzestexten erstellte sie ein qualitativ hochwertiges Korpus von fachspezifischen Texten. Im Verlauf der Arbeiten zeigte sich, dass vorhandene Referenzkorpora (etwa die Sammlung Schweizerischer Rechtsquellen) genutzt werden können, jedoch an die Spezifika des Vorhabens angepasst werden müssen. Mittels Kombination von verschiedenen Analyseverfahren und Tools (u.a. POS-tagging, morphosyntaktische Analyse, Style-Checking) konnte die Qualität der Texterkennung deutlich verbessert werden.

Visualisierung
Unter dem Titel „Visualisierungen in den Digital Humanities“ diskutierten NOAH BUBENHOFER, KLAUS ROTHENHÄUSLER und DANICA PAJOVIC (alle Zürich) die theoretischen Grundlagen von Visualisierungen und hinterfragten gängige Visualisierungspraktiken in den Digital Humanities. Ausgangspunkt ist die Feststellung, dass Visualisierungen nicht nur bei der Darstellung von Analyseergebnissen, sondern auch bei der Datenexploration eine wichtige Rolle spielen.
Besonders bei explorativen Visualisierungen sind gemäss den Referenten methodisch-technische Aspekte wichtig. Denn Diagramme sind nicht Bilder. Sie sind hoch abstrahierte Darstellungen, die Hypothesen über Sachverhalte transportieren. Visualisierungen lassen sich entlang einer Reihe von grafischen, datentypischen, diagrammatischen, semiotischen, ästhetischen, technischen und diskursiven Attributen kategorisieren und beurteilen.
Anhand der Darstellung von Geokollokationen, das heißt von sprachlichen Äußerungen über Orte zeigte Noah Bubenhofer, wie durch Sprechen eine Vorstellung von Welt konstruiert wird. Die naheliegende Visualisierung von Geokollokationen auf einer Weltkarte ist dann ein voraussetzungsvoller Vorgang, der unhinterfragte Prämissen von Kartendarstellungen übernimmt. Bubenhofer plädierte daher dafür, auch nicht kartenbasierte Visualisierungen in Betracht zu ziehen. Das Beispiel illustrierte, wie Denkstile, Software und technische Möglichkeiten in Visualisierungen mit einfliessen und diese in gewisser Weise vorbestimmen.
MATTHIAS REINERT (München) präsentierte in seinem Referat „deutsche-biographie.de – ein historisch biografisches Informationssystem. Computerlinguistischer Ansatz und Visualisierung“, das aus diesem Vorhaben resultierende Internetangebot. In rund 48.000 Lexikonartikeln bietet es Informationen zu rund 540.000 Personen. Für die zuverlässige Volltexterfassung und -kodierung sowie den Normdatenabgleich von Personen und Orten wurden seit 2012 computerlinguistische Verfahren eingesetzt. Hierzu wurden lokale Grammatiken und eine korpora-spezifische Wortdatenbank erstellt. Das historisch-biografische Informationssystem ermöglicht eine Geo-Visualisierung und die Darstellung von Ego-Netzwerken. In der Diskussion betonte der Referent, dass im Zusammenhang mit einem solchen interaktiven Angebot eine transparente Kommunikation über die Möglichkeiten und Grenzen des Systems und der Datenbasis unerlässlich ist, um den Nutzern die Einschätzung der Evidenz der gewonnen Resultate zu ermöglichen.
Unter dem Titel „Theatrescapes“ argumentierte TOBIAS ENGLMEIER (München), dass die stetig wachsenden, nun auch für die Geisteswissenschaften verfügbaren Datenbestände oft nur mit Techniken der Informationsvisualisierung erfasst werden könnten und interpretierbar seien. Das Projekt „Theatrescapes. Mapping Global Theatre Histories“ nutzt für die interaktive Kartendarstellungen WebGL (Web Graphics Library) und den Google Maps API . Der Referent zeigte auf, dass mittels dieses pragmatischen Ansatzes die technischen Hürden bei der Georeferenzierung von grossen Datenbeständen mit vertretbarem Aufwand überwunden und ansprechende Resultate wie etwa interaktive historisierte Kartendarstellungen erzielt werden können. Allerdings betonte er, wie schon Noah Bubenhofer vor ihm, dass Entscheidungen über den Einsatz von bestimmter Software über technische Aspekte hinausreichen und auch inhaltliche Konsequenzen haben.
EMMA MAGES (München) stellte den „Audioatlas Siebenbürgisch-Sächsischer Dialekte“ (ASD) vor, einen interaktiven Online-Atlas. Er erschließt eine umfangreiche Audiodokumentation deutscher Ortsdialekte Siebenbürgens und der Marmarosch und macht diese in Transkription und Audioaufnahmen zugänglich. Nebst der eigentlichen Transkription wurde eine morphosyntaktische Etikettierung vorgenommen und eine Ontologie für die Erschliessung entworfen. Mittels Kartierung erlaubt der ASD unter anderem qualitative und quantitative Sichten auf die örtliche Verteilung der Dialekte.
In seinem Referat über die Online-Plattform „VerbaAlpina“ berichtete STEPHAN LÜCKE (München) über die Herausforderungen, die sich bei diesem politische Grenzen überschreitenden und mehrsprachigen Ansatz stellten. Ziel des Langzeitprojekts „Verba Alpina“ ist es, den sprachlich stark fragmentierten Alpenraum in seiner kultur- und sprachgeschichtlichen Zusammengehörigkeit zu erschliessen. Das Projekt fokussiert auf die Wechselbeziehung (sowohl in onomasiologischer wie semasiologischer Perspektive) zwischen Wörtern und bezeichneten Konzepten. Die sprachlichen Zusammenhänge werden ergänzt mit ethnographischen, historischen und politischen Aspekten und in einer interaktiven Online-Karte mit Crowd-Sourcing-Komponente dargestellt.

Crowd
Das Referat „Text+Berg – 150 Jahre alpinistische Texte: OCR-Fehler, Crowd Correction“ von SIMON CLEMATIDE (Zürich) diskutierte die Voraussetzungen für erfolgreiches Crowd Sourcing. Im Rahmen des Projekts Text+Berg realisierte das Institut für Computerlinguistik der Universität Zürich eine Online-Plattform zur Korrektur des OCR-Textes der digitalisierten Jahrbücher des Schweizerischen Alpenklubs (SAC) von 1864 bis 1899. Entscheidend für die Motivierung von Freiwilligen und damit für den Erfolg des Vorhabens waren eine sorgfältig programmierte Benutzeroberfläche und ein einfacher Workflow. Dazu kamen begleitende Massnahmen, um die Motivation der Teilnehmenden aufrechtzuerhalten. Hierzu gehörten spielerische Elemente und Layout-Massnahmen, die den Teilnehmenden Rückmeldungen zum Datenzustand und zur geleisteten Arbeit geben. Ein Vorteil war, dass es sich beim potentiellen Teilnehmerkreis um gut organisierte und am Thema interessierte Vereinsmitglieder mit hoher Sachkenntnis handelte.
Abschliessend stellte GERHARD SCHÖN (München) das Projek „Play4Science“ und die in diesem Rahmen entwickelte Spiel-Plattform „Artigo“ vor. Das Projekt bringt Geisteswissenschaftler/innen, Informatiker/innen und Computerlinguist/innen zusammen, um zweckgerichtete soziale Spiel-Software („Games with a Purpose“ (GWAP)) zu entwickeln, die seit einiger Zeit auch im wissenschaftlichen Bereich erfolgreich Crowd-Sourcing-Ansätze unterstützen. Ziel von Play4Science ist, eine anpassbare universelle Plattform anzubieten, die von allen Fächern für verschiedenste Anwendungen sozialer Software genutzt werden kann.
Die bereits realisierte Spiel-Plattform „Artigo“ lädt zur Verschlagwortung von Gemälden aus einer Bilddatenbank ein. Sie schaltet zwei Mitspieler zusammen, die unabhängig voneinander relevant erscheinende Begriffe für dieselben Bilder eingeben. Die solcherart Peer-validierten Begriffe werden in der Datenbank gespeichert und sind für spätere Suchabfragen nutzbar.

Fazit
Der Workshop bot einen guten Überblick über den State-of-the-Art computerlinguistischer Ansätze für die digitale Aufbereitung von Textkorpora. Er wies auf die Herausforderungen hin, die sich bei der interdisziplinären Zusammenarbeit an der Schnittstelle zwischen Technik und geisteswissenschaflticher Forschung stellen. Es wurde klar, dass eine fundierte Fragestellung entscheidend für den Erfolg von computerlinguistischen Vorhaben ist. Zugleich wurde aber unter dem Stichwort „code matters“ auch betont, dass technologische Aspekte nicht vernachlässigt werden dürfen, da sie Einfluss auf Vorgehensweisen und Resultate haben. Von den Geisteswissenschaftlern muss daher verlangt werden, dass sie wissen, was die verwendeten Algorithmen tun. Dies gilt insbesondere auch für heuristisch und explorativ eingesetzte Visualisierungen, bei denen sich die Forschenden stets zu fragen haben, ob sie den generierten Visualisierungen genug kritisch gegenüberstehen. Unter geisteswissenschaftlichen Vorzeichen kann eine in den Visual Analytics mitunter unterstellte korrelationsbasierte „ground truth“ nicht vorausgesetzt werden.
In den Diskussionen hat sich ferner die Sicherstellung der Nachhaltigkeit in computerlinguistischen Vorhaben als zentraler Aspekt herausgestellt. Dabei geht es um mehr als Datenverfügbarkeit. Entscheidend sind das Bewusstsein für die Brüchigkeit der Datengrundlagen und der Umgang mit Unschärfen und Unvollkommenheiten. In einer weiteren Perspektive identifizierte der Workshop eine Reihe zentraler Erfolgsfaktoren für Digital Humanities-Projekte. So gilt es die rechtlichen Bedingungen für die Datennutzung frühzeitig zu klären, eine ausbaufähige Infrastruktur aufzubauen, die Mitarbeitenden auszuwählen, auszubilden und zu begeistern sowie die langfristige Finanzierung sicherzustellen. Insgesamt bot die Tagung einen guten Überblick über die Möglichkeiten der maschinellen Analyse und Interpretation von Texten. Es herrschte Konsens darüber, dass sich die Geisteswissenschaften dadurch in den kommenden Jahren stark verändern werden.
"""

In [None]:
# Ihre Lösung

---

### 📝 **Jetzt:** Aufgabe 3 - NER auf einen Wikipedia-Text anwenden
- Wenden Sie das Sprachmodell `de_core_news_md` auf den Wikipedia-Eintrag zu ["Hiernymus Bosch"](https://de.wikipedia.org/wiki/Hieronymus_Bosch) an. Hintergrund: Das Sprachmodell wurde u.a. auf Wiki-Daten trainiert.
- Visualisieren Sie erneut die Entitäten für den Text und speichern Sie die Visualisierung als HTML-Datei.
- Vergleichen Sie die NER-Ergebnisse für die unterschiedlichen Textarten.

⏳ 5 Minuten

In [66]:
wiki_text = """
Hieronymus Bosch [ɦijeːˈɾoːnimʏs ˈbɔs] (* um 1450 in ’s-Hertogenbosch als Jheronimus van Aken [jeɪˈɾoːnimʏs vɑn ˈaːkə(n)]; † August 1516 ebenda) war ein niederländischer Maler der Spätgotik bzw. der Renaissance. Bosch stammte aus einer Malerfamilie. Er hatte seine Auftraggeber vielfach im höheren Adel und Klerus. Seine Gemälde, meist in Öl auf Eichenholz, zeigen in der Regel religiöse Motive und Themen. Sie sind reich an Figuren, Fabelwesen und ungewöhnlichen Bildelementen, deren Deutungszusammenhang und Interpretation oft nicht gesichert sind. Boschs Werk findet bis heute regelmäßige Aufmerksamkeit und wurde in der Kunst vielfach rezipiert. Über sein Leben gibt es nur wenige gesicherte Anhaltspunkte.

Herkunft und Name
Hieronymus Bosch entstammte der Malerfamilie „van Aken“, deren Herkunftsname darauf verweist, dass die direkten Vorfahren in der väterlichen Linie aus Aachen stammten. Vier Generationen von Malern sind nachgewiesen: Hieronymus Boschs Urgroßvater Thomas van Aken war als Maler in Nijmegen tätig. Sein Großvater Jan van Aken zog um 1426 von Nijmegen in die aufstrebende Stadt ’s-Hertogenbosch. Vier der fünf Söhne Jans, darunter Hieronymus’ Vater Anthonius van Aken, wurden ebenfalls Maler. Seinen sozialen Aufstieg krönte Anthonius 1462 mit dem Erwerb eines steinernen Hauses direkt am Marktplatz, in das er auch seine Malerwerkstatt verlagerte. Mit seiner Gattin Aleid van der Mynnen hatte er fünf Kinder: zwei Töchter (eine hieß Herberta) und die drei Söhne: Goeswinus oder Goessen van Aken, Jan van Aken und, als fünftes Kind, Jheronimus van Aken (Hieronymus).
Hieronymus benannte sich später nach seiner Heimatstadt, die auch Den Bosch genannt wird. In Spanien, wo einige seiner bedeutendsten Gemälde im Museo del Prado ausgestellt sind, spricht man von El Bosco

Leben
Hieronymus folgte wie seine beiden älteren Brüder der Familientradition und erhielt wie sie seine Malerausbildung zumindest zeitweise in der väterlichen Werkstatt. Nach dem Tod des Vaters führte Goessen als ältester Sohn die Werkstatt weiter.
Hieronymus Bosch wurde erstmals 1474 urkundlich erwähnt. 1481 heiratete er die Patriziertochter Aleyt Goyaert van de Mervenne, die ein Haus und ein Landgut in die Ehe einbrachte. Das verhalf Bosch zu einer größeren Unabhängigkeit.
1488 trat er der religiösen Bruderschaft Unserer Lieben Frau der örtlichen St.-Johannes-Kathedrale bei, erst als äußeres, dann als geschworenes Mitglied. Der elitäre innere Zirkel der Bruderschaft umfasste etwa 60 Personen, die in der Regel aus der höchsten aristokratischen beziehungsweise patrizischen städtischen Schicht kamen und fast alle Geistliche verschiedener Weihegrade waren. Fast die Hälfte waren weltliche Priester, die teilweise zugleich Notare waren. Ferner gab es unter ihnen Ärzte und Apotheker sowie einige wenige Künstler: Musiker, einen Architekten und nur einen Maler – Hieronymus Bosch. Die Bruderschaft pflegte Kontakt zu den höchsten Kreisen des Adels, der Geistlichkeit und der städtischen Eliten in den Niederlanden. Neben dieser politisch-gesellschaftlichen Seite war sie gleichermaßen religiös ausgerichtet und wurde von den Dominikanern betreut. Die Mitglieder trafen sich einmal im Monat zum Mahl und zweimal in der Woche zur Messe. Johannes-, Marien- und andere Festtage wurden durch geistliche Spiele und Prozessionen begangen. In den Reihen der Brüder und vermittelt durch deren Kontakte zum Hochadel fand Bosch seine Auftraggeber.[1]
Neben der Liebfrauenbruderschaft arbeitete er für die städtische Elite und den niederländischen Hochadel. Zu seinen bedeutendsten Auftraggebern gehörten der regierende Fürst der Niederlande Erzherzog Philipp der Schöne und sein Hof.
Bosch starb 1516 im Alter von etwa 65 Jahren in seiner Heimatstadt. 

Werk
Malweise, Themen
Hieronymus Bosch lebte im Zeitalter der Renaissance, einer Periode des ökonomischen Aufbruchs, der fürstlichen Machtpolitik und der Forderung nach religiöser und sittlicher Erneuerung. Er unterzog in seinen Bildern alle Stände einer Kritik, nicht nur den Klerus. Bosch malte vielfach religiöse Motive und Thematiken. Triptychen wie Der Heuwagen und Der Garten der Lüste waren dagegen eindeutig nicht für einen Altar gedacht, sondern zur Beeindruckung und Unterhaltung eines höfischen Publikums.
Sein Werk entzieht sich einer einfachen Deutung: Während es teils plausible Interpretationen seiner Werke gibt, sind viele Darstellungen rätselhaft geblieben bzw. die Interpretation strittig. Bosch selbst hat keine schriftlichen Aufzeichnungen zu seinen Werken hinterlassen.
Bosch malte zumeist mit Ölfarben, selten mit Tempera, auf Eichenholz. Seine Palette war in vielen Bildern nicht sehr reichhaltig.[2] Er setzte Azurit für den Himmel und Landschaften im Hintergrund, grüne Lasuren und kupferhaltige Pigmente (Malachit und Kupfer(II)-acetat (Grünspan)) für Laub und Landschaften im Vordergrund und Bleizinngelb, Ocker und Roten Lack (Karmin oder Färberkrapp) für die wichtigen Bildelemente ein.[3]
Erhalten geblieben sind von Boschs Werken vor allem Gemälde auf Holztafeln, daneben einige Zeichnungen auf Papier.

Zuschreibungen
In der Vergangenheit wurden Gemälde einerseits neu Hieronymus Bosch zugeschrieben, andere aufgrund neuerer Erkenntnisse ihm nicht mehr zugeordnet. Bei diesen Neubewertungen der einschlägigen Werke waren die Einschätzungen oft strittig.
In der Vorbereitung einer Bosch-Ausstellung in Rotterdam 2001 untersuchte Peter Klein von der Universität Hamburg die von Bosch und seiner Werkstatt als Maluntergrund benutzten Eichentafeln mit der Analysemethode der Dendrochronologie. In Folge mussten einige bislang Bosch zugeschriebene Werke aus dem Gesamtwerk ausgeschieden werden, so Die Hochzeit zu Kana. Die Tafeln bestehen aus Holz von Bäumen, die zum Teil Jahrzehnte nach Boschs Tod gefällt worden sein sollen. Kleins Bewertungen werden allerdings kontrovers diskutiert.[4]
Im Rahmen der Vorbereitung zur großen Bosch-Jubiläumsausstellung anlässlich seines 500. Todestages im Frühjahr 2016 im Noordbrabants Museum in ’s-Hertogenbosch wurden durch das Bosch Research and Conservation Project (BRCP) 21 Gemälde und 20 Zeichnungen als eigenhändig bewertet.[5] Nach dem catalogue raisonné von 2016 werden Der Gaukler (Saint-Germain-en-Laye, Musée municipal), Das Steinschneiden und Die sieben Todsünden nicht mehr Bosch zugeschrieben. 

[Auszug Ende]"""

In [None]:
# Ihre Lösung