# SpaCy Tutorial

spaCy ist eine Python-Bibliothek für Natural Language Processing (NLP). Sie bietet eine Vielzahl von Funktionen, die für die Analyse von Texten nützlich sind. In diesem Tutorial werden wir uns mit den Grundlagen von spaCy vertraut machen und einige der Funktionen ausprobieren.

spaCy besitzt sehr viele Funktionen unter anderem:
- Tokenization
- Text normalization, such as lowercasing, stemming/lemmatization
- Part-of-speech tagging
- Syntactic dependency parsing
- Sentence boundary detection
- Named entity recognition and annotation

Außerdem kommen die Sprachpakete von spaCy mit einigen wichtigen Daten:
- Large vocabulary, including stopword lists
- Token "probabilities"
- Word vectors

spaCy ist mit Hilfe von Cython geschrieben und daher sehr schnell. 

In [1]:
import spacy

In [2]:
text = """Ich mag's, wenn sich die Wut entfacht
Und ich mag deine Zaubermacht
Ich mag die Tiere nachts im Wald
Wenn sie flüstern, dass es schallt
Ich mag den Weg, ich mag das Ziel
Den Exzess, das Selbstexil
Ich mag erschaudern und nicht zu knapp
Ich gebe jedem etwas ab
All das mag ich
All das mag ich
Aber hier leben, nein danke
Aber hier leben, nein danke
Ich mag die Wolken und den Wind
Ich mag das Licht, das du mir bringst
Wenn du dich um mich bemühst
Wenn der Wahnsinn flammend grüßt
Wenn die Träume Funken sprühen
Und die weißen Blumen blühen
Ich mag die Engel kurz vor dem Fall
Diamanten aus dem All
All das mag ich
All das mag ich
Aber hier leben, nein danke
Aber hier leben, nein danke
Ich mag die Spiegelung der Luft
Und wenn die Sehnsucht nie verpufft
Den Glanz des Lebens in einem Tag
Ich mag den Zweifel, der an mir nagt
Wenn meine Angst mich schnell verlässt
Ich mag den Tanz, das Idiotenfest
Wenn wir irren, nachts im Kreis
Eine Bewegung gegen den Fleiß
All das mag ich
All das mag ich
Aber hier leben, nein danke
Aber hier leben, nein danke
Aber hier leben, nein danke
Aber hier leben, nein danke
Aber hier leben, nein danke
Aber hier leben, nein danke"""


Liste von deutschen Sprachmodellen: https://spacy.io/models/de

Wir laden das größte deutsche Sprachmodell (das keine dependency auf HuggingFace Transformer hat).

In [None]:
!python -m spacy download de_core_news_lg

In [3]:
nlp = spacy.load("de_core_news_lg")

Wir wenden nun die spaCy pipeline auf den Text an und bekommen ein _Document_. Ein Document besteht unter anderem aus einer Liste an Tokens (tokenization), die wir in den nächsten Schritten analysieren.

#### What is a Token?
A token is a single chopped up element of the sentence, which could be a word or a group of words to analyse. The task of chopping the sentence up is called "tokenisation"

In [4]:
doc = nlp(text)

## Part of speech tags

#### What is a Speech Tag?
A speech tag is a context sensitive description of what a word means in the context of the whole sentence.
More information about the kinds of speech tags which are used in NLP can be [found here](http://www.winwaed.com/blog/2011/11/08/part-of-speech-tags/).

Examples:

1. CARDINAL, Cardinal Number - 1,2,3
2. PROPN, Proper Noun, Singular - "Matic", "Andraz", "Cardiff"
3. INTJ, Interjection - "Uhhhhhhhhhhh"

- Text: The original word text.
- Lemma: The base form of the word.
- POS: The simple UPOS part-of-speech tag.
- Tag: The detailed part-of-speech tag.
- Dep: Syntactic dependency, i.e. the relation between tokens.
- Shape: The word shape – capitalization, punctuation, digits.
- is alpha: Is the token an alpha character?
- is stop: Is the token part of a stop list, i.e. the most common words of the language?

In [6]:
for token in doc[:10]:
    print(f'text: {token.text} || pos: {token.pos_} || tag: {token.tag_} dep: {token.dep_} || lemma: {token.lemma_}')

text: Ich || pos: PRON || tag: PPER dep: sb || lemma: ich
text: mag's || pos: AUX || tag: VVFIN dep: ROOT || lemma: mag's
text: , || pos: PUNCT || tag: $, dep: punct || lemma: --
text: wenn || pos: SCONJ || tag: KOUS dep: cp || lemma: wenn
text: sich || pos: PRON || tag: PRF dep: oa || lemma: sich
text: die || pos: DET || tag: ART dep: nk || lemma: der
text: Wut || pos: NOUN || tag: NN dep: sb || lemma: Wut
text: entfacht || pos: VERB || tag: VVPP dep: mo || lemma: entfachen
text: 
 || pos: SPACE || tag: _SP dep: dep || lemma: 

text: Und || pos: CCONJ || tag: KON dep: ju || lemma: und
text: ich || pos: PRON || tag: PPER dep: sb || lemma: ich
text: mag || pos: VERB || tag: VMFIN dep: ROOT || lemma: mögen
text: deine || pos: DET || tag: PPOSAT dep: nk || lemma: dein
text: Zaubermacht || pos: NOUN || tag: NN dep: oa || lemma: Zaubermacht
text: 
 || pos: SPACE || tag: _SP dep: dep || lemma: 

text: Ich || pos: PRON || tag: PPER dep: sb || lemma: ich
text: mag || pos: AUX || tag: VMFIN dep

#### What are Stop Words?

Stop words are the common words in a vocabulary which are of little value when considering word frequencies in text. This is because they don't provide much useful information about what the sentence is telling the reader.

Example: _"the","and","a","are","is"_

#### What is a Corpus?

A corpus (plural: corpora) is a large collection of text or documents and can provide useful training data for NLP models. A corpus might be built from transcribed speech or a collection of manuscripts. Each item in a corpus is not necessarily unique and frequency counts of words can assist in uncovering the structure in a corpus.

Examples:

1. Every word written in the complete works of Shakespeare
2. Every word spoken on BBC Radio channels for the past 30 years

In [7]:
# Get stop words
stop_words = [token.text for token in doc if token.is_stop]
print(stop_words[:10])

['Ich', 'wenn', 'sich', 'die', 'Und', 'ich', 'mag', 'deine', 'Ich', 'mag']


Wir können uns auch die Liste der Sätze holen. Dabei unterteilt spaCy nicht nur nach Interpunktion, sondern auch nach semantischen Eigenschaften. Gerade bei Songtexten funktioniert das aber nicht immer so gut, wie wir gleich sehen werden.

In [None]:
# Get sentences
sentences = list(doc.sents)
print(len(sentences))
# Hier sehen wir auch schon ein Problem mit der Tokenisierung.
print([token.text for token in sentences[3]])

: 

## Named entities

#### Named Entities

A named entity is any real world object such as a person, location, organisation or product with a proper name. 

Example:

	1. Barack Obama
	2. Edinburgh
	3. Ferrari Enzo

In [25]:
for ent in doc.ents:
    print(f'{ent.text} ({ent.label_})')

Selbstexil
Ich (MISC)
Engel (PER)
All
All (MISC)
Idiotenfest (PER)


In [26]:
doc2 = nlp("Brack Obama war der 44. Präsident der USA.")
for ent in doc2.ents:
    print(f'{ent.text} ({ent.label_})')

Brack Obama (PER)
USA (LOC)


### Dependency Parsing

#### What are syntactic dependencies?

We have the speech tags and we have all of the tokens in a sentence, but how do we relate the two to uncover the syntax in a sentence? Syntactic dependencies describe how each type of word relates to each other in a sentence, this is important in NLP in order to extract structure and understand grammar in plain text.

In [37]:
sent = sentences[0]
print(sent.text)
print(sent.root)
print(list(sent.root.children))

Ich mag's, wenn sich die Wut entfacht

mag's
[Ich, ,, entfacht]


Mit displaCy können wir den dependency tree visualisieren.

In [40]:
from spacy import displacy
displacy.render(sent)

In [44]:
displacy.render(sentences[1], style="ent")

## Word embedding / Similarity

#### What are Word embeddings?

A word embedding is a representation of a word, and by extension a whole language corpus, in a vector or other form of numerical mapping. This allows words to be treated numerically with word similarity represented as spatial difference in the dimensions of the word embedding mapping.

Example:
	
With word embeddings we can understand that vector operations describe word similarity. This means that we can see vector proofs of statements such as:

	king-queen==man-woman

In [27]:
doc3 = nlp("Ich mag Orangen und Birnen.")
orangen = doc3[2]
birnen = doc3[4]
print(orangen.similarity(birnen))

0.6451995372772217


## Pipelines

Pipelines sind eine Möglichkeit, spaCy mit verschiedenen Funktionen zu erweitern. Wenn wir ein Sprachpaket laden, bekommen wir eine Standard-Pipeline, die aus Tokenizer, Tagger, Parser, NER und Entity Linker besteht. Wir können diese Pipeline aber auch erweitern, indem wir weitere Funktionen hinzufügen.

In [5]:
import pytextrank
# add PyTextRank to the spaCy pipeline
# https://derwen.ai/docs/ptr/
nlp.add_pipe("textrank")


<pytextrank.base.BaseTextRankFactory at 0x25160d11d00>

In [6]:
doc = nlp(text)

In [7]:
# examine the top-ranked phrases in the document
for phrase in doc._.phrases:
    print(phrase.text)
    print(phrase.rank, phrase.count)
    print(phrase.chunks)

Funken
0.06960498892566462 1
[Funken]
All
0.0681919105236853 1
[All]
Kreis
0.05687523895429876 1
[Kreis]
Idiotenfest
0.04853098558702389 1
[Idiotenfest]
Wald
0.04693971377563045 1
[Wald]
Diamanten
0.04428881417751234 1
[Diamanten]
Engel
0.03451061082711543 1
[Engel]
den Fleiß
0.029186060964137752 1
[den Fleiß]
die Träume
0.029120810505937896 1
[die Träume]
das Selbstexil
0.028291180429706193 1
[das Selbstexil]
Den Exzess
0.027032795649409438 1
[Den Exzess]
die weißen Blumen
0.02687071711994295 1
[die weißen Blumen]
den Zweifel
0.02680582991934769 1
[den Zweifel]
der Wahnsinn
0.026451344456483436 1
[der Wahnsinn]
das Ziel
0.025326207184185347 1
[das Ziel]
einem Tag
0.024843241373835395 1
[einem Tag]
den Weg
0.02357745637165401 1
[den Weg]
dem All
0.02317363922321631 1
[dem All]
des Lebens
0.02317363922321631 1
[des Lebens]
das Idiotenfest
0.022415502074164873 1
[das Idiotenfest]
der Luft
0.02168052510723538 1
[der Luft]
Selbstexil
Ich
0.020544613246650238 1
[Selbstexil
Ich]
Den Glanz
0.

In [2]:
from spacy.language import Language
from spacy_language_detection import LanguageDetector

In [3]:
def get_lang_detector(nlp, name):
    return LanguageDetector(seed=42)  # We use the seed 42

Language.factory("language_detector", func=get_lang_detector)
nlp.add_pipe('language_detector', last=True)

NameError: name 'nlp' is not defined

In [10]:
doc = nlp(text)

In [11]:
for sent in doc.sents:
    
    print(sent._.language)

{'language': 'de', 'score': 0.9999962758266624}
{'language': 'de', 'score': 0.9999968689008363}
{'language': 'de', 'score': 0.9999972447608682}
{'language': 'de', 'score': 0.9999966630732081}
{'language': 'de', 'score': 0.9999960900081715}
{'language': 'de', 'score': 0.9999961437337193}
{'language': 'de', 'score': 0.9999959487828781}
{'language': 'de', 'score': 0.9999957419936483}
{'language': 'de', 'score': 0.999996150605792}
{'language': 'de', 'score': 0.9999959818918926}
{'language': 'de', 'score': 0.9999945277750815}


In [None]:
**Das profanity Paket ist archived und unterstützt nicht mehr spaCy 3...**

: 

In [57]:
# nlp.to_disk("custom_model")