# spaCy Basics

## Ressourcen

https://spacy.io/

### Docs und Tutorials

https://spacy.io/usage

### Sprachmodelle

https://spacy.io/models

https://spacy.io/models/de

### API

https://spacy.io/api

### Kurs

https://course.spacy.io/de

### Video Tutorials

https://www.youtube.com/c/ExplosionAI

### Jupyter Book NER mit SpaCy

http://ner.pythonhumanities.com/intro.html

### Sammlung von Ressourcen zu SpaCy

https://spacy.io/universe

## Installation mit pip und conda

In [1]:
# !pip install spacy==3.2.1
# conda install spacy==3.2.1

## Herunterladen des deutschen Sprachmodells (Language Model, LM)

Es gibt drei verschiedene Größen:
* small: de_core_news_sm, 18MB
* medium: de_core_news_md, 46MB
* large: de_core_news_lg, 545MB
* **neu** transformer-based: de_dep_news_trf, 348MB

In [None]:
# !python -m spacy download de_core_news_md

## Import

In [2]:
import spacy

In [4]:
# check version
print(spacy.__version__)

3.2.1


## Laden des Sprachmodells

In [99]:
nlp = spacy.load('de_core_news_md') 

# zum Ausschalten einzelner Komponenten
# nlp = spacy.load('de_core_news_md', disable=['parser', 'tagger'])

## geladene Komponenten checken

In [98]:
nlp.pipeline

[('tok2vec', <spacy.pipeline.tok2vec.Tok2Vec at 0x244dd0c5940>),
 ('tagger', <spacy.pipeline.tagger.Tagger at 0x244dd1c95e0>),
 ('morphologizer',
  <spacy.pipeline.morphologizer.Morphologizer at 0x244dd1c9340>),
 ('parser', <spacy.pipeline.dep_parser.DependencyParser at 0x244dd081c10>),
 ('attribute_ruler',
  <spacy.pipeline.attributeruler.AttributeRuler at 0x244dd270c80>),
 ('lemmatizer', <spacy.pipeline.lemmatizer.Lemmatizer at 0x244dd2778c0>),
 ('ner', <spacy.pipeline.ner.EntityRecognizer at 0x244dd2a4040>)]

## Textdaten einlesen

entnommen von:

https://www.tagesschau.de/ausland/amerika/russland-ukraine-157.html

In [6]:
text = '''Biden befürchtet Einmarsch "in den nächsten Tagen"
            Stand: 18.02.2022 06:01 Uhr
            Die Gefahr eines russischen Einmarsches in die Ukraine schätzt US-Präsident Biden als "sehr hoch" ein - schon in den kommenden Tagen könne es dazu kommen. Die russische Regierung wies den Vize-US-Botschafter in Moskau aus.
            US-Präsident Joe Biden befürchtet trotz aller Beteuerungen aus Moskau einen russischen Einmarsch in die Ukraine in den kommenden Tagen. Biden sagte, die Gefahr einer Invasion sei "sehr hoch". Nach seiner Einschätzung könne es "in den nächsten paar Tagen" dazu kommen. Es gebe keine Pläne dafür, dass er mit dem russischen Präsidenten Wladimir Putin telefonieren werde, fügte er hinzu.
            Der Kreml erklärte laut der russischen Agentur RIA, Bidens Warnung verstärke die Spannungen noch. Der stellvertretende Außenminister Sergej Werschinin wies vor dem UN-Sicherheitsrat die Befürchtungen des Westens vor einem bevorstehenden Einmarsch erneut zurück. "Ich denke, wir haben genug darüber spekuliert", sagte er. Eine Invasion sei entgegen der Warnungen ausgeblieben. In Richtung der USA und ihrer westlichen Verbündeten sagte Werschinin: "Mein Rat an Sie ist, sich nicht in eine unangenehme Situation zu begeben."
            Biden will am heutigen Freitag mit Verbündeten über das weitere Vorgehen beraten. Themen der Telefonschalte am Nachmittag (Ortszeit) sollten unter anderem die Aufstockung der russischen Truppen an der Grenze zur Ukraine und weitere diplomatische Bemühungen sein, hieß es aus dem Weißen Haus. Neben Kanadas Premierminister Justin Trudeau sollen führende Politiker aus Deutschland, Frankreich, Großbritannien, Italien, Polen und Rumänien an dem Gespräch teilnehmen, teilte Trudeaus Büro am Donnerstagabend (Ortszeit) mit. Auch die Europäische Union und die NATO seien vertreten.
            US-Außenminister Antony Blinken will sich nächste Woche mit seinem russischen Kollegen Sergej Lawrow treffen - solange Russland nicht in der Ukraine einmarschiert. Blinken habe vorgeschlagen, sich mit Lawrow "nächste Woche in Europa zu treffen. Die Russen haben mit Terminvorschlägen für Ende nächster Woche geantwortet, was wir unter der Bedingung akzeptiert haben, dass es keine russische Invasion der Ukraine gibt", erklärte der Sprecher des Außenministeriums, Ned Price, am Abend.
            Zuvor hatte Blinken vor dem UN-Sicherheitsrat ebenfalls gewarnt, Russland bereite sich auf einen Angriff in den kommenden Tagen vor. Russlands Plan sei, dafür einen Vorwand zu schaffen. "Dies könnte ein gewaltsames Ereignis sein, das Russland gegen die Ukraine vorbringen wird, oder eine unerhörte Anschuldigung, die Russland gegen die ukrainische Regierung erheben wird", sagte er. Möglich wären ihm zufolge ein vermeintlicher Terroranschlag in Russland, die "erfundene Entdeckung eines Massengrabes" und Vorwürfe eines Völkermordes, ein inszenierter Drohnenangriff auf Zivilisten oder ein vorgetäuschter oder echter Angriff mit Chemiewaffen.
            Russische Medien würden bereits "falsche Alarme" verbreiten, so Blinken. Ein russischer Angriff könne auch die ukrainische Hauptstadt Kiew einbeziehen. Der US-Außenminister betonte, Diplomatie sei weiter der wichtigste Weg zur Lösung der Krise. Er habe daher seinem russischen Amtskollegen Sergej Lawrow ein persönliches Treffen in der kommenden Woche vorgeschlagen. 
            '''

## Doc-Objekt erstellen

In [75]:
# This is were the magic happens!
doc = nlp(text)

## Im Token-Objekt hinterlegte Informationen

https://spacy.io/api/token#attributes

In [101]:
for token in doc[:20]:
    print(f'''Token: {token}  
              Lemmata: {token.lemma_} 
              POS: {token.pos_}
              explain POS: {spacy.explain(token.pos_)}
              TAG: {token.tag_}
              explain TAG: {spacy.explain(token.tag_)}
              Dependency: {token.dep_}
              explain Dependency: {spacy.explain(token.dep_)}
              Entity: {token.ent_type_}''')

Token: Biden  
              Lemmata: Biden 
              POS: PROPN
              explain POS: proper noun
              TAG: NE
              explain TAG: proper noun
              Dependency: sb
              explain Dependency: subject
              Entity: PER
Token: befürchtet  
              Lemmata: befürchten 
              POS: VERB
              explain POS: verb
              TAG: VVFIN
              explain TAG: finite verb, full
              Dependency: ROOT
              explain Dependency: None
              Entity: 
Token: Einmarsch  
              Lemmata: Einmarsch 
              POS: NOUN
              explain POS: noun
              TAG: NN
              explain TAG: noun, singular or mass
              Dependency: oa
              explain Dependency: accusative object
              Entity: 
Token: "  
              Lemmata: " 
              POS: PUNCT
              explain POS: punctuation
              TAG: $(
              explain TAG: other sentence-internal 

## Im Doc-Objekt hinterlegte Informationen

https://spacy.io/api/doc

In [19]:
type(doc)

spacy.tokens.doc.Doc

In [72]:
doc.lang_

'de'

### Entities

In [64]:
# Entities

print(type(doc.ents))
print(len(doc.ents))
print(doc.ents)

<class 'tuple'>
61
(Biden, russischen, Ukraine, US-Präsident, Biden, russische Regierung, Vize-US-Botschafter, Moskau, US-Präsident, Joe Biden, Moskau, russischen, Ukraine, Biden, russischen, Wladimir Putin, russischen, RIA, Sergej Werschinin, UN-Sicherheitsrat, Invasion, USA, Telefonschalte, russischen, Grenze, Ukraine, Weißen Haus, Kanadas, Justin Trudeau, Deutschland, Frankreich, Großbritannien, Italien, Polen, Rumänien, Trudeaus, Europäische Union, NATO, Antony Blinken, russischen, Sergej Lawrow, Russland, Ukraine, Lawrow, Europa, Russen, russische, Außenministeriums, Ned Price,, Abend., Blinken, UN-Sicherheitsrat, Russland, Russlands Plan, Russland, Ukraine, Russland, ukrainische Regierung, Russland, Blinken., russischer, ukrainische, Kiew, US-Außenminister, russischen, Sergej Lawrow)


In [108]:
# prüfen des Token-Objekts

for token in doc:

    if token.ent_type_ == 'PER':
        print(token, token.ent_type_)

Biden PER
Biden PER
Joe PER
Biden PER
Biden PER
Wladimir PER
Putin PER
Sergej PER
Werschinin PER
Telefonschalte PER
Justin PER
Trudeau PER
Trudeaus PER
Antony PER
Blinken PER
Sergej PER
Lawrow PER
Lawrow PER
Blinken PER
Sergej PER
Lawrow PER


In [107]:
# Prüfen des Label der Entities im Doc-Objekt

for ent in doc.ents:

    if ent.label_ == 'ORG':
        print(ent.text, ent.label_)

Vize-US-Botschafter ORG
RIA ORG
UN-Sicherheitsrat ORG
Europäische Union ORG
NATO ORG
UN-Sicherheitsrat ORG
ukrainische Regierung ORG
US-Außenminister ORG


In [56]:
personen_liste = { str(token) for token in doc  if token.ent_type_ == 'PER' }
print(personen_liste)

{'Antony', 'Wladimir', 'Putin', 'Trudeau', 'Blinken', 'Telefonschalte', 'Lawrow', 'Justin', 'Trudeaus', 'Werschinin', 'Joe', 'Biden', 'Sergej'}


In [63]:
for entity in ['PER', 'ORG', 'LOC', 'MISC']:
    print(entity)
    print({ str(token) for token in doc  if token.ent_type_ == entity })
    print('\n')
    

PER
{'Antony', 'Wladimir', 'Putin', 'Trudeau', 'Blinken', 'Telefonschalte', 'Lawrow', 'Justin', 'Trudeaus', 'Werschinin', 'Joe', 'Biden', 'Sergej'}


ORG
{'Vize-US-Botschafter', 'NATO', 'Union', 'ukrainische', 'Regierung', 'Europäische', 'RIA', 'UN-Sicherheitsrat', 'US-Außenminister'}


LOC
{'Kanadas', 'russische', 'Haus', 'Deutschland', 'Frankreich', 'Kiew', 'Weißen', 'US-Präsident', 'USA', 'Italien', 'Russland', 'Großbritannien', 'Moskau', ',', 'Rumänien', 'Polen', 'Europa', 'Regierung', 'Ukraine'}


MISC
{'.', 'russische', 'Abend', 'Russen', 'Price', 'Invasion', 'Grenze', 'ukrainische', 'Plan', 'Außenministeriums', 'russischer', 'russischen', ',', 'Ned', 'Blinken', 'Russlands'}




## Visualisieren der Entities

In [95]:
from spacy import displacy

In [76]:
displacy.render(doc, style='ent', jupyter=True)

In [97]:
# html does not work

# from pathlib import Path
# html = displacy.render(doc, style='ent', page=True)
# output_path = Path('../img/ents_v2.html')
# output_path.open('w', encoding='utf8').write(html)