## 01 Einführung der Grundlagen von spaCy
In diesem Notebook werden die Grundkonzepte von spaCy erklärt. Einige Inhalte sind Ausschnitte vom kostenlosen [spaCy Online Kurs](https://course.spacy.io/de).

In [5]:
# Hilfsfunktion für die Ausgabe der Ergebnisse
def ausgabe(nlp_objekt):
    print(f"Text: `{nlp_objekt}` Typ: {type(nlp_objekt)}")

## Das NLP-Objekt

Im Zentrum von spaCy steht das Objekt, das die Verarbeitungspipeline enthält. Wir nennen dieses Objekt typischerweise "nlp".

Um beispielsweise ein deutschsprachiges nlp-Objekt zu erstellen, kannst du spacy importieren und die Methode spacy.blank mit dem parameter "de" nutzen. Die "blank" Pipeline beinhaltet nur die Grundstruktur, welches wir im folgenden genauer betrachten werden. Es können aber auch vor-trainierte deutsche Modelle geladen werden, die mit mehr funktionalität bestückt sind. Die vortrainierten Modelle werden im zweiten Teil vorgeführt.

[Mehr in den spaCy Docs](https://spacy.io/api/language)

In [6]:
# Importiere spaCy
import spacy

# Erstelle ein leeres deutsches nlp-Objekt
nlp = spacy.blank("de")

## Wesentlicher Aufbau

Im folgenden wird der wesentliche Aufbau erklärt, womit das NLP-Objekt die texte instanziiert.

## Das Doc-Objekt


Wenn du einen Text mit dem nlp-Objekt instanziiert, erstellt spaCy ein Doc-Objekt, kurz für "document". Das Doc-Objekt ist wie eine Kapselung um den Text, welches es mit weiteren Attributen und Funktionen von spaCy anreichert, ohne das dabei Informationen verloren gehen.

[Mehr in den spaCy Docs](https://spacy.io/api/doc)

In [7]:
# Erstellt durch Verarbeitung eines Strings mit dem nlp-Objekt
text = "Hallo Welt!"
doc = nlp("Hallo Welt!")

ausgabe(text)
ausgabe(doc)

Text: `Hallo Welt!` Typ: <class 'str'>
Text: `Hallo Welt!` Typ: <class 'spacy.tokens.doc.Doc'>


## Das Token-Objekt

Das Doc-Objekt verhält sich wie ein Container, welches die einzelnen Tokens als eine Sequenz speichert. Über die Sequenz kann iteriert und indexiert werden, um über alle Tokens oder einem bestimmten Token zugreifen zu können.

Token-Objekte repräsentieren die Tokens in einem Dokument – zum Beispiel ein Wort oder ein Satzzeichen.

[Mehr in den spaCy Docs](https://spacy.io/api/token)

In [8]:
# Greife auf einen Token über seinen Index im Doc zu
token = doc[1]
ausgabe(token)

print('- - -')

# Iteriere über jeden Token in dem Doc-Object
for token in doc:
    ausgabe(token)

Text: `Welt` Typ: <class 'spacy.tokens.token.Token'>
- - -
Text: `Hallo` Typ: <class 'spacy.tokens.token.Token'>
Text: `Welt` Typ: <class 'spacy.tokens.token.Token'>
Text: `!` Typ: <class 'spacy.tokens.token.Token'>


## Das Span-Objekt

Ein Span-Objekt, das aus einem oder mehreren Tokens besteht, ist ein Abschnitt des Dokuments. Es ist lediglich eine Ansicht des Doc-Objekts und enthält selbst keine Daten.

Um eine Span zu erstellen, kannst du Pythons Slice-Notation verwenden. 1:3 zum Beispiel erstellt eine Span ab dem Token an Position 1, bis zu – aber nicht einschließlich! - dem Token an Position 3.

[Mehr in den spaCy Docs](https://spacy.io/api/span)

In [9]:
# Ein Abschnitt des Doc-Objekts ist ein Span-Objekt
span = doc[1:3]

ausgabe(span)

Text: `Welt!` Typ: <class 'spacy.tokens.span.Span'>
