## 01 Einführung der Grundlagen von spaCy
In diesem Notebook werden die Grundkonzepte von spaCy erklärt. Einige Inhalte sind Ausschnitte vom kostenlosen [spaCy Online Kurs](https://course.spacy.io/de).

## Das NLP-Objekt

Im Zentrum von spaCy steht das Objekt, das die Verarbeitungspipeline enthält. Wir nennen diese Variable typischerweise "nlp".

Um beispielsweise ein deutschsprachiges nlp-Objekt zu erstellen, kannst du spacy importieren und die Methode spacy.blank nutzen, um eine leere deutsche Pipeline zu erstellen. Du kannst das nlp-Objekt wie eine Funktion benutzen und damit Text analysieren.

Es enthält alle verschiedenen Komponenten der Pipeline.

Es beinhaltet außerdem sprachspezifische Regeln, um den Text in Wörter und Satzzeichen zu tokenisieren. spaCy unterstützt eine Vielzahl an Sprachen.

[Mehr in den spaCy Docs](https://spacy.io/api/language)

In [4]:
# Importiere spaCy
import spacy

# Erstelle ein leeres deutsches nlp-Objekt
nlp = spacy.blank("de")

## Das Doc-Objekt

Wenn du einen Text mit dem nlp-Objekt verarbeitest, erstellt spaCy ein Doc-Objekt, kurz für "document". Über das Doc kannst du in strukturierter Weise auf Informationen über den Text zugreifen, und keine Information geht verloren.

Das Doc verhält sich übrigens wie eine normale Python-Sequenz und du kannst über seine Tokens iterieren, oder auf einen Token über seinen Index zugreifen. Aber dazu später mehr!

[Mehr in den spaCy Docs](https://spacy.io/api/doc)

In [8]:
# Erstellt durch Verarbeitung eines Strings mit dem nlp-Objekt
doc = nlp("Hallo Welt!")

# Iteriere über Tokens in einem Doc
for token in doc:
    print(token.text)

Hallo
Welt
!


## Das Token-Objekt

Token-Objekte repräsentieren die Tokens in einem Dokument – zum Beispiel ein Wort oder ein Satzzeichen.

Um einen Token an einer bestimmten Position zu erhalten, kannst du wie bei einer Liste auf seinen Index im Doc zugreifen.

Token-Objekte haben außerdem verschiedene Attribute, die mehr Informationen über die Tokens zur Verfügung stellen. Das Attribut .text zum Beispiel gibt den wortwörtlichen Text des Tokens zurück.

[Mehr in den spaCy Docs](https://spacy.io/api/token)

In [6]:
# Greife auf einen Token über seinen Index im Doc zu
token = doc[1]

# Erhalte den Text des Tokens über das Attribut .text
print(token.text)

Welt


## Das Span-Objekt

Ein Span-Objekt, das aus einem oder mehreren Tokens besteht, ist ein Abschnitt des Dokuments. Es ist lediglich eine Ansicht des Doc-Objekts und enthält selbst keine Daten.

Um eine Span zu erstellen, kannst du Pythons Slice-Notation verwenden. 1:3 zum Beispiel erstellt eine Span ab dem Token an Position 1, bis zu – aber nicht einschließlich! - dem Token an Position 3.

[Mehr in den spaCy Docs](https://spacy.io/api/span)

In [7]:
# Ein Abschnitt des Doc-Objekts ist ein Span-Objekt
span = doc[1:3]

# Erhalte den Text der Span über das Attribut .text
print(span.text)

Welt!
