## spaCy’s Pipelines

In [1]:
import spacy

### Attribute Rulers¶

- Dependency Parser
- EntityLinker
- EntityRecognizer
- EntityRuler
- Lemmatizer
- Morpholog
- SentenceRecognizer
- Sentencizer
- SpanCategorizer
- Tagger
- TextCategorizer
- Tok2Vec
- Tokenizer
- TrainablePipe
- Transformer

### Matchers¶

- DependencyMatcher
- Matcher
- PhraseMatcher


In [2]:
nlp = spacy.blank("en")

In [3]:
nlp.add_pipe("sentencizer")

<spacy.pipeline.sentencizer.Sentencizer at 0x7f7a753f5900>

In [4]:
import requests
from bs4 import BeautifulSoup
s = requests.get("https://ocw.mit.edu/ans7870/6/6.006/s08/lecturenotes/files/t8.shakespeare.txt")
soup = BeautifulSoup(s.content).text.replace("-\n", "").replace("\n", " ")
nlp.max_length = 5278439

In [5]:
%%time
doc = nlp(soup)
print (len(list(doc.sents)))

94134
CPU times: user 16.1 s, sys: 200 ms, total: 16.3 s
Wall time: 16.4 s


In [6]:
nlp2 = spacy.load("en_core_web_sm")
nlp2.max_length = 5278439

* Der Zeitunterschied ist hier bemerkenswert. Unsere Textzeichenfolge umfasste rund 5,2 Millionen Zeichen. Das leere Modell mit nur dem Sentencizer erledigte seine Aufgabe in 7,54 Sekunden und fand rund 94.000 Sätze. Das kleine englische Modell, das effizienteste von spaCy, erledigte die gleiche Aufgabe in 46 Minuten und 15 Sekunden und fand rund 112.000 Sätze. Das kleine englische Modell brauchte also etwa 380-mal länger.

Oft müssen Sätze schnell und nicht unbedingt genau gefunden werden. In diesen Fällen ist es sinnvoll, Tricks wie den oben genannten zu kennen. Dieses Notizbuch schließt den ersten Teil dieses Buches ab.

In [7]:
nlp2.analyze_pipes()

{'summary': {'tok2vec': {'assigns': ['doc.tensor'],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'tagger': {'assigns': ['token.tag'],
   'requires': [],
   'scores': ['tag_acc'],
   'retokenizes': False},
  'parser': {'assigns': ['token.dep',
    'token.head',
    'token.is_sent_start',
    'doc.sents'],
   'requires': [],
   'scores': ['dep_uas',
    'dep_las',
    'dep_las_per_type',
    'sents_p',
    'sents_r',
    'sents_f'],
   'retokenizes': False},
  'attribute_ruler': {'assigns': [],
   'requires': [],
   'scores': [],
   'retokenizes': False},
  'lemmatizer': {'assigns': ['token.lemma'],
   'requires': [],
   'scores': ['lemma_acc'],
   'retokenizes': False},
  'ner': {'assigns': ['doc.ents', 'token.ent_iob', 'token.ent_type'],
   'requires': [],
   'scores': ['ents_f', 'ents_p', 'ents_r', 'ents_per_type'],
   'retokenizes': False}},
 'problems': {'tok2vec': [],
  'tagger': [],
  'parser': [],
  'attribute_ruler': [],
  'lemmatizer': [],
  'ner': []},
 'att

* Beachten Sie die Wörterbuchstruktur. Dadurch erfahren wir nicht nur, was sich in der Pipeline befindet, sondern auch deren Reihenfolge. Jeder Schlüssel nach „summary“ ist eine Pipe. Der Wert ist ein Wörterbuch. Dieses Wörterbuch sagt uns ein paar verschiedene Dinge. Alle diese Wertewörterbücher geben Folgendes an: „assigns“, was einem Wert dessen entspricht, was diese bestimmte Pipe dem Token und dem Dokument zuweist, während es die Pipeline durchläuft. In einigen Fällen gibt es im Wörterbuch einen Schlüssel für „Scores“. Dies gibt an, wie das maschinelle Lernmodell bewertet wurde. Weitere Informationen zur Modellbewertung finden Sie weiter unten in unserem Abschnitt zum maschinellen Lernen.

### Conclusion

Beachten Sie die Wörterbuchstruktur. Dadurch erfahren wir nicht nur, was sich in der Pipeline befindet, sondern auch deren Reihenfolge. Jeder Schlüssel nach „summary“ ist eine Pipe. Der Wert ist ein Wörterbuch. Dieses Wörterbuch sagt uns ein paar verschiedene Dinge. Alle diese Wertewörterbücher geben Folgendes an: „assigns“, was einem Wert dessen entspricht, was diese bestimmte Pipe dem Token und dem Dokument zuweist, während es die Pipeline durchläuft. In einigen Fällen gibt es im Wörterbuch einen Schlüssel für „Scores“. Dies gibt an, wie das maschinelle Lernmodell bewertet wurde. Weitere Informationen zur Modellbewertung finden Sie weiter unten in unserem Abschnitt zum maschinellen Lernen.