### Importing spaCy and Loading Data

In [15]:
import spacy

In [16]:
nlp = spacy.load("en_core_web_sm")

In [17]:
with open ("wiki_us.txt", "r") as f:
    text = f.read()

In [18]:
print(text)

The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America. It consists of 50 states, a federal district, five major unincorporated territories, 326 Indian reservations, and some minor possessions.[j] At 3.8 million square miles (9.8 million square kilometers), it is the world's third- or fourth-largest country by total area.[d] The United States shares significant land borders with Canada to the north and Mexico to the south, as well as limited maritime borders with the Bahamas, Cuba, and Russia.[22] With a population of more than 331 million people, it is the third most populous country in the world. The national capital is Washington, D.C., and the most populous city is New York.

Paleo-Indians migrated from Siberia to the North American mainland at least 12,000 years ago, and European colonization began in the 16th century. The United States emerged from the thirteen British colonies est

### Creating a Doc Container

In [19]:
doc= nlp(text)

In [20]:
print(doc)

The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America. It consists of 50 states, a federal district, five major unincorporated territories, 326 Indian reservations, and some minor possessions.[j] At 3.8 million square miles (9.8 million square kilometers), it is the world's third- or fourth-largest country by total area.[d] The United States shares significant land borders with Canada to the north and Mexico to the south, as well as limited maritime borders with the Bahamas, Cuba, and Russia.[22] With a population of more than 331 million people, it is the third most populous country in the world. The national capital is Washington, D.C., and the most populous city is New York.

Paleo-Indians migrated from Siberia to the North American mainland at least 12,000 years ago, and European colonization began in the 16th century. The United States emerged from the thirteen British colonies est

In [21]:
print(len(text))
print(len(doc))

6547
1207


In [22]:
for token in text[:10]:
    print (token)

T
h
e
 
U
n
i
t
e
d


In [23]:
for token in doc[:10]:
    print (token)

The
United
States
of
America
(
U.S.A.
or
USA
)


In [24]:
for token in text.split()[:10]:
    print (token)

The
United
States
of
America
(U.S.A.
or
USA),
commonly
known


In [25]:
words = text.split()[:10]

In [26]:
i=5
for token in doc[i:8]:
    print (f"SpaCy Token {i}:\n{token}\nWord Split {i}:\n{words[i]}\n\n")
    i=i+1

SpaCy Token 5:
(
Word Split 5:
(U.S.A.


SpaCy Token 6:
U.S.A.
Word Split 6:
or


SpaCy Token 7:
or
Word Split 7:
USA),




* Wir können jetzt deutlich sehen, dass der spaCy Doc-Container mit seiner Tokenisierung viel mehr leistet als eine einfache Split-Methode. Wir könnten sicherlich komplexe Regeln für eine Sprache schreiben, um die gleichen Ergebnisse zu erzielen, aber warum sollten wir uns die Mühe machen? SpaCy macht das für alle Sprachen außergewöhnlich gut. In meiner gesamten Zeit, in der ich spaCy verwende, habe ich noch nie erlebt, dass der Tokenizer einen Fehler gemacht hat. Ich bin mir sicher, dass Fehler passieren können, aber das sind wahrscheinlich seltene Ausnahmen.

### Sentence Boundary Detection (SBD)

In [27]:
for sent in doc.sents:
    print (sent)

The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America.
It consists of 50 states, a federal district, five major unincorporated territories, 326 Indian reservations, and some minor possessions.[j]
At 3.8 million square miles (9.8 million square kilometers), it is the world's third- or fourth-largest country by total area.[d]
The United States shares significant land borders with Canada to the north and Mexico to the south, as well as limited maritime borders with the Bahamas, Cuba, and Russia.[22]
With a population of more than 331 million people, it is the third most populous country in the world.
The national capital is Washington, D.C., and the most populous city is New York.


Paleo-Indians migrated from Siberia to the North American mainland at least 12,000 years ago, and European colonization began in the 16th century.
The United States emerged from the thirteen British colonies es

In [28]:
sentence1 = doc.sents[0]
print (sentence1)

TypeError: 'generator' object is not subscriptable

* Oh oh! Es ist ein Fehler aufgetreten. Das liegt daran, dass das sents-Attribut ein Generator ist. In Python können wir normalerweise über Generatoren iterieren, indem wir sie in eine Liste umwandeln. Also, lasst uns das tun.

In [29]:
sentence1 = list(doc.sents)[0]
print (sentence1)

The United States of America (U.S.A. or USA), commonly known as the United States (U.S. or US) or America, is a country primarily located in North America.


* Jetzt haben wir den ersten Satz. Nachdem wir nun einen kleineren Text haben, wollen wir uns mit dem anderen Baustein von spaCy befassen, dem Token.

### Token Attributes

* Das Token-Objekt enthält viele verschiedene Attribute, die für die Durchführung von NLP in spaCy WICHTIG sind. Wir werden mit einigen von ihnen zusammenarbeiten, wie zum Beispiel:

1.text
2.head
3.left_edge
4.right_edge
5.ent_type_
6.iob_
7.lemma_
8.morph
9.pos_
10.dep_
11.lang_

Ich werde diese hier kurz beschreiben und Ihnen zeigen, wie Sie sie greifen und wie sie aussehen. Wir werden jedes dieser Attribute in diesem und zukünftigen Kapiteln eingehender untersuchen. Um jedes dieser Attribute zu demonstrieren, verwenden wir einen Token, „Staaten“, der Teil einer Sequenz von Token ist, die „Die Vereinigten Staaten von Amerika“ bilden.

In [30]:
token2 = sentence1[2]
print (token2)

States


In [31]:
token2.text

'States'

In [32]:
token2.head

is

In [33]:
token2.left_edge

The

In [34]:
token2.right_edge

America

In [35]:
token2.ent_type

384

In [36]:
token2.ent_type_

'GPE'

In [37]:
token2.ent_iob_

'I'

* IOB-Code des benannten Entitäts-Tags. „B“ bedeutet, dass das Token eine Entität beginnt, „I“ bedeutet, dass es sich innerhalb einer Entität befindet, „O“ bedeutet, dass es sich außerhalb einer Entität befindet und „“ bedeutet, dass kein Entitäts-Tag festgelegt ist.

In [38]:
token2.lemma_

'States'

In [39]:
sentence1[12].lemma_

'know'

In [40]:
sentence1[12].morph

<spacy.tokens.morphanalysis.MorphAnalysis at 0x7f7dc78fa9a0>

In [41]:
token2.pos_

'PROPN'

In [42]:
token2.dep_

'nsubj'

In [43]:
token2.lang_

'en'

### Part of Speech Tagging (POS)

* Im Bereich der Computerlinguistik ist das Verstehen von Wortarten von entscheidender Bedeutung. SpaCy bietet eine einfache Möglichkeit, einen Text zu analysieren und seine Wortarten zu identifizieren. Im Folgenden werden wir jedes Token (Wort oder Satzzeichen) im Text durchlaufen und seinen Wortteil identifizieren.

In [44]:
for token in sentence1:
    print (token.text, token.pos_, token.dep_)

The DET det
United PROPN compound
States PROPN nsubj
of ADP prep
America PROPN pobj
( PUNCT punct
U.S.A. PROPN appos
or CCONJ cc
USA PROPN conj
) PUNCT punct
, PUNCT punct
commonly ADV advmod
known VERB acl
as SCONJ prep
the DET det
United PROPN compound
States PROPN pobj
( PUNCT punct
U.S. PROPN appos
or CCONJ cc
US PROPN conj
) PUNCT punct
or CCONJ cc
America PROPN conj
, PUNCT punct
is AUX ROOT
a DET det
country NOUN attr
primarily ADV advmod
located VERB acl
in ADP prep
North PROPN compound
America PROPN pobj
. PUNCT punct


* Hier sehen wir zwei wichtige Informationen: die Zeichenfolge und die entsprechende Wortart (pos). Eine vollständige Liste der POS-Labels finden Sie in der spaCy-Dokumentation (https://spacy.io/api/annotation#pos-tagging). Die meisten davon sollten jedoch offensichtlich sein, d. h. PROPN ist ein Eigenname, AUX ist ein Hilfsverb, ADJ ist ein Adjektiv usw. Wir können diesen Satz mit einem Diagramm über die DisplaCy Notebook-Funktion von spaCy visualisieren.

In [45]:
from spacy import displacy
displacy.render(sentence1, style="dep")

###  Named Entity Recognition

* Eine weitere wesentliche Aufgabe des NLP ist die sogenannte Named Entity Recognition (NER). Ich habe im letzten Notizbuch über NER gesprochen. Hier möchte ich zeigen, wie man grundlegendes NER über spaCy durchführt. Auch hier werden wir wie oben über das doc-Objekt iterieren, aber anstatt über doc.sents zu iterieren, werden wir über doc.ents iterieren. Für unsere jetzigen Zwecke möchte ich einfach den Text jeder Entität (die Zeichenfolge selbst) und die entsprechende Beschriftung ausdrucken (beachten Sie die _ nach der Beschriftung). Ich werde diesen Prozess in den nächsten beiden Notizbüchern ausführlicher erläutern.

In [46]:
for ent in doc.ents:
    print (ent.text, ent.label_)

The United States of America GPE
USA GPE
the United States GPE
U.S. GPE
US GPE
America GPE
North America LOC
50 CARDINAL
five CARDINAL
326 CARDINAL
Indian NORP
3.8 million square miles QUANTITY
9.8 million square kilometers QUANTITY
third- or fourth CARDINAL
The United States GPE
Canada GPE
Mexico GPE
Bahamas GPE
Cuba GPE
Russia.[22 CARDINAL
more than 331 million MONEY
third ORDINAL
Washington GPE
D.C. GPE
New York GPE
Siberia LOC
North American NORP
at least 12,000 years ago DATE
European NORP
the 16th century DATE
The United States GPE
thirteen CARDINAL
British NORP
the East Coast LOC
Great Britain GPE
the American Revolutionary War ORG
the late 18th century DATE
U.S. GPE
North America LOC
Native Americans NORP
1848 DATE
the United States GPE
United States GPE
the second half of the 19th century DATE
the American Civil War ORG
The Spanishâ€“American War and World War EVENT
U.S. GPE
World War II EVENT
the Cold War EVENT
the United States GPE
the Korean War EVENT
the Vietnam War EVENT


* Manchmal kann es schwierig sein, diese Ausgabe als Rohdaten zu lesen. In diesem Fall können wir erneut die DisplaCy-Funktion von spaCy nutzen. Beachten Sie, dass wir dieses Mal das Schlüsselwortargument style durch die Zeichenfolge „ent“ ändern. Dadurch wird displaCy angewiesen, den Text als NER-Anmerkungen anzuzeigen

In [47]:
displacy.render(doc, style="ent")

### Conclusion

* Ich empfehle, sich ein wenig Zeit zu nehmen und dieses Notizbuch ein paar Mal durchzugehen. Die in diesem Notizbuch behandelten Informationen werden vertieft, wenn wir jeden dieser Bereiche eingehender untersuchen und anhand von Beispielen aus der Praxis zeigen, wie sie zur Bewältigung verschiedener Probleme eingesetzt werden können.

### Word Vectors and spaCy

In [9]:
import spacy
#!python -m spacy download en_core_web_md

In [10]:
with open ("wiki_us.txt", "r") as f:
    text = f.read()
doc = nlp(text)
sentence1 = list(doc.sents)[0]

In [None]:
#pip install PyDictionary

In [49]:
from PyDictionary import PyDictionary

dictionary=PyDictionary()
text = "Tom loves to eat chocolate"

words = text.split()
for word in words:
    syns = dictionary.synonym(word)
    print (f"{word}: {syns[0:5]}\n")

Tom has no Synonyms in the API


TypeError: 'NoneType' object is not subscriptable

In [48]:
from PyDictionary import PyDictionary

dictionary=PyDictionary()

words  = ["like", "love"]
for word in words:
    syns = dictionary.synonym(word)
    print (f"{word}: {syns[0:5]}\n")

like has no Synonyms in the API


TypeError: 'NoneType' object is not subscriptable

In [13]:
sentence1[0].vector

array([ 2.7204e-01, -6.2030e-02, -1.8840e-01,  2.3225e-02, -1.8158e-02,
        6.7192e-03, -1.3877e-01,  1.7708e-01,  1.7709e-01,  2.5882e+00,
       -3.5179e-01, -1.7312e-01,  4.3285e-01, -1.0708e-01,  1.5006e-01,
       -1.9982e-01, -1.9093e-01,  1.1871e+00, -1.6207e-01, -2.3538e-01,
        3.6640e-03, -1.9156e-01, -8.5662e-02,  3.9199e-02, -6.6449e-02,
       -4.2090e-02, -1.9122e-01,  1.1679e-02, -3.7138e-01,  2.1886e-01,
        1.1423e-03,  4.3190e-01, -1.4205e-01,  3.8059e-01,  3.0654e-01,
        2.0167e-02, -1.8316e-01, -6.5186e-03, -8.0549e-03, -1.2063e-01,
        2.7507e-02,  2.9839e-01, -2.2896e-01, -2.2882e-01,  1.4671e-01,
       -7.6301e-02, -1.2680e-01, -6.6651e-03, -5.2795e-02,  1.4258e-01,
        1.5610e-01,  5.5510e-02, -1.6149e-01,  9.6290e-02, -7.6533e-02,
       -4.9971e-02, -1.0195e-02, -4.7641e-02, -1.6679e-01, -2.3940e-01,
        5.0141e-03, -4.9175e-02,  1.3338e-02,  4.1923e-01, -1.0104e-01,
        1.5111e-02, -7.7706e-02, -1.3471e-01,  1.1900e-01,  1.08

In [6]:
import numpy as np

### Why use Word Vectors?

* Sobald ein Wortvektormodell trainiert ist, können wir sehr schnell und sehr zuverlässig Ähnlichkeitsvergleiche durchführen. Lassen Sie uns einige Vektoren unseres mittelgroßen Modells untersuchen. Versuchen wir gezielt, die Wörter zu finden, die am engsten mit dem Wort Hund verwandt sind.

In [7]:
#https://stackoverflow.com/questions/54717449/mapping-word-vector-to-the-most-similar-closest-word-using-spacy
your_word = "dog"

ms = nlp.vocab.vectors.most_similar(
    np.asarray([nlp.vocab.vectors[nlp.vocab.strings[your_word]]]), n=10)
words = [nlp.vocab.strings[w] for w in ms[0][0]]
distances = ms[2]
print(words)

['dog', 'KENNEL', 'CANINES', 'MUTTS', 'GREYHOUND', 'pet', 'Pet-Care', 'FELINE', 'cat', 'BEAGLES']


### Doc Similarity

* In spaCy können wir dasselbe auf Dokumentebene tun. Mithilfe von Wortvektoren können wir die Ähnlichkeit zwischen zwei Dokumenten berechnen. Schauen wir uns das Beispiel aus der Dokumentation von spaCy an.

In [5]:
nlp = spacy.load("en_core_web_md")  # make sure to use larger package!
doc1 = nlp("I like salty fries and hamburgers.")
doc2 = nlp("Fast food tastes very good.")

# Similarity of two documents
print(doc1, "<->", doc2, doc1.similarity(doc2))

I like salty fries and hamburgers. <-> Fast food tastes very good. 0.7799485853415737


### Word Similarity

* Wir können auch die Ähnlichkeit zwischen zwei gegebenen Wörtern berechnen.

In [14]:
# Similarity of tokens and spans
french_fries = doc1[2:4]
burgers = doc1[5]
print(french_fries, "<->", burgers, french_fries.similarity(burgers))

salty fries <-> hamburgers 0.7304624


### Conclusion

* Wie wir in diesem Notizbuch gesehen haben, besteht spaCy aus einer Reihe komplexer P