# Texterkennung mit Spacy

Spacy ist ein high end Texterkennungstool, besonders geeignet um named entities zu erkennen. 

https://towardsdatascience.com/named-entity-recognition-with-nltk-and-spacy-8c4a7d88e7da

In [None]:
# Wir importieren erst spacy und en_core_web_sm (nur bei der ersten Durchführung ever):

! pip install spacy
! python -m spacy download en_core_web_sm

In [None]:
# Nachträglich: 

!python -m spacy download de_core_news_sm

In [59]:
#Sachen importieren

import spacy
from spacy import displacy
from collections import Counter
#import en_core_web_sm
import de_core_news_sm
nlp = de_core_news_sm.load() #en_core_web_sm.load()

In [78]:
article  = '''

Die Pariser Bürgermeisterin Anne Hidalgo hat sich besorgt über den neuen Olympia-Sponsor Airbnb geäußert. Sie habe IOC-Chef Thomas Bach schon in der vergangenen Woche einen Brief geschrieben, um ihn "vor den Risiken und Konsequenzen" eines Deals mit dem Appartementvermittler zu warnen, sagte Hidalgo der Nachrichtenagentur AP. "Airbnb ist ein Faktor, der zum Anstieg der Mietpreise beiträgt und den Mangel an Wohnungen auf dem Mietmarkt verschärft", schrieb sie an Bach.  
Das Internationale Olympische Komitee hatte am Montag die weltweite Partnerschaft mit Airbnb bis 2028 bekannt gegeben. Bei den Spielen 2016 in Rio de Janeiro war das Unternehmen schon Partner des lokalen Organisationskomitees.
Anfang des Jahres war Paris gegen Airbnb vor Gericht gezogen und hatte eine Strafe von 12,5 Millionen Euro verlangt von Vermietern, die ihre Wohnungen nicht ordnungsgemäß registrieren. Der Plattform wird immer wieder vorgeworfen, die Preise für Wohnraum in die Höhe zu treiben oder den Mangel an Wohnungen auf dem Mietmarkt zu verschärfen.
IOC-Präsident Bach hatte am Montag davon gesprochen, dass die Partnerschaft mit Airbnb helfen werde, Wohnungen zur Verfügung zu stellen und die Kosten für die Olympia-Organisatoren und -Partner zu reduzieren. Finanzielle Details des Deals wurden nicht genannt. Bei Bekanntgabe des Sponsors wurde Bach auf die Kritik an Airbnb angesprochen. Er antwortete, es sei "recht normal, dass solch ein disruptives Unternehmen" reguliert werden müsse und dies geschehe "in einem Dialog mit Airbnb und Städten und Ländern".

'''


## Mit Spacy NLP verarbeiten

In [79]:
# gucken wie viele entities im Text sind
article = nlp(article)
len(article.ents)

19

In [80]:
labels = [x.label_ for x in article.ents]
Counter(labels)

Counter({'LOC': 6, 'PER': 7, 'MISC': 4, 'ORG': 2})

        cardinal = Numerals that do not fall under another type.
        
        https://spacy.io/usage/spacy-101#vocab

In [81]:
# Text nach sentences aufsplitten

items = [x.text for x in article.ents]
Counter(items).most_common(3)

[('Airbnb', 5), ('Pariser', 1), ('Anne Hidalgo', 1)]

In [82]:
sentences = [x for x in article.sents]
#print(sentences[2])
sentences[2]

Airbnb ist ein Faktor, der zum Anstieg der Mietpreise beiträgt und den Mangel an Wohnungen auf dem Mietmarkt verschärft", schrieb sie an Bach.  

In [83]:
# Named entities anzeigenlassen im Text

displacy.render(nlp(str(sentences[0])), jupyter=True, style='ent')

In [84]:
# Parsing tree. Hübsch, aber laut Plotti mässig nützlich. 

displacy.render(nlp(str(sentences[2])), style='dep', jupyter = True, options = {'distance': 100})

In [85]:
[(x.orth_,x.pos_, x.lemma_) for x in [y 
                                      for y
                                      in nlp(str(sentences[0])) 
                                      if not y.is_stop and y.pos_ != 'PUNCT']]

[('\n\n', 'SPACE', '\n\n'),
 ('Pariser', 'ADJ', 'Pariser'),
 ('Bürgermeisterin', 'NOUN', 'Bürgermeisterin'),
 ('Anne', 'PROPN', 'Anne'),
 ('Hidalgo', 'PROPN', 'Hidalgo'),
 ('besorgt', 'ADJ', 'besorgen'),
 ('Olympia-Sponsor', 'NOUN', 'Olympia-Sponsor'),
 ('Airbnb', 'PROPN', 'Airbnb'),
 ('geäußert', 'VERB', 'äußern')]

In [86]:
dict([(str(x), x.label_) for x in nlp(str(sentences[0])).ents])

{'Pariser': 'LOC', 'Anne Hidalgo': 'PER', 'Olympia-Sponsor Airbnb': 'MISC'}

In [87]:
displacy.render(article, jupyter=True, style='ent')