# Named Entities Recognition with NLTK
- Named entities sind Orte, Firmen, Organisationen, Länder, etc.. alles Eigennamen. 
- Oft sind diese Eigennamen relativ wichtig im Text. 

In [1]:
import nltk

In [2]:
nltk.pos_tag(nltk.word_tokenize("John Smith is from the United States of America and works at Microsoft Research Labs"))

[('John', 'NNP'),
 ('Smith', 'NNP'),
 ('is', 'VBZ'),
 ('from', 'IN'),
 ('the', 'DT'),
 ('United', 'NNP'),
 ('States', 'NNPS'),
 ('of', 'IN'),
 ('America', 'NNP'),
 ('and', 'CC'),
 ('works', 'VBZ'),
 ('at', 'IN'),
 ('Microsoft', 'NNP'),
 ('Research', 'NNP'),
 ('Labs', 'NNP')]

In [3]:
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')
pos_tags = nltk.pos_tag(nltk.word_tokenize("John Smith is from the United States of America and works at Microsoft Research Labs"))
print(nltk.ne_chunk(pos_tags))

(S
  (PERSON John/NNP)
  (PERSON Smith/NNP)
  is/VBZ
  from/IN
  the/DT
  (GPE United/NNP States/NNPS)
  of/IN
  (GPE America/NNP)
  and/CC
  works/VBZ
  at/IN
  (ORGANIZATION Microsoft/NNP Research/NNP Labs/NNP))


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/plotti/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /Users/plotti/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /Users/plotti/nltk_data...
[nltk_data]   Package words is already up-to-date!


In [9]:
result = nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize("Johan Meier kommt aus Deutschland und arbeitet bei der Forschungsabteilung von Microsoft")))

# Named Entities with spacy

In [22]:
import spacy
nlp = spacy.load("de_core_news_sm")

doc = nlp("""

Bei den Brexit-Verhandlungen ist offenbar ein entscheidendes Zwischenziel erreicht worden. Nachdem die britische Regierung am Dienstag verkündete, es gebe eine Einigung mit Brüssel, mehrten sich auch in der EU-Hauptstadt die Anzeichen, dass die Unterhändler von EU und Großbritannien auf technischer Ebene ein belastbares Papier erarbeitet haben.

Am Mittwoch will die Premierministerin Theresa May nun ihr Kabinett auf die Brüsseler Übereinkunft einschwören.

Der Fraktionschef der Europäischen Volkspartei, Manfred Weber, sagte in den ARD-"Tagesthemen", es gebe "positive Signale", dass es zu einer Einigung komme: "Ja, der weiße Rauch steigt auf." Eine offizielle Bestätigung für einen Deal gab es von den Unterhändlern aus Brüssel zunächst nicht. Allerdings wollen die Botschafter der 27 restlichen EU-Länder am Mittwoch über einen Zeitplan bis zu einem möglichen Sondergipfel am Ende des Monats beraten, ein Vorhaben, das sinnlos wäre, wenn es keinen Grund für vorsichtigen Optimismus gäbe.

Mittwoch Gespräche im Kabinett, bei Erfolg: Sondergipfel am 25. November

Zuletzt waren die Gespräche bis tief in die Nacht im sogenannten Tunnel geführt worden, unter maximaler Geheimhaltung und mit der gegenseitigen Zusicherung, dass nichts davon vorzeitig nach außen dringt. Dann, am frühen Dienstagabend, bestätigte ein Sprecher Mays, dass tatsächlich ein Vertragsentwurf vorliege.

Die Premierministerin habe ihr Kabinett für Mittwoch, 14 Uhr Ortszeit, zu einer außerordentlichen Sitzung einbestellt. Ihr Ziel ist, möglichst noch am Mittwoch verkünden zu können, dass ihre Regierung weitgehend geschlossen hinter der mit Brüssel getroffenen Vereinbarung steht. Danach würde umgehend ein EU-Sondergipfel, vermutlich für den 25. November, einberufen.

Wird May das Ergebnis der Unterhändler diesmal zu Hause durchsetzen?

In Brüssel ist man hingegen vorsichtig mit dem Wort Einigung. Es gebe einen Text, auf den sich die Unterhändler geeinigt hätten, politisch sei der aber noch nicht abgesegnet, sagen mit der Angelegenheit vertraute EU-Diplomaten. Nun liege der Ball, mal wieder, in London. Eine ähnliche Situation hatte es bereits vor rund vier Wochen gegeben, als die Unterhändler in Brüssel ebenfalls weit gekommen waren, 10 Downing Street aber in letzter Sekunde den Stecker zog, weil May das Ergebnis in London nicht durchsetzen konnte.

Trotzdem bereitet auch die EU nun die Grundlagen für einen Sondergipfel vor, auf dem May für das Publikum auf der Insel ausreichend Verhandlungsdramatik inszenieren könnte. Die Sitzung der Botschafter der 27 verbleibenden EU-Länder am Mittwochnachmittag wurde um den Tagesordnungspunkt "State of Play" erweitert, es geht also um den Stand der Brexit-Verhandlungen.
""")

locations = []
for ent in doc.ents:
    print("entity type %s : %s" % (ent.label_,ent.text))
    #if ent.label_ == "LOC":
    #    print(ent.text, ent.label_)
    #    locations.append(ent.text)

entity type MISC : Brexit-Verhandlungen
entity type MISC : britische
entity type LOC : Brüssel
entity type LOC : EU-Hauptstadt
entity type ORG : EU
entity type LOC : Großbritannien
entity type PER : Theresa May
entity type LOC : Brüsseler
entity type ORG : Europäischen Volkspartei
entity type PER : Manfred Weber
entity type ORG : ARD-"Tagesthemen
entity type LOC : Brüssel
entity type LOC : EU-Länder
entity type PER : Optimismus
entity type PER : Sondergipfel
entity type MISC : Die Premierministerin
entity type LOC : Brüssel
entity type LOC : May
entity type ORG : Hause
entity type LOC : Brüssel
entity type LOC : London
entity type LOC : Brüssel
entity type LOC : London
entity type ORG : EU
entity type ORG : EU-Länder
entity type MISC : Brexit-Verhandlungen


In [19]:
doc.ents

(Brexit-Verhandlungen,
 britische,
 Brüssel,
 EU-Hauptstadt,
 EU,
 Großbritannien,
 Theresa May,
 Brüsseler,
 Europäischen Volkspartei,
 Manfred Weber,
 ARD-"Tagesthemen,
 Brüssel,
 EU-Länder,
 Optimismus,
 Sondergipfel,
 Die Premierministerin,
 Brüssel,
 May,
 Hause,
 Brüssel,
 London,
 Brüssel,
 London,
 EU,
 EU-Länder,
 Brexit-Verhandlungen)

### Aufgabe
Holt euch den text von http://www.spiegel.de/politik/ausland/brexit-das-endspiel-hat-begonnen-a-1238299.html mit dem readability tool und findet heraus welche named entities am häufigsten vorkommen.  Von welchen Ländern und Unternehmen wird vor allem gesprochen?

In [24]:
#import httplib2
from nltk.tokenize import word_tokenize
text = ''' your text here'''

words = word_tokenize(text)
words=[word for word in words if word.isalpha()]
text_clean = (" ").join(words)
doc = nlp(text_clean)
for ent in doc.ents:
    print(ent.text, ent.label_)

your PER


In [58]:
#doc.ents