# Named Entities Recognition with NLTK
- Named entities sind Orte, Firmen, Organisationen, Länder, etc.. alles Eigennamen. 
- Oft sind diese Eigennamen relativ wichtig im Text. 

In [1]:
import nltk

In [11]:
out = nltk.pos_tag(nltk.word_tokenize("John Smith is from the United States of America and works at Microsoft Research Labs"))
named_entities = []
for tag in out:
    if tag[1] == "NNP" or tag[1] == "NNPS":
        named_entities.append(tag[0]) 
named_entities

['John',
 'Smith',
 'United',
 'States',
 'America',
 'Microsoft',
 'Research',
 'Labs']

In [3]:
import nltk
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')
pos_tags = nltk.pos_tag(nltk.word_tokenize("John Smith is from the United States of America and works at Microsoft Research Labs"))
print(nltk.ne_chunk(pos_tags))

(S
  (PERSON John/NNP)
  (PERSON Smith/NNP)
  is/VBZ
  from/IN
  the/DT
  (GPE United/NNP States/NNPS)
  of/IN
  (GPE America/NNP)
  and/CC
  works/VBZ
  at/IN
  (ORGANIZATION Microsoft/NNP Research/NNP Labs/NNP))


[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/plotti/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /Users/plotti/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /Users/plotti/nltk_data...
[nltk_data]   Package words is already up-to-date!


In [6]:
result = nltk.ne_chunk(nltk.pos_tag(nltk.word_tokenize("Johan Meier kommt aus Deutschland und arbeitet bei der Forschungsabteilung von Microsoft")))
result

ModuleNotFoundError: No module named 'svgling'

Tree('S', [Tree('PERSON', [('Johan', 'NNP')]), Tree('PERSON', [('Meier', 'NNP')]), ('kommt', 'NNP'), ('aus', 'NN'), Tree('GPE', [('Deutschland', 'NNP')]), ('und', 'NN'), ('arbeitet', 'NN'), ('bei', 'NN'), ('der', 'NN'), Tree('ORGANIZATION', [('Forschungsabteilung', 'NNP')]), ('von', 'NNP'), ('Microsoft', 'NNP')])

# Named Entities with spacy

In [15]:
import spacy
nlp = spacy.load("de_core_news_sm")

doc = nlp("""

Bei den Brexit-Verhandlungen ist offenbar ein entscheidendes Zwischenziel erreicht worden. Nachdem die britische Regierung am Dienstag verkündete, es gebe eine Einigung mit Brüssel, mehrten sich auch in der EU-Hauptstadt die Anzeichen, dass die Unterhändler von EU und Großbritannien auf technischer Ebene ein belastbares Papier erarbeitet haben.

Am Mittwoch will die Premierministerin Theresa May nun ihr Kabinett auf die Brüsseler Übereinkunft einschwören.

Der Fraktionschef der Europäischen Volkspartei, Manfred Weber, sagte in den ARD-"Tagesthemen", es gebe "positive Signale", dass es zu einer Einigung komme: "Ja, der weiße Rauch steigt auf." Eine offizielle Bestätigung für einen Deal gab es von den Unterhändlern aus Brüssel zunächst nicht. Allerdings wollen die Botschafter der 27 restlichen EU-Länder am Mittwoch über einen Zeitplan bis zu einem möglichen Sondergipfel am Ende des Monats beraten, ein Vorhaben, das sinnlos wäre, wenn es keinen Grund für vorsichtigen Optimismus gäbe.

Mittwoch Gespräche im Kabinett, bei Erfolg: Sondergipfel am 25. November

Zuletzt waren die Gespräche bis tief in die Nacht im sogenannten Tunnel geführt worden, unter maximaler Geheimhaltung und mit der gegenseitigen Zusicherung, dass nichts davon vorzeitig nach außen dringt. Dann, am frühen Dienstagabend, bestätigte ein Sprecher Mays, dass tatsächlich ein Vertragsentwurf vorliege.

Die Premierministerin habe ihr Kabinett für Mittwoch, 14 Uhr Ortszeit, zu einer außerordentlichen Sitzung einbestellt. Ihr Ziel ist, möglichst noch am Mittwoch verkünden zu können, dass ihre Regierung weitgehend geschlossen hinter der mit Brüssel getroffenen Vereinbarung steht. Danach würde umgehend ein EU-Sondergipfel, vermutlich für den 25. November, einberufen.

Wird May das Ergebnis der Unterhändler diesmal zu Hause durchsetzen?

In Brüssel ist man hingegen vorsichtig mit dem Wort Einigung. Es gebe einen Text, auf den sich die Unterhändler geeinigt hätten, politisch sei der aber noch nicht abgesegnet, sagen mit der Angelegenheit vertraute EU-Diplomaten. Nun liege der Ball, mal wieder, in London. Eine ähnliche Situation hatte es bereits vor rund vier Wochen gegeben, als die Unterhändler in Brüssel ebenfalls weit gekommen waren, 10 Downing Street aber in letzter Sekunde den Stecker zog, weil May das Ergebnis in London nicht durchsetzen konnte.

Trotzdem bereitet auch die EU nun die Grundlagen für einen Sondergipfel vor, auf dem May für das Publikum auf der Insel ausreichend Verhandlungsdramatik inszenieren könnte. Die Sitzung der Botschafter der 27 verbleibenden EU-Länder am Mittwochnachmittag wurde um den Tagesordnungspunkt "State of Play" erweitert, es geht also um den Stand der Brexit-Verhandlungen.
""")

locations = []
for ent in doc.ents:
    #print("entity type %s : %s" % (ent.label_,ent.text))
    if ent.label_ == "LOC":
        print(ent.text, ent.label_)
        locations.append(ent.text)
locations 

Brexit-Verhandlungen LOC
britische Regierung LOC
EU-Hauptstadt LOC
Großbritannien LOC
Brüssel LOC
Brüssel LOC
Brüssel LOC
London LOC
Brüssel LOC
Downing Street LOC
London LOC


['Brexit-Verhandlungen',
 'britische Regierung',
 'EU-Hauptstadt',
 'Großbritannien',
 'Brüssel',
 'Brüssel',
 'Brüssel',
 'London',
 'Brüssel',
 'Downing Street',
 'London']

In [19]:
doc.ents

(Brexit-Verhandlungen,
 britische,
 Brüssel,
 EU-Hauptstadt,
 EU,
 Großbritannien,
 Theresa May,
 Brüsseler,
 Europäischen Volkspartei,
 Manfred Weber,
 ARD-"Tagesthemen,
 Brüssel,
 EU-Länder,
 Optimismus,
 Sondergipfel,
 Die Premierministerin,
 Brüssel,
 May,
 Hause,
 Brüssel,
 London,
 Brüssel,
 London,
 EU,
 EU-Länder,
 Brexit-Verhandlungen)

### Aufgabe
Holt euch den text von http://www.spiegel.de/politik/ausland/brexit-das-endspiel-hat-begonnen-a-1238299.html mit dem readability tool und findet heraus welche named entities am häufigsten vorkommen.  Von welchen Ländern und Unternehmen wird vor allem gesprochen?

In [17]:
#import httplib2
from nltk.tokenize import word_tokenize
text = '''Wofür die WM in Katar eine Chance sein kann
Die Debatte um die WM wird emotional, aber selten differenziert geführt. Dabei bietet genau dieses Turnier die Möglichkeit, Deutschlands Verhältnis zu Katar zu klären.
Ein Gastbeitrag von Sebastian Sons
18. November 2022, 9:20 Uhr 63 Kommentare
WM in Katar: In Katar wird die Kritik an der WM teils als eurozentristisch und überheblich wahrgenommen.
In Katar wird die Kritik an der WM teils als eurozentristisch und überheblich wahrgenommen. © Ibraheem Al Omari/​Reuters
Wofür die WM in Katar eine Chance sein kann – Seite 1

Die Debatte um die umstrittene Fußball-Weltmeisterschaft in Katar hat sich in den vergangenen Monaten im Ton deutlich verschärft. In der deutschen Öffentlichkeit wird die WM weitgehend abgelehnt: 56 Prozent der Deutschen wollen keine WM-Spiele schauen. Die Kontroverse um das Turnier wird dabei oftmals polemisch und emotional, seltener nuanciert und differenziert geführt. Dies zeigt, wie sehr das Thema polarisiert, frustriert und irritiert. Dabei liegt in der WM in Katar auch eine Chance.

In der Auseinandersetzung um Katar ist die Kritik oft unscharf: Zum einen zielt sie auf das Missmanagement im Weltfußball und insbesondere auf die Korruption bei den WM-Vergaben. Dabei gilt die Fifa als Inbegriff der Überkommerzialisierung des globalen Fußballs, dessen mächtige Männer sich mit ihrer Gier immer weiter von den Fans entfernen. Katar steht hierbei mit der WM, der Übernahme von Paris Saint-Germain und der umstrittenen Sponsorschaft von Qatar Airways beim FC Bayern als symbolischer Höhepunkt dieser Fehlentwicklung, als Inbegriff eines korrupten Ausbeutungssystems da, in dem der Fan vergessen wird.

Auf einer zweiten Ebene wird die strukturelle Gewalt gegen und die systemische Ausbeutung der Arbeitsmigranten in Katar kritisiert. Deren Situation wurde in den vergangenen Jahren von Menschenrechtsorganisationen und Gewerkschaften thematisiert, was den Druck auf die katarische Regierung verstärkte, gesetzliche Reformen einzuführen. Seitdem wurde der Mindestlohn angehoben, die Beschwerdemechanismen im Fall von Misshandlung oder Lohndiebstahl ausgebaut und ein besserer Hitzeschutz eingeführt. Dennoch: Die Umsetzung bleibt problematisch. Noch immer sind 70 Prozent der Todesfälle auf den Baustellen nicht aufgeklärt worden, noch immer klagen vor allem die zumeist weiblichen Hausangestellten über Misshandlungen, Vergewaltigungen und Schlafentzug.
Sebastian Sons

Sebastian Sons ist Islamwissenschaftler und beschäftigt sich intensiv mit den arabischen Golfmonarchien, deren Sport-, Entwicklungs- und Außenpolitik. Er arbeitet als Wissenschaftler beim deutschen Forschungsinstitut CARPO. Von ihm erschien zuletzt das Buch "Menschenrechte sind nicht käuflich. Warum die WM in Katar auch bei uns zu einer neuen Politik führen muss".

Kritik gibt es aber auch daran, dass ein Land, welches sich noch nie sportlich für eine WM qualifiziert hat, das kleiner ist als Hessen und das aufgrund der hohen Temperaturen das Turnier im europäischen Winter ausrichten lassen muss, kein Recht habe, Gastgeber einer WM sein zu dürfen.
Newsletter
“Was jetzt?“-Newsletter und Katar-Sonderausgabe

Verfolgen Sie die Fußballweltmeisterschaft 2022 in Katar mit der täglichen Sonderausgabe des "Was jetzt?"-Nachrichtennewsletters.

Teile dieser Kritik werden in Katar und anderen arabischen Ländern als respektlos, eurozentristisch und überheblich wahrgenommen. Dem Westen wird vorgeworfen, scheinheilig nur dann Menschenrechte zu verteidigen, wenn es eigenen Interessen dient.

In der Region betrachten viele die WM in Katar auch als ihr Turnier, ist es doch die erste in der islamisch-arabischen Welt. Weil große Teile der arabischen Gesellschaften fußballbegeistert sind, gilt ihnen Katar als Repräsentant für die gesamte arabische Welt – wenngleich viele von ihnen den Gastgeber auch problematisch sehen. So solidarisieren sich bei Twitter unter dem Hashtag #I_Am_Arab_and_I_Support_Qatar und in arabischen Medien viele mit dem Gastgeber und kritisieren zum Beispiel Karikaturen in der französischen Zeitschrift Le Canard enchaine als rassistisch und islamfeindlich.

In Gesprächen mit arabischen Kolleginnen wird immer wieder deutlich, dass man sich unfair behandelt fühlt und die Anfeindungen als Ausdruck der europäischen Doppelmoral zurückweist. Dies verdeutlichte auch der Emir von Katar, der zuletzt davon sprach, dass es sich bei dieser Kritik um eine Kampagne der doppelten Standards handele. Seine Worte richtete er dabei in erster Linie an die eigene Bevölkerung, deren Loyalität er braucht, um seine Macht zu behalten. Er möchte nach innen ein Zeichen der Stärke setzen und vor der WM die eigenen Reihen schließen.

Dies zeigt, dass selbst autokratische Monarchien wie Katar einerseits auf externen Druck reagieren müssen, andererseits die Zustimmung von einflussreichen Unterstützern nicht verlieren dürfen. Zugleich ist das Geschäftsmodell Katars darauf angewiesen, mit Europa und Deutschland enge politische und wirtschaftliche Beziehungen zu unterhalten. Dies lässt vermuten, dass sich die Aufregung im Verlauf des Turniers und danach wieder legen könnte, weil beide Seiten wissen, aufeinander angewiesen zu sein.
Externer Inhalt
Datenschutzerklärung

Deswegen bietet die jetzige Kontroverse auch eine Möglichkeit zu einem ehrlicheren und offeneren Dialog miteinander: Bislang hat es die deutsche Außenpolitik versäumt, eine klare und kohärente Strategie im Umgang mit Katar zu entwickeln. Anstatt Menschenrechte zu verteidigen, profitierten westliche Unternehmen bei Geschäften mit Katar im Vorfeld der WM. Diese Widersprüche lassen Glaubwürdigkeit erodieren und stehen für eine strategische Planlosigkeit im Umgang mit Katar und anderen autokratischen Staaten.

Durch den russischen Angriffskrieg gegen die Ukraine ändert sich aber die außenpolitische Diskussion in Deutschland. Wegen der Energiekrise rücken auch die autokratischen Golfmonarchien stärker als potenzielle Partner in der Energieversorgung in den Blickpunkt der deutschen Öffentlichkeit: der Bundeskanzler Olaf Scholz und der Wirtschaftsminister Robert Habeck besuchten den katarischen Emir, um über Gaslieferungen zu verhandeln. Gleichzeitig existieren Energiepartnerschaften mit Saudi-Arabien und den Vereinigten Arabischen Emiraten.
Lösungen statt Moralkeule

Die Debatte um die WM in Katar zeigt dabei allerdings, wie kritisch jegliche Zusammenarbeit mit den Autokratien am Golf betrachtet wird. Dies bringt die Politik in ein Dilemma: Auf der einen Seite sind Länder wie Katar zu wichtig geworden, um sie zu ignorieren. Auf der anderen Seite steht jegliche Form der Zusammenarbeit unter Verdacht, eigene moralische Werte zu verraten und sich in neue Abhängigkeiten von Autokratien zu begeben – ein Fehler, der nach den Erfahrungen mit Russland nicht wiederholt werden soll.

Um dieses Dilemma aufzulösen, braucht es einen nüchternen, aber aufmerksamen und wachen Blick auf die Potenziale und Risiken einer engeren Zusammenarbeit mit Katar auch nach der WM. Anstatt die Moralkeule zu schwingen, sollte die Debatte nach Lösungsansätzen suchen, die über die Diskussion um einen Boykott hinausreichen. Ein klarer Kurs, der Werte und Interessen vereinbart und der Moral und Realitäten anerkennt, kann helfen, verloren gegangene Glaubwürdigkeit wiederzugewinnen.

Um eigene Werte nicht zu verraten, ist es notwendig, ehrlich und offen zu kommunizieren, in welchen Bereichen Katar ein wichtiger Partner sein kann. Dazu zählt neben der Energiepolitik auch die Entwicklungspolitik oder eine engere Kooperation im Migrationsmanagement. Dafür ist es allerdings nötig, der deutschen Öffentlichkeit und der katarischen Seite selbstkritischer zu erklären, woher die Kritik rührt, welche roten Linien im Umgang mit dem autokratischen Katar existieren und warum eine Zusammenarbeit aus politischer Perspektive trotzdem notwendig ist. In Zeiten der Polarisierung und empörter Rhetorik sollte dafür polemische von berechtigter Kritik unterschieden werden. Nur so kann man glaubwürdiger auftreten.

Weiterhin sollte mehr miteinander als übereinander gesprochen werden. Die Golfmonarchien durchlaufen einen Wandel, sie öffnen sich wirtschaftlich und gesellschaftlich: Immer mehr Frauen studieren und arbeiten, eine junge Generation drängt auf mehr gesellschaftliche Teilhabe. Aber es nimmt auch die politische Repression zu und eine Demokratisierung ist nicht in Sicht. Oftmals werden diese gleichzeitigen Ungleichzeitigkeiten und die widersprüchlichen doppelten Böden jedoch in der öffentlichen Debatte nicht ausreichend reflektiert. Deswegen sollten künftig verstärkt Dialogformate zwischen Deutschland und den Golfmonarchien organisiert werden.

Die WM bietet dafür ein Momentum, das genutzt werden sollte. 
Seitennavigation
'''

words = word_tokenize(text)
words=[word for word in words if word.isalpha()]
text_clean = (" ").join(words)
doc = nlp(text_clean)
personen = []
for ent in doc.ents:
    if ent.label_ == "PER":
        print(ent.text, ent.label_)
        personen.append(ent.text)

Sebastian Sons PER
Ibraheem Al Wofür PER
Sebastian Sons Sebastian Sons PER
Olaf Scholz PER
Verdacht PER


In [58]:
#doc.ents