# get locations from newspaper articles using Stanford CoreNLP

This notebook fetches RSS/Atom feeds and attempts to find the locations mentioned in the linked atricles. 

This implementation is just an example. It is inefficient and completely skips any error handling.

## Prequisites

* Download http://nlp.stanford.edu/software/stanford-corenlp-full-2018-10-05.zip and unzip it into the directory of this notebook
* Download http://nlp.stanford.edu/software/stanford-german-corenlp-2018-10-05-models.jar into the same directory and unzip it with `jar xf *models.jar`.
* install the python dependencies using `pip install -r requirements.txt`

In [1]:
import nltk

nltk.download('punkt')

[nltk_data] Downloading package punkt to /home/nico/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

## Create the tagger

In [2]:
# http://www.nltk.org/api/nltk.tag.html#module-nltk.tag.stanford

import os.path

from nltk.tag import StanfordNERTagger
from nltk import word_tokenize

StanfordNERTagger._JAR = 'stanford-corenlp-3.9.2.jar'

st = StanfordNERTagger('edu/stanford/nlp/models/ner/german.conll.germeval2014.hgc_175m_600.crf.ser.gz',
                       path_to_jar=os.path.join(os.getcwd(), 'stanford-corenlp-full-2018-10-05/', StanfordNERTagger._JAR))

def get_tags(text):
    return st.tag(word_tokenize(text))

def filter_locations(tags):
    return set([tag for tag, ttype in tags if ttype == 'LOCATION'])

## Fetch the recent newspaper articles and get their locations

In [3]:
import feedparser
import requests
import pyquery
from readability import Document
from IPython.display import display, Markdown

import warnings
warnings.filterwarnings("ignore") # future-warnings from readability

def url_to_text(u):
    resp = requests.get(u)
    d = pyquery.PyQuery(resp.text)
    doc = Document(str(d('article') or d('.content') or d))
    return pyquery.PyQuery(doc.content()).text().replace('\\n', ' ')

def render(title, link, tags):
    parts = [
        "[%s](%s)" % (title, link),
        ""
    ]
    for t in tags:
        parts.append("* %s" % t)
    display(Markdown("\n".join(parts)))


for feed_url in [
            'https://www.dlr.de/dlr/de/contentXXL/services/newsexport/rss.asmx/GetRSSNewsByTabId?tabid=10081',
            'https://www.nabu.de/rssfeed.php',
            'http://rss.sueddeutsche.de/rss/Topthemen']:
    
    f = feedparser.parse(feed_url)
    for e in f['entries']:
        resp = requests.get(e['link'])
        doc = Document(resp.text)
        content = url_to_text(e['link'])
        render(e['title'], e['link'], filter_locations(get_tags(content)))

[Neuer Staatssekretär des BMWi besucht Energieforschung im DLR Köln](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33513/)

* TESIS
* Köln

[Testfeld Niedersachsen - Mobilitätsforschung mit Realdaten von der A39](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33501/)

* Niedersachsen
* Cremlingen
* A2
* Braunschweig
* Wolfsburg

[Algen auf außerirdischer Mission: Atemluft für die ISS-Astronauten](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33413/)

* Erde
* Deutschland
* ISS
* Mond
* Mars
* Friedrichshafen

[DLR führt mit Hilfe der Deutschen Lufthansa Flugversuche in Braunschweig durch](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33460/)

* Braunschweig
* Braunschweig-Wolfsburg

[DLR auf dem Space Symposium 2019](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33425/)

* Springs
* Jena
* Mond
* USA
* Thüringen
* Washington
* Colorado

[DLR-Technologiemarketing und polnische ARP unterzeichnen Erklärung über gemeinsame Aktivitäten](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33392/)

* Polen
* Warschau

[Rosetta "Post-Mission": Neue Erkenntnisse zu Temperatur und Beschaffenheit der Kometenoberfläche](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33403/)

* Italien
* Frankreich
* Hapi
* Rom
* Imohotep
* Deutschland
* VIRTIS
* Paris

[SOFIA entdeckt Baustein für das junge Universum](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33350/)

* Köln
* Bonn
* Berlin
* SOFIA

[Automatische Landungen unbemannter Hubschrauber auf Schiffen bei Wind und Wellengang erproben](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33348/)

* Düne
* Hohe
* Braunschweig
* MaRPAS
* Rostock-Warnemünde

[DLR/NASA-Design Challenge widmet sich dem Entwurf kleiner Fluggeräte und neuen Technologien im Regionalflugverkehr](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33304/)

* USA
* Braunschweig
* Deutschland
* München

[Die ersten Detektoren für Exoplaneten-Weltraumteleskop PLATO ausgeliefert](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33197/)

* Chelmsford
* Großbritannien
* Erde
* Milchstraße
* Sonne-Erde
* Device
* Berlin

[Tests für den InSight-Maulwurf](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33208/)

* Denver
* Erde
* Mars
* USA
* Bremen
* Astronika
* Pasadena
* Köln
* Colorado
* Kalifornien

[Mondgravitation in 600 Kilometern über der Erde](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33194/)

* Mars
* Mond
* Eu
* Erde

[Satellitentechnik für den Mobilfunk der Zukunft](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33203/)

* Pazifik
* Nord-
* Südamerika
* Bundesrepublik
* Westeuropas
* Asien
* Atlantiks

[Schnellerer Zugriff auf Erdbeobachtungsprodukte der maritimen Sicherheit durch Datenwürfel](https://www.dlr.de/dlr/de/desktopdefault.aspx/tabid-10081/151_read-33179/)

* Ostsee
* Deutschland
* Dänemarks
* Neustrelitz
* Bremen
* Norderney
* Nordsee

[Sichern Sie eine einmalige Wildnis](https://www.nabu.de/spenden-und-mitmachen/spenden/26107.html)

* Usedom
* Charitéstraße
* Stadtbruch
* Anklamer
* Deutschlands
* Mitteleuropa
* Anklam
* Berlin

[Was tut Europa für die Umwelt?](https://www.nabu.de/wir-ueber-uns/infothek/mitgliedermagazin/hefte/26280.html)

* Brüssel
* Charitéstraße
* Großbritannien
* Deutschland
* Berlin
* Slowenien
* Oroklini
* Kroatien
* Karpaten
* Larnaka
* Zypern
* BirdLife
* Schleswig-Holstein
* Europa
* Butendiek

[Tempo beim Herdenschutz](https://www.nabu.de/news/2019/04/26314.html)

* Gohrischheide
* Charitéstraße
* Ostseetunnel
* Deutschland
* Berlin
* Europa
* Butendiek

[NABU klagt gegen geplanten Ostseetunnel](https://www.nabu.de/news/2019/04/26338.html)

* Ostsee
* Deutschland

[15 Jahre Citizen Science](https://www.nabu.de/tiere-und-pflanzen/aktionen-und-projekte/stunde-der-gartenvoegel/ergebnisse/22414.html)

* Usedom
* Charitéstraße
* Butendiek
* Deutschlands
* Berlin

[Fotowettbewerb: Was lebt in der Wiese?](https://www.nabu.de/spenden-und-mitmachen/fuer-unternehmen/kooperationspartner/26182.html)

* Charitéstraße
* Deutschland
* Berlin
* Oldenburg
* Deutschlands
* Butendiek

[„Allein unter Wölfen“ zum Tag des Wolfes](https://www.nabu.de/tiere-und-pflanzen/saeugetiere/wolf/nabu-aktivitaeten/26242.html)

* Loro
* Burgstädt
* Deutschland
* Nordenham
* Europa
* Wolfenbüttel
* Harzvorland
* Gifhorn
* Aschau
* Butendiek
* Waldweg
* Riedstadt-Goddelau
* Wildeshausen
* Parque
* Rotenburg
* Karlsruhe
* Brandenburg
* Bochum
* Torgau
* Berlin
* Gohrischheide
* Charitéstraße
* Sachsen-Anhalt
* Sachsen
* Ellwangen
* Nienburg

[Wessen Interessen vertritt der Bauernverband?](https://www.nabu.de/natur-und-landschaft/landnutzung/landwirtschaft/agrarpolitik/26321.html)

* Brüssel
* Charitéstraße
* Stadtbruch
* Borken
* Deutschland
* Anklamer
* Ostsee
* Butendiek
* Raiffeisenverbands
* Europa
* Berlin
* Deutschen

[Farben unserer Streuobstwiese](https://www.nabu.de/natur-und-landschaft/landnutzung/streuobst/pflege/26333.html)

* Charitéstraße
* Stuttgart
* Stadtbruch
* Ostsee
* Anklamer
* Baden-Württemberg
* Butendiek
* Berlin

[Vogelbestimmung leicht gemacht](https://www.nabu.de/natur-und-landschaft/natur-erleben/spiele-apps-klingeltoene/vogelwelt.html)

* Maltas
* Charitéstraße
* Ägyptens
* Mittelmeer
* Deutschland
* Berlin
* Malta
* Ägypten
* Mitteleuropa
* Zypern
* Zyperns
* Butendiek

[In den Wäldern des Balkans](https://www.nabu.de/tiere-und-pflanzen/saeugetiere/luchs/26256.html)

* Charitéstraße
* Lucky
* Berlin
* Wald
* Pfälzer
* Karlsruhe
* Münster
* Butendiek
* Karpaten
* Kroatien
* Gorski
* Slowenien
* Sachsen
* Kroatiens
* Slowakei
* BirdLife

[Schwieriger Vogelschutz auf Zypern](https://www.nabu.de/tiere-und-pflanzen/voegel/zugvogelschutz/zypern/26278.html)

* Nikosia
* Europas
* Charitéstraße
* Europa
* Afrika
* Berlin
* Oroklini
* Larnaka
* Zypern
* Zyperns
* Strakka
* Butendiek

[Lufthoheit für Biobauern](https://www.nabu.de/natur-und-landschaft/landnutzung/landwirtschaft/pestizide/26292.html)

* Sonnenberg
* Europas
* Vinschger
* Charitéstraße
* TrentinoSüdtirol
* Schluderns
* Stadtbruch
* Bozen
* Deutschland
* Südtirol
* Vinschgau
* Berlin
* Anklamer
* Ostsee
* Pestizidland
* Butendiek
* Italiens

[EU-Subventionen sind schlecht für die Artenvielfalt](https://www.nabu.de/natur-und-landschaft/landnutzung/landwirtschaft/agrarpolitik/eu-agrarreform/26295.html)

* Charitéstraße
* Niedersachsen
* Stadtbruch
* Deutschland
* Berlin
* Anklamer
* Bulgariens
* Ostsee
* Bulgarien
* Butendiek

[Hans-Albert ist ein fauler Storch](https://www.nabu.de/tiere-und-pflanzen/aktionen-und-projekte/stoerche-auf-reisen/26300.html)

* Sahelzone
* Bergenhusen
* Afrika
* Europa
* Deutschlands
* Ost-
* Südosteuropa
* Südafrika
* Bosporus
* Butendiek
* Ostafrika
* Berlin
* Frankreich
* Spanien
* Tschadsees
* Charitéstraße
* Rivas-Vaciamadrid
* Westafrika
* Portugal
* Westdeutschland
* Schleswig-Holstein

[Baden-Württemberg: Thomas Strobl bleibt CDU-Landeschef](https://www.sueddeutsche.de/politik/strobl-cdu-baden-wuerttemberg-1.4432418)

* Baden-Württemberg
* Weingarten
* Augsburg
* Deutschlands
* Nordrhein-Westfalen
* Jerusalem

[SZ Europa: Wählen gehen!](https://www.sueddeutsche.de/politik/europakolumne-schicksalswahl-wahlbeteiligung-demokratie-1.4431638)

* Schweiz
* Thoelkes
* Europawahlen
* Spielshow
* Deutschland
* Ungarn
* Wim
* Europa

[US-Notenbank Fed: Ein Rest von Unabhängigkeit bleibt](https://www.sueddeutsche.de/wirtschaft/trump-notenbank-fed-unabhaengigkeit-1.4430816)

* USA
* Washington
* New
* York
* Köln
* Bonn
* Berlin

[Europawahl: Markus Söder, ein CSU-Chef auf Auslandsmission](https://www.sueddeutsche.de/bayern/soeder-csu-ausland-allianzen-1.4430947)

* Brüssel
* Sofia
* Staaten
* Österreichs
* Europas
* Hintergrundgesprächen
* Zagreb
* Vereinigten
* Russland
* Äthiopien
* Moskau
* Österreich
* Deutschland
* Wien
* Kroatien
* Bayern
* Bulgarien
* China
* Europa
* Berlin

[Psychologie: Hello darkness](https://www.sueddeutsche.de/wissen/depression-trauer-musik-1.4426266)

* Edinburgh
* München

[Großbritannien: Der Europäer im Stadtrat von Winchester](https://www.sueddeutsche.de/politik/grossbritannien-kommunalwahl-europawahl-martin-tod-1.4430818)

* Ungarn
* Mittelosteuropa
* Rheinland-Pfalz
* USA
* Winchester
* Hessen
* Slowakei
* Straßburg
* München
* London
* Cambridge
* Brexit-Falle
* Eugene
* Saarland
* Berlin
* Göttingen
* Großbritannien
* Tübingen
* Moskau
* Österreich
* Ukraine
* Wien
* Slowenien

[Umwelt: Kokain im Flohkrebs](https://www.sueddeutsche.de/wissen/england-flohkrebs-kokain-drogen-abwasser-1.4431085)

* London
* Europas
* Suffolk
* Lidocain
* Chemnitz
* England
* Bremen
* Barcelona
* Aalen

[Cyber-Kriminalität: Die Darknet-Fürsten aus Kleve und Bad Vilbel](https://www.sueddeutsche.de/digital/darknet-bka-wall-street-market-it-sicherheit-1.4431661)

* Frankfurt
* Südamerika
* Street
* Esslingen
* Market
* Main
* USA
* Niederlanden
* Bad
* Wall
* Vilbel
* Kleve
* am

[Kühnert und der Sozialismus: Warum die SPD so dünnhäutig auf den Juso-Chef reagiert](https://www.sueddeutsche.de/politik/spd-reaktion-juso-chef-kuehnert-1.4431025)

* Griechenland
* Niedersachsen
* Rheinland-Pfalz
* Moskau
* Saarbrücken
* Zypern
* Leipzig
* Bremen
* Augsburg
* Wien
* Warschau
* Hessen
* Saarland
* Bayern
* Kassel
* Türkei
* Europa
* Bonn
* Berlin

[Missbrauchsfall in Lügde: Gerüchte um einen Zeugen](https://www.sueddeutsche.de/politik/luegde-missbrauch-nordrhein-westfalen-1.4431041)

* Eichwald
* Campingplatz
* Hamburg
* Lügde
* Bundesrepublik
* Niedersachsen
* Deutschland
* Bremen
* Wienberg
* Nordrhein-Westfalens
* Tauberbischofsheim
* Nordrhein-Westfalen
* München

[VroniPlag Wiki: Plagiatsjäger beanstanden mehr als 70 Seiten von Giffeys Dissertation](https://www.sueddeutsche.de/politik/giffey-dissertation-plagiate-vroniplag-1.4431726)

* Giffey
* Nordrhein-Westfalen

[Bundesliga: Gleich drei Neue für Schalke](https://www.sueddeutsche.de/sport/schalke-wagner-trainer-1.4431476)

* Dortmund
* Schalkes
* Hoffenheim
* Kerkrades
* Gelsenkirchen
* England
* Schalke
* Huddersfield
* China
* Ernst-Kuzorra-Weg
* Leipzig
* Paderborn
* Gladbach

[Europawahl: Was die Parteien wollen - und was sie ablehnen](https://www.sueddeutsche.de/politik/europawahl-wahlprogramme-parteien-1.4427514)

* Brüssel
* London
* Röszke
* Bitburg
* Peking
* FrankfurtMain
* Deutschland
* Brandenburg
* Köln
* China
* Trier
* Europa
* Straßburg

[Hauptversammlung: Die Enkel haben keine Lust auf RWE](https://www.sueddeutsche.de/wirtschaft/rwe-kohle-klimawandel-hauptversammlung-proteste-1.4431005)

* Dortmund
* Europas
* Deutschland
* Hambach
* Niederrhein
* Köln
* Innogy
* Europa

[CSU-Reformpläne:  "Söder will den Reichen ein Milliardengeschenk machen"](https://www.sueddeutsche.de/politik/markus-soeder-steuerreform-reaktionen-1.4430860)

* Österreichs
* Deutschland
* Washington
* New
* York
* Wien
* Ungarn
* Bulgarien
* Bayerns
* Jerusalem
* Bonn
* Berlin
* München