In [1]:
import spacy

*Load the language model*

In [2]:
nlp = spacy.load('de')

### load a text
*import the requests library*

In [3]:
import requests

*load a derstandard article with a get request*

In [4]:
article = requests.get('http://derstandard.at/2000064258034/Vier-Jahre-Schwarz-Rot-in-Deutschland-Die-groesste-Aufgabe-stand')

In [5]:
article.text

'<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"><html xmlns:fb="http://www.facebook.com/2008/fbml" xmlns:og="http://opengraphprotocol.org/schema/"><head><META http-equiv="Content-Type" content="text/html; charset=utf-8"><meta property="fb:pages" content="122737471962,805265769646722,111038215602766,117367668346158,140319642625,178293428957930"><meta name="Author" content="STANDARD Verlagsgesellschaft m.b.H."><meta name="viewport" content="width=975"><link rel="canonical" href="http://derstandard.at/2000064258034/Vier-Jahre-Schwarz-Rot-in-Deutschland-Die-groesste-Aufgabe-stand"><link rel="alternate" hreflang="de-AT" href="http://derstandard.at/2000064258034/Vier-Jahre-Schwarz-Rot-in-Deutschland-Die-groesste-Aufgabe-stand"><link rel="alternate" hreflang="de-DE" href="https://www.derstandard.de/story/2000064258034/Vier-Jahre-Schwarz-Rot-in-Deutschland-Die-groesste-Aufgabe-stand"><link rel="amphtml" href="http://mobil.derstandard.at/20

*use lxml to get the content of the article*

In [6]:
from lxml import html

In [7]:
root = html.fromstring(article.content)

In [8]:
root

<Element html at 0x7fce024ead68>

In [9]:
article_header = root.xpath("//div[@id = 'content-header']/h1/text()")[0]

In [10]:
article_header

'Vier Jahre Schwarz-Rot in Deutschland: Die größte Aufgabe stand nicht im Koalitionsplan'

In [11]:
article_text = root.xpath("//div[@id = 'content-main']/div")

In [12]:
article_text

[<Element div at 0x7fce024eaef8>, <Element div at 0x7fce024e8048>]

In [13]:
article_text = article_text[0]

In [14]:
article_full_text = ''
for elem in article_text:
    a = elem.xpath('./text()')
    if len(a) == 1:
        article_full_text += a[0] + ' '

In [15]:
article_full_text

'Die große Koalition arbeitete zunächst einiges aus dem Koalitionsvertrag zügig ab. Auf die vielen Flüchtlinge war sie jedoch nicht vorbereitet Es begann mit großen Worten. "Die Koalition aus CDU, CSU und SPD will dafür Sorge tragen, dass die Grundlagen für unseren Wohlstand und den Zusammenhalt gesichert und ausgebaut werden", steht in der Präambel des Koalitionsvertrages, den CDU-Chefin Angela Merkel, CSU-Vorsitzender Horst Seehofer und SPD-Chef Sigmar Gabriel am 16. Dezember 2013 unterschrieben haben. Sekt dazu trank man zwischen Christbäumen im Bundestag. Lange hatte Deutschland auf diese neue Regierung warten müssen. Bevor die Sozialdemokraten grünes Licht gaben, hatten sie noch die Zustimmung ihrer Mitglieder eingeholt. Im schwarz-roten Regelwerk für die kommenden vier Jahre fand sich auch etwas zu Flüchtlingen. Man wollte die Asylverfahren verkürzen, mehr Mittel für das Bundesamt für Migration bereitstellen, die Außengrenzen besser kontrollieren. Es steht dort auch jener Satz, d

### spaCy

*run spaCy on the text*

In [48]:
txt_nlp = nlp(article_full_text)

*the NEs*

In [49]:
for ent in txt_nlp.ents:
    print('word: {}, entity: {}'.format(ent.text, ent.label_))

word: CDU, entity: ORG
word: CSU, entity: ORG
word: SPD, entity: ORG
word: Angela Merkel, entity: PERSON
word: CSU, entity: ORG
word: Horst Seehofer, entity: PERSON
word: SPD, entity: ORG
word: Lange, entity: PERSON
word: Deutschland, entity: LOC
word: Bundesamt für Migration, entity: ORG
word: Merkel, entity: PERSON
word: EU, entity: LOC
word: EU, entity: ORG
word: EU, entity: ORG
word: Andrea Nahles, entity: PERSON
word: SPD, entity: ORG
word: Nahles, entity: PERSON
word: SPD, entity: ORG
word: CSU, entity: ORG
word: Vollzeit, entity: LOC
word: SPD, entity: ORG
word: Deutschland, entity: LOC
word: Merkel, entity: PERSON
word: Deutschland, entity: LOC
word: Deutschen, entity: LOC
word: Merkel, entity: PERSON
word: Albanien, entity: LOC
word: Kosovo, entity: LOC
word: Montenegro, entity: LOC
word: CDU, entity: ORG
word: CSU, entity: ORG
word: Schwarz, entity: PERSON
word: CDU, entity: ORG
word: CSU, entity: ORG
word: Seehofer, entity: PERSON
word: Alexander Dobrindt, entity: PERSON
wor

#### the structure of spaCy
A document analysed in spaCy is hierarchically structured:
* Doc: This is the class of the document. Attributes and functions allow to retrieve the text (Doc.text), the entities (Doc.ents), calculating semantic similarity between texts (Doc.similarity(Doc)) etc.
* Token: Class for a single token in a spaCy analysed text. Has several attributes to retrieve things like the shape of the token, if it is part of a NE, the id in the vocabulary, the lemma (unfortunately not yet implemented in the German model) etc.
* Span: Class spanning several tokens together. E.g. multi word NEs, sentences

In [50]:
txt_nlp.ents[9]

Bundesamt für Migration

In [51]:
type(txt_nlp.ents[9])

spacy.tokens.span.Span

In [52]:
for tok in txt_nlp.ents[9]:
    print('token: {}, id in vocab: {}, shape: {}, IOB: {}, POS: {}'.format(tok.orth_,
                                                                           tok.orth,
                                                                           tok.shape_,
                                                                           tok.ent_iob_,
                                                                           tok.pos_))

token: Bundesamt, id in vocab: 9068, shape: Xxxxx, IOB: B, POS: NOUN
token: für, id in vocab: 483, shape: xxx, IOB: I, POS: ADP
token: Migration, id in vocab: 9989, shape: Xxxxx, IOB: I, POS: NOUN


In [53]:
for idx, s in enumerate(txt_nlp.sents):
    print(s)
    print(type(s))
    if idx > 5:
        break

Die große Koalition arbeitete zunächst einiges aus dem Koalitionsvertrag zügig ab.
<class 'spacy.tokens.span.Span'>
Auf die vielen Flüchtlinge war sie jedoch nicht vorbereitet
<class 'spacy.tokens.span.Span'>
Es begann mit großen Worten.
<class 'spacy.tokens.span.Span'>
"
<class 'spacy.tokens.span.Span'>
Die Koalition aus CDU, CSU und SPD will dafür Sorge tragen, dass die Grundlagen für unseren Wohlstand und den Zusammenhalt gesichert und ausgebaut werden", steht in der Präambel des Koalitionsvertrages, den CDU-Chefin Angela Merkel, CSU-Vorsitzender Horst Seehofer und SPD-Chef Sigmar Gabriel am 16.
<class 'spacy.tokens.span.Span'>
Dezember 2013 unterschrieben haben.
<class 'spacy.tokens.span.Span'>
Sekt dazu trank man zwischen Christbäumen im Bundestag.
<class 'spacy.tokens.span.Span'>


In [54]:
for idx, s in enumerate(txt_nlp.sents):
    if idx > 0:
        break
    for tok in s:
        print('token: {}, id in vocab: {}, shape: {}, IOB: {}, POS: {}'.format(tok.orth_,
                                                                           tok.orth,
                                                                           tok.shape_,
                                                                           tok.ent_iob_,
                                                                           tok.pos_))

token: Die, id in vocab: 493, shape: Xxx, IOB: O, POS: DET
token: große, id in vocab: 791, shape: xxxx, IOB: O, POS: ADJ
token: Koalition, id in vocab: 5164, shape: Xxxxx, IOB: O, POS: NOUN
token: arbeitete, id in vocab: 4455, shape: xxxx, IOB: O, POS: VERB
token: zunächst, id in vocab: 1050, shape: xxxx, IOB: O, POS: ADV
token: einiges, id in vocab: 1650, shape: xxxx, IOB: O, POS: PRON
token: aus, id in vocab: 506, shape: xxx, IOB: O, POS: ADP
token: dem, id in vocab: 489, shape: xxx, IOB: O, POS: DET
token: Koalitionsvertrag, id in vocab: 19332, shape: Xxxxx, IOB: O, POS: NOUN
token: zügig, id in vocab: 7880, shape: xxxx, IOB: O, POS: ADJ
token: ab, id in vocab: 604, shape: xx, IOB: O, POS: PART
token: ., id in vocab: 1114006, shape: ., IOB: O, POS: PUNCT


### entity linking
*put the NEs in a spreadsheet*

In [55]:
import pandas as pd

In [56]:
df = pd.DataFrame(columns=['id', 'term', 'start char', 'end char', 'type'])

In [57]:
df

Unnamed: 0,id,term,start char,end char,type


In [58]:
for idx, ent in enumerate(txt_nlp.ents):
    ids = [str(e.i) for e in ent]
    df = df.append({'id': ','.join(ids),
               'term': ent.text,
               'start char': ent.start_char,
               'end char': ent.end_char,
               'type': ent.label_}, ignore_index=True)

In [59]:
df

Unnamed: 0,id,term,start char,end char,type
0,31,CDU,191,194,ORG
1,33,CSU,196,199,ORG
2,35,SPD,204,207,ORG
3,6768,Angela Merkel,391,404,PERSON
4,70,CSU,406,409,ORG
5,7374,Horst Seehofer,423,437,PERSON
6,76,SPD,442,445,ORG
7,98,Lange,565,570,PERSON
8,100,Deutschland,577,588,LOC
9,151152153,Bundesamt für Migration,889,912,ORG


In [60]:
article_full_text[3713:3731]

'Alexander Dobrindt'

*entity linking Person example*

In [61]:
df_person = df[(df['type'] == 'PERSON')]

In [62]:
df_person

Unnamed: 0,id,term,start char,end char,type
3,6768,Angela Merkel,391,404,PERSON
5,7374,Horst Seehofer,423,437,PERSON
7,98,Lange,565,570,PERSON
10,169,Merkel,1002,1008,PERSON
14,237238,Andrea Nahles,1404,1417,PERSON
16,304,Nahles,1751,1757,PERSON
22,440,Merkel,2553,2559,PERSON
25,523,Merkel,3000,3006,PERSON
31,579,Schwarz,3368,3375,PERSON
34,610,Seehofer,3545,3553,PERSON


In [31]:
df_person.loc[5, 'term']

'Horst Seehofer'

#### Stanbol
Stanbol is a semantic content management system. It provides all its services via REST APIs. While it is also capable of doing NER, we use here only the reference resources. ACDH provides a Stanbol index at http://enrich.acdh.oeaw.ac.at

In [31]:
import requests, json

In [32]:
headers = {'Content-Type': 'application/json'}

In [34]:
query = df_person.loc[5, 'term']
query_list = query.split()

In [35]:
query_list

['Horst', 'Seehofer']

In [36]:
query = '{}, {}'.format(query_list[1].strip(), query_list[0].strip())
constraints = []
url='http://enrich.acdh.oeaw.ac.at/entityhub/site/gndPersons/query'
constraints.append({
            'type': 'text',
            'field': 'http://www.w3.org/2000/01/rdf-schema#label',
            'text': query})
data = {
'limit': 20, 'constraints': constraints,
'selected': [
'http://d-nb.info/standards/elementset/gnd#dateOfBirth',
'http://www.w3.org/2000/01/rdf-schema#label'
]}

In [37]:
r = requests.post(url, data=json.dumps(data), headers=headers)
res = r.json()['results']

In [38]:
res

[{'http://d-nb.info/standards/elementset/gnd#dateOfBirth': [{'type': 'value',
    'value': '1949-07-04T00:00:00.000Z',
    'xsd:datatype': 'xsd:dateTime'}],
  'http://stanbol.apache.org/ontology/entityhub/query#score': [{'type': 'value',
    'value': 41.355167,
    'xsd:datatype': 'xsd:float'}],
  'http://www.w3.org/2000/01/rdf-schema#label': [{'type': 'value',
    'value': 'Seehofer, Horst',
    'xsd:datatype': 'xsd:string'},
   {'type': 'text', 'value': 'Seehofer, Horst'}],
  'id': 'http://d-nb.info/gnd/119526069'}]

In [39]:
query = '{}, {}'.format(query_list[1].strip(), query_list[0].strip())
constraints = []
url='http://enrich.acdh.oeaw.ac.at/entityhub/site/gndPersons/query'
constraints.append({
            'type': 'text',
            'field': 'http://www.w3.org/2000/01/rdf-schema#label',
            'text': query})
data = {
'limit': 20, 'constraints': constraints,
'selected': [
'http://d-nb.info/standards/elementset/gnd#dateOfBirth',
'http://www.w3.org/2000/01/rdf-schema#label',
'http://d-nb.info/standards/elementset/gnd#biographicalOrHistoricalInformation'
]}

In [40]:
r = requests.post(url, data=json.dumps(data), headers=headers)
res = r.json()['results']

In [41]:
res

[{'http://d-nb.info/standards/elementset/gnd#biographicalOrHistoricalInformation': [{'type': 'text',
    'value': 'Dt. Politiker; ehem. Bundesminister für Ernährung, Landwirtschaft und Verbraucherschutz; bayer. Ministerpräsident (2008-)',
    'xml:lang': 'de'}],
  'http://d-nb.info/standards/elementset/gnd#dateOfBirth': [{'type': 'value',
    'value': '1949-07-04T00:00:00.000Z',
    'xsd:datatype': 'xsd:dateTime'}],
  'http://stanbol.apache.org/ontology/entityhub/query#score': [{'type': 'value',
    'value': 41.355167,
    'xsd:datatype': 'xsd:float'}],
  'http://www.w3.org/2000/01/rdf-schema#label': [{'type': 'value',
    'value': 'Seehofer, Horst',
    'xsd:datatype': 'xsd:string'},
   {'type': 'text', 'value': 'Seehofer, Horst'}],
  'id': 'http://d-nb.info/gnd/119526069'}]

In [45]:
def query_stanbol_gnd(name,
                      lower_bound=False,
                      url='http://enrich.acdh.oeaw.ac.at/entityhub/site/gndPersons/query'):
    name_lst = name.split()
    if len(name_lst) < 2:
        return False, False
    else:
        name = name_lst[1]
        first_name = name_lst[0]
    constraints = []
    birth_constraint = False
    if lower_bound:
        dh = '{}-12-31T23:59:59.000Z'.format(lower_bound)
        birth_constraint = {
            'type': 'range',
            'field': 'http://d-nb.info/standards/elementset/gnd#dateOfBirth',
            'upperBound': dh,
            'datatype': 'xsd:dateTime'
        }
    if birth_constraint:
        constraints.append(birth_constraint)
    if first_name:
        query = '{}, {}'.format(name.strip(), first_name.strip())
    else:
        query = name.strip()
    constraints.append({
            'type': 'text',
            'field': 'http://www.w3.org/2000/01/rdf-schema#label',
            'text': query})
    data = {
    'limit': 20, 'constraints': constraints,
    'selected': [
    'http://d-nb.info/standards/elementset/gnd#dateOfBirth',
    'http://www.w3.org/2000/01/rdf-schema#label'
    ]
        }
    print(constraints)
    r = requests.post(url, data=json.dumps(data), headers=headers)
    re2 = r.json()['results']
    if len(re2) == 1:
        return True, re2[0]['id']
    if len(re2) > 1:
        res = []
        for x in re2:
            print(x)
            res.append(x['id'])
        return False, res
    if len(re2) == 0:
        return False, False

In [46]:
query_stanbol_gnd('Angela Merkel', lower_bound='1980')

[{'type': 'range', 'upperBound': '1980-12-31T23:59:59.000Z', 'datatype': 'xsd:dateTime', 'field': 'http://d-nb.info/standards/elementset/gnd#dateOfBirth'}, {'type': 'text', 'text': 'Merkel, Angela', 'field': 'http://www.w3.org/2000/01/rdf-schema#label'}]


(True, 'http://d-nb.info/gnd/119545373')

In [129]:
df_person_filter = df_person.copy(deep=True)
for index, row in df_person.iterrows():
    res = query_stanbol_gnd(row['term'], lower_bound='1980')
    if res[0]:
        if type(res[1]) == str:
            df_person_filter.loc[index, ('reference')] = res[1]
        else:
            df_person_filter.loc[index, ('reference')] = ','.join(res[1])

[{'type': 'range', 'upperBound': '1980-12-31T23:59:59.000Z', 'datatype': 'xsd:dateTime', 'field': 'http://d-nb.info/standards/elementset/gnd#dateOfBirth'}, {'type': 'text', 'text': 'Merkel, Angela', 'field': 'http://www.w3.org/2000/01/rdf-schema#label'}]
[{'type': 'range', 'upperBound': '1980-12-31T23:59:59.000Z', 'datatype': 'xsd:dateTime', 'field': 'http://d-nb.info/standards/elementset/gnd#dateOfBirth'}, {'type': 'text', 'text': 'Seehofer, Horst', 'field': 'http://www.w3.org/2000/01/rdf-schema#label'}]
[{'type': 'range', 'upperBound': '1980-12-31T23:59:59.000Z', 'datatype': 'xsd:dateTime', 'field': 'http://d-nb.info/standards/elementset/gnd#dateOfBirth'}, {'type': 'text', 'text': 'Nahles, Andrea', 'field': 'http://www.w3.org/2000/01/rdf-schema#label'}]
[{'type': 'range', 'upperBound': '1980-12-31T23:59:59.000Z', 'datatype': 'xsd:dateTime', 'field': 'http://d-nb.info/standards/elementset/gnd#dateOfBirth'}, {'type': 'text', 'text': 'Dobrindt, Alexander', 'field': 'http://www.w3.org/20

In [130]:
df_person_filter

Unnamed: 0,id,term,start char,end char,type,reference
3,6768,Angela Merkel,391,404,PERSON,http://d-nb.info/gnd/119545373
5,7374,Horst Seehofer,423,437,PERSON,http://d-nb.info/gnd/119526069
7,98,Lange,565,570,PERSON,test
10,169,Merkel,1002,1008,PERSON,
14,237238,Andrea Nahles,1404,1417,PERSON,http://d-nb.info/gnd/123778964
16,304,Nahles,1751,1757,PERSON,
22,440,Merkel,2553,2559,PERSON,
25,523,Merkel,3000,3006,PERSON,
31,579,Schwarz,3368,3375,PERSON,
34,610,Seehofer,3545,3553,PERSON,


### Basic co-reference resolution

In [135]:
for index, row in df_person_filter.loc[(pd.isnull(df_person_filter['reference']))].iterrows():
    test = df_person_filter.loc[(df_person_filter['term'].str.contains(row['term'])) & (~pd.isnull(df_person_filter['reference']))]
    if len(test) > 1:
        df_person_filter.loc[index, 'reference'] = test.iloc[0]['reference']

In [133]:
test

Unnamed: 0,id,term,start char,end char,type,reference
5,7374,Horst Seehofer,423,437,PERSON,http://d-nb.info/gnd/119526069


In [136]:
df_person_filter

Unnamed: 0,id,term,start char,end char,type,reference
3,6768,Angela Merkel,391,404,PERSON,http://d-nb.info/gnd/119545373
5,7374,Horst Seehofer,423,437,PERSON,http://d-nb.info/gnd/119526069
7,98,Lange,565,570,PERSON,test
10,169,Merkel,1002,1008,PERSON,http://d-nb.info/gnd/119545373
14,237238,Andrea Nahles,1404,1417,PERSON,http://d-nb.info/gnd/123778964
16,304,Nahles,1751,1757,PERSON,http://d-nb.info/gnd/123778964
22,440,Merkel,2553,2559,PERSON,http://d-nb.info/gnd/119545373
25,523,Merkel,3000,3006,PERSON,http://d-nb.info/gnd/119545373
31,579,Schwarz,3368,3375,PERSON,
34,610,Seehofer,3545,3553,PERSON,http://d-nb.info/gnd/119526069


### write out the data

In [142]:
text_final = '<html>'
idx = 0
for index, row in df_person_filter.iterrows():
    if not pd.isnull(row['reference']):
        text_final += article_full_text[idx:row['start char']]
        text_final += '<a href="{}">{}</a>'.format(row['reference'], row['term'])
        idx = row['end char']
    else:
        text_final += row['term']
        idx = row['end char']
text_final += '</html>'

In [143]:
text_final

'<html>Die große Koalition arbeitete zunächst einiges aus dem Koalitionsvertrag zügig ab. Auf die vielen Flüchtlinge war sie jedoch nicht vorbereitet Es begann mit großen Worten. "Die Koalition aus CDU, CSU und SPD will dafür Sorge tragen, dass die Grundlagen für unseren Wohlstand und den Zusammenhalt gesichert und ausgebaut werden", steht in der Präambel des Koalitionsvertrages, den CDU-Chefin <a href="http://d-nb.info/gnd/119545373">Angela Merkel</a>, CSU-Vorsitzender <a href="http://d-nb.info/gnd/119526069">Horst Seehofer</a> und SPD-Chef Sigmar Gabriel am 16. Dezember 2013 unterschrieben haben. Sekt dazu trank man zwischen Christbäumen im Bundestag. <a href="test">Lange</a> hatte Deutschland auf diese neue Regierung warten müssen. Bevor die Sozialdemokraten grünes Licht gaben, hatten sie noch die Zustimmung ihrer Mitglieder eingeholt. Im schwarz-roten Regelwerk für die kommenden vier Jahre fand sich auch etwas zu Flüchtlingen. Man wollte die Asylverfahren verkürzen, mehr Mittel für

In [144]:
with open('output.html', 'w') as output_txt:
    output_txt.write(text_final)