### Import files

In [1]:
from lxml import etree

In [2]:
with open('data/Defregger_Franz_1835_1921.xml') as file:
    et = etree.parse(file)
    print(et)

<lxml.etree._ElementTree object at 0x7fd9e829d5c8>


In [3]:
ns_oebl = {'xmlns': 'http://www.biographien.ac.at'}

In [4]:
with open('data/Defregger_Franz_1835_1921.xml') as file:
    et = etree.parse(file)
    name = et.xpath('.//xmlns:Hauptbezeichnung/text()', namespaces=ns_oebl)
    print(name)

['Defregger']


In [5]:
haupttext = ''
with open('data/Defregger_Franz_1835_1921.xml') as file:
    et = etree.parse(file)
    haupttext = et.xpath('.//xmlns:Haupttext[1]/text()', namespaces=ns_oebl)[0]
    print(haupttext)

Sohn eines Bauern, zeigte früh Interesse für Schnitzen und Zeichnen, aber erst nach dem Tode des Vaters gab er den Hof auf und ging 1860 nach Innsbruck, um bei Stolz die Bildschnitzerei zu erlernen. Auf dessen Rat wandte er sich der Malerei zu, ging 1862 an die Akad. in München, 1863–65 nach Paris, dann nach Tirol zurück, 1867 wieder nach München, wo er in das Atelier Pilotys eintrat, der den entscheidenden Einfluß auf ihn ausübte. 1878 Prof. an der Münchner Akad., 1883 geadelt. D., bedeutend als Landschafts- und Historienmaler, ist außerdem einer der charakteristischesten und letzten Vertreter der naturalistisch betonten bäuerlichen Genremalerei.



### Regex

In [6]:
import re

In [7]:
for year in re.finditer(r'\d{2,4}', haupttext):
    print(year.group(0))

1860
1862
1863
65
1867
1878
1883


In [8]:
for year in re.finditer(r'[\d\–]{2,7}', haupttext):
    print(year.group(0))

1860
1862
1863–65
1867
1878
1883


In [9]:
year_place = []
for year in re.finditer(r'([\d\–]{2,7}).*?\snach\s.*?([A-Z]\w+)', haupttext):
    print('year: {} / place: {}'.format(year.group(1), year.group(2)))
    year_place.append((year.group(1), year.group(2)))

year: 1860 / place: Innsbruck
year: 1862 / place: Paris
year: 1867 / place: München


### writing files

In [10]:
import csv

In [11]:
year_place

[('1860', 'Innsbruck'), ('1862', 'Paris'), ('1867', 'München')]

In [12]:
year_place = [('year','place')] + year_place
year_place

[('year', 'place'),
 ('1860', 'Innsbruck'),
 ('1862', 'Paris'),
 ('1867', 'München')]

In [13]:
with open('data/output.csv', 'w') as output:
    csvwriter = csv.writer(output, delimiter=',')
    for yplc in year_place:
        csvwriter.writerow(yplc)

### Sentence splitting

In [14]:
sentences = []
for idx, sent in enumerate(re.split(r'[\.!?;]{1}', haupttext)):
    print('sentence #{}: {}'.format(idx, sent))
    sentences.append(sent)

sentence #0: Sohn eines Bauern, zeigte früh Interesse für Schnitzen und Zeichnen, aber erst nach dem Tode des Vaters gab er den Hof auf und ging 1860 nach Innsbruck, um bei Stolz die Bildschnitzerei zu erlernen
sentence #1:  Auf dessen Rat wandte er sich der Malerei zu, ging 1862 an die Akad
sentence #2:  in München, 1863–65 nach Paris, dann nach Tirol zurück, 1867 wieder nach München, wo er in das Atelier Pilotys eintrat, der den entscheidenden Einfluß auf ihn ausübte
sentence #3:  1878 Prof
sentence #4:  an der Münchner Akad
sentence #5: , 1883 geadelt
sentence #6:  D
sentence #7: , bedeutend als Landschafts- und Historienmaler, ist außerdem einer der charakteristischesten und letzten Vertreter der naturalistisch betonten bäuerlichen Genremalerei
sentence #8: 



### Tokenizing

In [15]:
tokens = []
for sent in sentences:
    tokens.append(re.split(r'\W+', sent))

In [16]:
tokens

[['Sohn',
  'eines',
  'Bauern',
  'zeigte',
  'früh',
  'Interesse',
  'für',
  'Schnitzen',
  'und',
  'Zeichnen',
  'aber',
  'erst',
  'nach',
  'dem',
  'Tode',
  'des',
  'Vaters',
  'gab',
  'er',
  'den',
  'Hof',
  'auf',
  'und',
  'ging',
  '1860',
  'nach',
  'Innsbruck',
  'um',
  'bei',
  'Stolz',
  'die',
  'Bildschnitzerei',
  'zu',
  'erlernen'],
 ['',
  'Auf',
  'dessen',
  'Rat',
  'wandte',
  'er',
  'sich',
  'der',
  'Malerei',
  'zu',
  'ging',
  '1862',
  'an',
  'die',
  'Akad'],
 ['',
  'in',
  'München',
  '1863',
  '65',
  'nach',
  'Paris',
  'dann',
  'nach',
  'Tirol',
  'zurück',
  '1867',
  'wieder',
  'nach',
  'München',
  'wo',
  'er',
  'in',
  'das',
  'Atelier',
  'Pilotys',
  'eintrat',
  'der',
  'den',
  'entscheidenden',
  'Einfluß',
  'auf',
  'ihn',
  'ausübte'],
 ['', '1878', 'Prof'],
 ['', 'an', 'der', 'Münchner', 'Akad'],
 ['', '1883', 'geadelt'],
 ['', 'D'],
 ['',
  'bedeutend',
  'als',
  'Landschafts',
  'und',
  'Historienmaler',
  'i

In [17]:
for idx, sent in enumerate(tokens):
    result = []
    for token in sent:
        if len(token) > 0:
            result.append(token.strip())
    tokens[idx] = result

In [18]:
tokens

[['Sohn',
  'eines',
  'Bauern',
  'zeigte',
  'früh',
  'Interesse',
  'für',
  'Schnitzen',
  'und',
  'Zeichnen',
  'aber',
  'erst',
  'nach',
  'dem',
  'Tode',
  'des',
  'Vaters',
  'gab',
  'er',
  'den',
  'Hof',
  'auf',
  'und',
  'ging',
  '1860',
  'nach',
  'Innsbruck',
  'um',
  'bei',
  'Stolz',
  'die',
  'Bildschnitzerei',
  'zu',
  'erlernen'],
 ['Auf',
  'dessen',
  'Rat',
  'wandte',
  'er',
  'sich',
  'der',
  'Malerei',
  'zu',
  'ging',
  '1862',
  'an',
  'die',
  'Akad'],
 ['in',
  'München',
  '1863',
  '65',
  'nach',
  'Paris',
  'dann',
  'nach',
  'Tirol',
  'zurück',
  '1867',
  'wieder',
  'nach',
  'München',
  'wo',
  'er',
  'in',
  'das',
  'Atelier',
  'Pilotys',
  'eintrat',
  'der',
  'den',
  'entscheidenden',
  'Einfluß',
  'auf',
  'ihn',
  'ausübte'],
 ['1878', 'Prof'],
 ['an', 'der', 'Münchner', 'Akad'],
 ['1883', 'geadelt'],
 ['D'],
 ['bedeutend',
  'als',
  'Landschafts',
  'und',
  'Historienmaler',
  'ist',
  'außerdem',
  'einer',
  'd

### Sentence splitting with nltk

In [19]:
import nltk

In [20]:
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> q


True

In [21]:
sent_detector = nltk.data.load('tokenizers/punkt/german.pickle')

In [22]:
sentences_nltk = sent_detector.tokenize(haupttext)
sentences_nltk

['Sohn eines Bauern, zeigte früh Interesse für Schnitzen und Zeichnen, aber erst nach dem Tode des Vaters gab er den Hof auf und ging 1860 nach Innsbruck, um bei Stolz die Bildschnitzerei zu erlernen.',
 'Auf dessen Rat wandte er sich der Malerei zu, ging 1862 an die Akad.',
 'in München, 1863–65 nach Paris, dann nach Tirol zurück, 1867 wieder nach München, wo er in das Atelier Pilotys eintrat, der den entscheidenden Einfluß auf ihn ausübte.',
 '1878 Prof. an der Münchner Akad., 1883 geadelt.',
 'D., bedeutend als Landschafts- und Historienmaler, ist außerdem einer der charakteristischesten und letzten Vertreter der naturalistisch betonten bäuerlichen Genremalerei.']

#### As we can see this is far from perfect: You can train your own model!

### tokenizing with nltk

In [23]:
tokens_nltk = nltk.word_tokenize(haupttext)
tokens_nltk

['Sohn',
 'eines',
 'Bauern',
 ',',
 'zeigte',
 'früh',
 'Interesse',
 'für',
 'Schnitzen',
 'und',
 'Zeichnen',
 ',',
 'aber',
 'erst',
 'nach',
 'dem',
 'Tode',
 'des',
 'Vaters',
 'gab',
 'er',
 'den',
 'Hof',
 'auf',
 'und',
 'ging',
 '1860',
 'nach',
 'Innsbruck',
 ',',
 'um',
 'bei',
 'Stolz',
 'die',
 'Bildschnitzerei',
 'zu',
 'erlernen',
 '.',
 'Auf',
 'dessen',
 'Rat',
 'wandte',
 'er',
 'sich',
 'der',
 'Malerei',
 'zu',
 ',',
 'ging',
 '1862',
 'an',
 'die',
 'Akad',
 '.',
 'in',
 'München',
 ',',
 '1863–65',
 'nach',
 'Paris',
 ',',
 'dann',
 'nach',
 'Tirol',
 'zurück',
 ',',
 '1867',
 'wieder',
 'nach',
 'München',
 ',',
 'wo',
 'er',
 'in',
 'das',
 'Atelier',
 'Pilotys',
 'eintrat',
 ',',
 'der',
 'den',
 'entscheidenden',
 'Einfluß',
 'auf',
 'ihn',
 'ausübte',
 '.',
 '1878',
 'Prof.',
 'an',
 'der',
 'Münchner',
 'Akad.',
 ',',
 '1883',
 'geadelt',
 '.',
 'D.',
 ',',
 'bedeutend',
 'als',
 'Landschafts-',
 'und',
 'Historienmaler',
 ',',
 'ist',
 'außerdem',
 'einer'

### TreeTagger in Python
Please note that TreeTagger is not included in the Vagrant Box due to licensing issues

In [24]:
from treetagger import TreeTagger

In [25]:
tt = TreeTagger(language='german')

In [26]:
tt.tag(haupttext)

[['Sohn', 'NN', 'Sohn'],
 ['eines', 'ART', 'eine'],
 ['Bauern', 'NN', 'Bauer'],
 [',', '$,', ','],
 ['zeigte', 'VVFIN', 'zeigen'],
 ['früh', 'ADJD', 'früh'],
 ['Interesse', 'NN', 'Interesse'],
 ['für', 'APPR', 'für'],
 ['Schnitzen', 'NN', 'Schnitzen'],
 ['und', 'KON', 'und'],
 ['Zeichnen', 'NN', 'Zeichnen'],
 [',', '$,', ','],
 ['aber', 'KON', 'aber'],
 ['erst', 'ADV', 'erst'],
 ['nach', 'APPR', 'nach'],
 ['dem', 'ART', 'die'],
 ['Tode', 'NN', 'Tod'],
 ['des', 'ART', 'die'],
 ['Vaters', 'NN', 'Vater'],
 ['gab', 'VVFIN', 'geben'],
 ['er', 'PPER', 'er'],
 ['den', 'ART', 'die'],
 ['Hof', 'NN', 'Hof'],
 ['auf', 'PTKVZ', 'auf'],
 ['und', 'KON', 'und'],
 ['ging', 'VVFIN', 'gehen'],
 ['1860', 'CARD', '@card@'],
 ['nach', 'APPR', 'nach'],
 ['Innsbruck', 'NE', 'Innsbruck'],
 [',', '$,', ','],
 ['um', 'KOUI', 'um'],
 ['bei', 'APPR', 'bei'],
 ['Stolz', 'NN', 'Stolz'],
 ['die', 'ART', 'die'],
 ['Bildschnitzerei', 'NN', '<unknown>'],
 ['zu', 'PTKZU', 'zu'],
 ['erlernen', 'VVINF', 'erlernen'],
 ['.'

### Spacy
Spacy is published under a MIT license and brings German and English models out of the box!

In [27]:
import spacy

In [28]:
nlp = spacy.load('de')

In [31]:
de_doc = nlp(str(haupttext))

#### sentence splitting

In [33]:
for indx, sent in enumerate(de_doc.sents):
    print('sentence {}: {}'.format(indx, sent))

sentence 0: Sohn eines Bauern, zeigte früh Interesse für Schnitzen und Zeichnen, aber erst nach dem Tode des Vaters gab er den Hof auf und ging 1860 nach Innsbruck, um bei Stolz die Bildschnitzerei zu erlernen.
sentence 1: Auf dessen Rat wandte er sich der Malerei zu, ging 1862 an die Akad.
sentence 2: in München, 1863–65 nach Paris, dann nach Tirol zurück, 1867 wieder nach München, wo er in das Atelier Pilotys eintrat, der den entscheidenden Einfluß auf ihn ausübte.
sentence 3: 1878 Prof. an der Münchner Akad.
sentence 4: , 1883 geadelt.
sentence 5: D., bedeutend als Landschafts- und Historienmaler, ist außerdem einer der charakteristischesten und letzten Vertreter der naturalistisch betonten bäuerlichen Genremalerei.



#### Tokens

In [41]:
for word in de_doc:
    print(word.text, word.lemma_, word.tag_, word.pos_)

Sohn sohn NN NOUN
eines eines ART DET
Bauern bauern NN NOUN
, , $, PUNCT
zeigte zeigte VVFIN VERB
früh früh ADJD ADJ
Interesse interesse NN NOUN
für für APPR ADP
Schnitzen schnitzen NN NOUN
und und KON CONJ
Zeichnen zeichnen NN NOUN
, , $, PUNCT
aber aber KON CONJ
erst erst ADV ADV
nach nach APPR ADP
dem dem ART DET
Tode tode NN NOUN
des des ART DET
Vaters vaters NN NOUN
gab gab VVFIN VERB
er er PPER PRON
den den ART DET
Hof hof NN NOUN
auf auf PTKVZ PART
und und KON CONJ
ging ging VVFIN VERB
1860 1860 CARD NUM
nach nach APPR ADP
Innsbruck innsbruck NE PROPN
, , $, PUNCT
um um KOUI SCONJ
bei bei APPR ADP
Stolz stolz NN NOUN
die die ART DET
Bildschnitzerei bildschnitzerei NN NOUN
zu zu PTKZU PART
erlernen erlernen VVINF VERB
. . $. PUNCT
Auf auf APPR ADP
dessen dessen PDS PRON
Rat rat NN NOUN
wandte wandte VVFIN VERB
er er PPER PRON
sich sich PRF PRON
der der ART DET
Malerei malerei NN NOUN
zu zu PTKVZ PART
, , $, PUNCT
ging ging VVFIN VERB
1862 1862 CARD NUM
an an APPR ADP
die die ART 

#### Named Entities

In [37]:
for ent in de_doc.ents:
    print('type: {}; entity: {}'.format(ent.label_, ent.string))

type: LOC; entity: Innsbruck
type: LOC; entity: München
type: LOC; entity: Paris
type: LOC; entity: Tirol 
type: LOC; entity: München
type: LOC; entity: Münchner 
type: LOC; entity: bäuerlichen 


### Using Stanbol for entity linking
Stanbol is an open-source system for NLP, we use it mainly as a entity hub. Find more information under http://enrich.acdh.oeaw.ac.at

In [42]:
import requests

In [43]:
url = 'http://enrich.acdh.oeaw.ac.at/entityhub/site/geoNames_S_P_A/find'

In [44]:
ldpath = "long = <http://www.w3.org/2003/01/geo/wgs84_pos#long>;\n"
ldpath += "lat = <http://www.w3.org/2003/01/geo/wgs84_pos#lat>;\n"
ldpath += "featureCode = <http://www.geonames.org/ontology#featureCode>;"

In [51]:
params = {'name': 'Wien', 'limit': 20, 'ldpath': ldpath}
headers = {'Content-Type': 'application/json'}

In [52]:
res = requests.get(url, params=params, headers=headers)

In [53]:
res

<Response [200]>

In [54]:
res.json()

{'query': {'constraints': [{'boost': 1,
    'field': 'http://www.w3.org/2000/01/rdf-schema#label',
    'patternType': 'wildcard',
    'proximityRanking': False,
    'text': 'Wien',
    'type': 'text'}],
  'ldpath': 'long = <http://www.w3.org/2003/01/geo/wgs84_pos#long>;\nlat = <http://www.w3.org/2003/01/geo/wgs84_pos#lat>;\nfeatureCode = <http://www.geonames.org/ontology#featureCode>;',
  'limit': 20,
  'offset': 0,
  'selected': []},
 'results': [{'featureCode': [{'type': 'reference',
     'value': 'http://www.geonames.org/ontology#P.PPLA3',
     'xsd:datatype': 'xsd:anyURI'}],
   'http://stanbol.apache.org/ontology/entityhub/query#score': [{'type': 'value',
     'value': 69.67534,
     'xsd:datatype': 'xsd:double'}],
   'id': 'http://sws.geonames.org/2782067/',
   'lat': [{'type': 'text', 'value': '48.00543'}],
   'long': [{'type': 'text', 'value': '16.23264'}]},
  {'featureCode': [{'type': 'reference',
     'value': 'http://www.geonames.org/ontology#P.PPLC',
     'xsd:datatype': 'xs

#### same for the already extracted entities

In [55]:
for ent in year_place[1:]:
    params['name'] = ent[1]
    res = requests.get(url, params=params, headers=headers)
    result = res.json()
    print('{},{},{}'.format(ent[0], ent[1], result['results'][0]['id']))

1860,Innsbruck,http://sws.geonames.org/2775220/
1862,Paris,http://sws.geonames.org/2988507/
1867,München,http://sws.geonames.org/2867714/
