In [16]:
import re
import pandas as pd

In [14]:
from os import path
file_path = path.relpath("Data/first_page.txt")

In [15]:
with open(file_path, encoding='utf8') as file:
    contents = file.read()

In [31]:
print(contents)

I. Wegweiser. Orientirung in Wien. Rundgang um die Bastei. Wenn es für jeden Reisenden unerläßlich ist, sich in einer fremden Stadt zu orientiren, so ist es we= nigstens in Wien sehr leicht. Der Stephansplatz liegt so ziemlich mitten in der Stadt, und mit Hilfe des Planes wird man bald die Hauptpulsader der innern Stadt kennen lernen; diese führt nämlich vom Burgthor durch die Burg über den Michaels= platz, Kohlmarkt, Graben, Stephans= platz, Bischofs= und Rothenthurmstraße zum Rothenthurmthore, und bildet die Figur einer doppelten Stufe, deren innerer Winkel St. Stephan ist. Zu einer dieser Straßen, auf einen dieser Plätze wird man sich bald finden oder erfragen. — Eine Besteigung des Stephans= thurmes gibt wohl eine vollständige Uebersicht der Stadt und Umgebung, aber zur Orientirung ist sie keineswegs so wesentlich.


Some things that might pose problems for NER: Some Names are seperated by '=', like Stephans= platz. We can merge them using 
regex, but have to leave out words like 'und' or 'oder' ; tokenizing them with spacy correctly might also work; but we still have the problem
with und and order distinction

In [32]:
re.findall('(\w)= (\w)', contents)

  re.findall('(\w)= (\w)', contents)


[('e', 'n'), ('s', 'p'), ('s', 'p'), ('s', 'u'), ('s', 't')]

In [33]:
contents_clean = re.sub('(\w)= ([^uo])','\g<1>\g<2>', contents)
print(contents_clean)

I. Wegweiser. Orientirung in Wien. Rundgang um die Bastei. Wenn es für jeden Reisenden unerläßlich ist, sich in einer fremden Stadt zu orientiren, so ist es wenigstens in Wien sehr leicht. Der Stephansplatz liegt so ziemlich mitten in der Stadt, und mit Hilfe des Planes wird man bald die Hauptpulsader der innern Stadt kennen lernen; diese führt nämlich vom Burgthor durch die Burg über den Michaelsplatz, Kohlmarkt, Graben, Stephansplatz, Bischofs= und Rothenthurmstraße zum Rothenthurmthore, und bildet die Figur einer doppelten Stufe, deren innerer Winkel St. Stephan ist. Zu einer dieser Straßen, auf einen dieser Plätze wird man sich bald finden oder erfragen. — Eine Besteigung des Stephansthurmes gibt wohl eine vollständige Uebersicht der Stadt und Umgebung, aber zur Orientirung ist sie keineswegs so wesentlich.


  contents_clean = re.sub('(\w)= ([^uo])','\g<1>\g<2>', contents)
  contents_clean = re.sub('(\w)= ([^uo])','\g<1>\g<2>', contents)


Checking some simple statistics:

In [25]:
list_words = contents_clean.split()
print(len(list_words))

import string
list_words = [w.strip(string.punctuation) for w in list_words]


125


In [26]:
word_freq = {}
for word in list_words:
    word_freq[word] = word_freq.get(word, 0) + 1
print(word_freq)    

Getting started with spaCy: I'm using a tutorial from the internet... :) 

In [34]:
import spacy
nlp = spacy.load("de_core_news_sm")

In [35]:
introduction_doc = nlp(contents_clean)
print ([token.text for token in introduction_doc])

['I.', 'Wegweiser', '.', 'Orientirung', 'in', 'Wien', '.', 'Rundgang', 'um', 'die', 'Bastei', '.', 'Wenn', 'es', 'für', 'jeden', 'Reisenden', 'unerläßlich', 'ist', ',', 'sich', 'in', 'einer', 'fremden', 'Stadt', 'zu', 'orientiren', ',', 'so', 'ist', 'es', 'wenigstens', 'in', 'Wien', 'sehr', 'leicht', '.', 'Der', 'Stephansplatz', 'liegt', 'so', 'ziemlich', 'mitten', 'in', 'der', 'Stadt', ',', 'und', 'mit', 'Hilfe', 'des', 'Planes', 'wird', 'man', 'bald', 'die', 'Hauptpulsader', 'der', 'innern', 'Stadt', 'kennen', 'lernen', ';', 'diese', 'führt', 'nämlich', 'vom', 'Burgthor', 'durch', 'die', 'Burg', 'über', 'den', 'Michaelsplatz', ',', 'Kohlmarkt', ',', 'Graben', ',', 'Stephansplatz', ',', 'Bischofs=', 'und', 'Rothenthurmstraße', 'zum', 'Rothenthurmthore', ',', 'und', 'bildet', 'die', 'Figur', 'einer', 'doppelten', 'Stufe', ',', 'deren', 'innerer', 'Winkel', 'St.', 'Stephan', 'ist', '.', 'Zu', 'einer', 'dieser', 'Straßen', ',', 'auf', 'einen', 'dieser', 'Plätze', 'wird', 'man', 'sich', '

Trying to see if spacy detects sentences correctly: 

In [36]:
sentences = list(introduction_doc.sents)
print(sentences)

[I. Wegweiser., Orientirung in Wien., Rundgang um die Bastei., Wenn es für jeden Reisenden unerläßlich ist, sich in einer fremden Stadt zu orientiren, so ist es wenigstens in Wien sehr leicht., Der Stephansplatz liegt so ziemlich mitten in der Stadt, und mit Hilfe des Planes wird man bald die Hauptpulsader der innern Stadt kennen lernen;, diese führt nämlich vom Burgthor durch die Burg über den Michaelsplatz, Kohlmarkt, Graben, Stephansplatz, Bischofs= und Rothenthurmstraße zum Rothenthurmthore, und bildet die Figur einer doppelten Stufe, deren innerer Winkel St. Stephan ist., Zu einer dieser Straßen, auf einen dieser Plätze wird man sich bald finden oder erfragen., — Eine Besteigung des Stephansthurmes gibt wohl eine vollständige Uebersicht der Stadt und Umgebung, aber zur Orientirung ist sie keineswegs so wesentlich.]


Taking ; out of the sentence - dividing 

In [37]:
from spacy.language import Language

In [38]:
@Language.component("set_custom_boundaries")
def set_custom_boundaries(doc):
    for token in doc[:-1]:
        if token.text == ";":
            doc[token.i + 1].is_sent_start = False
            return doc

In [39]:
custom_nlp = spacy.load("de_core_news_sm")
custom_nlp.add_pipe("set_custom_boundaries", before="parser")
custom_intro = custom_nlp(contents_clean)
custom_sentences = list(custom_intro.sents)
for sentence in custom_sentences:
    print(sentence)

I. Wegweiser.
Orientirung in Wien.
Rundgang um die Bastei.
Wenn es für jeden Reisenden unerläßlich ist, sich in einer fremden Stadt zu orientiren, so ist es wenigstens in Wien sehr leicht.
Der Stephansplatz liegt so ziemlich mitten in der Stadt, und mit Hilfe des Planes wird man bald die Hauptpulsader der innern Stadt kennen lernen; diese führt nämlich vom Burgthor durch die Burg über den Michaelsplatz, Kohlmarkt, Graben, Stephansplatz, Bischofs= und Rothenthurmstraße zum Rothenthurmthore, und bildet die Figur einer doppelten Stufe, deren innerer Winkel St. Stephan ist.
Zu einer dieser Straßen, auf einen dieser Plätze wird man sich bald finden oder erfragen.
— Eine Besteigung des Stephansthurmes gibt wohl eine vollständige Uebersicht der Stadt und Umgebung, aber zur Orientirung ist sie keineswegs so wesentlich.


Trying to remove stop words and punctuation:

In [44]:
print ([token for token in introduction_doc if not (token.is_stop or token.is_punct)])

[I., Wegweiser, Orientirung, Wien, Rundgang, Bastei, Reisenden, unerläßlich, fremden, Stadt, orientiren, Wien, Stephansplatz, liegt, ziemlich, mitten, Stadt, Hilfe, Planes, Hauptpulsader, innern, Stadt, kennen, lernen, führt, nämlich, Burgthor, Burg, Michaelsplatz, Kohlmarkt, Graben, Stephansplatz, Bischofs=, Rothenthurmstraße, Rothenthurmthore, bildet, Figur, doppelten, Stufe, innerer, Winkel, St., Stephan, Straßen, Plätze, finden, erfragen, Besteigung, Stephansthurmes, vollständige, Uebersicht, Stadt, Umgebung, Orientirung, keineswegs, wesentlich]


Trying Lemmatization (not 100 Percent accurate, I think):

In [41]:
#check to see if the original word is different from the lemma, and if it is, print both the original word and its lemma
for token in introduction_doc: 
    if str(token) != str(token.lemma_):
        print(f"{str(token):>20} : {str(token.lemma_)}")

                   . : --
                   . : --
                 die : der
                   . : --
                Wenn : wenn
               jeden : jeder
           Reisenden : reisend
                 ist : sein
                   , : --
               einer : ein
             fremden : fremd
                   , : --
                 ist : sein
                   . : --
                 Der : der
               liegt : liegen
                   , : --
                 des : der
              Planes : Plan
                wird : werden
                 die : der
                   ; : --
               diese : dieser
               führt : führen
                 vom : von
                 die : der
                 den : der
                   , : --
                   , : --
                   , : --
                   , : --
                 zum : zu
                   , : --
              bildet : bilden
                 die : der
               einer : ein
           dopp

Trying Word Frequency:

In [46]:
from collections import Counter

In [47]:
words = [token.text for token in introduction_doc if not (token.is_stop or token.is_punct)]
print(Counter(words).most_common(3))

[('Stadt', 4), ('Orientirung', 2), ('Wien', 2)]


Trying POS-tagging:

In [48]:
for token in introduction_doc:
    print(f"""TOKEN: {str(token)}
          =====
          TAG: {str(token.tag_):10} POS: {token.pos_}
          EXPLANATION: {spacy.explain(token.tag_)}""")

TOKEN: I.
          =====
          TAG: ADJA       POS: X
          EXPLANATION: adjective, attributive
TOKEN: Wegweiser
          =====
          TAG: NN         POS: NOUN
          EXPLANATION: noun, singular or mass
TOKEN: .
          =====
          TAG: $.         POS: PUNCT
          EXPLANATION: sentence-final punctuation mark
TOKEN: Orientirung
          =====
          TAG: NN         POS: NOUN
          EXPLANATION: noun, singular or mass
TOKEN: in
          =====
          TAG: APPR       POS: ADP
          EXPLANATION: preposition; circumposition left
TOKEN: Wien
          =====
          TAG: NE         POS: PROPN
          EXPLANATION: proper noun
TOKEN: .
          =====
          TAG: $.         POS: PUNCT
          EXPLANATION: sentence-final punctuation mark
TOKEN: Rundgang
          =====
          TAG: NN         POS: NOUN
          EXPLANATION: noun, singular or mass
TOKEN: um
          =====
          TAG: APPR       POS: ADP
          EXPLANATION: preposition; c

In [50]:
nouns = []
for token in introduction_doc:
    if token.pos_ == "PROPN":
        nouns.append(token)

for noun in nouns:
    print(noun)

Wien
Wien
St.
Stephan


Why are those Proper Names, but Stephansplatz isn't? Should i use rule-based matching for that?
Maybe I can use rule-based matching for my Bischofs= straße problem? 

Things I left out in the tutorial (for now): 
- Rule-based Matching
- Dependency Parsing
- Tree and Subtree Navigation
- Verb Phrase Detection

In [51]:
for noun_phrase in introduction_doc.noun_chunks:
    print (noun_phrase)

I. Wegweiser
Orientirung
Wien
Rundgang
die Bastei
es
jeden Reisenden
sich
einer fremden Stadt
es
Wien
Der Stephansplatz
der Stadt
Hilfe
des Planes
man
die Hauptpulsader
der innern Stadt
diese
Burgthor
die Burg
den Michaelsplatz
Kohlmarkt
Graben
Stephansplatz
Bischofs=
Rothenthurmstraße
Rothenthurmthore
die Figur
einer doppelten Stufe
deren innerer Winkel St. Stephan
einer
dieser Straßen
einen
dieser Plätze
man
sich
Eine Besteigung
des Stephansthurmes
eine vollständige Uebersicht
der Stadt
Umgebung
Orientirung
sie


First tries of Named-Entity-Recognition:

In [53]:
for phrase in introduction_doc.ents:
    print(f"""{phrase.text = }
    {phrase.start_char = }
    {phrase.end_char = }
    {phrase.label_ = }
    spacy.explain('{phrase.label_}') = {spacy.explain(phrase.label_)}""")

phrase.text = 'I. Wegweiser'
    phrase.start_char = 0
    phrase.end_char = 12
    phrase.label_ = 'PER'
    spacy.explain('PER') = Named person or family.
phrase.text = 'Wien'
    phrase.start_char = 29
    phrase.end_char = 33
    phrase.label_ = 'LOC'
    spacy.explain('LOC') = Non-GPE locations, mountain ranges, bodies of water
phrase.text = 'Wien'
    phrase.start_char = 171
    phrase.end_char = 175
    phrase.label_ = 'LOC'
    spacy.explain('LOC') = Non-GPE locations, mountain ranges, bodies of water
phrase.text = 'Stephansplatz'
    phrase.start_char = 193
    phrase.end_char = 206
    phrase.label_ = 'LOC'
    spacy.explain('LOC') = Non-GPE locations, mountain ranges, bodies of water
phrase.text = 'Stadt'
    phrase.start_char = 239
    phrase.end_char = 244
    phrase.label_ = 'LOC'
    spacy.explain('LOC') = Non-GPE locations, mountain ranges, bodies of water
phrase.text = 'Planes'
    phrase.start_char = 264
    phrase.end_char = 270
    phrase.label_ = 'LOC'
    spacy.ex