## Introduction

This notebook illustrates some basic document handling using [Spacy] (https://spacy.io/). Spacy is fast, and powerful, but not completely trivial to understand. There are though lots of useful resources, and the documentation is excellent.

**The first block of our code simply sets things up - most important here is the language model that we use.**

In [1]:
import spacy #Our NLP tools
from collections import Counter #We will use this to do simple counts of terms

#Load a German language model to do NLP - the models we use will influence our results a lot
nlp = spacy.load('de_core_news_md')

Now we load a default list of stop words and print them out.

Look through the list of stop words, and consider what issues they might cause if we are interested in spatial relationships?

In [2]:
# This block loads our stop words 
stopwords = nlp.Defaults.stop_words

print(len(stopwords))
print(stopwords)

543
{'welchen', 'diesem', 'wollen', 'unsere', 'fünftes', 'gross', 'ging', 'habt', 'sagt', 'um', 'darüber', 'neue', 'mittel', 'an', 'kann', 'würden', 'wen', 'dadurch', 'weit', 'wirklich', 'dessen', 'welche', 'genug', 'sechstes', 'überhaupt', 'wäre', 'teil', 'dir', 'ganz', 'schon', 'jede', 'keine', 'werden', 'zunächst', 'geworden', 'manchem', 'eigenes', 'statt', 'ohne', 'den', 'daselbst', 'am', 'bin', 'meine', 'sehr', 'wollten', 'zweiten', 'einiger', 'diesen', 'besonders', 'konnte', 'unser', 'habe', 'die', 'großer', 'immer', 'ganzer', 'deine', 'nahm', 'ihres', 'morgen', 'lang', 'lange', 'will', 'selbst', 'beide', 'zwanzig', 'des', 'mögen', 'allen', 'großen', 'gleich', 'bald', 'nur', 'darauf', 'dazwischen', 'tat', 'könnt', 'ganzen', 'dasein', 'ein', 'wird', 'zugleich', 'ihrer', 'diejenige', 'zehnter', 'wahr', 'damals', 'kein', 'zwar', 'also', 'auch', 'bisher', 'gemacht', 'deren', 'bei', 'durchaus', 'geschweige', 'seiner', 'sieben', 'dermassen', 'jener', 'dürfen', 'einiges', 'ob', 'sich', 

Our first block shows how Spacy can read and process a single sentence. We look here at some different outputs, in particular:

- Simple tokens: how Spacy breaks up the document into terms
- Lemmas: processing of the tokens reducing them to canonical forms 
- Parts of speech: labelling each token with a part of speech
- Stop words: finding tokens that are included in our stopword list

Look at the results, and compare the differences between tokens and lemmas. Look at the part of speech tags - do they make sense? How many stop words do we find in the text?

In [3]:
#First we demonstrate how the NLP works for a few sentences
text = "Von der Grimsel verfolgt man erst den Weg nach der Handeck bis zum Kunzentannli, hier verlässt man den Grimselweg und steigt sachte über Hinter-Stock und Gelmer Gassle auf schmalem Kuhpfade bergan zum Seemätteli. Nach einer Viertelstunde rauhen Steigens, theilweise über glattpolirte, helle, oft tief gefurchte Granitfelsen, bei deren Anblick man kaum begreift, wie Kühe da hinauf getrieben werden können, gewinnt man die Höhe des Seebodens und schaut entzückt den etwa 200 Fuss tief zu seinen Fussen liegenden, die ganze Thalbreite abschliessenden, friedlichen See, der die steil abfällenden Felswände der Gelmer Hörner und des Schaubhorns bespült und dessen Abfluss als Gelmer Bach in zierlichem Sturze in das Hasli-Thal herunterbraust. Ein schmaler felsiger Pfad führt um den See herum, dessen hinterer seichter Theil auf halb im Sumpfe versenkten Steinen, bei grösserem Wasserreichthum watend, passirt werden muss. Nach Ueberschreitung eines älteren Felsbruches, dessen mächtige Trümmer in wildem Chaos durch und übereinander liegen, gelangt man nach 2Stunden Marsch auf die einsame steinreiche Gelmer Alp, wo sich der Reisende einer freundlichen Aufnahme zu erfreuen hat."

doc = nlp(text) #Load and process a document using Spacy - here we do all the work annotating the text with lots of information

#Do some pretty printing of the results
print(f"{'Token':<20}\t{'Lemma':<20}\t{'POS':<6}\t{'Stop':<5}\n")
for token in doc:
    print(f"{token.text:<20}\t{token.lemma_:<20}\t{token.pos_:<6}\t{token.is_stop}")

Token               	Lemma               	POS   	Stop 

Von                 	Von                 	ADP   	True
der                 	der                 	DET   	True
Grimsel             	Grimsel             	PROPN 	False
verfolgt            	verfolgen           	VERB  	False
man                 	man                 	PRON  	True
erst                	erst                	ADV   	True
den                 	der                 	DET   	True
Weg                 	Weg                 	NOUN  	False
nach                	nach                	ADP   	True
der                 	der                 	DET   	True
Handeck             	Handeck             	NOUN  	False
bis                 	bis                 	ADP   	True
zum                 	zum                 	ADP   	True
Kunzentannli        	Kunzentannli        	NOUN  	False
,                   	,                   	PUNCT 	False
hier                	hier                	ADV   	True
verlässt            	verlässt            	VERB  	False
man                

Let's look and see what nouns were in our document - we can simply iterate through the tokens, keeping those identified as nouns.

Do these all make sense? Where do you see issues?

In [4]:
nouns = (token for token in doc if token.pos_ == 'NOUN')

for noun in nouns:
    print(f"{noun}")

Weg
Handeck
Kunzentannli
Grimselweg
Kuhpfade
Seemätteli
Viertelstunde
Steigens
Granitfelsen
Anblick
Kühe
Höhe
Seebodens
Fuss
Fussen
Thalbreite
See
Felswände
Schaubhorns
Abfluss
Sturze
Hasli-Thal
Pfad
See
Theil
Sumpfe
Steinen
Wasserreichthum
Ueberschreitung
Felsbruches
Trümmer
Chaos
Marsch
Gelmer
Reisende
Aufnahme


In [5]:
from collections import Counter
terms = [token.text for token in doc]
ranked_terms = Counter(terms).most_common()

print(f"{'Term':<20}\t{'Count':<3}\n")
for term, count in ranked_terms:
    print(f"{term:<20}\t{count:<3}")

Term                	Count

,                   	16 
und                 	6  
der                 	5  
man                 	5  
den                 	4  
Gelmer              	4  
.                   	4  
die                 	4  
auf                 	3  
dessen              	3  
in                  	3  
nach                	2  
zum                 	2  
über                	2  
Nach                	2  
einer               	2  
tief                	2  
bei                 	2  
werden              	2  
des                 	2  
zu                  	2  
See                 	2  
Von                 	1  
Grimsel             	1  
verfolgt            	1  
erst                	1  
Weg                 	1  
Handeck             	1  
bis                 	1  
Kunzentannli        	1  
hier                	1  
verlässt            	1  
Grimselweg          	1  
steigt              	1  
sachte              	1  
Hinter-Stock        	1  
Gassle              	1  
schmalem            	1  
Kuhpfade            	1

I've prepared a directory with a few Text+Berg documents as a small corpus. This code loads three random documents from the 20 possible ones, and runs them through Spacy's NLP pipeline.

In [6]:
from os import walk
import random

path = './data/textBergSample/'
filenames = next(walk(path), (None, None, []))[2]
files = random.sample(filenames, 3)

for file in files:
    with open(path + file, 'r', encoding='utf-8') as file:
        text = text + file.read().replace('\n', ' ')

doc = nlp(text)

This code analyses the frequency of different tokens in our random collection. There are different conditions prepared here. Change these and comment on the properties of the corpus.

In [7]:
from collections import Counter

terms = [token.text for token in doc]

# Remove stop words and punctuation
#terms = [token.text for token in doc if not token.is_stop and not token.is_punct] 

# Remove stop words, punctuation and retain only nouns
#terms = [token.text for token in doc if not token.is_stop and not token.is_punct and token.pos_ == 'NOUN']

ranked_terms = Counter(terms).most_common(20)

print(f"{'Term':<20}\t{'Count':<3}\n")
for term, count in ranked_terms:
    print(f"{term:<20}\t{count:<3}")

Term                	Count

,                   	2229
der                 	828
und                 	753
die                 	704
.                   	689
in                  	472
den                 	416
von                 	398
des                 	302
sich                	253
das                 	226
dem                 	211
zu                  	205
mit                 	173
auf                 	161
als                 	154
auch                	141
noch                	141
nicht               	138
an                  	133


We can also use Spacy to perform Named Entity Recognition (NER). Spacy identifies named entities and labels them, for example as LOC (location), ORG (organisation) or PER (person). It's important to understand that NER (like other elements of NLP) is not perfect. 

**Calculate the precision and recall for the text passage processed here.**

In [9]:
text = "Von der Grimsel verfolgt man erst den Weg nach der Handeck bis zum Kunzentannli, hier verlässt man den Grimselweg und steigt sachte über Hinter-Stock und Gelmer Gassle auf schmalem Kuhpfade bergan zum Seemätteli. Nach einer Viertelstunde rauhen Steigens, theilweise über glattpolirte, helle, oft tief gefurchte Granitfelsen, bei deren Anblick man kaum begreift, wie Kühe da hinauf getrieben werden können, gewinnt man die Höhe des Seebodens und schaut entzückt den etwa 200 Fuss tief zu seinen Fussen liegenden, die ganze Thalbreite abschliessenden, friedlichen See, der die steil abfällenden Felswände der Gelmer Hörner und des Schaubhorns bespült und dessen Abfluss als Gelmer Bach in zierlichem Sturze in das Hasli-Thal herunterbraust. Ein schmaler felsiger Pfad führt um den See herum, dessen hinterer seichter Theil auf halb im Sumpfe versenkten Steinen, bei grösserem Wasserreichthum watend, passirt werden muss. Nach Ueberschreitung eines älteren Felsbruches, dessen mächtige Trümmer in wildem Chaos durch und übereinander liegen, gelangt man nach 2Stunden Marsch auf die einsame steinreiche Gelmer Alp, wo sich der Reisende einer freundlichen Aufnahme zu erfreuen hat."

doc = nlp(text)

#Pretty output of the NER results
spacy.displacy.render(doc, style="ent")

# Iterate through the named entities found, and their types. 
print(f"{'Token':<20}\t{'Type':<3}\n")
for ent in doc.ents:
    print(f"{ent.text:<20}\t{ent.label_:<3}")

Token               	Type

Grimsel             	LOC
Handeck             	LOC
Kunzentannli        	LOC
Grimselweg          	LOC
Hinter-Stock        	LOC
Gelmer              	PER
Kuhpfade            	LOC
Seemätteli.         	LOC
Granitfelsen        	LOC
Seebodens           	LOC
Gelmer Hörner       	LOC
Gelmer Bach         	LOC
Hasli-Thal          	LOC
Sumpfe              	LOC
Gelmer              	PER
