## Introduction

This notebook illustrates some basic document handling using [Spacy] (https://spacy.io/). Spacy is fast, and powerful, but not completely trivial to understand. There are though lots of useful resources, and the documentation is excellent.

**The first block of our code simply sets things up - most important here is the language model that we use.**

In [1]:
import spacy #Our NLP tools
from collections import Counter #We will use this to do simple counts of terms

#Load a German language model to do NLP - the models we use will influence our results a lot
nlp = spacy.load('de_core_news_md')

Now we load a default list of stop words and print them out.

Look through the list of stop words, and consider what issues they might cause if we are interested in spatial relationships?

In [2]:
# This block loads our stop words 
stopwords = nlp.Defaults.stop_words

print(len(stopwords))
print(stopwords)

543
{'gern', 'daneben', 'einigen', 'satt', 'wurde', 'sollen', 'war', 'zehnten', 'sich', 'jenen', 'solches', 'dass', 'demgemäss', 'und', 'zu', 'alle', 'heißt', 'sieben', 'großen', 'bin', 'heisst', 'siebtes', 'statt', 'zweites', 'manchen', 'müssen', 'besten', 'achtes', 'allerdings', 'unser', 'eine', 'darauf', 'heute', 'jeden', 'viele', 'fünfte', 'zweite', 'denen', 'außer', 'mir', 'konnte', 'wer', 'dagegen', 'die', 'durften', 'dafür', 'allein', 'nahm', 'gekonnt', 'jemand', 'eigenen', 'sechstes', 'kommen', 'nein', 'immer', 'ag', 'gerade', 'daraus', 'mochte', 'groß', 'alles', 'geht', 'wir', 'neben', 'gehen', 'muss', 'achter', 'bei', 'jedermanns', 'achten', 'sechste', 'drin', 'nie', 'solchem', 'geworden', 'siebenten', 'dessen', 'soll', 'rund', 'jemandem', 'seid', 'wäre', 'wenigstens', 'warum', 'daselbst', 'einer', 'mit', 'könnt', 'erster', 'endlich', 'viertes', 'geschweige', 'vielem', 'vielen', 'elf', 'musst', 'dort', 'wem', 'jeder', 'drittes', 'wenn', 'niemandem', 'drei', 'sollte', 'überhau

Our first block shows how Spacy can read and process a single sentence. We look here at some different outputs, in particular:

- Simple tokens: how Spacy breaks up the document into terms
- Lemmas: processing of the tokens reducing them to canonical forms 
- Parts of speech: labelling each token with a part of speech
- Stop words: finding tokens that are included in our stopword list

Look at the results, and compare the differences between tokens and lemmas. Look at the part of speech tags - do they make sense? How many stop words do we find in the text?

In [3]:
#First we demonstrate how the NLP works for a single example document
#text = "Von einer den 7. und 8. Juli glücklich ausgeführten Besteigung des Wetterhorns über den Gauli-Gletscher und durch das Urbaeh-Thal auf der Grimsel angelangt, sah sich Hr. A.Hoffmann daselbst während drei Tagen durch Unwetter festgebannt und musste auf sein Finsteraarhorn - Besteigungs-projekt, bereits auf dem Oberaarjoch angekommen, wegen einfallenden Nebels und Schneefalls verzichten, froh, bei dunkler Nacht mit heiler Haut den Rückzug nach dem Spitale bewerkstelligen zu können."

with open('C:\\Users\\rsp\\Dropbox\\geo871_corpora\\textAndBerg1000\\SAC-Jahrbuch_1866_mul#18.txt', 'r', encoding='utf-8') as file:
    text = file.read().replace('\n', ' ')

doc = nlp(text) #Load and process a document using Spacy


print(f"{'Token':<20}\t{'Lemma':<20}\t{'POS':<6}\t{'Stop':<5}\n")
for token in doc:
    print(f"{token.text:<20}\t{token.lemma_:<20}\t{token.pos_:<6}\t{token.is_stop}")
    

Token               	Lemma               	POS   	Stop 

Grosse              	Grosse              	ADJ   	True
Grindelwald-Viescherhorn	Grindelwald-Viescherhorn	NOUN  	False
.                   	.                   	PUNCT 	False
lA                  	lA                  	PROPN 	False
iß                  	essen               	VERB  	False
-                   	-                   	PUNCT 	False
                    	                    	SPACE 	False
Von                 	Von                 	ADP   	True
Pfarrer             	Pfarrer             	NOUN  	False
Gerwer              	Gerwer              	PROPN 	False
in                  	in                  	ADP   	True
Grindelwald         	Grindelwald         	PROPN 	False
.                   	.                   	PUNCT 	False
Der                 	der                 	DET   	True
wässerige           	wässerig            	ADJ   	False
August              	August              	NOUN  	False
dieses              	dies                	DET   	True
Jahres

,                   	,                   	PUNCT 	False
verwittert          	verwittert          	VERB  	False
,                   	,                   	PUNCT 	False
bröcklig            	bröcklig            	ADV   	False
war                 	sein                	AUX   	True
.                   	.                   	PUNCT 	False
Sonst               	Sonst               	ADV   	True
war                 	sein                	AUX   	True
das                 	der                 	DET   	True
Ding                	Ding                	NOUN  	False
nicht               	nicht               	PART  	True
schwierig           	schwierig           	ADV   	False
und                 	und                 	CCONJ 	True
bis                 	bis                 	ADP   	True
9                   	9                   	NUM   	False
Uhr                 	Uhr                 	NOUN  	True
20                  	20                  	NUM   	False
M.                  	M.                  	PROPN 	False
hatten            

zu                  	zu                  	PART  	True
retten              	retten              	VERB  	False
.                   	.                   	PUNCT 	False
Endlich             	Endlich             	ADV   	True
erreichten          	erreichen           	VERB  	False
wir                 	ich                 	PRON  	True
das                 	der                 	DET   	True
Land                	Land                	NOUN  	False
und                 	und                 	CCONJ 	True
geriethen           	geriethen           	NOUN  	False
damit               	damit               	ADV   	True
fast                	fast                	ADV   	False
von                 	von                 	ADP   	True
Scylla              	Scylla              	NOUN  	False
in                  	in                  	ADP   	True
Charybdis           	Charybdis           	PROPN 	False
;                   	;                   	PUNCT 	False
bald                	bald                	ADV   	True
waren              

Let's look and see what nouns were in our document - we can simply iterate through the tokens, keeping those identified as nouns.

Do these all make sense? Where do you see issues?

In [4]:
nouns = (token for token in doc if token.pos_ == 'NOUN')

for noun in nouns:
    print(f"{noun}")

Grindelwald-Viescherhorn
Pfarrer
August
Jahres
Anderen
Freude
September
Bettagszeit
Gemeinde
Herbsttage
thunS'ist
Sonntag
Bettag
Gletscherbänkli
Seufzer
Gletscher
Viescherkranze
Mettenberge
Wetterhorn
Eiger
Bekannten
Duft
Seçtemberabends
Bilde
schritten
Reisenden
Weg
Sorge
Pläne
Pastor
Tourist
Matte
Herr
Dr.
Bekanntschaft
Jahre
Vergnügen
Bann
Begrüssung
Wetterhorn
Jahre
Zuneigung
Resignation
Viescherhorn
mitLeider
Herr
Tone
Nein
Wort
Çirindelwald
Tausend
Herr
Doctor
Decken
Proviant
Wirthshause
Frau
Schreckhorn
Grindelwaldner
Noth
Führer
Führer
Ranges
Complimente
Eifersucht
Reine
Beiden
Viescherhorn
Träger
Blut
Träger
sehon
Dienste
Hütte
Mönch
Quartier
Dienstags
September
Viescherhorn
Uhr
Morgens
Nöthigen
Stunden
Bärenegg
Eismeere
Musse
Imbiss
Träger
Triften
Eismeere
Schafhirt
Folge
Ursache
Gänger
Fels
Eis
Blick
Führer
Uebung
Dienste
Bagage
Decken
Hauptgewicht
-Volumen
Mann
Gebühr
lO1/^
Uhr
Glückwünschen
Wirthsleute
Gäste
Lawinenschnee
Gletscher
Trift
Gesträuch
Alpenrosen
Ziegen
Woher
K

We can also use Spacy to perform Named Entity Recognition (NER). Spacy identifies NERs and labels them, for example as LOC (location), ORG (organisation) or PER (person). It's important to understand that NER (like other elements of NLP) is not perfect.

In [5]:
#Pretty output of the NER results
spacy.displacy.render(doc, style="ent")

# Iterate through the named entities found, and their types. 
print(f"{'Token':<20}\t{'Type':<3}\n")
for ent in doc.ents:
    print(f"{ent.text:<20}\t{ent.label_:<3}")

Token               	Type

Grosse Grindelwald-Viescherhorn.	MISC
Gerwer              	PER
Grindelwald         	LOC
Bettagszeit         	MISC
Seçtemberabends     	LOC
Ach !               	ORG
London              	LOC
Rath                	LOC
rieth               	PER
mitLeider           	MISC
thät 's             	ORG
Çirindelwald        	LOC
Tausend !           	ORG
Schreckhorn undEiger	PER
Peter Rubi          	PER
Complimente         	PER
Peter Inäbnit       	PER
Peter Michel        	PER
's Reine.           	MISC
Viescherhorn        	LOC
Peter Baumann       	PER
Viescherhorn        	LOC
Bärenegg            	LOC
Meyer               	PER
Wirthsleute         	MISC
Eismeer             	LOC
Kalli               	PER
grünen Trift        	LOC
Alpenrosen          	LOC
Kallitritt          	MISC
Vieschergletscher   	MISC
Mönchsjoches        	LOC
Vieschergrates      	LOC
's Eismeer.         	LOC
Joches              	MISC
Fellenberg          	PER
Lauteraarjoch, der Strahleck	LOC
Mönchjoch           

In [6]:
from collections import Counter
terms = [token.text for token in doc]
ranked_terms = Counter(terms).most_common()

print(f"{'Term':<20}\t{'Count':<3}\n")
for term, count in ranked_terms:
    print(f"{term:<20}\t{count:<3}")

Term                	Count

,                   	518
.                   	210
und                 	199
der                 	176
die                 	150
das                 	112
;                   	101
wir                 	96 
uns                 	94 
zu                  	80 
in                  	77 
den                 	64 
sich                	61 
dem                 	60 
von                 	60 
nicht               	56 
ein                 	54 
des                 	50 
war                 	48 
„                   	44 
"                   	43 
mit                 	39 
auch                	36 
so                  	35 
ist                 	33 
's                  	32 
auf                 	31 
aber                	29 
es                  	26 
vor                 	25 
als                 	25 
im                  	24 
nach                	24 
wurde               	24 
eine                	24 
an                  	23 
um                  	22 
über                	21 
noch                	2

We can count the terms in our documents, and order them by rank. Try changing the statements to see what happens with different conditions.

In [7]:
terms = [token.text for token in doc]

# Remove stop words and punctuation
#terms = [token.text for token in doc if not token.is_stop and not token.is_punct] 

# Remove stop words, punctuation and retain only nouns
#terms = [token.text for token in doc if not token.is_stop and not token.is_punct and token.pos_ == 'NOUN']

ranked_terms = Counter(terms).most_common()

print(f"{'Term':<20}\t{'Count':<3}\n")
for term, count in ranked_terms:
    print(f"{term:<20}\t{count:<3}")

Term                	Count

,                   	518
.                   	210
und                 	199
der                 	176
die                 	150
das                 	112
;                   	101
wir                 	96 
uns                 	94 
zu                  	80 
in                  	77 
den                 	64 
sich                	61 
dem                 	60 
von                 	60 
nicht               	56 
ein                 	54 
des                 	50 
war                 	48 
„                   	44 
"                   	43 
mit                 	39 
auch                	36 
so                  	35 
ist                 	33 
's                  	32 
auf                 	31 
aber                	29 
es                  	26 
vor                 	25 
als                 	25 
im                  	24 
nach                	24 
wurde               	24 
eine                	24 
an                  	23 
um                  	22 
über                	21 
noch                	2

In [8]:
from os import walk
import random

path = 'C:\\Users\\rsp\\Dropbox\\geo871_corpora\\textAndBerg1000\\'
filenames = next(walk(path), (None, None, []))[2]
files = random.sample(filenames, 10)

for file in files:
    with open(path + file, 'r', encoding='utf-8') as file:
        text = text + file.read().replace('\n', ' ')


In [9]:
doc = nlp(text)

terms = [token.text for token in doc if not token.is_stop and not token.is_punct ]
ranked_terms = Counter(terms).most_common()

print(f"{'Term':<20}\t{'Count':<3}\n")
for term, count in ranked_terms:
    print(f"{term:<20}\t{count:<3}")

Term                	Count

de                  	1953
la                  	997
le                  	887
et                  	818
l                   	811
à                   	624
d'                  	480
par                 	435
une                 	395
les                 	393
m                   	327
glacier             	296
un                  	296
au                  	282
est                 	260
dans                	236
sur                 	233
ont                 	219
que                 	199
mètres              	193
plus                	190
deux                	173
qui                 	165
pour                	155
Le                  	146
été                 	146
sommet              	137
avec                	125
+                   	122
camp                	119
il                  	116
voie                	116
se                  	115
arête               	113
's                  	106
équipe              	106
face                	103
s'                  	102
son                 	

vieux               	3  
poussé              	3  
moindre             	3  
1824                	3  
280                 	3  
couronne            	3  
progressé           	3  
porte               	3  
aient               	3  
1831                	3  
abri                	3  
ingénieur           	3  
paru                	3  
latérales           	3  
H                   	3  
G                   	3  
considérer          	3  
Bärenlamm           	3  
annuels             	3  
modifications       	3  
réalisation         	3  
parfaitement        	3  
atteinte            	3  
cent                	3  
actuels             	3  
1:10000             	3  
scientifique        	3  
Nouvelles           	3  
expériences         	3  
semblable           	3  
retenu              	3  
repères             	3  
ordre               	3  
régulièrement       	3  
campagne            	3  
fixe                	3  
couleur             	3  
07.2                	3  
constate            	3  
personnages         	3  


König               	2  
Verfu               	2  
empfehlenswerte     	2  
anzuraten           	2  
planen              	2  
beginnen            	2  
falls               	2  
vorgezogen          	2  
ermöglicht          	2  
Unmittelbar         	2  
Poiana              	2  
indessen            	2  
vorerst             	2  
abgelegt            	2  
gesamte             	2  
wunderschön         	2  
Nebelbilder         	2  
entschädigt         	2  
reizendes           	2  
waten               	2  
Straßen             	2  
schier              	2  
geschildert         	2  
Wettergott          	2  
Skit                	2  
Jalomitza           	2  
besuchen            	2  
ausgestattete       	2  
Bahnhöfe            	2  
Deutsche            	2  
dürfe               	2  
gehöriger           	2  
Teller              	2  
siebenbürgische     	2  
hinzu               	2  
beruhigt            	2  
Plavna              	2  
Soldaten            	2  
wehmütig            	2  
Vollmond            	2  


volontiers          	1  
genres              	1  
décline             	1  
responsabilitleur   	1  
acceptation         	1  
refus               	1  
compétence          	1  
Tirage              	1  
attesté             	1  
69                  	1  
exemplaires         	1  
vant-propos         	1  
présentation        	1  
revue               	1  
LES                 	1  
intervalles         	1  
irréguliers         	1  
cahiers             	1  
Furka               	1  
nationales          	1  
reliefs             	1  
extra-européens     	1  
Ac-quise            	1  
fascicules          	1  
thématiques         	1  
réservera           	1  
cahier              	1  
lointaines          	1  
paraître            	1  
spécial             	1  
traitant            	1  
consacrée           	1  
population          	1  
environnement       	1  
sauvegarde          	1  
sites               	1  
Toedi               	1  
auteur              	1  
consacré            	1  
attirer             	1  


Ueberhaupt          	1  
Ermüdung            	1  
mühseligem          	1  
Schneestampfen      	1  
gebührt             	1  
spannend            	1  
vorletzte           	1  
gegliederten        	1  
42O3                	1  
Gletscherpässe      	1  
Allalinhorn         	1  
zugänglichen        	1  
Strahlhorn          	1  
Adlerpass           	1  
Felsmassen          	1  
bekleidete          	1  
Innenseite          	1  
Längenfluh-         	1  
Hubelgletscher      	1  
Adler-              	1  
Allalingletscher    	1  
Felsenbogens        	1  
Runsen              	1  
durchfurchte        	1  
sendet              	1  
firnbedeckt         	1  
abstürzt            	1  
überschritt         	1  
hartes              	1  
schwieriges         	1  
neuerdings          	1  
ausschliesslich     	1  
Jazzi               	1  
dar-                	1  
Gebirgsruine        	1  
thurmartigen        	1  
zackengekrönten     	1  
Grundfeste          	1  
Reizes              	1  
äussern             	1  


umbiegt             	1  
beabsichtigte       	1  
Begreiflicherweise  	1  
genötigt            	1  
Rasenbändern        	1  
wegzuschieben       	1  
Guspenschuhen       	1  
blendete            	1  
Schneebrille        	1  
anlegte             	1  
Gehulfen            	1  
Schneeschleier      	1  
anbot               	1  
unklugerweise       	1  
annahm              	1  
schneeblind         	1  
pflegen             	1  
ersetzte            	1  
1854—1855           	1  
topographischer     	1  
Berninagebirgsstock 	1  
vorliegender        	1  
Er-                 	1  
Begebenheiten       	1  
tunlicher           	1  
Gletschermassivs    	1  
behielt             	1  
hervorragendste     	1  
graubündnerischen   	1  
Landeskind          	1  
Oberengadiner       	1  
bewältigt           	1  
West-               	1  
Nordostseiten       	1  
anzusetzen          	1  
überzeugte          	1  
vergletscherte      	1  
felsige             	1  
hinuntersenkt       	1  
eingeklemmte        	1  


In [None]:
#output all dependencies so that we can reproduce the notebook (we only need this to set things up for Binder)
%load_ext watermark
%watermark --iversions

In [31]:
def tf(text):
    doc = nlp(text)
    n = len(doc)
    
    terms = [token.text for token in doc if not token.is_stop and not token.is_punct ]
    print(terms)
    tf = dict(Counter(terms))
    print(tf)
    
    for term, count in tf.items():
        tf[term] = count/n
        
    return tf

In [80]:
import math
def df(texts):
    df = dict()
    ndocs = len(texts)
    for text in texts:
        print(text)
        doc = nlp(text)
        terms = [token.text for token in doc if not token.is_stop and not token.is_punct ]
        tf = set(terms)
        for t in tf:
            if t in df:
                count = df[t]
                count = count + 1
            else:
                count = 1
            df[t] = count/ndocs
    for term, count in df.items():
        df[term] = math.log10(ndocs/(count + 1))

    return df

In [83]:
def tfidf(corpus):
    print(corpus)
    print(list(corpus.values()))
    idf = df(list(corpus.values()))
    results = {}
    print(idf)
    for id, text in corpus.items():                
        t = tf(text)
        for term in t:
            print(t[term], idf[term], term, t[term]*idf[term] )
    #return results

In [84]:
tf("This is an experiment with words that happen more than once once words")
df(["This is an experiment with words that happen more than once once words","Words that once", "than experiment new other once"])
tfidf({1:"This is an experiment with words that happen more than once once words",2:"Words that once",3:"than experiment new other once"})

['This', 'is', 'experiment', 'with', 'words', 'that', 'happen', 'more', 'than', 'once', 'once', 'words']
{'This': 1, 'is': 1, 'experiment': 1, 'with': 1, 'words': 2, 'that': 1, 'happen': 1, 'more': 1, 'than': 1, 'once': 2}
This is an experiment with words that happen more than once once words
Words that once
than experiment new other once
{1: 'This is an experiment with words that happen more than once once words', 2: 'Words that once', 3: 'than experiment new other once'}
['This is an experiment with words that happen more than once once words', 'Words that once', 'than experiment new other once']
This is an experiment with words that happen more than once once words
Words that once
than experiment new other once
{'once': 0.30642502755068735, 'is': 0.3521825181113625, 'more': 0.3521825181113625, 'happen': 0.3521825181113625, 'with': 0.3521825181113625, 'that': 0.3174204118521506, 'words': 0.3521825181113625, 'than': 0.3174204118521506, 'This': 0.3521825181113625, 'experiment': 0.31742