# Load Data

In [2]:
with open('WL.txt', 'r', encoding='utf-8') as file:
    WL = file.readlines()
    
print(WL[:10])

['\ufeff§.1.*\n', 'Was der Verfasser unter der Wissenschaftslehre verstehe.\n', '1. Wenn ich mir vorstelle, es wären alle Wahrheiten, welche nur irgend ein Mensch kennt oder einst gekannt hat, in ein Ganzes vereinigt, z. B. in irgend einem einzigen Buche zusammengeschrieben: so würde ich einen solchen Inbegriff derselben die Summe des ganzen menschlichen Wissens nennen. So klein diese Summe auch wäre, verglichen mit dem ganz unermeßlichen Gebiete aller Wahrheiten, die es an sich gibt, die ihrem größten Theile nach uns völlig unbekannt sind; so wäre sie doch im Verhältnisse zu der Fassungskraft jedes einzelnen Menschen eine sehr große, ja für ihn zu große Summe. Denn sicher ist selbst der fähigste Kopf unter den günstigsten Umständen, und mit dem angestrengtesten Fleiße außer Stande, sich-ich will nicht sagen Alles, sondern auch nur das wahrhaft Wissenswürdige, das jener Inbegriff enthält, das die vereinigte Bemühung aller Menschen bis auf den heutigen Tag entdecket hat, anzueignen. Wir

# Do some cleaning

In [3]:
import string
import re

WL = [line.lower().strip() for line in WL] # removes "\n" and extra spaces

WL = [re.sub(r'[^\w\s]', '', line) for line in WL] # remove punctuation

WL = [line.replace('_', '') for line in WL] # remove underscores

WL = [re.sub(r'(\w+)-\s+(\w+)', r'\1\2', line) for line in WL] # removes line-break hyphens

WL = [re.sub(r'(\w+)-(\w+)', r'\1\2', line) for line in WL] #merges compounds

WL = [re.sub(r'[§|*•–—0-9]+', ' ', line) for line in WL] # removes: section signs (§), vertical bars (|), bullets, dashes plus digits (e.g. “1.”, “2a”, “1850”)

WL = [re.sub(r'\b[a-z]\.', ' ', line) for line in WL] # removes “a.”, “b.”, “z.”, etc., but keeps normal abbreviations like “u.a.” or “z.b.” mostly intact.

WL = [re.sub(r'\s+', ' ', line).strip() for line in WL] # removes double spaces

WL = [line for line in WL if line.strip()] # removes lines consisting of only spaces


print(WL[:10])

['was der verfasser unter der wissenschaftslehre verstehe', 'wenn ich mir vorstelle es wären alle wahrheiten welche nur irgend ein mensch kennt oder einst gekannt hat in ein ganzes vereinigt z b in irgend einem einzigen buche zusammengeschrieben so würde ich einen solchen inbegriff derselben die summe des ganzen menschlichen wissens nennen so klein diese summe auch wäre verglichen mit dem ganz unermeßlichen gebiete aller wahrheiten die es an sich gibt die ihrem größten theile nach uns völlig unbekannt sind so wäre sie doch im verhältnisse zu der fassungskraft jedes einzelnen menschen eine sehr große ja für ihn zu große summe denn sicher ist selbst der fähigste kopf unter den günstigsten umständen und mit dem angestrengtesten fleiße außer stande sichich will nicht sagen alles sondern auch nur das wahrhaft wissenswürdige das jener inbegriff enthält das die vereinigte bemühung aller menschen bis auf den heutigen tag entdecket hat anzueignen wir müssen uns deßhalb zu einer theilung versteh

# Tokenize

In [4]:
# Only unigrams! It might be valuable to add bigrams based on domain knowledge (e.g. "an sich", "stehen unter"). Maybe even trigrams ("Satz an Sich", "Vorstellung an Sich")?

words_WL = []

for sent in WL:
    for word in sent.split():       # split sentence into words
        if len(word) > 1:           # keep words longer than 1 character
            words_WL.append(word)

print(words_WL[:50])
print(f"Total tokens: {len(words_WL)}")

['was', 'der', 'verfasser', 'unter', 'der', 'wissenschaftslehre', 'verstehe', 'wenn', 'ich', 'mir', 'vorstelle', 'es', 'wären', 'alle', 'wahrheiten', 'welche', 'nur', 'irgend', 'ein', 'mensch', 'kennt', 'oder', 'einst', 'gekannt', 'hat', 'in', 'ein', 'ganzes', 'vereinigt', 'in', 'irgend', 'einem', 'einzigen', 'buche', 'zusammengeschrieben', 'so', 'würde', 'ich', 'einen', 'solchen', 'inbegriff', 'derselben', 'die', 'summe', 'des', 'ganzen', 'menschlichen', 'wissens', 'nennen', 'so']
Total tokens: 743222


# Create costum stop words list

In [5]:
from collections import Counter

# Count frequency of each word
word_counts = Counter(words_WL)

# Get 500 most common words

top_words = word_counts.most_common(500)

# Extract only the words (ignore counts)
top_words_list = [word for word, count in top_words]

print(top_words_list)

#From:
# print(top_words_list), manually divide the stop words from the important words, based on domain knowledge

stopwords_WL = ['die', 'der', 'daß', 'in', 'und', 'wir', 'zu', 'nicht', 'so', 'ist', 'von', 'es', 'den', 'auch', 'eine', 'ein', 'nur', 'wenn', 
                'oder', 'als', 'das', 'sie', 'man', 'dem', 'einer', 'aus', 'sind', 'auf', 'werden', 'uns', 'mit', 'des', 'aber', 'ich', 'durch', 
                'noch', 'wie', 'einem', 'bei', 'welche', 'dieser', 'selbst', 'diese', 'einen', 'er', 'wird', 'für', 'eben', 'was', 'eines', 'denn', 
                'können', 'doch', 'schon', 'sondern', 'kann', 'nach', 'also', 'andern', 'im', 'um', 'andere', 'ob', 'nun', 'derselben', 'wäre', 
                'keine', 'wohl', 'zur', 'zwischen', 'nämlich', 'ihnen', 'unserer', 'ihm', 'solche', 'einige', 'sehr', 'ohne', 'gar', 'zwei', 'ihrer', 
                'sagen', 'gewisse', 'einander', 'leser', 'deren', 'zeichen', 'mir', 'dann', 'nichts', 'erst', 'solchen', 'ganz', 'bald', 'ihre', 
                'gewissen', 'kein', 'allein', 'oft', 'ihr', 'nennen', 'welchen', 'ja', 'jene', 'wo', 'werde', 'denen', 'entweder', 'seiner', 'zwar', 
                'machen', 'unsere', 'ihn', 'irgend', 'beiden', 'lassen', 'läßt', 'statt', 'wenigstens', 'mehr', 'anderes', 'überhaupt', 'anderen', 
                'zum', 'weise', 'vor', 'gegebenen', 'will', 'heißt', 'würde', 'keinen', 'müsse', 'seine', 'fällen', 'welchem', 'jener', 
                'wären', 'indem', 'welcher', 'dgl', 'anderer', 'wieder', 'unser', 'desselben', 'falle', 'dessen', 'dagegen', 'zuweilen', 
                'am', 'solcher', 'etwa', 'ihren', 'denselben', 'unserm', 'log', 'hr', 'neg', 'kommt', 'dasjenige', 'wer', 'ferner', 'bereits', 
                'dieselben', 'darin', 'non', 'daraus', 'demselben', 'sofern', 'denjenigen', 'derjenigen', 'jenem', 'war', 'vom', 'mich'
               ]
                
# Domain knowledge: words I want to leave in because I know they are important. I collect them, so that I can review my choices, or in case I later want to use a standard stop words list, so that I can put them back in.
# For example: logical vocabulary, ethical terms, terms that have to do with (conceptual) order

notstopwords_WL = ['sich', 'vorstellung', 'vorstellungen', 'hat', 'seyn', 'sätze', 'haben', 'sey', 'an', 'unter', 'satz', 'wahrheit', 'art', 'alle', 
                   'etwas', 'begriff', 'dieß', 'wahr', 'hier', 'dieses', 'weil', 'begriffe', 'gegenstand', 'wahrheiten', 'beschaffenheit', 'sätzen', 
                   'immer', 'habe', 'diesen', 'müssen', 'da', 'bloß', 'wissenschaft', 'urtheile', 'muß', 'gibt', 'diesem', 'gegenstände', 'soll', 
                   'urtheil', 'jeder', 'erklärung', 'sollen', 'bedeutung', 'verhältniß', 'theile', 'verhältnisse', 'form', 'beschaffenheiten', 
                   'satze', 'grund', 'könne', 'logik', 'über', 'jede', 'zeit', 'jedes', 'wollen', 'satzes', 'viel', 'mehre', 'worte', 'allen', 
                   'finden', 'falsch', 'geben', 'gebe', 'jeden', 'welches', 'wirklich', 'wahrscheinlichkeit', 'wesen', 'könnte', 'folge', 'endlich', 
                   'denken', 'dürfen', 'wissen', 'viele', 'bloße', 'stehen', 'inbegriff', 'menschen', 'gleich', 'menge', 'nothwendig', 'lehren', 
                   'zusammengesetzt', 'gegenständlichkeit', 'einzelnen', 'unterschied', 'frage', 'möglich', 'gegenständen', 'gewiß', 'ganzen', 
                   'aller', 'bloßen', 'eigenen', 'ersten', 'urtheilen', 'einmal', 'beweise', 'je', 'mehren', 'fall', 'verbindung', 'schlüsse', 
                   'begriffen', 'grad', 'grunde', 'stelle', 'alles', 'sollte', 'wort', 'erklären', 'theil', 'gegenstande', 'ursache', 'schlußsatz', 
                   'dinge', 'arten', 'lesern', 'müßte', 'dadurch', 'gründe', 'darum', 'jetzt', 'sonst', 'ihrem', 'nie', 'begriffes', 'zugleich', 
                   'offenbar', 'unterscheiden', 'einzigen', 'leicht', 'erkenntniß', 'regeln', 'nöthig', 'erkennen', 'bestimmung', 'diejenigen', 
                   'enthalten', 'namen', 'ganze', 'vielleicht', 'kennen', 'eintheilung', 'sowohl', 'bekannt', 'wissenschaften', 'sagt', 
                   'dergleichen', 'gerade', 'unsern', 'verschiedenen', 'weniger', 'jenen', 'drei', 'gegenstandes', 'behaupten', 'gewisser', 
                   'anmerk', 'dürfte', 'theilen', 'beweis', 'bestimmen', 'behauptung', 'daseyn', 'lehrbuche', 'ableiten', 'bestandtheile', 'weder', 
                   'somit', 'bestimmt', 'beide', 'eigentlich', 'verstehen', 'genug', 'seele', 'übrigen', 'anschauung', 'daher', 'hinsichtlich', 
                   'zweiten', 'jedem', 'eigene', 'recht', 'einerlei', 'erste', 'thun', 'that', 'besonders', 'ableitbar', 'heißen', 'gleichwohl', 
                   'macht', 'jemand', 'bisher', 'zuversicht', 'betrachtung', 'anders', 'vielmehr', 'betrachten', 'mensch', 'bestehet', 
                   'dasselbe', 'beispiel', 'verschiedene', 'scheint', 'nehmen', 'worden', 'bewußtseyn', 'gehören', 'könnten', 'anzahl', 'glaube', 
                   'sinne', 'buche', 'liegt', 'anschauungen', 'hätte', 'folgen', 'sämmtlichen', 'gott', 'würden', 'darstellung', 
                   'schließen', 'erklärungen', 'däucht', 'zwecke', 'richtig', 'aussagen', 'beispiele', 'manche', 'wirkung', 'mittel', 'unmittelbar', 
                   'wahren', 'sinn', 'ausdruck', 'kommen', 'setzen', 'fehler', 'folgt', 'seinem', 'freilich', 'damit', 'einzige', 'gedanken', 
                   'zweck', 'wahre', 'ordnung', 'mag', 'fast', 'obgleich', 'cajus', 'beweisen', 'allerdings', 'zweifel', 'aufmerksamkeit', 'regel', 
                   'jenes', 'umstände', 'lehre', 'unserem', 'bezeichnen', 'vorkommen', 'stehet', 'letzteren', 'bedienen', 'müßten', 'paar', 'seinen', 
                   'miteinander', 'durchaus', 'verfahren', 'folgende', 'buch', 'gesagt', 'verneinung', 'logiker', 'objectiven', 'erscheinen', 
                   'vorstellen', 'möglichkeit', 'worten', 'geschehen', 'dieselbe', 'deßhalb', 'keineswegs', 'ansehen', 'unsers', 'gattung', 
                   'annehmen', 'keiner', 'nenne', 'fragen', 'letztere', 'gegen', 'ergibt', 'schluß', 'grade', 'deutlich', 'hinsicht', 'bilden', 
                   'umstand', 'bestandtheil', 'gleichgeltend', 'glauben', 'sache', 'hätten', 'wurde', 'gilt', 'zukommt', 'inbegriffe', 'sicher', 
                   'folgenden', 'findet', 'veränderung', 'unendliche', 'sprechen', 'geschieht', 'vielen', 'vermögen'
                  ]

# Manually add other noise that I come accross during the cleaning process that didn't get filtered out
noise_WL = ['aa', 'aacb', 'aao', 'ab', 'abc', 'abcd', 'ac', 'acb']

   
#print(stopwords_WL)
#print(notstopwords_WL)
#print(noise_WL)

['die', 'der', 'daß', 'in', 'und', 'wir', 'zu', 'nicht', 'so', 'ist', 'von', 'es', 'den', 'auch', 'eine', 'ein', 'sich', 'nur', 'wenn', 'oder', 'als', 'das', 'sie', 'man', 'dem', 'einer', 'aus', 'sind', 'vorstellung', 'auf', 'werden', 'uns', 'mit', 'des', 'aber', 'vorstellungen', 'ich', 'durch', 'noch', 'wie', 'hat', 'seyn', 'einem', 'bei', 'welche', 'dieser', 'selbst', 'sätze', 'diese', 'einen', 'er', 'haben', 'sey', 'wird', 'für', 'eben', 'was', 'an', 'eines', 'denn', 'können', 'doch', 'schon', 'sondern', 'unter', 'satz', 'kann', 'nach', 'also', 'wahrheit', 'art', 'alle', 'etwas', 'andern', 'im', 'wahr', 'begriff', 'dieß', 'hier', 'um', 'dieses', 'andere', 'weil', 'ob', 'begriffe', 'gegenstand', 'wahrheiten', 'nun', 'beschaffenheit', 'sätzen', 'immer', 'derselben', 'müssen', 'habe', 'diesen', 'wäre', 'da', 'wohl', 'keine', 'zur', 'bloß', 'zwischen', 'wissenschaft', 'urtheile', 'muß', 'gibt', 'nämlich', 'ihnen', 'unserer', 'ihm', 'diesem', 'solche', 'einige', 'sehr', 'ohne', 'gar', 'z

# Remove stop words, noise, and infrequent words

In [8]:
min_f = 5
WL_sent_filtered = []

for sent in WL:
    temp = []
    for word in sent.split():
         if word not in stopwords_WL and word not in noise_WL and word_counts.get(word, 0) >= min_f:     
            temp.append(word)
    WL_sent_filtered.append(temp)

#print(WL_sent_filtered[:5])
#print(WL_sent_filtered[-5:])

############ Check which words are filtered out by requiring this frequency

filtered_out_words = [word for word, count in word_counts.items() if count < min_f]

# See how many were removed
print(f"Number of words removed: {len(filtered_out_words)}")

# Print first 50 filtered-out words
print(filtered_out_words[:50])

# --> Number of words removed: 15684 for min_f = 5. It's quite a lot, but I keep it like this for now.

############ Check whether the remaining words make sense and how many they are

all_words = []

for sent in WL_sent_filtered:
    all_words.extend(sent)

all_words = list(set(all_words)) #removes duplicates (set) and turns into a list

all_words.sort()

#print(all_words[:1000])
#print(len(all_words)) # around 6000 makes sense given the data and quite heavy filtering

#################### I'm not sure whether I want to do stemming, for now I don't do it

Number of words removed: 15684
['zusammengeschrieben', 'unermeßlichen', 'fähigste', 'kopf', 'angestrengtesten', 'fleiße', 'sichich', 'wissenswürdige', 'vereinigte', 'wissenswerth', 'nützlichste', 'wissenswürdigsten', 'dienlichen', 'faßlichkeit', 'wahrhei', 'bekannteb', 'nämhch', 'festesten', 'befolge', 'liefere', 'kennmiß', 'zahllose', 'vergleich', 'ersprießlichsten', 'gelungene', 'hinzugesellten', 'gerückt', 'vollständigsten', 'faßlich', 'sträubet', 'seltnere', 'studiums', 'segen', 'ausgebreiteter', 'anweise', 'einführe', 'wende', 'inhaltsleer', 'bestehendes', 'wohlthätig', 'regt', 'schaftlicheri', 'vorschreiben', 'reiflicher', 'bedünken', 'unterrichtbezwecken', 'ertheilung', 'festhaltung', 'begriffenes', 'eingeprägt']


# Save data for next notebook

In [10]:
import pickle

with open('WL_sent_filtered.pkl', 'wb') as f:
    pickle.dump(WL_sent_filtered, f)

with open('all_words.pkl', 'wb') as f:
    pickle.dump(all_words, f)

#with open('word_counts.pkl', 'wb') as f:
#    pickle.dump(word_counts, f)
