In [25]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

import re
from collections import defaultdict
from collections import Counter

# https://de.wikipedia.org/wiki/Schamanismus

In [26]:
# Downloads. Run only once

# nltk.download('stopwords')  # Stopwords
# nltk.download('punkt')  # Tokenizers

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\monox\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\monox\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [27]:
stops = list(stopwords.words('german'))  # english
print(stops[:5], len(stops))

['aber', 'alle', 'allem', 'allen', 'aller'] 232


In [28]:
# Or "alice.txt"
with open("Schamanismus.txt", "r", encoding="utf-8") as inf:
    text = inf.read()

In [29]:
print("Unique characters", len(set(text)))
print(" ".join(set(text)))

print("\n" * 2)

char_count = Counter(text)
print("Most common chars:", char_count.most_common(20))  # Zipf?

Unique characters 102
k L q O 	 g 5 = ) a ‘ H 1 
 l P ù v ’ ; → b R , W 6 j N Y E ä ü 0 r B i d ß Z A : t p y ‚ ( w 7 D ó ´ z u h M e c I m é . 3 * á è S ` ?   [ / 2 Ä 4 x Ü „ U s “ " - í T G … ö ﻿ F š o 9 C K n J f – V ] ñ 8



Most common chars: [('e', 8453), (' ', 8370), ('n', 5251), ('i', 4565), ('s', 3696), ('r', 3636), ('t', 2969), ('a', 2949), ('h', 2468), ('d', 2234), ('l', 2082), ('u', 2075), ('c', 1736), ('o', 1454), ('m', 1408), ('g', 1226), ('b', 758), ('k', 665), ('f', 605), ('w', 519)]


In [30]:
# Cleaning
s = 2000
print(text[s:s+100])
text_cleaned = re.sub(r"[^a-zA-Z0-9äöüÄÖÜß\.,!\?-]", " ", text)

print(text_cleaned[s:s+100])
print("\n\nUnique characters", len(set(text_cleaned)))

 „westlich idealistischen Konstrukt Schamanismus“ jeglichen Erklärungswert ab.[A 2]

Einig ist man s
  westlich idealistischen Konstrukt Schamanismus  jeglichen Erklärungswert ab. A 2   Einig ist man s


Unique characters 71


In [31]:
# Segmentation
sentences = sent_tokenize(text_cleaned, language="german")

print(len(sentences), "sentences.")
print(sentences[3:5])

299 sentences.
['Nach L szl  Vajda 3  und Jane Monnig Atkinson A 1  sollte aufgrund der Vielzahl unterschiedlicher Konzepte treffender von Schamanismen im Plural gesprochen werden.', 'Sibirische Schamanen und verschiedene Geisterbeschwörer anderer Ethnien   die ebenfalls häufig verallgemeinernd als Schamanen bezeichnet werden   hatten oder haben in vielen traditionellen Weltanschauungen angeblich Einfluss auf die Mächte des Jenseits.']


In [32]:
# Tokenization
tokenized_sentences = []
for sent in sentences:
    tokens = word_tokenize(sent, language="german")
    tokenized_sentences.append(tokens)
    
print(tokenized_sentences[0])

['Schamanismus', 'bezeichnet', 'im', 'engeren', 'Sinne', 'die', 'traditionellen', 'ethnischen', 'Religionen', 'des', 'Kulturareales', 'Sibirien', 'Nenzen', ',', 'Jakuten', ',', 'Altaier', ',', 'Burjaten', ',', 'Ewenken', ',', 'auch', 'europäische', 'Samen', 'und', 'andere', ',', 'bei', 'denen', 'das', 'Vorhandensein', 'von', 'Schamanen', 'von', 'europäischen', 'Forschern', 'der', 'Expansionszeit', 'als', 'wesentliches', 'gemeinsames', 'Kennzeichen', 'erachtet', 'wurde', '.']


In [33]:
# Filter stopwords
stops = set(stops)
filtered_sentences = []
for sent in tokenized_sentences:
    filtered_sent = [token for token in sent if token not in stops]
    filtered_sentences.append(filtered_sent)

In [34]:
print(filtered_sentences[0])

['Schamanismus', 'bezeichnet', 'engeren', 'Sinne', 'traditionellen', 'ethnischen', 'Religionen', 'Kulturareales', 'Sibirien', 'Nenzen', ',', 'Jakuten', ',', 'Altaier', ',', 'Burjaten', ',', 'Ewenken', ',', 'europäische', 'Samen', ',', 'denen', 'Vorhandensein', 'Schamanen', 'europäischen', 'Forschern', 'Expansionszeit', 'wesentliches', 'gemeinsames', 'Kennzeichen', 'erachtet', 'wurde', '.']


In [35]:
# Lower all tokens
lowered_sentences = list(map(lambda sent: list(map(str.lower, sent)), filtered_sentences))

In [36]:
print(lowered_sentences[0])

['schamanismus', 'bezeichnet', 'engeren', 'sinne', 'traditionellen', 'ethnischen', 'religionen', 'kulturareales', 'sibirien', 'nenzen', ',', 'jakuten', ',', 'altaier', ',', 'burjaten', ',', 'ewenken', ',', 'europäische', 'samen', ',', 'denen', 'vorhandensein', 'schamanen', 'europäischen', 'forschern', 'expansionszeit', 'wesentliches', 'gemeinsames', 'kennzeichen', 'erachtet', 'wurde', '.']


In [37]:
# Help from spacy


import spacy
# python -m spacy download de_core_news_sm

In [38]:
nlp = spacy.load("de_core_news_sm")

In [39]:
doc = nlp(text)

In [40]:
for sent in doc.sents:
    print(sent)
    break

Schamanismus bezeichnet im engeren Sinne die traditionellen ethnischen Religionen des Kulturareales Sibirien (Nenzen, Jakuten, Altaier, Burjaten, Ewenken, auch europäische Samen und andere), bei denen das Vorhandensein von Schamanen von europäischen Forschern der Expansionszeit als wesentliches gemeinsames Kennzeichen erachtet wurde.[1]


In [41]:
c = 0
for sent in doc.sents:
    for token in sent:
        print(f"{token} ({token.lemma_}) <{token.pos_}>")

Schamanismus (Schamanismus) <NOUN>
bezeichnet (bezeichnen) <VERB>
im (in) <ADP>
engeren (eng) <ADJ>
Sinne (Sinn) <NOUN>
die (der) <DET>
traditionellen (traditionell) <ADJ>
ethnischen (ethnisch) <ADJ>
Religionen (Religion) <NOUN>
des (der) <DET>
Kulturareales (Kulturareale) <PROPN>
Sibirien (Sibirien) <PROPN>
( (--) <PUNCT>
Nenzen (Nenzen) <NOUN>
, (--) <PUNCT>
Jakuten (Jakut) <NOUN>
, (--) <PUNCT>
Altaier (Altaier) <NOUN>
, (--) <PUNCT>
Burjaten (Burjat) <NOUN>
, (--) <PUNCT>
Ewenken (Ewenk) <NOUN>
, (--) <PUNCT>
auch (auch) <ADV>
europäische (europäisch) <ADJ>
Samen (Samen) <NOUN>
und (und) <CCONJ>
andere (anderer) <PRON>
) (--) <PUNCT>
, (--) <PUNCT>
bei (bei) <ADP>
denen (der) <PRON>
das (der) <DET>
Vorhandensein (Vorhandensein) <NOUN>
von (von) <ADP>
Schamanen (Schaman) <NOUN>
von (von) <ADP>
europäischen (europäisch) <ADJ>
Forschern (Forscher) <NOUN>
der (der) <DET>
Expansionszeit (Expansionszeit) <NOUN>
als (als) <ADP>
wesentliches (wesentlich) <ADJ>
gemeinsames (gemeinsam) <ADJ>

In [42]:
# POS-filter sentences 

ALLOWED_POS = {"NOUN", "ADJ", "PROPN"}
filtered_sentences = []

for sent in doc.sents:
    tmp_sent = []
    for token in sent:
        
        if token.lemma_.lower() in stops:
            continue
            
        if token.pos_ not in ALLOWED_POS:
            continue
        
        tmp_sent.append(token.lemma_)
    
    if len(tmp_sent) > 0:
        filtered_sentences.append(tmp_sent)

In [43]:
print(filtered_sentences[0])

['Schamanismus', 'eng', 'Sinn', 'traditionell', 'ethnisch', 'Religion', 'Kulturareale', 'Sibirien', 'Nenzen', 'Jakut', 'Altaier', 'Burjat', 'Ewenk', 'europäisch', 'Samen', 'Vorhandensein', 'Schaman', 'europäisch', 'Forscher', 'Expansionszeit', 'wesentlich', 'gemeinsam', 'Kennzeichen', 'wurde.[1', ']']


In [44]:
all_tokens = [token for sent in filtered_sentences for token in sent]
token_count = Counter(all_tokens)
print(token_count.most_common(25))

[(']', 92), ('Schamanismus', 67), ('Schaman', 52), ('sibirisch', 24), ('Religion', 23), ('Volk', 22), ('Schamane', 20), ('schamanisch', 20), ('These', 20), ('Ekstase', 19), ('traditionell', 18), ('\ufeff', 18), ('Sibirien', 17), ('Phänomen', 17), ('Trance', 17), ('Form', 17), ('Jahrhundert', 17), ('verschieden', 16), ('Kultur', 16), ('Müller', 16), ('religiös', 15), ('rituell', 14), ('Autor', 14), ('Eliade', 14), ('Kritik', 13)]
