In [1]:
import nltk
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords

import re
from collections import defaultdict
from collections import Counter

# https://de.wikipedia.org/wiki/Schamanismus

In [2]:
# Downloads. Run only once

nltk.download('stopwords')  # Stopwords
nltk.download('punkt')  # Tokenizers

[nltk_data] Downloading package stopwords to /Users/dbr/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/dbr/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [17]:
stops = list(stopwords.words('german'))  # english
print(stops[:5], len(stops))

['aber', 'alle', 'allem', 'allen', 'aller'] 232


In [6]:
# Or "alice.txt"
with open("Schamanismus.txt", "r", encoding="utf-8") as inf:
    text = inf.read()

In [7]:
print("Unique characters", len(set(text)))
print(" ".join(set(text)))

print("\n" * 2)

char_count = Counter(text)
print("Most common chars:", char_count.most_common(20))  # Zipf?

Unique characters 102
x J A “ 8 Ü r [ . ) é ‚ i m E 	 R b ü ] y 9 q : 6 „ * F - j M t è 1 k Z ` l ﻿ s D ? U v ; – f O   w ’ o ö á ó c h P 3 ‘ T n d B 7 H 
 , 4 → š C ä u G g í N S e 5 = " ñ V ´ p 0 L W a / … ù z ( I K 2 ß Y Ä



Most common chars: [('e', 8453), (' ', 8370), ('n', 5251), ('i', 4565), ('s', 3696), ('r', 3636), ('t', 2969), ('a', 2949), ('h', 2468), ('d', 2234), ('l', 2082), ('u', 2075), ('c', 1736), ('o', 1454), ('m', 1408), ('g', 1226), ('b', 758), ('k', 665), ('f', 605), ('w', 519)]


In [9]:
# Cleaning
s = 2000
print(text[s:s+100])
text_cleaned = re.sub(r"[^a-zA-Z0-9äöüÄÖÜß\.,!\?-]", " ", text)

print(text_cleaned[s:s+100])
print("\n\nUnique characters", len(set(text_cleaned)))

 „westlich idealistischen Konstrukt Schamanismus“ jeglichen Erklärungswert ab.[A 2]

Einig ist man s
  westlich idealistischen Konstrukt Schamanismus  jeglichen Erklärungswert ab. A 2   Einig ist man s


Unique characters 71


In [10]:
# Segmentation
sentences = sent_tokenize(text_cleaned, language="german")

print(len(sentences), "sentences.")
print(sentences[3:5])

298 sentences.
['Nach L szl  Vajda 3  und Jane Monnig Atkinson A 1  sollte aufgrund der Vielzahl unterschiedlicher Konzepte treffender von Schamanismen im Plural gesprochen werden.', 'Sibirische Schamanen und verschiedene Geisterbeschwörer anderer Ethnien   die ebenfalls häufig verallgemeinernd als Schamanen bezeichnet werden   hatten oder haben in vielen traditionellen Weltanschauungen angeblich Einfluss auf die Mächte des Jenseits.']


In [11]:
# Tokenization
tokenized_sentences = []
for sent in sentences:
    tokens = word_tokenize(sent, language="german")
    tokenized_sentences.append(tokens)
    
print(tokenized_sentences[0])

['Schamanismus', 'bezeichnet', 'im', 'engeren', 'Sinne', 'die', 'traditionellen', 'ethnischen', 'Religionen', 'des', 'Kulturareales', 'Sibirien', 'Nenzen', ',', 'Jakuten', ',', 'Altaier', ',', 'Burjaten', ',', 'Ewenken', ',', 'auch', 'europäische', 'Samen', 'und', 'andere', ',', 'bei', 'denen', 'das', 'Vorhandensein', 'von', 'Schamanen', 'von', 'europäischen', 'Forschern', 'der', 'Expansionszeit', 'als', 'wesentliches', 'gemeinsames', 'Kennzeichen', 'erachtet', 'wurde', '.']


In [18]:
# Filter stopwords
stops = set(stops)
filtered_sentences = []
for sent in tokenized_sentences:
    filtered_sent = [token for token in sent if token not in stops]
    filtered_sentences.append(filtered_sent)

In [19]:
print(filtered_sentences[0])

['Schamanismus', 'bezeichnet', 'engeren', 'Sinne', 'traditionellen', 'ethnischen', 'Religionen', 'Kulturareales', 'Sibirien', 'Nenzen', ',', 'Jakuten', ',', 'Altaier', ',', 'Burjaten', ',', 'Ewenken', ',', 'europäische', 'Samen', ',', 'denen', 'Vorhandensein', 'Schamanen', 'europäischen', 'Forschern', 'Expansionszeit', 'wesentliches', 'gemeinsames', 'Kennzeichen', 'erachtet', 'wurde', '.']


In [20]:
# Lower all tokens
lowered_sentences = list(map(lambda sent: list(map(str.lower, sent)), filtered_sentences))

In [21]:
print(lowered_sentences[0])

['schamanismus', 'bezeichnet', 'engeren', 'sinne', 'traditionellen', 'ethnischen', 'religionen', 'kulturareales', 'sibirien', 'nenzen', ',', 'jakuten', ',', 'altaier', ',', 'burjaten', ',', 'ewenken', ',', 'europäische', 'samen', ',', 'denen', 'vorhandensein', 'schamanen', 'europäischen', 'forschern', 'expansionszeit', 'wesentliches', 'gemeinsames', 'kennzeichen', 'erachtet', 'wurde', '.']


In [22]:
# Help from spacy


import spacy
# python -m spacy download de_core_news_sm

In [24]:
nlp = spacy.load("de_core_news_sm")

In [25]:
doc = nlp(text)

In [26]:
for sent in doc.sents:
    print(sent)
    break

Schamanismus bezeichnet im engeren Sinne die traditionellen ethnischen Religionen des Kulturareales Sibirien (Nenzen, Jakuten, Altaier, Burjaten, Ewenken, auch europäische Samen und andere), bei denen das Vorhandensein von Schamanen von europäischen Forschern der Expansionszeit als wesentliches gemeinsames Kennzeichen erachtet wurde.[1]


In [27]:
c = 0
for sent in doc.sents:
    for token in sent:
        print(f"{token} ({token.lemma_}) <{token.pos_}>")

Schamanismus (Schamanismus) <NOUN>
bezeichnet (bezeichnen) <VERB>
im (im) <ADP>
engeren (eng) <ADJ>
Sinne (Sinn) <NOUN>
die (der) <DET>
traditionellen (traditionell) <ADJ>
ethnischen (ethnisch) <ADJ>
Religionen (Religion) <NOUN>
des (der) <DET>
Kulturareales (Kulturareales) <PROPN>
Sibirien (Sibirien) <PROPN>
( (() <PUNCT>
Nenzen (Nenzen) <NOUN>
, (,) <PUNCT>
Jakuten (Jakuten) <NOUN>
, (,) <PUNCT>
Altaier (Altaier) <NOUN>
, (,) <PUNCT>
Burjaten (Burjaten) <NOUN>
, (,) <PUNCT>
Ewenken (Ewenken) <NOUN>
, (,) <PUNCT>
auch (auch) <ADV>
europäische (europäische) <ADJ>
Samen (Samen) <NOUN>
und (und) <CCONJ>
andere (ander) <PRON>
) ()) <PUNCT>
, (,) <PUNCT>
bei (bei) <ADP>
denen (der) <PRON>
das (der) <DET>
Vorhandensein (Vorhandensein) <NOUN>
von (von) <ADP>
Schamanen (Schamane) <NOUN>
von (von) <ADP>
europäischen (europäisch) <ADJ>
Forschern (Forscher) <NOUN>
der (der) <DET>
Expansionszeit (Expansionszeit) <NOUN>
als (als) <ADP>
wesentliches (wesentlich) <ADJ>
gemeinsames (gemeinsam) <ADJ>


die (der) <PRON>
nichts (nichts) <PRON>
mit (mit) <ADP>
anderen (ander) <ADJ>
Baummythen (Baummythen) <NOUN>
zu (zu) <PART>
tun (tun) <VERB>
habe.[20 (habe.[20) <PROPN>
] (]) <PROPN>


 (

) <SPACE>
Insbesondere (Insbesondere) <ADV>
die (der) <DET>
äußerst (äußern) <ADV>
erfolgreichen (erfolgreich) <ADJ>
Bücher (Buch) <NOUN>
von (von) <ADP>
Mircea (Mircea) <PROPN>
Eliade (Eliade) <PROPN>
, (,) <PUNCT>
Carlos (Carlos) <PROPN>
Castaneda (Castaneda) <PROPN>
und (und) <CCONJ>
Harner (Harner) <NOUN>
haben (haben) <AUX>
den (der) <DET>
„ („) <PUNCT>
modernen (modern) <ADJ>
Mythos (Mythos) <NOUN>
Schamanismus (Schamanismus) <NOUN>
“ (“) <PUNCT>
erzeugt (erzeugen) <VERB>
, (,) <PUNCT>
der (der) <PRON>
suggeriert (suggerieren) <VERB>
, (,) <PUNCT>
dass (dass) <SCONJ>
es (ich) <PRON>
sich (sich) <PRON>
dabei (dabei) <ADV>
um (um) <ADP>
ein (einen) <DET>
universelles (universelles) <ADJ>
und (und) <CCONJ>
homolog (homolog) <NOUN>
entstandenes (entstanden) <ADJ>
religiös-spirituelles (religiös-spi

Überzeugungen (Überzeugung) <NOUN>
, (,) <PUNCT>
Riten (Riten) <NOUN>
und (und) <CCONJ>
Traditionen,[28 (Traditionen,[28) <PROPN>
] (]) <PROPN>
statt (statt) <ADP>
um (um) <ADP>
die (der) <DET>
herausgehobene (herausgehoben) <ADJ>
Rolle (Rolle) <NOUN>
des (der) <DET>
Schamanen (Schamane) <NOUN>
. (.) <PUNCT>
Insofern (insofern) <ADV>
entstanden (entstehen) <VERB>
die (der) <DET>
verschiedenen (verschieden) <ADJ>
, (,) <PUNCT>
konzeptuell (konzeptuell) <ADV>
abweichenden (abweichend) <ADJ>
Definitionen.[3 (Definitionen.[3) <PROPN>
] (]) <ADJ>


 (

) <SPACE>
Die (der) <DET>
Schamanen (Schamane) <NOUN>
sind (sein) <AUX>
eingebunden (einbinden) <VERB>
in (in) <ADP>
die (der) <DET>
Lebenswelt (Lebenswelt) <NOUN>
und (und) <CCONJ>
naturräumliche (naturräumliche) <ADJ>
Umwelt (Umwelt) <NOUN>
ihrer (sich) <DET>
jeweiligen (jeweilig) <ADJ>
Kulturen (Kultur) <NOUN>
und (und) <CCONJ>
können (können) <AUX>
nicht (nicht) <PART>
als (als) <ADP>
Verkörperung (Verkörperung) <NOUN>
einer (einer) <DET>

Urreligion (Urreligion) <NOUN>
. (.) <PUNCT>
Viele (viel) <DET>
Autoren (Autor) <NOUN>
kritisierten (kritisieren) <VERB>
solche (solche) <DET>
weitreichenden (weitreichend) <ADJ>
Verallgemeinerungen (Verallgemeinerung) <NOUN>
und (und) <CCONJ>
bezogen (beziehen) <VERB>
ihre (mein) <DET>
Konzepte (Konzept) <NOUN>
wieder (wieder) <ADV>
nur (nur) <ADV>
auf (auf) <ADP>
die (der) <DET>
klassisch (klassisch) <ADV>
sibirischen (sibirisch) <ADJ>
Schamanen (Schamane) <NOUN>
; (;) <PUNCT>
oder (oder) <CCONJ>
sie (ich) <PRON>
distanzierten (distanzieren) <VERB>
sich (sich) <PRON>
deutlich (deutlich) <ADV>
vom (vom) <ADP>
Übergewicht (Übergewicht) <NOUN>
der (der) <DET>
spirituellen (spirituell) <ADJ>
Aspekte (Aspekt) <NOUN>
und (und) <CCONJ>
untersuchten (untersuchen) <VERB>
etwa (etwa) <ADV>
kulturelle (kulturelle) <ADJ>
Eigenarten (Eigenarten) <NOUN>
, (,) <PUNCT>
soziale (soziale) <ADJ>
Funktionen (Funktion) <NOUN>
oder (oder) <CCONJ>
die (der) <DET>
heilerische (heilerische) <ADJ>
Bedeutung (

propagieren (propagieren) <VERB>
. (.) <PUNCT>


 (

) <SPACE>
Julian (Julian) <PROPN>
Silverman (Silverman) <PROPN>
, (,) <PUNCT>
einer (einer) <PRON>
der (der) <DET>
Leiter (Leiter) <NOUN>
, (,) <PUNCT>
konzipierte (konzipieren) <VERB>
bereits (bereits) <ADV>
1967 (1967) <NUM>
einen (ein) <DET>
Schamanismus (Schamanismus) <NOUN>
als (als) <ADP>
Therapieform (Therapieform) <NOUN>
, (,) <PUNCT>
doch (doch) <CCONJ>
weitaus (weitaus) <ADV>
größere (groß) <ADJ>
Bekanntheit (Bekanntheit) <NOUN>
erreichte (erreichen) <VERB>
in (in) <ADP>
den (der) <DET>
1970er (1970er) <ADJ>
Jahren (Jahr) <NOUN>
das (der) <DET>
Konzept (Konzept) <NOUN>
des (der) <DET>
Esalen-Schülers (Esalen-Schülers) <NOUN>
Michael (Michael) <PROPN>
Harner (Harner) <PROPN>
, (,) <PUNCT>
der (der) <PRON>
Schamanismus (Schamanismus) <NOUN>
als (als) <ADP>
„ („) <PUNCT>
jedem (jed) <DET>
zugängliche (zugängliche) <ADJ>
Technik (Technik) <NOUN>
für (für) <ADP>
persönliche (persönlich) <ADJ>
Experimente (Experiment) <NOUN>
und 

mit (mit) <ADP>
ethnologischen (ethnologisch) <ADJ>
Mitteln (Mittel) <NOUN>
nicht (nicht) <PART>
entscheiden.“[45 (entscheiden.“[45) <VERB>
] (]) <PROPN>
Die (der) <DET>
französische (französische) <ADJ>
Ethnologin (Ethnologin) <NOUN>
Roberte (Roberte) <ADJ>
Hamayon (Hamayon) <PROPN>
verwirft (verwerfen) <VERB>
die (der) <DET>
These (These) <NOUN>
hingegen (hingegen) <ADV>
deutlich (deutlich) <ADV>
mit (mit) <ADP>
der (der) <DET>
Argumentation (Argumentation) <NOUN>
, (,) <PUNCT>
dass (dass) <SCONJ>
veränderte (verändern) <ADJ>
Bewusstseinszustände (Bewusstseinszustände) <NOUN>
empirisch (empirisch) <ADV>
nicht (nicht) <PART>
nachweisbar (nachweisbar) <ADV>
seien (sein) <AUX>
und (und) <CCONJ>
oft (oft) <ADV>
keine (kein) <DET>
Entsprechung (Entsprechung) <NOUN>
in (in) <ADP>
den (der) <DET>
Original-Beschreibungen (Original-Beschreibungen) <NOUN>
der (der) <DET>
Indigenen (Indigenen) <NOUN>
haben.[A (haben.[A) <NOUN>
7 (7) <NUM>
] (]) <PROPN>

 (
) <SPACE>
Weitgehend (Weitgehend) <ADV

Jakutien (Jakutien) <PROPN>
und (und) <CCONJ>
in (in) <ADP>
der (der) <DET>
Baikalregion (Baikalregion) <NOUN>
hatten (haben) <AUX>
enge (eng) <ADJ>
Beziehungen (Beziehung) <NOUN>
zueinander (zueinander) <VERB>
; (;) <PUNCT>
archäologische (archäologische) <ADJ>
Artefakte (Artefakte) <NOUN>
wie (wie) <ADP>
etwa (etwa) <ADV>
Felsbilder (Felsbilder) <ADV>
zeugen (zeugen) <VERB>
davon (davon) <ADV>
, (,) <PUNCT>
die (der) <DET>
gewisse (gewiß) <ADJ>
Rückschlüsse (Rückschlüsse) <NOUN>
auf (auf) <ADP>
ihren (mein) <DET>
religiösen (religiös) <ADJ>
Vorstellungen (Vorstellung) <NOUN>
ermöglichen (ermöglichen) <VERB>
. (.) <PUNCT>
In (In) <ADP>
der (der) <DET>
Tundra (Tundra) <NOUN>
und (und) <CCONJ>
Waldtundra (Waldtundra) <NOUN>
des (der) <DET>
hohen (hoch) <ADJ>
Nordens (Norden) <NOUN>
lebten (leben) <VERB>
vorwiegend (vorwiegen) <ADV>
kleine (kleine) <ADJ>
und (und) <CCONJ>
relativ (relativ) <ADV>
isolierte (isolieren) <ADJ>
Völker (Volk) <NOUN>
, (,) <PUNCT>
die (der) <PRON>
entweder (ent

auf (auf) <ADP>
diese (dies) <DET>
Weise (Weise) <NOUN>
wieder (wieder) <ADV>
ausbalanciert (ausbalanciert) <VERB>
werden (werden) <AUX>
. (.) <PUNCT>


 (

) <SPACE>
Solch (Solch) <DET>
eine (einen) <DET>
Geisterbeschwörung (Geisterbeschwörung) <NOUN>
( (() <PUNCT>
Séance (Séance) <PROPN>
) ()) <PUNCT>
war (sein) <AUX>
eine (einen) <DET>
stark (stark) <ADV>
ritualisierte (ritualisieren) <ADJ>
Angelegenheit (Angelegenheit) <NOUN>
, (,) <PUNCT>
die (der) <PRON>
verschiedene (verschieden) <ADJ>
Maßnahmen (Maßnahme) <NOUN>
erforderte (erfordern) <VERB>
und (und) <CCONJ>
die (der) <PRON>
zur (zur) <ADP>
richtigen (richtig) <ADJ>
Zeit (Zeit) <NOUN>
am (am) <ADP>
richtigen (richtig) <ADJ>
Ort (Ort) <NOUN>
stattfinden (stattfinden) <VERB>
musste (musste) <NOUN>
( (() <PUNCT>
→ (→) <PROPN>
Kamlanie (Kamlanie) <NOUN>
, (,) <PUNCT>
die (der) <PRON>
Séance (Séance) <NOUN>
der (der) <DET>
sibirischen (sibirisch) <ADJ>
Schamanen (Schamane) <NOUN>
im (im) <ADP>
Artikel (Artikel) <NOUN>
„ („) <PUNCT>

, (,) <PUNCT>
führt (führen) <VERB>
bei (bei) <ADP>
der (der) <DET>
schamanischen (schamanischen) <ADJ>
Trance (Trance) <NOUN>
durch (durch) <ADP>
den (der) <DET>
neurologischen (neurologisch) <ADJ>
„ („) <PUNCT>
Hyper-Ruhezustand (Hyper-Ruhezustand) <PROPN>
“ (“) <PUNCT>
zur (zur) <ADP>
passiven (passiv) <ADJ>
oder (oder) <CCONJ>
durch (durch) <ADP>
„ („) <PUNCT>
Hyper-Erregung (Hyper-Erregung) <NOUN>
“ (“) <PUNCT>
zur (zur) <ADP>
aktiven (aktiv) <ADJ>
Ekstase.[55 (Ekstase.[55) <NOUN>
] (]) <ADJ>


 (

) <SPACE>
Der (der) <DET>
Schamane (Schamane) <PROPN>
erlebt (erleben) <VERB>
diesen (dies) <DET>
außergewöhnlichen (außergewöhnlich) <ADJ>
mentalen (mental) <ADJ>
Zustand (Zustand) <NOUN>
stets (stets) <ADV>
als (als) <ADP>
reales (real) <ADJ>
Geschehen (Geschehen) <NOUN>
, (,) <PUNCT>
das (der) <PRON>
scheinbar (scheinbar) <ADV>
außerhalb (außerhalb) <ADP>
seines (mein) <DET>
Geistes (Geist) <NOUN>
stattfindet (stattfinden) <VERB>
. (.) <PUNCT>
Manchmal (Manchmal) <ADV>
sieht (sehen) 

Moderne (Moderne) <ADJ>
Schamanen (Schamane) <NOUN>
im (im) <ADP>
Licht (Licht) <NOUN>
der (der) <DET>
Geschichte (Geschichte) <NOUN>
im (im) <ADP>
Artikel (Artikel) <NOUN>
„ („) <PUNCT>
Schamane (Schamane) <PROPN>
“ (“) <PUNCT>


     (

    ) <SPACE>
„ („) <PUNCT>
Von (Von) <ADP>
allen (alle) <DET>
sekundären (sekundär) <ADJ>
Zusätzen (Zusatz) <NOUN>
abgesehen (absehen) <VERB>
, (,) <PUNCT>
stellt (stellen) <VERB>
der (der) <DET>
Schamanismus (Schamanismus) <NOUN>
im (im) <ADP>
Kern (Kern) <NOUN>
eine (einen) <DET>
sichtlich (sichtlich) <ADV>
sehr (sehr) <ADV>
alte (alt) <ADJ>
und (und) <CCONJ>
optimal (optimal) <ADV>
an (an) <ADP>
die (der) <DET>
Daseinsbedingungen (Daseinsbedingungen) <NOUN>
wild- (wild-) <X>
und (und) <CCONJ>
feldbeuterischer (feldbeuterischer) <ADJ>
Kulturen (Kultur) <NOUN>
angepaßte (angepaßt) <VERB>
, (,) <PUNCT>
das (der) <PRON>
heißt (heißen) <VERB>
scheinbar (scheinbar) <ADV>
` (`) <PUNCT>
bewährte (bewähren) <ADJ>
´ (´) <PROPN>
und (und) <CCONJ>
insofern (i

, (,) <PUNCT>
Sippen (Sippe) <NOUN>
) ()) <PUNCT>
. (.) <PUNCT>
Die (der) <DET>
ethnischen (ethnisch) <ADJ>
Religionen (Religion) <NOUN>
waren (sein) <AUX>
in (in) <ADP>
der (der) <DET>
Regel (Regel) <NOUN>
animistisch (animistisch) <ADV>
. (.) <PUNCT>
Der (der) <DET>
Schamane (Schamane) <NOUN>
war (sein) <AUX>
vorwiegend (vorwiegen) <ADV>
männlich (männlich) <ADV>
. (.) <PUNCT>
Er (ich) <PRON>
glaube (glauben) <VERB>
, (,) <PUNCT>
von (von) <ADP>
Tiergeistern (Tiergeistern) <NOUN>
berufen (berufen) <VERB>
zu (zu) <PART>
sein (mein) <AUX>
und (und) <CCONJ>
war (sein) <AUX>
vor (vor) <ADP>
allem (alle) <PRON>
für (für) <ADP>
den (der) <DET>
Jagderfolg (Jagderfolg) <NOUN>
oder (oder) <CCONJ>
die (der) <DET>
Einhaltung (Einhaltung) <NOUN>
der (der) <DET>
„ („) <PUNCT>
Jagdethik (Jagdethik) <NOUN>
“ (“) <PUNCT>
zuständig (zuständig) <ADV>
, (,) <PUNCT>
wirkte (wirken) <VERB>
aber (aber) <ADV>
auch (auch) <ADV>
als (als) <ADP>
Heiler (Heiler) <NOUN>
und (und) <CCONJ>
überwachte (überwacht) 

Verwandtschaftsverbände (Verwandtschaftsverbände) <NOUN>
, (,) <PUNCT>
Stammesgesellschaften (Stammesgesellschaften) <NOUN>
oder (oder) <CCONJ>
autonome (autonome) <ADJ>
Dorfgemeinschaften (Dorfgemeinschaften) <NOUN>
. (.) <PUNCT>
Die (der) <DET>
animistischen (animistischen) <ADJ>
Religionen (Religion) <NOUN>
waren (sein) <AUX>
komplexer (komplex) <ADV>
( (() <PUNCT>
beispielsweise (beispielsweise) <ADV>
mit (mit) <ADP>
Ahnenkult (Ahnenkult) <NOUN>
, (,) <PUNCT>
Opferwesen (Opferwesen) <PROPN>
und (und) <CCONJ>
einer (einer) <DET>
komplizierten (komplizieren) <ADJ>
Kosmologie (Kosmologie) <NOUN>
) ()) <PUNCT>
. (.) <PUNCT>
Die (der) <DET>
Berufung (Berufung) <NOUN>
der (der) <DET>
Schamanen (Schamane) <NOUN>
wurde (werden) <AUX>
auf (auf) <ADP>
Ahnengeister (Ahnengeister) <NOUN>
oder (oder) <CCONJ>
die (der) <DET>
Totenseelen (Totenseelen) <NOUN>
früherer (früh) <ADJ>
Schamanen (Schamane) <NOUN>
( (() <PUNCT>
letzteres (letzter) <PRON>
vor (vor) <ADP>
allem (alle) <PRON>
bei (bei) <AD

in (in) <ADP>
seinem (mein) <DET>
Inneren (Innere) <NOUN>
zu (zu) <ADP>
erlangen.“[70 (erlangen.“[70) <PROPN>
] (]) <NOUN>

 (
) <SPACE>
Generelle (generell) <ADJ>
Kritik (Kritik) <NOUN>
; (;) <PUNCT>
umstrittene (umstritten) <ADJ>
und (und) <CCONJ>
spekulative (spekulative) <ADJ>
Thesen (These) <NOUN>


 (

) <SPACE>
( (() <PUNCT>
Siehe (Siehe) <VERB>
auch (auch) <ADV>
: (:) <PUNCT>
Sackgassen (Sackgasse) <NOUN>
der (der) <DET>
ethnologischen (ethnologisch) <ADJ>
Religionsforschung (Religionsforschung) <NOUN>
) ()) <PUNCT>

 (
) <SPACE>
Die (der) <DET>
Trennung (Trennung) <NOUN>
in (in) <ADP>
eine (einen) <DET>
natürliche (natürlich) <ADJ>
und (und) <CCONJ>
eine (einen) <DET>
übernatürliche (übernatürlich) <ADJ>
Welt (Welt) <NOUN>
entspringt (entspringen) <VERB>
dem (der) <DET>
christlichen (christlich) <ADJ>
Denken (Denken) <NOUN>
und (und) <CCONJ>
lässt (lässt) <VERB>
sich (sich) <PRON>
nicht (nicht) <PART>
einfach (einfach) <ADV>
auf (auf) <ADP>
andere (ander) <ADJ>
Weltanschauunge

der (der) <DET>
( (() <PUNCT>
unwissenschaftliche (unwissenschaftliche) <ADJ>
) ()) <PUNCT>
Neoschamanismus (Neoschamanismus) <NOUN>
zu (zu) <PART>
sehen (sehen) <VERB>
, (,) <PUNCT>
dessen (der) <DET>
Autoren (Autor) <NOUN>
sich (sich) <PRON>
bei (bei) <ADP>
vielen (viel) <DET>
Schamanismus-Konzepten (Schamanismus-Konzepten) <NOUN>
willkürlich (willkürlich) <ADV>
und (und) <CCONJ>
gutgläubig (gutgläubig) <ADV>
bedienen (bedienen) <VERB>
, (,) <PUNCT>
häufig (häufig) <ADV>
unkritisch (unkritisch) <ADV>
Teile (Teil) <NOUN>
von (von) <ADP>
dieser (dies) <DET>
und (und) <CCONJ>
jener (jen) <DET>
These (These) <NOUN>
vermischen (vermischen) <VERB>
und (und) <CCONJ>
auf (auf) <ADP>
diese (dies) <DET>
Weise (Weise) <NOUN>
fiktive (fiktive) <ADJ>
Gedankengebäude (Gedankengebäude) <NOUN>
schaffen (schaffen) <VERB>
, (,) <PUNCT>
die (der) <PRON>
vorher (vorher) <ADV>
schon (schon) <ADV>
nicht (nicht) <PART>
„ („) <PUNCT>
auf (auf) <ADP>
festen (fest) <ADJ>
Fundamenten (Fundament) <NOUN>
standen

Perspektiven (Perspektive) <NOUN>
in (in) <ADP>
einer (einer) <DET>
Synthese (Synthese) <NOUN>
aus (aus) <ADP>
empirischer (empirisch) <ADJ>
Analyse (Analyse) <NOUN>
und (und) <CCONJ>
imaginativer (imaginativ) <ADJ>
Religionsphilosophie (Religionsphilosophie) <NOUN>
zusammen (zusammen) <ADV>
. (.) <PUNCT>
Lange (langen) <ADJ>
Zeit (Zeit) <NOUN>
galt (gelten) <VERB>
seine (mein) <DET>
These (These) <NOUN>
als (als) <ADP>
das (der) <DET>
Standardwerk (Standardwerk) <NOUN>
zum (zum) <ADP>
Schamanismus (Schamanismus) <NOUN>
. (.) <PUNCT>
Es (ich) <PRON>
trug (tragen) <VERB>
entscheidend (entscheiden) <ADV>
zur (zur) <ADP>
Rehabilitation (Rehabilitation) <NOUN>
spiritueller (spirituell) <ADJ>
Praktiker (Praktiker) <NOUN>
bei (bei) <ADP>
, (,) <PUNCT>
die (der) <PRON>
bis (bis) <ADP>
dato (dato) <X>
als (als) <ADP>
Geisteskranke (Geisteskranke) <NOUN>
oder (oder) <CCONJ>
Scharlatane (Scharlatan) <NOUN>
angesehen (ansehen) <VERB>
wurden (werden) <AUX>
. (.) <PUNCT>


 (

) <SPACE>
Seit (seit)

In [28]:
# POS-filter sentences 

ALLOWED_POS = {"NOUN", "ADJ", "PROPN"}
filtered_sentences = []

for sent in doc.sents:
    tmp_sent = []
    for token in sent:
        
        if token.lemma_.lower() in stops:
            continue
            
        if token.pos_ not in ALLOWED_POS:
            continue
        
        tmp_sent.append(token.lemma_)
    
    if len(tmp_sent) > 0:
        filtered_sentences.append(tmp_sent)

In [29]:
print(filtered_sentences[0])

['Schamanismus', 'eng', 'Sinn', 'traditionell', 'ethnisch', 'Religion', 'Kulturareales', 'Sibirien', 'Nenzen', 'Jakuten', 'Altaier', 'Burjaten', 'Ewenken', 'europäische', 'Samen', 'Vorhandensein', 'Schamane', 'europäisch', 'Forscher', 'Expansionszeit', 'wesentlich', 'gemeinsam', 'Kennzeichen', 'wurde.[1', ']']


In [30]:
all_tokens = [token for sent in filtered_sentences for token in sent]
token_count = Counter(all_tokens)
print(token_count.most_common(25))

[(']', 98), ('Schamane', 72), ('Schamanismus', 67), ('Religion', 23), ('sibirisch', 23), ('Volk', 22), ('These', 20), ('Ekstase', 19), ('\ufeff', 19), ('Phänomen', 17), ('Form', 17), ('Jahrhundert', 17), ('traditionell', 16), ('Kultur', 16), ('Müller', 16), ('verschieden', 15), ('Eliade', 15), ('Autor', 14), ('religiös', 14), ('Trance', 14), ('Kritik', 13), ('Konzept', 12), ('Jahr', 12), ('Welt', 12), ('B.', 11)]
