In [129]:
import numpy            as np
import pandas           as pd
import plotly.express   as px
import spacy
from spacy import displacy

file_path = "data\schloss-gripsholm-text.txt"
nlp = spacy.load("de_core_news_lg")


In [141]:
with open(file_path) as f:
    text = f.read().replace("\n\n", " ").replace("\n", " ").replace(" \s+", " ")
    chapters = text.split("## ")[1:]

doc = nlp(chapters[0])
sentences = list(doc.sents)
sentence = sentences[31]
print(sentence)

html = displacy.render(sentence, style="dep")

for w in sentence:
    print(w, w.pos_)

Ich denkelte so vor mich hin.


Ich PRON
denkelte VERB
so ADV
vor ADP
mich PRON
hin ADV
. PUNCT


In [108]:
tokens = []

for sentence in sentences:
    for token in sentence:
        if ((token.pos_ != "PUNCT") and
            (token.pos_ != "DET") and
            (token.pos_ !=  "PRON")):
            tokens.append(token.lemma_)

In [109]:
fig = px.histogram(tokens)
fig.update_xaxes(categoryorder="mean descending")

In [110]:
df = pd.DataFrame(tokens, columns=["token"])
fr = df["token"].value_counts()
# print(fr)

df.drop_duplicates(subset=["token"], inplace=True, keep="last")
df["token_freq"] = fr[df["token"]].to_numpy()
# df.at[1, "token_freq"] = int(fr[df.at[1, "token"]])
# print(fr)
df.head(25)

Unnamed: 0,token,token_freq
0,Reise,1
2,Norden,1
4,Altstimme,1
6,heißen,1
8,Karlchen,1
10,Jakopp,1
16,dreien,1
18,tun,1
22,dürfen,1
25,nennen,2


In [111]:
bins = np.linspace(min(df["token_freq"]), max(df["token_freq"]), 4)
df["freq_bins"] = pd.cut(df["token_freq"], bins, include_lowest=True)
df.head()

Unnamed: 0,token,token_freq,freq_bins
0,Reise,1,"(0.999, 28.333]"
2,Norden,1,"(0.999, 28.333]"
4,Altstimme,1,"(0.999, 28.333]"
6,heißen,1,"(0.999, 28.333]"
8,Karlchen,1,"(0.999, 28.333]"


In [112]:
fig = px.histogram(df["token_freq"])
fig.update_xaxes(categoryorder="mean descending")

In [113]:
df.index.max() * 0.8

928.8000000000001

In [114]:
df.sort_values(by=["token_freq"], ascending=False, inplace=True)
df = df.reset_index(drop=True)
df.head(25)

Unnamed: 0,token,token_freq,freq_bins
0,und,83,"(55.667, 83.0]"
1,sein,50,"(28.333, 55.667]"
2,haben,23,"(0.999, 28.333]"
3,in,22,"(0.999, 28.333]"
4,sagen,20,"(0.999, 28.333]"
5,dann,18,"(0.999, 28.333]"
6,sehen,16,"(0.999, 28.333]"
7,Prinzessin,16,"(0.999, 28.333]"
8,nicht,16,"(0.999, 28.333]"
9,auf,15,"(0.999, 28.333]"


In [115]:
i = 0
while i <= round(df.index.max()*0.8):
    print(df.at[i, "token"])
    i += 1

und
sein
haben
in
sagen
dann
sehen
Prinzessin
nicht
auf
zu
da
wie
aber
an
so
von
wenn
sprechen
mit
werden
nach
Frau
Lydia
Sprache
können
ja
schön
aus
bei
als
Mann
nur
nun
Platt
noch
gut
fahren
schon
Schweden
doch
gehen
schwedisch
Leute
fragen
sitzen
Fähr
dass
auch
also
machen
wohnen
wieder
wo
gar
immer
ganz
stehen
finden
hier
erst
wissen
für
neue
Kopenhagen
lange
Missingsch
liegen
halten
sehr
Zeit
oder
Hand
Wort
nie
vor
einmal
Heringe
mal
denn
Religion
Däne
Deutsch
verstehn
helfen
deutsch
grob
zwei
Generalkonsul
bissch
Hochdeutsch
kommen
ob
Geld
tief
Urlaub
Satz
endlich
komisch
fein
zehn
Liebe
nennen
viel
gehören
Augenblick
Abendessen
dabei
wussen
Helsingör
schnell
gessen
flach
eigentlich
Zug
hinten
weiter
über
schlief
verstehen
manchmal
wohl
fremd
Seite
Meer
denken
fest
Gegend
dänisch
warum
Warnemünde
Peter
wollen
Küste
riechen
Hotel
Haus
klein
heraus
Gelegenheit
rein
Buch
freundlich
Spanier
Besoffener
streichelen
Thorwaldsen-Museum
Mal
Rathaus
vorig
Wärme
Neid"-
murmeln
Küche
rollen
