In [1]:
import string
import math
from pystempel import Stemmer
from itertools import groupby

stemmer = Stemmer.default()

file = open("pan-tadeusz.txt", "r")
text = file.read()
file.close()

def extracact_words(text):
    words = text.split()

    words = [word.lower() for word in words]
    words = [word.strip(string.punctuation) for word in words]
    words = [word.strip("—»«…") for word in words]
    words = [word.strip(string.punctuation) for word in words]
    words = [word for word in words if word]
    words = [word for word in words if not word.isnumeric()]

    stop_words_file = open("stop-words.txt", "r")
    stop_words = stop_words_file.read().split()
    stop_words_file.close()

    words = [stemmer(word) for word in words]
    words = [word for word in words if word not in stop_words]

    # drop None values
    words = [word for word in words if word]

    return words

words = extracact_words(text)

print(words)

Loading: 100%|██████████| 2225192/2225192 [00:00<00:00, 2678813.73bytes/s]


['adać', 'mickiewicz', 'tadeusz', 'czyć', 'ostatni', 'zajazd', 'litwa', 'księgać', 'pierwy', 'gospodarstwo', 'powrót', 'panicz', 'spotkać', 'pierwy', 'pokoik', 'drugie', 'stołu', 'ważny', 'sędzi', 'nauka', 'grzeczność', 'podkomorzy', 'uwaga', 'polityczny', 'modami', 'początek', 'spor', 'kusy', 'eć', 'żały', 'wojski', 'ostatni', 'woźny', 'trybunał', 'rzucit', 'oko', 'ówczesny', 'stan', 'polityczny', 'litwa', 'europa', 'liwać', 'ojczyznyć', 'y', 'zdrowie', 'cenić', 'tylkć', 'dowie', 'stąić', 'dziść', 'piękność', 'twą', 'ca', 'ozdobie', 'widzieć', 'opisywać', 'tęsknić', 'panna', 'świę', 'jasny', 'bronić', 'częstochowy', 'ostry', 'świecić', 'bram', 'groda', 'zamkowy', 'nowogródzki', 'ochraniać', 'wierny', 'lud', 'mn', 'dziecko', 'zdrowia', 'powrócić', 'cudo', 'płaczęcy', 'mat', 'twoon', 'opieka', 'ofiarować', 'martwy', 'podnieść', 'powieić', 'eć', 'móc', 'pieszo', 'twy', 'świątynia', 'próg', 'ist', 'wrócony', 'żyto', 'podziękować', 'bóg', 'tk', 'us', 'powrócić', 'cudo', 'ojczyzna', 'łon', 

In [2]:
def count_words(words):
    pairs = [(w, 1) for w in words]
    pairs.sort()

    word = lambda pair: pair[0]
    grouped_pairs = [(w, sum(1 for _ in g)) for w, g in groupby(pairs, key=word)]

    return grouped_pairs

In [3]:
words_count = count_words(words)
words_count.sort(key=lambda pair: pair[1], reverse=True)
words_count = words_count[4:150]
print(words_count)

[('swój', 193), ('rzec', 188), ('hrabia', 178), ('tadeusz', 174), ('wszystki', 170), ('mn', 155), ('tylkć', 149), ('raz', 146), ('chcieć', 132), ('móc', 132), ('tać', 128), ('sędzie', 127), ('wielki', 127), ('wojski', 126), ('widzieć', 121), ('ć', 116), ('dom', 112), ('mówić', 110), ('sać', 103), ('czas', 102), ('przedć', 102), ('przyć', 100), ('zosia', 100), ('przee', 97), ('jedny', 91), ('wszyski', 90), ('choć', 88), ('głów', 87), ('pot', 87), ('stać', 85), ('teraa', 83), ('serce', 82), ('dziść', 80), ('ów', 78), ('brać', 77), ('drugi', 77), ('niecum', 76), ('eć', 75), ('kieda', 74), ('krzyknąć', 74), ('siedzieć', 74), ('bóg', 72), ('lud', 72), ('soplica', 72), ('klucznik', 71), ('myśleć', 71), ('naweta', 71), ('us', 71), ('droga', 70), ('las', 70), ('bronić', 69), ('robak', 69), ('ręki', 67), ('stron', 67), ('zacząć', 67), ('biały', 65), ('szlachtay', 64), ('cóż', 62), ('żyć', 62), ('koniec', 61), ('teżyć', 61), ('alć', 60), ('gerwaza', 60), ('noga', 60), ('ręce', 60), ('wziąć', 60)

In [4]:
file = open("output.txt", "w")
for word, _ in words_count:
    file.write(f"{word}\n")

file.close()

In [5]:
documents = ["księga-1", "księga-2", "księga-3", "księga-4", "księga-5", "księga-6", "księga-7", "księga-8", "księga-9", "księga-10", "księga-11", "księga-12", "epilog"]

words_in_documents = {}

for document in documents:
    file = open(f"rozdziały/{document}.txt", "r")
    text = file.read()

    words = extracact_words(text)
    words_count = count_words(words)

    words_in_documents[document] = words_count

    file.close()

In [6]:
tf_idf_dict = {}
for document in documents:

    tf_idf_dict[document] = {}

    for word, count in words_in_documents[document]:
        tf = count
        
        counter = 0
        for other_document in documents:
            if other_document == document:
                continue

            if word in dict(words_in_documents[other_document]):
                counter += 1

        idf = math.log(len(documents) / (1 + counter))
        tf_idf = tf * idf
        tf_idf_dict[document][word] = tf_idf

print(tf_idf_dict)

{'księga-1': {'adiut': 2.5649493574615367, 'adwokat': 2.5649493574615367, 'afekt': 1.466337068793427, 'alkowy': 1.466337068793427, 'alpów': 2.5649493574615367, 'alternata': 2.5649493574615367, 'alć': 0.48025624604121814, 'ambon': 1.466337068793427, 'angielski': 1.1786549963416462, 'architekt': 1.8718021769015913, 'architektura': 1.8718021769015913, 'armistycjum': 2.5649493574615367, 'asesor': 2.206348680751904, 'aster': 2.5649493574615367, 'austeyć': 1.8718021769015913, 'autor': 2.5649493574615367, 'awanpostacć': 2.5649493574615367, 'ać': 2.476156833624894, 'ażeby': 0.5247285289349821, 'baczność': 2.5649493574615367, 'bagnama': 2.5649493574615367, 'bal': 1.8718021769015913, 'baron': 5.1298987149230735, 'barwać': 1.466337068793427, 'bawić': 1.4708991205012694, 'bazyliszek': 2.5649493574615367, 'baśni': 2.5649493574615367, 'beczący': 2.5649493574615367, 'bernardyna': 1.8386239006265868, 'bernardyński': 1.8718021769015913, 'bernatowicze': 2.5649493574615367, 'bezładność': 2.56494935746153

In [7]:
for document in documents:
    file = open(f"wordclouds/{document}.txt", "w")
    
    words = tf_idf_dict[document]
    words = [(word, tf_idf) for word, tf_idf in words.items()]
    words.sort(key=lambda pair: pair[1], reverse=True)
    words = words[:150]

    for word, _ in words:
        file.write(f"{word}\n")

    file.close()

In [8]:
def rank_documents(word, tf_idf_dict):
    ranks = []

    for document in documents:
        if word in tf_idf_dict[document]:
            ranks.append((document, tf_idf_dict[document][word]))
        else:
            ranks.append((document, 0))

    ranks.sort(key=lambda pair: pair[1], reverse=True)
    return ranks

In [9]:
ranks = rank_documents("wojski", tf_idf_dict)

print(ranks)

[('księga-4', 4.677514370568654), ('księga-12', 3.1740276086001584), ('księga-5', 2.5058112699474937), ('księga-1', 2.338757185284327), ('księga-11', 2.338757185284327), ('księga-2', 1.6705408466316625), ('księga-8', 1.5034867619684962), ('księga-9', 1.0023245079789973), ('księga-3', 0.8352704233158312), ('księga-6', 0.6682163386526649), ('księga-10', 0.33410816932633247), ('księga-7', 0), ('epilog', 0)]


In [10]:
file = open("pan-tadeusz.txt", "r")
text = file.read()
file.close()

words = extracact_words(text)

word_pairs = [(words[i], words[i + 1]) for i in range(len(words) - 1)]

word_pairs_count = count_words(word_pairs)

In [11]:
next_words = {}

for (word, next_word), count in word_pairs_count:
    if word not in next_words:
        next_words[word] = []

    if len(next_words[word]) < 5:
        next_words[word].append((next_word, count))
    else:
        # sort by count
        next_words[word].sort(key=lambda pair: pair[1])
        if count > next_words[word][0][1]:
            next_words[word][0] = (next_word, count)


print(next_words)

{'absolucja': [('dobra', 1)], 'abym': [('często', 1), ('rączki', 1), ('służyć', 1)], 'abyś': [('raczyć', 1), ('zostać', 1)], 'achar': [('got', 1)], 'adama': [('al', 1), ('ojec', 1), ('skłócić', 1)], 'adać': [('mickiewicz', 1)], 'adiut': [('sztab', 1)], 'administracja': [('prowadzić', 1)], 'adwokacki': [('wiesz', 1)], 'adwokat': [('rejen', 1)], 'afekt': [('mieć', 1), ('serdeczny', 1), ('stąd', 1)], 'afirmatywa': [('jeżeć', 1)], 'agrest': [('ogrodnik', 1), ('przeskoczyć', 1)], 'agrestowy': [('wiedzący', 1)], 'aha': [('ob', 1)], 'akademia': [('naonczas', 1)], 'akordy': [('fortissiuy', 1), ('muszek', 1), ('rozdąsać', 1), ('syk', 1)], 'akordów': [('wiązać', 1)], 'aksamit': [('trawa', 1), ('zielonej', 1)], 'aksamitny': [('prawy', 1)], 'akt': [('konfederacki', 1), ('mieć', 1), ('spisać', 1), ('urzędowy', 1)], 'akta': [('mieć', 1), ('psuć', 1)], 'aktach': [('jeneralnóść', 1)], 'aktami': [('sławny', 1)], 'aktor': [('scena', 1)], 'al': [('słyszeć', 1), ('tęsknić', 1)], 'alabastrowy': [('stronica

In [16]:
import random

word = "natenczas"

for i in range(100):
    print(word, end=" ")
    if word not in next_words:
        break

    next_word = next_words[word][random.randint(0, len(next_words[word]) - 1)][0]
    word = next_word


natenczas wojski woźny przedć oko zmrużyć strzelki obrócić czuły pożegnać stolnik kuchmistrz szlafmyca wojski tadeusz hrabia mieć prawo wszyski równy droga afekt stąd czas jużyć tylkć głos zawołać klucznik mieć dosyć chyba tadeusz widzieć mieć czas jużyć późno ksiądza bartochowski składając panegiryk ogromny czarny c kłada kolana ciotek ciągły naprzykrzona muchać tużyć drugi stron obie mocny burzyć caić dworze drug buzdygan groźny cofać kolani wspierać prawidło przyrodzenie patrzęcy kolejno gromada got tylkć dziść chcieć konieczny obrót lada czchać niy chwytać dziewcza wstrząsnąć ostatni horeśk płynąć droga afekt serdeczny obrócić bok gdyb choć tk mówić smutn pochylić ciała rzezać kształt byk 