In [1]:
from nltk.tokenize import word_tokenize
import re

"""
This function reads text from a file and returns a list of cleaned words.
    @param file_path: A string representing the path to the file to be read.
    @return: A list of cleaned words extracted from the file.
"""
def read_and_clean_text(file_path: str) -> list:
    with open(file_path, encoding="utf-8") as f:
        return [w.lower() for l in (r.strip() for r in f) if l for w in word_tokenize(re.sub(r"[^\w\s\a(){}-]", "", l))]

clear_text = read_and_clean_text("./text.txt")

In [2]:
"""
This function creates a Markov's Chain model from a list of cleaned words.
    @param clear_text: A list of cleaned words to be used as the basis for the model.
    @param n_gram: An integer representing the number of words in each state. Default value is 3.
    @return: A dictionary representing the Markov's Chain model.
"""
def make_MCModel(clear_text: list, n_gram: int = 3) -> dict:
    MCModel = {}
    for i in range(len(clear_text) - (n_gram<<1)+1):
        curr_state, next_state = " ".join(clear_text[i:i + n_gram]), " ".join(clear_text[i + n_gram:i + (n_gram<<1)])
        MCModel.setdefault(curr_state, {}).setdefault(next_state, 0)
        MCModel[curr_state][next_state] += 1
    
    # relative frequency
    for curr_state, transition in MCModel.items():
        total_neighbours = sum(transition.values())
        MCModel[curr_state] = {state: count / total_neighbours for state, count in transition.items()}

    return MCModel

In [3]:
MCModel = make_MCModel(clear_text)
print(f"кількість параметрів: {len(MCModel.keys()) + sum(len(i) for i in MCModel.values())}")

кількість параметрів: 3881


In [4]:
import random as rnd

"""
This function generates a string of text based on a Markov chain model.
    @param MCModel: A dictionary representing the Markov chain model to be used for text generation.
    @param limit: An integer representing the maximum tokens in the generated text. Default value is 30.
    @param start: A string representing the initial state to begin text generation. Default value is "для вашого організму".
    @return: A processed string of generated text.
"""
def generate_text(MCModel: dict, limit: int = 30, start: str="для вашого організму") -> str:
    res = [start]
    for _ in range(limit):
        res.append(rnd.choices(list(MCModel[res[-1]]), list(MCModel[res[-1]].values()))[0])
    return (" ".join(res) + ".").capitalize().replace(" якщо ", ", якщо ").replace(" для ", ". Для ").replace(" під ", ". Під ").replace(" вживання після ", ". Вживання після ").replace(" вживання передтренувальних ", ". Вживання передтренувальних ")

In [5]:
import time

def do_magic() -> type(None):
    str_r = generate_text(MCModel)
    for i in str_r.split():
        time.sleep(.05*rnd.randint(0, 15))
        print(i, end=" ")

In [7]:
do_magic()

Для вашого організму краще почати пити 200 мл води вранці щоб залишатися гідратованим і підготувати організм до фізичної активності протягом дня, якщо ви хочете підвищити рівень енергії та покращити продуктивність гідратація є ключовим фактором. Під час тренування і вживання води або спортивних напоїв через регулярні проміжки часу може допомогти підтримувати рівень гідратації та запобігти втомі. Для спортсменів які займаються високоінтенсивними тренуваннями вживання післятренувальних добавок що містять куркумін може допомогти зменшити біль у мязах. Вживання передтренувальних добавок що містять аргінін може допомогти покращити кровообіг та посилити метаболізм у мязах спортсменам які займаються високоінтенсивними тренуваннями. 