In [5]:
from collections import defaultdict, Counter
import random

# Step 1: Preprocess text and build transition matrix
def build_markov_chain(text, n=2):
    words = text.split() # Разделяем текст на слова
    transitions = defaultdict(Counter) # Создаем словарь для хранения переходов:
                                      # ключ - текущее состояние (N-грамма),
                                      # значение - счетчик для следующего слова

    for i in range(len(words) - n):
        current_state = tuple(words[i:i+n]) # Текущее состояние (N-грамма)
        next_state = words[i+n]           # Следующее слово после N-граммы
        transitions[current_state][next_state] += 1 # Увеличиваем счетчик для этого перехода

    # Convert counts to probabilities (преобразуем счетчики в вероятности)
    for current_state, next_states_counts in transitions.items():
        total = sum(next_states_counts.values()) # Общее количество раз, когда встречалось текущее состояние
        for next_state in next_states_counts:
            next_states_counts[next_state] /= total # Делим счетчик на общее количество, получаем вероятность

    return transitions

# Step 2: Generate text using the Markov Chain
def generate_text(markov_chain, start_state, length=10):
    current_state = start_state # Начинаем с заданного начального состояния
    text = list(current_state)  # Инициализируем текст начальным состоянием

    for _ in range(length): # Генерируем слова до заданной длины
        if current_state not in markov_chain: # Если текущего состояния нет в нашей цепи, останавливаемся
            break
        # Случайно выбираем следующее слово на основе вероятностей
        next_word = random.choices(
            list(markov_chain[current_state].keys()), # Возможные следующие слова
            list(markov_chain[current_state].values()) # Их вероятности
        )[0] # random.choices возвращает список, берем первый элемент
        text.append(next_word) # Добавляем слово к тексту
        current_state = tuple(text[-n:]) # Обновляем текущее состояние (последние n слов)

    return ' '.join(text)

# Example usage
text = "The cat sat on the mat. The cat was happy. The dog was jealous."
n = 2 # Размер N-граммы (биграммы)

markov_chain = build_markov_chain(text, n=n)
start_state = ("The", "dog") # Начальное состояние для генерации

generated_text = generate_text(markov_chain, start_state, length=10)
print(generated_text)

The dog was jealous.
