# n-gram

In [9]:
import numpy as np
import random

class NGramLanguageModel:
    def __init__(self, n=2):
        self.n = n
        self.ngram_dict = {}

    def create_ngrams(self, text):
        words = text.split()
        ngrams = [tuple(words[i:i + self.n]) for i in range(len(words) - self.n + 1)]
        return ngrams

    def train(self, corpus):
        for sentence in corpus:
            ngrams = self.create_ngrams(sentence)
            for ngram in ngrams:
                if ngram in self.ngram_dict:
                    self.ngram_dict[ngram] += 1
                else:
                    self.ngram_dict[ngram] = 1

    def generate_text(self, length=10):
        if not self.ngram_dict:
            raise ValueError("Модель не обучена. Сначала обучите модель на корпусе текста.")
        
        # Начнем генерацию с случайной n-граммы из словаря
        current_ngram = random.choice(list(self.ngram_dict.keys()))
        generated_text = list(current_ngram)

        for _ in range(length - self.n):
            next_word_options = []
            for ngram, count in self.ngram_dict.items():
                if ngram[:-1] == current_ngram[1:]:
                    next_word_options.extend([ngram[-1]] * count)

            if not next_word_options:
                break

            next_word = random.choice(next_word_options)
            generated_text.append(next_word)
            current_ngram = current_ngram[1:] + (next_word,)

        return ' '.join(generated_text)

In [23]:
# Пример использования
# Пример текстовых данных для обучения
corpus = [
    "я люблю программирование",
    "программирование - это увлекательно",
    "язык python - мой любимый",
    "мой компьютер работает на linux",
]

# Создаем модель с биграммами (n=2)
ngram_model = NGramLanguageModel(n=2)

# Обучаем модель на корпусе текста
ngram_model.train(corpus)

# Генерируем текст с использованием модели
generated_text = ngram_model.generate_text(length=10)
print("Сгенерированный текст:")
print(generated_text)

Сгенерированный текст:
python - мой компьютер работает на linux
