<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/NLP/NLP-2025/%D0%A2%D0%BE%D0%BA%D0%B5%D0%BD%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F_(%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%BD%D1%8B%D0%B9_%D0%BA%D0%BE%D0%B4).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
text = "Привет, мир! Это простой пример токенизации."
tokens = text.split()
print(f"Исходный текст: '{text}'")
print(f"Токены (Whitespace Tokenization): {tokens}")

text_with_punctuation = "Он сказал: 'Привет!' Как дела?"
tokens_punct = text_with_punctuation.split()
print(f"\nИсходный текст с пунктуацией: '{text_with_punctuation}'")
print(f"Токены (Whitespace Tokenization): {tokens_punct}")

text_with_contraction = "I don't know. It's complicated."
tokens_contraction = text_with_contraction.split()
print(f"\nИсходный текст с сокращением: '{text_with_contraction}'")
print(f"Токены (Whitespace Tokenization): {tokens_contraction}")

In [None]:
import re
# Регулярное выражение для извлечения слов и чисел, игнорируя пунктуацию
# \b - граница слова
# \w+ - один или более буквенно-цифровых символов (буквы, цифры, подчеркивание)
# \d+ - один или более цифр
# [^\w\s] - любой символ, который не является буквенно-цифровым и не является пробелом (т.е. пунктуация)
# | - ИЛИ
text = "Привет, мир! Это простой пример токенизации. 123.45"
# Вариант 1: Извлекаем слова и числа, пунктуацию отдельно
# pattern = r'\b\w+\b|\d+\.\d+|\S' # Более сложный шаблон для чисел и пунктуации
pattern = r"\b\w+\b|\d+\.\d+|[^\w\s]" # Извлекает слова, числа с десятичной точкой и отдельные знаки пунктуации
tokens = re.findall(pattern, text)
print(f"Исходный текст: '{text}'")
print(f"Токены (Regex Tokenization - Вариант 1): {tokens}")

# Более продвинутый Regex для слов, чисел и пунктуации,
# который также пытается сохранить сокращения.
# \w+ - слова, \d+ - числа, \s+ - пробелы, [.,!?;:] - пунктуация
# (?:[a-zA-Z]+(?:'[a-zA-Z]+)?|\d+(?:\.\d+)?|[.,!?;:])
# Это регулярное выражение пытается захватить:
# 1. Слова, возможно, с апострофом (например, don't, It's)
# 2. Числа, возможно, с десятичной точкой (например, 123, 123.45)
# 3. Отдельные знаки пунктуации
pattern_advanced = r"[a-zA-Z]+(?:'[a-zA-Z]+)?|\d+(?:\.\d+)?|[.,!?;:]"
text_combined = "Привет, мир! I don't know. Это 123.45."
tokens_advanced = re.findall(pattern_advanced, text_combined, re.IGNORECASE | re.UNICODE)
# re.IGNORECASE для игнорирования регистра, re.UNICODE для работы с юникодом (русские буквы)
print(f"\nИсходный текст (комбинированный): '{text_combined}'")
print(f"Токены (Regex Tokenization - Продвинутый): {tokens_advanced}")

# Для русского текста лучше использовать более общий шаблон для слов
# или специализированные библиотеки.
# \b - граница слова, \w+ - буквенно-цифровые символы (включая русские буквы при re.UNICODE)
pattern_russian = r'\b\w+\b|[.,!?;:]'
text_russian = "Привет, мир! Как дела? Это русский текст."
tokens_russian = re.findall(pattern_russian, text_russian, re.UNICODE)
print(f"\nИсходный текст (русский): '{text_russian}'")
print(f"Токены (Regex Tokenization - Русский): {tokens_russian}")


In [None]:
# Установка NLTK (если еще не установлено)
# pip install nltk

# Загрузка необходимых данных NLTK
import nltk
try:
    nltk.data.find('tokenizers/punkt')
except LookupError:
    nltk.download('punkt')

try:
    nltk.data.find('tokenizers/punkt_tab')
except LookupError:
    nltk.download('punkt_tab')

In [None]:
from nltk.tokenize import word_tokenize

text_en = "Hello, Mr. Smith! How are you doing today? I don't know."
tokens_en = word_tokenize(text_en)
print(f"Исходный текст (английский): '{text_en}'")
print(f"Токены (nltk.tokenize.word_tokenize): {tokens_en}")

text_ru = "Привет, мир! Как у вас дела сегодня? Я не знаю."
tokens_ru = word_tokenize(text_ru)
print(f"\nИсходный текст (русский): '{text_ru}'")
print(f"Токены (nltk.tokenize.word_tokenize): {tokens_ru}")

text_complex = "Dr. Smith said, 'It's 12.30 p.m. now.'"
tokens_complex = word_tokenize(text_complex)
print(f"\nИсходный текст (сложный): '{text_complex}'")
print(f"Токены (nltk.tokenize.word_tokenize): {tokens_complex}")


In [None]:
from nltk.tokenize import sent_tokenize
text_multi_sentence_en = "Hello world! How are you? This is a test. Mr. Smith arrived."
sentences_en = sent_tokenize(text_multi_sentence_en)
print(f"Исходный текст (английский): '{text_multi_sentence_en}'")
print(f"Предложения (nltk.tokenize.sent_tokenize): {sentences_en}")

text_multi_sentence_ru = "Привет, мир! Как дела? Это тестовый текст. Доктор Смирнов приехал."
sentences_ru = sent_tokenize(text_multi_sentence_ru)
print(f"\nИсходный текст (русский): '{text_multi_sentence_ru}'")
print(f"Предложения (nltk.tokenize.sent_tokenize): {sentences_ru}")

text_with_abbreviation = "The U.S. government implemented new policies. Dr. Jones agreed."
sentences_abbrev = sent_tokenize(text_with_abbreviation)
print(f"\nИсходный текст с аббревиатурой: '{text_with_abbreviation}'")
print(f"Предложения (nltk.tokenize.sent_tokenize): {sentences_abbrev}")

In [None]:
!python -m spacy download ru_core_news_sm

In [None]:
import spacy

# Загрузка английской модели (если еще не загружена)
# python -m spacy download en_core_web_sm
nlp_en = spacy.load("en_core_web_sm")

# Пример 4.1: Токенизация с использованием spaCy (английский)
text_en = "Hello, Mr. Smith! How are you doing today? I don't know. It's 12.30 p.m. now."
doc_en = nlp_en(text_en)
tokens_en = [token.text for token in doc_en]
sentences_en = [sent.text for sent in doc_en.sents] # spaCy также умеет токенизировать предложения

print(f"Исходный текст (английский): '{text_en}'")
print(f"Токены (spaCy): {tokens_en}")
print(f"Предложения (spaCy): {sentences_en}")

# Загрузка русской модели (если еще не загружена)
# python -m spacy download ru_core_news_sm
nlp_ru = spacy.load("ru_core_news_sm")

# Пример 4.2: Токенизация с использованием spaCy (русский)
text_ru = "Привет, мир! Как у вас дела сегодня? Я не знаю. Доктор Смирнов приехал в 12:30."
doc_ru = nlp_ru(text_ru)
tokens_ru = [token.text for token in doc_ru]
sentences_ru = [sent.text for sent in doc_ru.sents]

print(f"\nИсходный текст (русский): '{text_ru}'")
print(f"Токены (spaCy): {tokens_ru}")
print(f"Предложения (spaCy): {sentences_ru}")

In [None]:
import re

text = """
<p>Привет, мир! Это <strong>пример</strong> текста с <a href="http://example.com">ссылкой</a>.
Мой email: user@domain.com. Телефон: +7 (999) 123-45-67.
Дата: 23.07.2025. Цена: $123.45.
Много   лишних    пробелов.
</p>
"""

print("Оригинальный текст:\n", text)

# 1. Удаление HTML-тегов
# <.*?> - нежадный поиск любого текста между < и >
cleaned_text = re.sub(r'<.*?>', '', text)
print("\n1. Без HTML-тегов:\n", cleaned_text)

# 2. Удаление URL-адресов
# http\S+ - http, за которым следуют один или более не-пробельных символов
# www\S+ - www, за которым следуют один или более не-пробельных символов
cleaned_text = re.sub(r'http\S+|www\S+', '', cleaned_text)
print("\n2. Без URL-адресов:\n", cleaned_text)

# 3. Удаление email-адресов
# \b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b - общий паттерн для email
cleaned_text = re.sub(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', '', cleaned_text)
print("\n3. Без email-адресов:\n", cleaned_text)

# 4. Удаление чисел и символов, кроме букв и пробелов
# [^a-zа-я\s] - любой символ, который НЕ является латинской буквой, кириллической буквой или пробелом
cleaned_text = re.sub(r'[^a-zа-я\s]', '', cleaned_text.lower()) # Приводим к нижнему регистру
print("\n4. Только буквы и пробелы (нижний регистр):\n", cleaned_text)

# 5. Удаление лишних пробелов и обрезка по краям
# \s+ - один или более пробельных символов
final_cleaned_text = re.sub(r'\s+', ' ', cleaned_text).strip()
print("\n5. Финальный очищенный текст:\n", final_cleaned_text)

# Дополнительный пример: Извлечение телефонных номеров
phone_text = "Мой номер: +1 (555) 123-4567, или 8-800-555-35-35. А также 123 456 7890."
# Паттерн для различных форматов телефонных номеров
phone_numbers = re.findall(r'\+?\d{1,3}[-.\s]?\(?\d{3}\)?[-.\s]?\d{3}[-.\s]?\d{2}[-.\s]?\d{2}|\d{1,3}[-.\s]?\(?\d{3}\)?[-.\s]?\d{3}[-.\s]?\d{4}', phone_text)
print(f"\nНайденные телефонные номера: {phone_numbers}")

In [None]:
import collections

class BPE:
    """
    Реализация алгоритма Byte-Pair Encoding (BPE) для токенизации текста.
    """
    def __init__(self, vocab_size=None, num_merges=None):
        """
        Инициализирует BPE токенизатор.
        :param vocab_size: Желаемый максимальный размер словаря субтокенов.
                           Если указан, num_merges будет игнорироваться.
        :param num_merges: Количество итераций объединения пар.
                           Если vocab_size не указан, будет использоваться это значение.
        """
        if vocab_size is None and num_merges is None:
            raise ValueError("Необходимо указать либо vocab_size, либо num_merges.")

        self.vocab_size = vocab_size
        self.num_merges = num_merges
        self.merges = {}  # Словарь для хранения выполненных объединений {pair: new_token}
        self.vocabulary = set() # Текущий словарь субтокенов
        self.token_to_id = {} # Словарь для преобразования токенов в ID
        self.id_to_token = [] # Список для преобразования ID в токены

    def _get_initial_tokens(self, text):
        """
        Разбивает текст на начальные символьные токены и добавляет символ конца слова.
        :param text: Входная строка.
        :return: Список списков символьных токенов для каждого слова.
        """
        # Заменяем подчеркивания на пробелы для разделения слов, затем разбиваем по пробелам
        words = text.replace('_', ' ').split()
        initial_tokens = []
        for word in words:
            # Добавляем символ конца слова к каждому слову
            initial_tokens.append(list(word) + ['</w>'])
        return initial_tokens

    def _get_pair_counts(self, tokenized_corpus):
        """
        Подсчитывает частоту встречаемости всех смежных пар токенов в корпусе.
        :param tokenized_corpus: Список списков токенов (представляющих слова).
        :return: Словарь с частотами пар {('token1', 'token2'): count}.
        """
        pair_counts = collections.defaultdict(int)
        for word_tokens in tokenized_corpus:
            # Итерируем по парам токенов в каждом слове
            for i in range(len(word_tokens) - 1):
                pair_counts[(word_tokens[i], word_tokens[i+1])] += 1
        return pair_counts

    def _merge_pair(self, tokenized_corpus, pair, new_token):
        """
        Объединяет все вхождения заданной пары в новый токен в корпусе.
        :param tokenized_corpus: Текущий корпус токенов.
        :param pair: Пара токенов для объединения (tuple).
        :param new_token: Новый токен, который заменит пару.
        :return: Обновленный корпус токенов.
        """
        updated_corpus = []
        for word_tokens in tokenized_corpus:
            new_word_tokens = []
            i = 0
            while i < len(word_tokens):
                # Проверяем, является ли текущая позиция началом искомой пары
                if i + 1 < len(word_tokens) and (word_tokens[i], word_tokens[i+1]) == pair:
                    new_word_tokens.append(new_token)
                    i += 2 # Пропускаем оба токена, которые были объединены
                else:
                    new_word_tokens.append(word_tokens[i])
                    i += 1
            updated_corpus.append(new_word_tokens)
        return updated_corpus

    def fit(self, corpus_text):
        """
        Обучает BPE модель на заданном текстовом корпусе.
        :param corpus_text: Строка, представляющая обучающий корпус.
        """
        # Шаг 1: Инициализация
        # Начальное разбиение на символы и добавление символа конца слова
        current_corpus_tokens = self._get_initial_tokens(corpus_text)

        # Формирование начального словаря из всех уникальных символов
        for word_tokens in current_corpus_tokens:
            for token in word_tokens:
                self.vocabulary.add(token)

        # Определяем количество итераций объединения
        if self.vocab_size is not None:
            # Если задан размер словаря, вычисляем необходимое количество объединений
            # (целевой размер словаря - текущий размер словаря)
            num_iterations = self.vocab_size - len(self.vocabulary)
        elif self.num_merges is not None:
            num_iterations = self.num_merges
        else:
            # Это условие не должно быть достигнуто благодаря проверке в __init__
            num_iterations = 0

        # Шаг 2: Итеративное объединение
        for i in range(num_iterations):
            pair_counts = self._get_pair_counts(current_corpus_tokens)

            if not pair_counts: # Если нет пар для объединения, останавливаемся
                break

            # Находим наиболее частую пару
            # Сортируем по частоте (убывание), затем по лексикографическому порядку (возрастание)
            best_pair = max(pair_counts, key=lambda p: (pair_counts[p], -len(p[0]) - len(p[1]), p))

            # Если частота лучшей пары меньше 1, или нет пар для объединения, останавливаемся
            if pair_counts[best_pair] < 1:
                break

            # Формируем новый токен из объединенной пары
            new_token = "".join(best_pair)

            # Сохраняем объединение
            self.merges[best_pair] = new_token

            # Обновляем корпус, заменяя все вхождения пары новым токеном
            current_corpus_tokens = self._merge_pair(current_corpus_tokens, best_pair, new_token)

            # Добавляем новый токен в словарь
            self.vocabulary.add(new_token)

            # Вывод результатов каждого шага
            print(f"Итерация {i+1}: Объединение '{best_pair[0]}{best_pair[1]}' в '{new_token}'. Частота: {pair_counts[best_pair]}")
            print(f"Обновленный корпус: {current_corpus_tokens}")
            print(f"Текущий словарь: {sorted(list(self.vocabulary))}\n")

        # После обучения создаем отображения токенов в ID и обратно
        self.id_to_token = sorted(list(self.vocabulary))
        self.token_to_id = {token: i for i, token in enumerate(self.id_to_token)}

    def encode(self, text):
        """
        Токенизирует новую строку, используя обученные объединения.
        :param text: Строка для токенизации.
        :return: Список ID токенов.
        """
        # Начальное разбиение текста на символы с добавлением </w>
        words_tokens = self._get_initial_tokens(text)
        encoded_tokens_ids = []

        for word_tokens in words_tokens:
            # Для каждого слова применяем объединения в порядке их обучения
            # Создаем копию списка токенов слова для модификации
            current_word_tokens = list(word_tokens)

            # Применяем объединения итеративно, пока не сможем найти более длинный токен
            # или пока не закончатся объединения
            while True:
                merged_once = False
                new_word_tokens = []
                i = 0
                while i < len(current_word_tokens):
                    found_merge = False
                    # Ищем самое длинное возможное объединение, которое начинается с текущего токена
                    # Проходим по всем известным объединениям в порядке их создания (от коротких к длинным)
                    # или просто ищем самое длинное совпадение
                    best_match_len = 0
                    best_match_token = None

                    # Для простоты, будем применять объединения из self.merges
                    # в порядке их создания (от коротких к длинным)
                    # Это не совсем оптимально, но для демонстрации подходит
                    # В реальных реализациях используют более сложные структуры данных
                    # для эффективного поиска наиболее длинного совпадения
                    for (p1, p2), merged_token in self.merges.items():
                        if i + 1 < len(current_word_tokens) and \
                           current_word_tokens[i] == p1 and \
                           current_word_tokens[i+1] == p2:
                            # Проверяем, является ли это объединение частью более длинного
                            # уже существующего в словаре токена
                            if len(merged_token) > best_match_len:
                                best_match_len = len(merged_token)
                                best_match_token = merged_token
                                found_merge = True

                    if found_merge:
                        new_word_tokens.append(best_match_token)
                        i += 2
                        merged_once = True
                    else:
                        new_word_tokens.append(current_word_tokens[i])
                        i += 1

                if not merged_once:
                    break # Больше нет объединений для этого слова

                current_word_tokens = new_word_tokens

            # Преобразуем токены слова в их ID
            for token in current_word_tokens:
                if token in self.token_to_id:
                    encoded_tokens_ids.append(self.token_to_id[token])
                else:
                    # Если токен не найден (например, из-за OOV или неполного обучения),
                    # разбиваем его на символы и добавляем их ID
                    for char in token:
                        if char in self.token_to_id:
                            encoded_tokens_ids.append(self.token_to_id[char])
                        else:
                            # Этого не должно произойти, если начальный словарь содержит все символы
                            print(f"Предупреждение: Символ '{char}' не найден в словаре.")
                            # Можно добавить токен для неизвестных символов, например, <unk>
        return encoded_tokens_ids

    def decode(self, token_ids):
        """
        Декодирует последовательность ID токенов обратно в строку.
        :param token_ids: Список ID токенов.
        :return: Декодированная строка.
        """
        decoded_tokens = []
        for token_id in token_ids:
            if token_id < len(self.id_to_token):
                decoded_tokens.append(self.id_to_token[token_id])
            else:
                print(f"Предупреждение: ID токена {token_id} вне диапазона словаря.")
                decoded_tokens.append('') # Или можно использовать <unk>

        # Объединяем токены, убираем символ конца слова и заменяем пробелы
        decoded_text = "".join(decoded_tokens).replace('</w>', ' ').strip()
        return decoded_text.replace(' ', '_') # Возвращаем исходный формат с подчеркиваниями

# --- Пример использования ---
if __name__ == "__main__":
    corpus = "Ученик_учится_в_школе,_а_учитель_учит_ученика"

    # Создаем экземпляр BPE, указывая количество объединений
    # Можно также указать vocab_size=X для желаемого размера словаря
    bpe_model = BPE(num_merges=10) # Выполним 10 итераций объединения

    print("--- Обучение BPE модели ---")
    bpe_model.fit(corpus)
    print("\n--- Обучение завершено ---")
    print(f"Финальный словарь BPE (отсортированный): {sorted(list(bpe_model.vocabulary))}")
    print(f"Выполненные объединения: {bpe_model.merges}")

    # Тестирование токенизации
    print("\n--- Тестирование токенизации ---")
    text_to_encode = "Ученик_учится_в_школе,_а_учитель_учит_ученика"
    encoded_ids = bpe_model.encode(text_to_encode)
    print(f"Исходный текст: '{text_to_encode}'")
    print(f"Закодированные ID: {encoded_ids}")

    # Декодирование
    decoded_text = bpe_model.decode(encoded_ids)
    print(f"Декодированный текст: '{decoded_text}'")

    # Проверка на новое слово (OOV)
    print("\n--- Тестирование OOV слова ---")
    oov_text = "Учительница_учит"
    encoded_oov_ids = bpe_model.encode(oov_text)
    print(f"OOV текст: '{oov_text}'")
    print(f"Закодированные ID OOV: {encoded_oov_ids}")
    decoded_oov_text = bpe_model.decode(encoded_oov_ids)
    print(f"Декодированный OOV текст: '{decoded_oov_text}'")

    # Пример токенов по ID
    print("\n--- Токены по ID ---")
    for i, token in enumerate(bpe_model.id_to_token):
        print(f"ID {i}: '{token}'")

In [None]:
import collections

class WordPieceTokenizer:
    def __init__(self):
        self.vocab = set()
        self.merges = []

    def preprocess_text(self, text):
        """
        Предварительная обработка текста: приведение к нижнему регистру и разбиение на слова.
        """
        # Удаляем знаки препинания и приводим к нижнему регистру
        processed_text = text.lower().replace('...', '').replace('.', '')
        # Разбиваем на слова по пробелам
        words = processed_text.split(' ')
        # Добавляем пробелы как отдельные токены между словами
        initial_tokens = []
        for i, word in enumerate(words):
            if word: # Убедимся, что слово не пустое
                initial_tokens.extend(list(word))
            if i < len(words) - 1:
                initial_tokens.append(' ') # Добавляем пробел между словами
        return initial_tokens, words # Возвращаем начальные токены и список слов для удобства

    def calculate_frequencies(self, tokens):
        """
        Подсчет частот отдельных токенов (униграмм) и биграмм в текущем корпусе.
        """
        unigram_freq = collections.defaultdict(int)
        bigram_freq = collections.defaultdict(int)

        for i in range(len(tokens)):
            unigram_freq[tokens[i]] += 1
            if i < len(tokens) - 1:
                bigram_freq[(tokens[i], tokens[i+1])] += 1
        return unigram_freq, bigram_freq

    def calculate_score(self, unigram_freq, bigram_freq):
        """
        Вычисление оценки слияния для всех возможных биграмм.
        Score(A, B) = frequency(AB) / (frequency(A) * frequency(B))
        """
        scores = {}
        for (token_a, token_b), freq_ab in bigram_freq.items():
            freq_a = unigram_freq[token_a]
            freq_b = unigram_freq[token_b]
            if freq_a > 0 and freq_b > 0: # Избегаем деления на ноль
                score = freq_ab / (freq_a * freq_b)
                scores[(token_a, token_b)] = score
        return scores

    def merge_tokens(self, tokens, best_bigram):
        """
        Слияние лучшей биграммы в корпусе.
        """
        merged_token = "".join(best_bigram)
        new_tokens = []
        i = 0
        while i < len(tokens):
            if i + 1 < len(tokens) and (tokens[i], tokens[i+1]) == best_bigram:
                new_tokens.append(merged_token)
                i += 2 # Пропускаем оба слитых токена
            else:
                new_tokens.append(tokens[i])
                i += 1
        return new_tokens

    def train(self, text, target_vocab_size=None, num_merges=None):
        """
        Обучение WordPiece токенизатора.
        Итеративно сливает токены до достижения целевого размера словаря
        или заданного количества слияний.
        """
        print(f"Исходный текст: '{text}'")
        current_tokens, _ = self.preprocess_text(text)

        # Начальный словарь состоит из всех уникальных символов
        self.vocab = set(current_tokens)
        print(f"\nШаг 1: Начальный словарь (V0) содержит {len(self.vocab)} токенов.")
        print(f"Начальный корпус: {current_tokens}")

        merges_count = 0
        while True:
            unigram_freq, bigram_freq = self.calculate_frequencies(current_tokens)
            scores = self.calculate_score(unigram_freq, bigram_freq)

            if not scores:
                print("\nНет больше биграмм для слияния. Остановка.")
                break

            # Находим биграмму с наивысшей оценкой
            best_bigram = max(scores, key=scores.get)
            best_score = scores[best_bigram]

            merged_token = "".join(best_bigram)

            # Критерий остановки: если новый токен уже в словаре
            if merged_token in self.vocab:
                # Если лучший токен уже существует, удалим его из scores, чтобы найти следующий лучший
                del scores[best_bigram]
                continue # Продолжаем поиск

            # Выводим информацию о текущем слиянии
            print(f"\nИтерация {merges_count + 1}:")
            print(f"  Лучшая биграмма для слияния: '{best_bigram[0]}' + '{best_bigram[1]}' -> '{merged_token}' (Score: {best_score:.4f})")

            # Выполняем слияние в корпусе
            current_tokens = self.merge_tokens(current_tokens, best_bigram)

            # Добавляем новый токен в словарь и сохраняем слияние
            self.vocab.add(merged_token)
            self.merges.append(best_bigram)
            merges_count += 1

            print(f"  Корпус после слияния: {current_tokens}")
            print(f"  Текущий размер словаря: {len(self.vocab)}")

            # Критерии остановки
            if target_vocab_size is not None and len(self.vocab) >= target_vocab_size:
                print(f"\nДостигнут целевой размер словаря ({target_vocab_size}). Остановка.")
                break
            if num_merges is not None and merges_count >= num_merges:
                print(f"\nДостигнуто заданное количество слияний ({num_merges}). Остановка.")
                break

        print(f"\nОбучение завершено. Итоговый словарь содержит {len(self.vocab)} токенов.")
        return sorted(list(self.vocab))

    def tokenize(self, text):
        """
        Токенизация нового текста с использованием обученного словаря WordPiece.
        """
        if not hasattr(self, 'vocab') or len(self.vocab) == 0:
            raise ValueError("Токенизатор не обучен. Сначала вызовите метод train().")

        print(f"\n--- Токенизация нового текста ---")
        print(f"Текст для токенизации: '{text}'")

        # Предварительная обработка текста для токенизации
        processed_text = text.lower().replace('...', '').replace('.', '')
        words = processed_text.split(' ')

        final_tokens = []
        for word in words:
            if not word: # Пропускаем пустые строки, если они возникли из-за множественных пробелов
                continue

            word_tokens = []
            remaining_word = word

            while remaining_word:
                found_match = False
                # Ищем самый длинный подтокен из словаря, который является префиксом оставшейся части слова
                for i in range(len(remaining_word), 0, -1):
                    subword = remaining_word[:i]

                    if subword in self.vocab:
                        word_tokens.append(subword)
                        remaining_word = remaining_word[i:]
                        found_match = True
                        break

                if not found_match:
                    # Если не удалось найти соответствующий токен, разбиваем на символы
                    # или используем токен [UNK]
                    if remaining_word[0] in self.vocab: # Если символ есть в словаре
                        word_tokens.append(remaining_word[0])
                    else: # Если символ даже не в начальном словаре
                        word_tokens.append('[UNK]')
                    remaining_word = remaining_word[1:]

            final_tokens.extend(word_tokens)
            final_tokens.append(' ') # Добавляем пробел между токенизированными словами

        # Удаляем последний пробел, если он есть
        if final_tokens and final_tokens[-1] == ' ':
            final_tokens.pop()

        print(f"Токенизированный текст: {final_tokens}")
        return final_tokens

    def get_vocab(self):
        """Возвращает текущий словарь токенов."""
        return sorted(list(self.vocab))

    def get_merges(self):
        """Возвращает список выполненных слияний."""
        return self.merges

# --- Пример использования ---
if __name__ == "__main__":
    text_to_train = "В училище учитель учит ученикам по новому учебнику"

    # Создаем экземпляр токенизатора
    tokenizer = WordPieceTokenizer()

    # Обучаем токенизатор
    final_vocab = tokenizer.train(text_to_train, num_merges=50)

    print(f"\nИтоговый словарь WordPiece: {final_vocab}")

    # Токенизируем тот же текст
    tokenizer.tokenize(text_to_train)

    # Пример токенизации нового слова
    new_text = "учительница"
    # Добавим '##ница' в словарь для демонстрации
    if 'ница' not in final_vocab:
        tokenizer.vocab.add('ница')
        tokenizer.vocab.add('##ница')
        final_vocab = tokenizer.get_vocab()

    print(f"\nИтоговый словарь WordPiece (с 'ница' для демонстрации): {final_vocab}")
    tokenizer.tokenize(new_text)

    # Демонстрация с упрощенным словарем
    simplified_tokenizer = WordPieceTokenizer()
    simplified_tokenizer.vocab = set(['у', 'ч', 'и', 'т', 'е', 'л', 'ь', 'н', 'ц', 'а', 'учитель', '##ница', '##тель', '##а'])
    print(f"\n--- Демонстрация токенизации подслов с упрощенным словарем ---")
    simplified_tokenizer.tokenize("учительница")

In [None]:
import collections
import re
import math

class UnigramLanguageModel:
    """
    Реализация Униграмной Языковой Модели.
    Эта модель предполагает, что вероятность каждого слова в последовательности
    не зависит от других слов.
    """
    def __init__(self):
        self.word_counts = collections.defaultdict(int) # Счетчик вхождений каждого слова
        self.total_words = 0 # Общее количество слов в корпусе
        self.vocabulary = set() # Множество уникальных слов (словарь)

    def _tokenize(self, text):
        """
        Приватный метод для токенизации текста.
        Приводит текст к нижнему регистру и разбивает на слова, удаляя знаки препинания.
        :param text: Входная строка текста.
        :return: Список токенов (слов).
        """
        # Приводим к нижнему регистру
        text = text.lower()
        # Удаляем знаки препинания (кроме тех, что могут быть частью слова, но для простоты здесь удаляем все)
        # Использование регулярного выражения для извлечения только буквенных последовательностей
        tokens = re.findall(r'\b[а-яё]+\b', text)
        return tokens

    def train(self, corpus_text):
        """
        Обучает униграмную языковую модель на заданном текстовом корпусе.
        Подсчитывает частоты слов и формирует словарь.
        :param corpus_text: Строка, представляющая обучающий корпус.
        """
        print("--- Начало обучения Униграмной Модели ---")
        tokens = self._tokenize(corpus_text)

        if not tokens:
            print("Предупреждение: Корпус пуст или не содержит слов после токенизации.")
            return

        self.total_words = len(tokens)

        for word in tokens:
            self.word_counts[word] += 1
            self.vocabulary.add(word)

        print(f"Обучение завершено. Общее количество слов (N): {self.total_words}")
        print(f"Размер словаря (|V|): {len(self.vocabulary)}")
        print(f"Частоты слов: {dict(self.word_counts)}")
        print("--- Обучение завершено ---")

    def get_word_probability(self, word, smoothing=None):
        """
        Возвращает вероятность слова P(w).
        :param word: Слово, для которого нужно рассчитать вероятность.
        :param smoothing: Метод сглаживания ('laplace' для сглаживания по Лапласу, None для MLE).
        :return: Вероятность слова.
        """
        # Если модель не обучена или корпус пуст
        if self.total_words == 0:
            print("Ошибка: Модель не обучена или корпус пуст. Невозможно рассчитать вероятность.")
            return 0.0

        count_w = self.word_counts[word] # Count(w)

        if smoothing == 'laplace':
            # Сглаживание по Лапласу: (Count(w) + 1) / (N + |V|)
            probability = (count_w + 1) / (self.total_words + len(self.vocabulary))
            # print(f"P_Laplace('{word}') = ({count_w} + 1) / ({self.total_words} + {len(self.vocabulary)}) = {probability:.4f}")
        else:
            # Метод максимального правдоподобия (MLE): Count(w) / N
            if count_w == 0:
                # print(f"P_MLE('{word}') = 0 (слово не найдено в корпусе)")
                return 0.0 # Если слово не найдено, вероятность 0 без сглаживания
            probability = count_w / self.total_words
            # print(f"P_MLE('{word}') = {count_w} / {self.total_words} = {probability:.4f}")

        return probability

    def get_sequence_probability(self, sequence_text, smoothing=None):
        """
        Возвращает вероятность последовательности слов P(W).
        :param sequence_text: Строка, представляющая последовательность слов.
        :param smoothing: Метод сглаживания ('laplace' для сглаживания по Лапласу, None для MLE).
        :return: Вероятность последовательности.
        """
        print(f"\n--- Расчет вероятности последовательности: '{sequence_text}' ---")
        tokens = self._tokenize(sequence_text)

        if not tokens:
            print("Предупреждение: Последовательность пуста или не содержит слов после токенизации.")
            return 0.0

        sequence_probability = 1.0
        probabilities_list = []

        for word in tokens:
            p_word = self.get_word_probability(word, smoothing)
            probabilities_list.append(p_word)
            sequence_probability *= p_word

            # Если хоть одно слово имеет нулевую вероятность без сглаживания,
            # вся последовательность будет иметь нулевую вероятность.
            if smoothing != 'laplace' and p_word == 0:
                print(f"Слово '{word}' имеет нулевую вероятность. Вероятность всей последовательности = 0.")
                return 0.0 # Оптимизация: если P(w)=0, то произведение будет 0

        print(f"Токены последовательности: {tokens}")
        print(f"Вероятности отдельных слов: {probabilities_list}")
        print(f"Итоговая вероятность последовательности: {sequence_probability}")
        print("--- Расчет завершен ---")
        return sequence_probability

# --- Пример использования ---
if __name__ == "__main__":
    corpus_example = "Ученики пишут диктант. Учитель диктует. Мы пишем, он пишет, они пишут. Пишите внимательно."

    # Создаем экземпляр модели
    unigram_model = UnigramLanguageModel()

    # Обучаем модель на корпусе
    unigram_model.train(corpus_example)

    print("\n--- Расчет вероятностей отдельных слов (MLE) ---")
    words_to_check = ['пишут', 'учитель', 'школа', 'мы']
    for word in words_to_check:
        prob = unigram_model.get_word_probability(word, smoothing=None)
        print(f"P_MLE('{word}') = {prob:.4f}")

    print("\n--- Расчет вероятностей отдельных слов (Лаплас) ---")
    for word in words_to_check:
        prob = unigram_model.get_word_probability(word, smoothing='laplace')
        print(f"P_Laplace('{word}') = {prob:.4f}")

    # Расчет вероятности предложения (без сглаживания)
    sentence_mle = "Ученики пишут диктант"
    prob_mle = unigram_model.get_sequence_probability(sentence_mle, smoothing=None)
    print(f"Вероятность предложения (MLE): {prob_mle:.10f}")

    sentence_mle_oov = "Ученики пишут школа" # Содержит OOV слово 'школа'
    prob_mle_oov = unigram_model.get_sequence_probability(sentence_mle_oov, smoothing=None)
    print(f"Вероятность предложения с OOV (MLE): {prob_mle_oov:.10f}")

    # Расчет вероятности предложения (со сглаживанием по Лапласу)
    sentence_laplace = "Ученики пишут диктант"
    prob_laplace = unigram_model.get_sequence_probability(sentence_laplace, smoothing='laplace')
    print(f"Вероятность предложения (Лаплас): {prob_laplace:.10f}")

    sentence_laplace_oov = "Ученики пишут школа" # Содержит OOV слово 'школа'
    prob_laplace_oov = unigram_model.get_sequence_probability(sentence_laplace_oov, smoothing='laplace')
    print(f"Вероятность предложения с OOV (Лаплас): {prob_laplace_oov:.10f}")

    # Пример из документации: "Ученики пишут диктант Учитель диктует Мы пишем он пишет они пишут Пишите внимательно"
    full_sentence = "Ученики пишут диктант Учитель диктует Мы пишем он пишет они пишут Пишите внимательно"
    prob_full_mle = unigram_model.get_sequence_probability(full_sentence, smoothing=None)
    print(f"Вероятность полного предложения (MLE): {prob_full_mle:.15f}")

    prob_full_laplace = unigram_model.get_sequence_probability(full_sentence, smoothing='laplace')
    print(f"Вероятность полного предложения (Лаплас): {prob_full_laplace:.15f}")