In [None]:
# Блок 1: Введение в Natural Language Processing (NLP)

# Что такое NLP?
# Natural Language Processing (Обработка Естественного Языка) - это область
# искусственного интеллекта (AI) и лингвистики, которая занимается
# взаимодействием между компьютерами и человеческим (естественным) языком.
# Цель - научить компьютеры "понимать", интерпретировать, генерировать
# и манипулировать человеческим языком.

# Цель NLP:
# Преодолеть разрыв между человеческим общением и компьютерным пониманием.
# Позволить машинам выполнять задачи, связанные с языком, такие как:
# - Извлечение информации из текста.
# - Перевод между языками.
# - Ответы на вопросы.
# - Генерация осмысленного текста.
# - Анализ настроений и мнений.

# Почему NLP - это сложно?
# Естественный язык по своей природе неоднозначен и сложен:
# - Лексическая неоднозначность (омонимия): Слово "лук" может означать растение или оружие.
# - Синтаксическая неоднозначность: "Казнить нельзя помиловать" - структура предложения неясна без знаков препинания.
# - Семантическая неоднозначность: "Он съел пиццу с друзьями" (с кем? или пицца была с начинкой "друзья"?).
# - Прагматика (контекст): Значение фразы зависит от контекста диалога, ситуации, знаний о мире.
# - Сарказм, ирония, метафоры: Трудны для буквального понимания.
# - Разнообразие языков, диалектов, сленга.
# - Ошибки и опечатки в тексте.

# --------------------------------------------------

# Блок 2: Основные Задачи NLP

# --- 2.1 Текстовая Предобработка (Text Preprocessing) ---
# # Цель: Привести "сырой" текст к структурированному и чистому виду,
# # пригодному для анализа моделями. Часто является первым шагом.
# # Основные этапы:
# # - Токенизация (Tokenization): Разделение текста на отдельные слова или символы (токены).
# #   Пример: "Привет, мир!" -> ["Привет", ",", "мир", "!"]
# # - Приведение к нижнему регистру (Lowercasing): "Привет" -> "привет". Помогает унифицировать слова.
# # - Удаление стоп-слов (Stopword Removal): Удаление часто встречающихся, но малоинформативных слов (предлоги, союзы, артикли: "и", "в", "на", "a", "the").
# # - Стемминг (Stemming): Грубое отсечение окончаний слов для приведения к "основе" (stem). Может порождать несуществующие слова. Пример: "бежал", "бегущий" -> "беж".
# # - Лемматизация (Lemmatization): Приведение слова к его словарной форме (лемме) с учетом части речи. Более осмысленный процесс, чем стемминг. Пример: "бежал", "бегущий" -> "бежать".
# # - Удаление пунктуации и специальных символов.
# # - Обработка чисел.

# --- 2.2 Языковое Моделирование (Language Modeling - LM) ---
# # Цель: Построить модель, которая предсказывает вероятность последовательности слов (предложения).
# # Используется как основа для многих других задач (генерация текста, машинный перевод, распознавание речи).
# # Пример: P("я иду домой") > P("я иду домом").
# # Классические подходы: N-граммы.
# # Современные подходы: Рекуррентные нейронные сети (RNN), Трансформеры (GPT).

# --- 2.3 Классификация Текста (Text Classification) ---
# # Цель: Присвоить тексту одну или несколько предопределенных категорий.
# # Примеры задач:
# #   - Анализ тональности (Sentiment Analysis): Определение эмоциональной окраски текста (позитивная, негативная, нейтральная).
# #   - Классификация по темам (Topic Classification): Определение темы документа (спорт, политика, технологии).
# #   - Определение спама (Spam Detection).
# #   - Определение языка (Language Detection).

# --- 2.4 Распознавание Именованных Сущностей (Named Entity Recognition - NER) ---
# # Цель: Найти и классифицировать именованные сущности в тексте (люди, организации, локации, даты, денежные суммы и т.д.).
# # Пример: "Иван Петров работает в [компании Google] в [городе Москва] с [даты 2020 года]."

# --- 2.5 Определение Частей Речи (Part-of-Speech - POS Tagging) ---
# # Цель: Присвоить каждому слову в предложении его грамматическую часть речи (существительное, глагол, прилагательное, наречие и т.д.).
# # Пример: "Мама [NOUN] мыла [VERB] раму [NOUN]."

# --- 2.6 Машинный Перевод (Machine Translation - MT) ---
# # Цель: Автоматический перевод текста с одного языка на другой.
# # Подходы: Статистический машинный перевод (SMT), Нейронный машинный перевод (NMT - сейчас доминирует, часто на основе RNN или Трансформеров).

# --- 2.7 Ответы на Вопросы (Question Answering - QA) ---
# # Цель: Предоставить ответ на вопрос, заданный на естественном языке, на основе предоставленного текста (контекста) или базы знаний.
# # Типы: Экстрактивные (ответ - это фрагмент текста), Абстрактивные (ответ генерируется моделью).

# --- 2.8 Суммаризация Текста (Text Summarization) ---
# # Цель: Создание краткого и связного изложения основного содержания длинного текста.
# # Типы: Экстрактивная (выбираются ключевые предложения из оригинала), Абстрактивная (генерируется новый текст, передающий суть).

# --- 2.9 Генерация Текста (Text Generation) ---
# # Цель: Создание нового текста на естественном языке (продолжение текста, написание стихов, диалоги и т.д.).
# # Основывается на языковых моделях.

# --------------------------------------------------

# Блок 3: Представление Текста для Моделей

# Модели машинного обучения не могут работать с текстом напрямую. Его нужно преобразовать в числовой формат.

# 1. Bag-of-Words (BoW) - "Мешок Слов":
#    - Принцип: Представление текста как неупорядоченного набора слов (мультимножества). Порядок слов игнорируется.
#    - Реализация: Создается словарь всех уникальных слов в корпусе текстов. Каждый текст представляется вектором, где каждый элемент соответствует слову из словаря и содержит его частоту (или бинарный флаг присутствия) в тексте.
#    - Недостатки: Игнорирует порядок слов, не учитывает семантику (синонимы - разные векторы). Высокая размерность вектора.

# 2. TF-IDF (Term Frequency-Inverse Document Frequency):
#    - Принцип: Улучшение BoW. Вес слова в векторе текста зависит не только от его частоты в этом тексте (TF), но и от его редкости во всем корпусе (IDF).
#    - TF (Частота термина): Как часто слово встречается в документе? (log(1 + count) или count / total_words)
#    - IDF (Обратная документная частота): Насколько слово уникально для всего корпуса? (log(total_docs / (docs_with_word + 1)))
#    - TF-IDF = TF * IDF. Слова, часто встречающиеся во многих документах (как стоп-слова), получают низкий вес. Редкие, но важные для документа слова - высокий вес.
#    - Недостатки: Все еще игнорирует порядок слов и семантику (частично).

# 3. Векторные Представления Слов (Word Embeddings) - Статические:
#    - Цель: Представить слова плотными векторами низкой размерности (например, 100-300), которые захватывают семантические отношения между словами (близкие по значению слова имеют близкие векторы).
#    - Обучаются на больших текстовых корпусах.
#    - Примеры:
#      - Word2Vec (Google): Два алгоритма - CBOW (предсказание слова по контексту) и Skip-gram (предсказание контекста по слову).
#      - GloVe (Stanford): Основан на матрице совместной встречаемости слов.
#      - FastText (Facebook): Расширение Word2Vec, учитывает информацию о подсловах (n-граммах символов), что позволяет генерировать векторы для неизвестных слов и лучше работает с морфологически богатыми языками.
#    - Недостатки: Статические - одно слово имеет один вектор независимо от контекста ("лук" всегда будет иметь один и тот же вектор).

# 4. Контекстуализированные Векторные Представления - Динамические:
#    - Цель: Генерировать векторное представление слова, которое зависит от контекста, в котором оно используется. Вектор слова "лук" будет разным в предложениях "Я люблю зеленый лук" и "Он натянул лук".
#    - Основаны на глубоких нейронных сетях (RNN, Трансформеры).
#    - Примеры:
#      - ELMo (Embeddings from Language Models): Использует двунаправленную LSTM.
#      - BERT (Bidirectional Encoder Representations from Transformers): Основан на архитектуре Трансформер (только энкодер). Обучается на задачах Masked Language Model (предсказание пропущенных слов) и Next Sentence Prediction. Очень влиятельная модель.
#      - GPT (Generative Pre-trained Transformer): Основан на архитектуре Трансформер (только декодер). Обучается на задаче предсказания следующего слова. Отлично подходит для генерации текста. (GPT-2, GPT-3, GPT-4).
#      - T5, BART, XLNet и многие другие.
#    - Преимущества: Учитывают контекст, достигают state-of-the-art результатов во многих задачах NLP.

# --------------------------------------------------

# Блок 4: Методы и Модели NLP

# 1. Правиловые Системы (Rule-based Systems):
#    - Основаны на наборах правил, созданных вручную лингвистами или экспертами.
#    - Пример: Простые чат-боты, некоторые системы извлечения информации.
#    - Плюсы: Интерпретируемость.
#    - Минусы: Трудоемкость создания правил, хрупкость (плохо обобщаются), сложность поддержки.

# 2. Статистические Методы Машинного Обучения:
#    - Используют статистические модели, обученные на размеченных данных.
#    - Требуют этапа извлечения признаков (Feature Engineering), часто с использованием BoW или TF-IDF.
#    - Примеры:
#      - Наивный Байес (Naive Bayes): Простой вероятностный классификатор, хорошо работает для классификации текста.
#      - Метод Опорных Векторов (Support Vector Machines - SVM): Мощный классификатор, часто дает хорошие результаты.
#      - Логистическая Регрессия.
#      - Скрытые Марковские Модели (Hidden Markov Models - HMM): Использовались для POS-tagging, NER.
#      - Условные Случайные Поля (Conditional Random Fields - CRF): Улучшение HMM, популярны для задач последовательной разметки (POS, NER).

# 3. Глубокое Обучение (Deep Learning):
#    - Автоматически изучает признаки из данных, устраняя необходимость в ручном Feature Engineering.
#    - Использует нейронные сети с несколькими слоями.
#    - Доминирующий подход в современном NLP.
#    - Основные архитектуры:
#      - Рекуррентные Нейронные Сети (RNN): Обрабатывают последовательности, учитывая предыдущую информацию.
#        - LSTM (Long Short-Term Memory) и GRU (Gated Recurrent Unit): Варианты RNN, решающие проблему затухания градиента, лучше работают с длинными зависимостями. Хороши для языкового моделирования, перевода, генерации.
#      - Сверточные Нейронные Сети (CNN): Могут применяться к тексту (1D свертки) для извлечения локальных признаков (n-грамм). Эффективны для классификации текста.
#      - Трансформеры (Transformers): Архитектура, основанная на механизме внимания (Self-Attention). Позволяет модели взвешивать важность разных слов в последовательности при обработке каждого слова. Параллелизуется лучше, чем RNN. Основа для BERT, GPT и др. State-of-the-art для большинства задач NLP.

# --------------------------------------------------

# Блок 5: Популярные Библиотеки NLP (Python)

# 1. NLTK (Natural Language Toolkit):
#    - `import nltk`
#    - Старейшая и наиболее полная библиотека. Отлично подходит для обучения и исследований.
#    - Содержит инструменты для большинства базовых задач (токенизация, стемминг, лемматизация, POS-tagging, NER), а также корпуса текстов и лексические ресурсы (WordNet).
#    - Может быть медленной для продакшена.

# 2. spaCy:
#    - `import spacy`
#    - Разработана для промышленного использования. Быстрая, эффективная, имеет свое "мнение" о лучшем способе решения задач.
#    - Предоставляет предобученные модели для разных языков для токенизации, POS-tagging, NER, синтаксического анализа зависимостей.
#    - Легко интегрируется с фреймворками глубокого обучения.

# 3. Gensim:
#    - `from gensim.models import Word2Vec`
#    - Специализируется на векторных представлениях слов (Word2Vec, FastText, Doc2Vec) и тематическом моделировании (LDA, LSI).
#    - Эффективная работа с большими корпусами.

# 4. Scikit-learn:
#    - `from sklearn.feature_extraction.text import TfidfVectorizer`
#    - `from sklearn.naive_bayes import MultinomialNB`
#    - Библиотека общего назначения для машинного обучения.
#    - Содержит отличные инструменты для векторизации текста (CountVectorizer, TfidfVectorizer) и классические модели ML (Naive Bayes, SVM, Logistic Regression), которые хорошо работают с текстовыми признаками.

# 5. Hugging Face Transformers:
#    - `from transformers import pipeline, AutoTokenizer, AutoModelForSequenceClassification`
#    - Де-факто стандарт для работы с Трансформерами (BERT, GPT, T5 и сотни других).
#    - Предоставляет:
#      - Огромный хаб с тысячами предобученных моделей для разных задач и языков.
#      - Унифицированные API для загрузки моделей и токенизаторов (`AutoModel...`, `AutoTokenizer`).
#      - Инструменты для fine-tuning моделей на своих данных (`Trainer` API).
#      - Простые в использовании `pipeline` для стандартных задач (sentiment-analysis, ner, translation, etc.).
#    - Поддерживает PyTorch и TensorFlow.

# 6. PyTorch / TensorFlow:
#    - `import torch` / `import tensorflow as tf`
#    - Фундаментальные библиотеки для глубокого обучения. Необходимы для создания или модификации архитектур нейронных сетей (RNN, Transformers) и их обучения.

# --------------------------------------------------

# Блок 6: Пример Задачи - Анализ Тональности (Sentiment Analysis)

# --- Условие Задачи ---
# Задача: Классифицировать отзывы о фильмах из некоторого датасета (например, IMDb)
# на два класса: "позитивный" (positive) и "негативный" (negative).

# --- Решение (Концептуальное, с использованием Hugging Face Transformers & PyTorch) ---

# Шаг 1: Загрузка и Подготовка Данных
# # Предполагается, что у вас есть датасет в виде списка текстов (отзывов)
# # и списка соответствующих меток (0 - негативный, 1 - позитивный).
# texts = ["Это был ужасный фильм!", "Лучшее кино, что я видел.", ...]
# labels = [0, 1, ...]
# # Разделение на обучающую и валидационную выборки
# # train_texts, val_texts, train_labels, val_labels = train_test_split(texts, labels, ...)

# Шаг 2: Загрузка Модели и Токенизатора
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model_name = "bert-base-uncased" # Пример: используем базовый BERT (без учета регистра)
# Или можно взять модель, уже дообученную на анализ тональности, для инференса:
# model_name = "distilbert-base-uncased-finetuned-sst-2-english"

tokenizer = AutoTokenizer.from_pretrained(model_name)
# num_labels соответствует количеству классов (2: positive, negative)
model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# Шаг 3: Токенизация Данных
# # Токенизатор преобразует текст в формат, понятный модели (input_ids, attention_mask)
# train_encodings = tokenizer(train_texts, truncation=True, padding=True, max_length=512)
# val_encodings = tokenizer(val_texts, truncation=True, padding=True, max_length=512)

# Шаг 4: Создание PyTorch Dataset и DataLoader
# class IMDbDataset(torch.utils.data.Dataset):
#     def __init__(self, encodings, labels):
#         self.encodings = encodings
#         self.labels = labels
#
#     def __getitem__(self, idx):
#         # Возвращаем словарь тензоров для каждого элемента
#         item = {key: torch.tensor(val[idx]) for key, val in self.encodings.items()}
#         item['labels'] = torch.tensor(self.labels[idx])
#         return item
#
#     def __len__(self):
#         return len(self.labels)
#
# train_dataset = IMDbDataset(train_encodings, train_labels)
# val_dataset = IMDbDataset(val_encodings, val_labels)
#
# train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=8, shuffle=True)
# val_loader = torch.utils.data.DataLoader(val_dataset, batch_size=8, shuffle=False)

# Шаг 5: Fine-tuning (Дообучение) Модели
# # Используем оптимизатор AdamW, рекомендованный для Трансформеров
# from transformers import AdamW
#
# optimizer = AdamW(model.parameters(), lr=5e-5) # Типичный learning rate для fine-tuning BERT
# num_epochs = 3
#
# model.train() # Переводим модель в режим обучения
# for epoch in range(num_epochs):
#     print(f"Epoch {epoch+1}/{num_epochs}")
#     for batch in train_loader:
#         optimizer.zero_grad()
#         # Перемещаем батч на нужное устройство
#         input_ids = batch['input_ids'].to(device)
#         attention_mask = batch['attention_mask'].to(device)
#         labels = batch['labels'].to(device)
#
#         # Прямой проход
#         outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
#         loss = outputs.loss # Модель возвращает лосс, если переданы labels
#
#         # Обратный проход
#         loss.backward()
#         optimizer.step()
#     print(f"  Training Loss: {loss.item()}") # Лосс последнего батча
#     # Здесь нужна валидация после каждой эпохи для оценки качества

# Шаг 6: Оценка Модели
# # Переводим модель в режим оценки
# model.eval()
# total_eval_accuracy = 0
# with torch.no_grad(): # Отключаем градиенты
#     for batch in val_loader:
#         input_ids = batch['input_ids'].to(device)
#         attention_mask = batch['attention_mask'].to(device)
#         labels = batch['labels'].to(device)
#
#         outputs = model(input_ids, attention_mask=attention_mask)
#         logits = outputs.logits
#         predictions = torch.argmax(logits, dim=-1)
#
#         total_eval_accuracy += (predictions == labels).sum().item()
#
# avg_val_accuracy = total_eval_accuracy / len(val_dataset)
# print(f"Validation Accuracy: {avg_val_accuracy:.4f}")

# Шаг 7: Инференс (Использование обученной модели)
def predict_sentiment(text):
    model.eval() # Убедиться, что модель в режиме eval
    # Токенизация одного текста
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    # Перемещение на устройство
    inputs = {k: v.to(device) for k, v in inputs.items()}

    with torch.no_grad():
        outputs = model(**inputs) # Распаковка словаря inputs

    logits = outputs.logits
    probabilities = torch.softmax(logits, dim=-1)
    predicted_class_id = torch.argmax(probabilities, dim=-1).item()

    # Предполагаем, что 0 - негативный, 1 - позитивный
    sentiment = "positive" if predicted_class_id == 1 else "negative"
    confidence = probabilities[0][predicted_class_id].item()

    return sentiment, confidence

# Пример использования
# review = "This movie was absolutely fantastic, highly recommended!"
# sentiment, confidence = predict_sentiment(review)
# print(f"Review: '{review}'")
# print(f"Predicted Sentiment: {sentiment} (Confidence: {confidence:.4f})")
#
# review = "A complete waste of time, terrible acting and plot."
# sentiment, confidence = predict_sentiment(review)
# print(f"Review: '{review}'")
# print(f"Predicted Sentiment: {sentiment} (Confidence: {confidence:.4f})")

# --- Конец Примера ---

# --------------------------------------------------

In [None]:
# Блок 1: Введение в NLTK (Natural Language Toolkit)

# Что такое NLTK?
# NLTK - это одна из старейших и наиболее комплексных библиотек Python для
# обработки естественного языка. Она предоставляет удобные интерфейсы
# к множеству лексических ресурсов (корпуса, словари, WordNet), а также
# набор библиотек для выполнения различных задач NLP, от токенизации до
# синтаксического анализа.
# NLTK отлично подходит для обучения, исследований и прототипирования.

# Установка:
# pip install nltk

# Загрузка данных NLTK:
# NLTK требует загрузки дополнительных данных (корпусов, моделей) для работы
# многих своих модулей. Это делается один раз после установки.
import nltk

# Попробуйте выполнить эти команды в Python консоли или Jupyter Notebook:
# nltk.download('popular') # Загрузить популярный набор данных (рекомендуется для начала)
# Или можно загружать пакеты по мере необходимости, например:
# nltk.download('punkt') # Для токенизации предложений и слов
# nltk.download('stopwords') # Списки стоп-слов
# nltk.download('wordnet') # Лексическая база данных WordNet
# nltk.download('omw-1.4') # Open Multilingual Wordnet, нужен для WordNet в некоторых версиях
# nltk.download('averaged_perceptron_tagger') # Для POS-tagging
# nltk.download('maxent_ne_chunker') # Для NER
# nltk.download('words') # Словарь английских слов (используется в NER)

# --------------------------------------------------

# Блок 2: Основные Задачи Предобработки с NLTK

# --- 2.1 Токенизация (Tokenization) ---
# # Разделение текста на предложения и слова (токены).
from nltk.tokenize import sent_tokenize, word_tokenize

text_example = "Hello Mr. Smith, how are you doing today? The weather is great, and Python is awesome. The sky is pinkish-blue."

# Токенизация предложений
sentences = sent_tokenize(text_example)
# print("Sentences:")
# print(sentences)

# Токенизация слов (для первого предложения)
# word_tokenize обрабатывает пунктуацию как отдельные токены
words_in_first_sentence = word_tokenize(sentences[0])
# print("\nWords in the first sentence:")
# print(words_in_first_sentence)

# --- 2.2 Удаление Стоп-слов (Stopword Removal) ---
# # Удаление часто встречающихся, но малоинформативных слов.
from nltk.corpus import stopwords

# Загрузка стоп-слов для английского языка
stop_words_en = set(stopwords.words('english'))
# print("\nEnglish Stopwords (sample):")
# print(list(stop_words_en)[:10])

# Фильтрация токенов (из первого предложения)
filtered_words = [word for word in words_in_first_sentence if word.lower() not in stop_words_en]
# print("\nWords after stopword removal:")
# print(filtered_words)

# --- 2.3 Стемминг (Stemming) ---
# # Грубое отсечение окончаний для приведения к "основе".
from nltk.stem import PorterStemmer, SnowballStemmer

porter = PorterStemmer()
snowball = SnowballStemmer('english') # Snowball поддерживает разные языки

words_to_stem = ["program", "programs", "programmer", "programming", "programmers"]

# print("\nStemming examples:")
# print("Word\t\tPorter\t\tSnowball")
# for word in words_to_stem:
#     porter_stem = porter.stem(word)
#     snowball_stem = snowball.stem(word)
#     print(f"{word}\t\t{porter_stem}\t\t{snowball_stem}")

# Применение к нашему примеру (отфильтрованные слова)
# stemmed_filtered_words = [porter.stem(word) for word in filtered_words]
# print("\nFiltered words after Porter stemming:")
# print(stemmed_filtered_words)

# --- 2.4 Лемматизация (Lemmatization) ---
# # Приведение слова к его словарной форме (лемме) с учетом части речи.
# # Требует загрузки 'wordnet' и 'omw-1.4'.
from nltk.stem import WordNetLemmatizer
from nltk.corpus import wordnet # Для определения части речи

lemmatizer = WordNetLemmatizer()

# Простой пример лемматизации
# print("\nLemmatization examples:")
# print(f"rocks : {lemmatizer.lemmatize('rocks')}") # По умолчанию считает существительным (pos='n')
# print(f"corpora : {lemmatizer.lemmatize('corpora')}")
# print(f"better : {lemmatizer.lemmatize('better', pos='a')}") # 'a' - прилагательное (adjective)
# print(f"running : {lemmatizer.lemmatize('running', pos='v')}") # 'v' - глагол (verb)

# Лемматизация требует знания части речи (POS tag) для точности.
# Функция для конвертации NLTK POS tag в формат, понятный WordNetLemmatizer
def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        # По умолчанию возвращаем существительное
        return wordnet.NOUN

# Сначала нужно получить POS-теги (см. следующий блок)
# lemmatized_words = []
# words_with_tags = nltk.pos_tag(words_in_first_sentence) # Получаем теги
# for word, tag in words_with_tags:
#     wnet_tag = get_wordnet_pos(tag)
#     lemma = lemmatizer.lemmatize(word, pos=wnet_tag)
#     lemmatized_words.append(lemma)
#
# print("\nWords after lemmatization (with POS tags):")
# print(lemmatized_words)

# --------------------------------------------------

# Блок 3: Анализ Текста с NLTK

# --- 3.1 Определение Частей Речи (Part-of-Speech - POS Tagging) ---
# # Присвоение грамматических тегов каждому токену.
# # Требует загрузки 'averaged_perceptron_tagger'.
import nltk # Импортируем снова для ясности

# Используем токены из первого предложения
# words_in_first_sentence = word_tokenize(sentences[0])
pos_tags = nltk.pos_tag(words_in_first_sentence)
# print("\nPOS Tagging results:")
# print(pos_tags)
# # Теги соответствуют Penn Treebank Tagset (например, NNP: Proper noun, singular; VBP: Verb, non-3rd person singular present; JJ: Adjective)

# --- 3.2 Распознавание Именованных Сущностей (Named Entity Recognition - NER) ---
# # Поиск и классификация именованных сущностей.
# # Требует POS-тегов и загрузки 'maxent_ne_chunker', 'words'.
# # NLTK NER работает через создание дерева разбора (chunking).

# Используем POS-теги, полученные ранее
# ner_tree = nltk.ne_chunk(pos_tags)
# print("\nNER Tree:")
# print(ner_tree)
# # Результат - это дерево. Сущности помечены (например, PERSON, ORGANIZATION, GPE - Geopolitical Entity).
# # Можно итерироваться по дереву для извлечения сущностей.

# Пример извлечения сущностей из дерева
# continuous_chunk = []
# current_chunk = []
#
# for node in ner_tree:
#     if type(node) == nltk.Tree: # Если это узел сущности
#         current_chunk.append(" ".join([token for token, pos in node.leaves()]))
#         named_entity = " ".join(current_chunk)
#         if named_entity not in continuous_chunk:
#              continuous_chunk.append((named_entity, node.label())) # Добавляем (сущность, тип)
#              current_chunk = []
#     else: # Если это не сущность, сбрасываем текущий чанк
#          current_chunk = []
#
# print("\nExtracted Named Entities:")
# print(continuous_chunk) # Может найти 'Hello', 'Mr. Smith' как PERSON

# --- 3.3 Частотное Распределение (Frequency Distribution) ---
# # Подсчет частоты встречаемости токенов.
from nltk.probability import FreqDist

# Используем все слова из исходного текста (приведенные к нижнему регистру)
all_words_lower = [word.lower() for word in word_tokenize(text_example) if word.isalpha()] # Берем только слова
fdist = FreqDist(all_words_lower)

# print("\nWord Frequency Distribution:")
# print(fdist)
# print("\nMost common words:")
# print(fdist.most_common(5))
# print(f"\nFrequency of 'is': {fdist['is']}")

# Можно построить график
# fdist.plot(20, cumulative=False, title="Top 20 Word Frequencies")
# plt.show() # Нужен import matplotlib.pyplot as plt

# --------------------------------------------------

# Блок 4: WordNet - Лексическая База Данных

# WordNet - это большая лексическая база данных английского языка.
# Группирует слова в наборы синонимов (синсеты), предоставляет краткие определения и примеры.
# Требует загрузки 'wordnet' и 'omw-1.4'.
from nltk.corpus import wordnet

# Поиск синсетов для слова 'car'
syns_car = wordnet.synsets('car')
# print("\nSynsets for 'car':")
# print(syns_car)

# Информация о первом синсете
first_syn = syns_car[0]
# print(f"\nName: {first_syn.name()}") # Имя синсета (слово.часть_речи.номер)
# print(f"Lemma names: {first_syn.lemmas()}") # Слова, входящие в синсет
# print(f"Definition: {first_syn.definition()}") # Определение
# print(f"Examples: {first_syn.examples()}") # Примеры использования

# Гипонимы (более конкретные понятия)
# print(f"Hyponyms: {first_syn.hyponyms()}")

# Гиперонимы (более общие понятия)
# print(f"Hypernyms: {first_syn.root_hypernyms()}")

# Семантическое сходство между словами (на основе пути в иерархии WordNet)
# w1 = wordnet.synset('ship.n.01')
# w2 = wordnet.synset('boat.n.01')
# print(f"\nPath similarity between 'ship' and 'boat': {w1.path_similarity(w2)}")
# w3 = wordnet.synset('car.n.01')
# print(f"Path similarity between 'ship' and 'car': {w1.path_similarity(w3)}")

# --------------------------------------------------

# Блок 5: Пример Конвейера Предобработки NLTK

# Задача: Взять текст, токенизировать, удалить стоп-слова и пунктуацию, лемматизировать.

def preprocess_text_nltk(text):
    # 1. Токенизация слов
    tokens = word_tokenize(text.lower())

    # 2. Удаление стоп-слов и пунктуации
    stop_words = set(stopwords.words('english'))
    # Добавим базовую пунктуацию к стоп-словам или проверим isalpha()
    filtered_tokens = [word for word in tokens if word.isalpha() and word not in stop_words]

    # 3. POS-теггинг
    pos_tags = nltk.pos_tag(filtered_tokens)

    # 4. Лемматизация с учетом POS-тегов
    lemmatizer = WordNetLemmatizer()
    lemmatized_tokens = []
    for word, tag in pos_tags:
        wnet_tag = get_wordnet_pos(tag)
        lemma = lemmatizer.lemmatize(word, pos=wnet_tag)
        lemmatized_tokens.append(lemma)

    return lemmatized_tokens

# Пример использования конвейера
# sample_text = "The quick brown foxes are jumping over the lazy dogs."
# processed_tokens = preprocess_text_nltk(sample_text)
# print(f"\nOriginal Text: '{sample_text}'")
# print(f"Processed Tokens: {processed_tokens}")

# --------------------------------------------------

# Блок 6: Замечания и Ограничения NLTK

# - Производительность: Для некоторых задач NLTK может быть медленнее, чем более
#   оптимизированные библиотеки вроде spaCy, особенно на больших объемах данных.
# - Современные Модели: NLTK не предоставляет прямого доступа к современным
#   трансформерным моделям (BERT, GPT) и их контекстуализированным эмбеддингам.
#   Для этого лучше использовать библиотеку Hugging Face Transformers.
# - Предобученные Модели: Хотя NLTK имеет некоторые предобученные модели (POS-tagger, NER),
#   их качество может уступать моделям из spaCy или Transformers для некоторых языков/задач.
# - Фокус: NLTK исторически больше фокусировался на лингвистических исследованиях и
#   образовании, предоставляя доступ к разнообразным ресурсам и алгоритмам,
#   в то время как spaCy и Transformers больше ориентированы на создание
#   эффективных промышленных NLP-приложений.

# Вывод: NLTK - отличный инструмент для изучения основ NLP, экспериментов
# с различными техниками и доступа к лингвистическим данным. Для построения
# высокопроизводительных систем или использования state-of-the-art моделей
# часто предпочтительнее использовать spaCy и/или Hugging Face Transformers.

# --------------------------------------------------

# Не забудьте выполнить nltk.download() для загрузки необходимых пакетов!
# Пример команд для этого скрипта:
# nltk.download('punkt')
# nltk.download('stopwords')
# nltk.download('wordnet')
# nltk.download('omw-1.4')
# nltk.download('averaged_perceptron_tagger')
# nltk.download('maxent_ne_chunker')
# nltk.download('words')

In [None]:
# Блок 1: Введение в spaCy

# Что такое spaCy?
# spaCy - это современная, быстрая и эффективная библиотека Python для
# продвинутой обработки естественного языка (NLP). Она разработана с фокусом
# на промышленное применение и предоставление готовых решений для
# распространенных задач NLP.
# spaCy является "мнениющейся" (opinionated), то есть часто предлагает один,
# но хорошо оптимизированный способ решения задачи, в отличие от NLTK,
# который предоставляет множество альтернатив.

# Философия spaCy:
# - Производительность и Эффективность: Написана на Cython, быстрая.
# - Готовность к Использованию: Предоставляет предобученные модели для разных языков.
# - Интеграция: Легко интегрируется с веб-фреймворками и фреймворками глубокого обучения.
# - Простота API: Предлагает объектно-ориентированный подход.

# Установка spaCy:
# pip install -U spacy

# Загрузка Языковых Моделей:
# spaCy использует предобученные статистические модели для выполнения задач
# (POS-tagging, NER, парсинг зависимостей). Модели нужно загружать отдельно.
# Модели различаются по размеру и возможностям (например, наличию векторов слов).
# Соглашение об именовании: [язык]_[тип]_[жанр]_[размер]
#   - язык: en (English), de (German), es (Spanish), ru (Russian), xx (Multi-language) и т.д.
#   - тип: core (основная модель), dep (только зависимости), ner и т.д.
#   - жанр: web (веб-тексты), news (новости) и т.д.
#   - размер: sm (small), md (medium), lg (large), trf (Transformer-based)

# Пример загрузки маленькой английской модели:
# python -m spacy download en_core_web_sm

# Пример загрузки русской модели (если доступна):
# python -m spacy download ru_core_news_sm

# Проверка установленных моделей:
# python -m spacy validate

# --------------------------------------------------

# Блок 2: Основные Объекты и Концепции spaCy

import spacy

# 1. Объект `nlp` (Языковая Модель):
#    - Центральный объект spaCy. Загружает языковую модель и содержит конвейер обработки (pipeline).
#    - Создается вызовом `spacy.load()` с именем установленной модели.

# Загрузка маленькой английской модели (убедитесь, что она загружена!)
try:
    nlp_en = spacy.load("en_core_web_sm")
    print("Loaded 'en_core_web_sm' model.")
except OSError:
    print("Error: 'en_core_web_sm' model not found. Please run:")
    print("python -m spacy download en_core_web_sm")
    # Создадим пустой объект для продолжения примера, но он не будет выполнять анализ
    nlp_en = spacy.blank("en") # Создает пустой пайплайн для языка 'en'


# 2. Объект `Doc`:
#    - Результат обработки текста объектом `nlp`.
#    - `doc = nlp("Текст для обработки")`
#    - Это контейнер, содержащий последовательность токенов (`Token`) и их аннотации
#      (POS-теги, зависимости, сущности и т.д.).
#    - Сохраняет исходный текст и информацию о структуре документа.

text_example = "Apple is looking at buying U.K. startup for $1 billion"
doc = nlp_en(text_example)
# print(f"\nProcessed text: '{text_example}'")
# print(f"Type of result: {type(doc)}")

# 3. Объект `Token`:
#    - Представляет отдельный токен (слово, знак пунктуации).
#    - Доступ к токенам осуществляется итерацией по объекту `Doc`.
#    - Имеет множество атрибутов для доступа к лингвистической информации.

# print("\nTokens and their attributes:")
# for token in doc:
#     print(
#         f"  Text: {token.text:<10}"
#         f" Lemma: {token.lemma_:<10}" # Лемма (словарная форма)
#         f" POS: {token.pos_:<8}"      # Простая часть речи (NOUN, VERB, ADJ)
#         f" Tag: {token.tag_:<8}"      # Детальный POS-тег (NNP, VBG, NNS)
#         f" Dep: {token.dep_:<10}"     # Синтаксическая зависимость
#         f" Shape: {token.shape_:<10}" # Форма слова (Xxxxx, dddd)
#         f" Alpha: {token.is_alpha:<5}" # Является ли буквенным?
#         f" Stop: {token.is_stop}"     # Является ли стоп-словом?
#     )

# 4. Объект `Span`:
#    - Срез (slice) объекта `Doc`, представляющий фразу или последовательность токенов.
#    - Имеет доступ к атрибутам токенов, входящих в него.
#    - Именованные сущности (`doc.ents`) являются объектами `Span`.

# Пример Span:
# span = doc[1:4] # Токены с индексами 1, 2, 3 ('is looking at')
# print(f"\nSpan example: '{span.text}'")
# print(f"Span root dependency: {span.root.dep_}")

# 5. Конвейер Обработки (Pipeline):
#    - Когда вы вызываете `nlp(text)`, текст проходит через последовательность компонентов.
#    - Компоненты: токенизатор, теггер (POS), парсер (зависимости), NER и т.д.
#    - Состав конвейера зависит от загруженной модели.
#    - Можно посмотреть компоненты: `print(nlp_en.pipe_names)`
#    - Можно добавлять/удалять/заменять компоненты.

# --------------------------------------------------

# Блок 3: Доступ к Лингвистическим Признакам

# После обработки текста (`doc = nlp(text)`), spaCy предоставляет доступ к аннотациям.

# --- 3.1 Токенизация ---
# # Выполняется автоматически при создании `Doc`. Доступ через итерацию.
# print("\nTokens:")
# for token in doc:
#     print(token.text)

# --- 3.2 Лемматизация ---
# # Получение базовой формы слова. Атрибут `token.lemma_`.
# print("\nLemmas:")
# for token in doc:
#     print(f"{token.text} -> {token.lemma_}")

# --- 3.3 POS-теггинг ---
# # Простые теги: `token.pos_` (NOUN, VERB, ADJ, PUNCT...). Универсальные теги.
# # Детальные теги: `token.tag_` (NNP, VBG, JJ...). Зависят от языка и обучающих данных.
# print("\nPOS Tags:")
# for token in doc:
#     print(f"{token.text:<10} {token.pos_:<8} {token.tag_:<8} {spacy.explain(token.tag_)}") # Объяснение тега

# --- 3.4 Синтаксический Анализ Зависимостей (Dependency Parsing) ---
# # Анализ грамматической структуры предложения. Показывает отношения между словами.
# # `token.dep_`: Тип зависимости (nsubj, dobj, amod...).
# # `token.head`: Токен, от которого зависит данный токен (его "голова").
# print("\nDependency Parsing:")
# for token in doc:
#     print(f"{token.text:<10} {token.dep_:<10} {token.head.text:<10} {[child for child in token.children]}")

# Визуализация дерева зависимостей (требует Jupyter Notebook/Lab)
from spacy import displacy
# displacy.render(doc, style="dep", jupyter=True, options={'distance': 90})

# --- 3.5 Распознавание Именованных Сущностей (NER) ---
# # Поиск и классификация сущностей (люди, организации, локации...).
# # Доступ через `doc.ents`. Каждый элемент - это `Span`.
# print("\nNamed Entities:")
# if doc.ents:
#     for ent in doc.ents:
#         print(f"  Text: {ent.text:<20} Label: {ent.label_:<10} ({spacy.explain(ent.label_)})")
# else:
#     print("  No entities found by this model.")

# Визуализация NER (требует Jupyter Notebook/Lab)
# displacy.render(doc, style="ent", jupyter=True)

# --- 3.6 Определение Предложений (Sentence Boundary Detection - SBD) ---
# # Автоматически выполняется компонентом `parser` или `sentencizer`.
# # Доступ через `doc.sents`.
# print("\nSentences:")
# for sent in doc.sents:
#     print(f"-> {sent.text}")

# --- 3.7 Проверка на Стоп-слова ---
# # Атрибут `token.is_stop`.
# print("\nStopwords check:")
# for token in doc:
#     if token.is_stop:
#         print(f"'{token.text}' is a stopword.")

# --------------------------------------------------

# Блок 4: Векторные Представления и Сходство

# Некоторые модели spaCy (обычно `md` и `lg`) включают векторы слов.
# Это позволяет вычислять семантическое сходство между токенами, спанами и документами.
# Модель `en_core_web_sm` НЕ включает векторы по умолчанию.
# Для работы с векторами загрузите модель побольше:
# python -m spacy download en_core_web_md
# nlp_md = spacy.load("en_core_web_md")

# Проверка наличия векторов в модели:
# has_vectors = nlp_en.vocab.vectors.shape[0] > 0 # Проверяем для nlp_en
# print(f"\nModel 'en_core_web_sm' has word vectors: {has_vectors}")

# Пример (если бы векторы были):
# doc1 = nlp_md("I like cats")
# doc2 = nlp_md("I love dogs")
# doc3 = nlp_md("The weather is nice")
#
# # Сходство между документами
# print(f"Similarity(doc1, doc2): {doc1.similarity(doc2)}")
# print(f"Similarity(doc1, doc3): {doc1.similarity(doc3)}")
#
# # Сходство между токенами
# token_cat = doc1[2] # 'cats'
# token_dog = doc2[3] # 'dogs'
# print(f"Similarity(cat, dog): {token_cat.similarity(token_dog)}")
#
# # Получение вектора
# print(f"Vector for 'cats': {token_cat.vector[:5]}...") # Первые 5 компонент
# print(f"Vector shape: {token_cat.vector.shape}")
# print(f"Has vector: {token_cat.has_vector}")
# print(f"Is OOV (Out of Vocabulary): {token_cat.is_oov}") # Неизвестное слово?

# --------------------------------------------------

# Блок 5: Rule-based Matching (Поиск по Правилам)

# spaCy предоставляет мощный инструмент `Matcher` для поиска последовательностей
# токенов на основе правил, описывающих их атрибуты (текст, лемма, POS, теги и т.д.).

from spacy.matcher import Matcher

# Инициализация Matcher со словарем модели
matcher = Matcher(nlp_en.vocab)

# Определение паттерна: ищем "Apple" (лемма) + любой глагол
pattern = [{"LEMMA": "Apple"}, {"POS": "VERB"}]

# Добавление паттерна в Matcher
# "AppleVerb" - ID паттерна, pattern - сам паттерн
matcher.add("AppleVerbPattern", [pattern])

# Применение Matcher к документу
doc_match = nlp_en("Apple is looking for talent. apple pays well.")
matches = matcher(doc_match)

# Результаты: список кортежей (match_id, start_token_index, end_token_index)
# print("\nMatcher results:")
# for match_id, start, end in matches:
#     string_id = nlp_en.vocab.strings[match_id]  # Получить ID паттерна (строку)
#     span = doc_match[start:end]  # Получить найденный Span
#     print(f"  Match ID: {string_id}, Span: '{span.text}'")

# Другие атрибуты для паттернов:
# {"LOWER": "apple"} - текст в нижнем регистре
# {"POS": "PROPN"} - имя собственное
# {"TAG": "NNP"} - детальный тег
# {"DEP": "nsubj"} - зависимость
# {"OP": "!"} - отрицание (токен НЕ должен соответствовать)
# {"OP": "?"} - опциональный токен (0 или 1 раз)
# {"OP": "*"} - 0 или более раз
# {"OP": "+"} - 1 или более раз
# {"ENT_TYPE": "ORG"} - тип сущности

# --------------------------------------------------

# Блок 6: Настройка Конвейера (Pipeline)

# Можно посмотреть текущий конвейер:
# print(f"\nCurrent pipeline: {nlp_en.pipe_names}")

# Отключение компонента (например, для ускорения, если NER не нужен)
# nlp_disabled_ner = spacy.load("en_core_web_sm", disable=["ner"])
# print(f"Pipeline with NER disabled: {nlp_disabled_ner.pipe_names}")
# doc_no_ner = nlp_disabled_ner("Apple is a company.")
# print("Entities with NER disabled:", doc_no_ner.ents) # Будет пусто

# Добавление кастомного компонента
# @spacy.language.Language.component("custom_printer")
# def custom_printer_component(doc):
#     print(f"Custom component processing Doc with {len(doc)} tokens.")
#     # Нужно вернуть doc
#     return doc
#
# # Добавляем компонент в начало конвейера
# nlp_en.add_pipe("custom_printer", first=True)
# print(f"Pipeline after adding custom component: {nlp_en.pipe_names}")
# # Обработаем текст снова, чтобы увидеть вывод компонента
# # doc_custom = nlp_en("This will trigger the custom component.")
# # Удаляем компонент, чтобы не мешал дальше
# nlp_en.remove_pipe("custom_printer")
# print(f"Pipeline after removing custom component: {nlp_en.pipe_names}")

# --------------------------------------------------

# Блок 7: Пример Задачи - Извлечение Сущностей и Лемматизация

# --- Условие Задачи ---
# Задача: Обработать текст, извлечь все именованные сущности типа "ORGANIZATION" (ORG)
# и "GEOPOLITICAL ENTITY" (GPE). Для остального текста вывести леммы слов,
# не являющихся стоп-словами или знаками пунктуации.

# --- Решение (Полный Код) ---

import spacy

# Убедитесь, что модель загружена
try:
    nlp = spacy.load("en_core_web_sm")
    print("Loaded 'en_core_web_sm' model for the task.")
except OSError:
    print("Error: 'en_core_web_sm' model not found. Please run:")
    print("python -m spacy download en_core_web_sm")
    exit() # Выход, если модель не найдена

text_to_process = """
Microsoft Corporation, often called Microsoft, is an American multinational technology corporation
headquartered in Redmond, Washington. It develops, manufactures, licenses, supports, and sells
computer software, consumer electronics, personal computers, and related services. Its best-known
software products are the Microsoft Windows line of operating systems, the Microsoft Office suite,
and the Internet Explorer and Edge web browsers. Its flagship hardware products are the Xbox video
game consoles and the Microsoft Surface lineup of touchscreen personal computers. Microsoft ranked
No. 21 in the 2020 Fortune 500 rankings of the largest United States corporations by total revenue;
it was the world's largest software maker by revenue as of 2016. It is considered one of the Big Five
companies in the U.S. information technology industry, along with Google, Amazon, Apple, and Meta.
"""

# Обработка текста
doc = nlp(text_to_process)

extracted_entities = []
lemmatized_non_stopwords = []

# Итерация по токенам
for token in doc:
    # Проверка, является ли токен частью сущности ORG или GPE
    if token.ent_type_ in ["ORG", "GPE"]:
        # Добавляем всю сущность только один раз, когда встречаем ее первый токен
        if token.i == token.ent_iob_ B-ORG or token.i == token.ent_iob_ B-GPE: # IOB схема: B-egin, I-nside, O-utside
             # Проверяем, что это начало сущности (B-)
             # В spaCy v3+ можно проще: if token.ent_iob == 3: # 3 corresponds to B-
             # Но для совместимости проверим тип сущности
             # Простой способ - добавить всю сущность, когда встретили первый токен
             # (может добавить дубликаты, если сущность повторяется)
             # Более надежно - проверять token.ent_iob_ == 'B'
             # Но самый простой - просто добавить текст сущности
             # Мы сделаем это после цикла по токенам, используя doc.ents

             # Пока просто пропустим токены сущностей в этом цикле
             pass
    # Если токен не сущность, не стоп-слово и не пунктуация - лемматизируем
    elif not token.is_stop and not token.is_punct and token.is_alpha:
        lemmatized_non_stopwords.append(token.lemma_)

# Извлечение уникальных сущностей нужного типа
unique_entities = set()
for ent in doc.ents:
    if ent.label_ in ["ORG", "GPE"]:
        unique_entities.add((ent.text.strip(), ent.label_)) # Добавляем кортеж (текст, тип)

print("\n--- Task Results ---")
print("\nExtracted Organizations (ORG) and Geopolitical Entities (GPE):")
if unique_entities:
    for entity, label in sorted(list(unique_entities)): # Сортируем для порядка
        print(f"- {entity} ({label})")
else:
    print("No ORG or GPE entities found.")

print("\nLemmatized non-stopword/non-punctuation/non-entity tokens:")
# Выведем только часть для краткости
print(" ".join(lemmatized_non_stopwords[:50]) + "...")

# --- Конец Примера ---

# --------------------------------------------------

# Блок 8: spaCy vs NLTK - Краткое Сравнение

# | Фича                  | spaCy                                  | NLTK                                      |
# |-----------------------|----------------------------------------|-------------------------------------------|
# | **Философия**         | Промышленный, Мнениющаяся, Быстрая    | Академическая, Гибкая, Исследовательская |
# | **Производительность**| Высокая (Cython)                       | Ниже                                      |
# | **API**               | Объектно-ориентированный, Простой      | Функциональный, Более сложный            |
# | **Предобуч. Модели** | Да, для многих языков (легко скачать) | Ограничено (нужно искать/обучать)        |
# | **Задачи "из коробки"**| Токен., POS, NER, Зависимости и др.   | Токен., Стемминг, Леммы, POS, WordNet...  |
# | **Алгоритмы**         | Обычно 1 оптимизированный вариант      | Множество алгоритмов на выбор             |
# | **Векторы Слов**      | Встроены в `md`/`lg`/`trf` модели     | Требует Gensim или загрузки извне         |
# | **Трансформеры**      | Интеграция через `spacy-transformers`  | Нет прямой поддержки (нужен Transformers) |
# | **Кастомизация**      | Настройка Pipeline, Компоненты         | Высокая гибкость, но больше кода          |
# | **Сообщество**        | Активное, Хорошая документация         | Большое, Много туториалов (но могут быть устаревшими) |
# | **Лучше для...**      | Продакшн, Быстрое прототипирование     | Обучение, Исследования, Доступ к ресурсам |

# Вывод: spaCy отлично подходит для создания реальных NLP-приложений благодаря
# своей скорости, точности предобученных моделей и простому API. NLTK остается
# ценным ресурсом для изучения основ NLP и доступа к разнообразным лингвистическим
# данным и алгоритмам. Часто их используют вместе или в связке с другими
# библиотеками (например, spaCy + Transformers).

# --------------------------------------------------

In [None]:
# Блок 1: Введение в Классификацию Текста

# Что такое Классификация Текста?
# Это задача NLP, заключающаяся в присвоении тексту одной или нескольких
# предопределенных меток или категорий.
# Вход: Фрагмент текста (предложение, абзац, документ).
# Выход: Метка класса (или несколько меток) и/или оценка уверенности.

# Примеры Задач:
# - Анализ Тональности (Sentiment Analysis): Определение эмоциональной окраски
#   (позитивная, негативная, нейтральная).
# - Классификация по Темам (Topic Classification): Определение основной темы
#   текста (спорт, политика, технологии, искусство).
# - Определение Спама (Spam Detection): Является ли email спамом или нет.
# - Определение Языка (Language Detection): На каком языке написан текст.
# - Определение Намерения (Intent Recognition): Какова цель пользователя в
#   запросе к чат-боту (заказ пиццы, проверка погоды).

# --------------------------------------------------

# Блок 2: Подходы к Классификации Текста с spaCy

# spaCy предлагает несколько способов решения задач классификации текста:

# 1. Использование Встроенного Компонента `textcat`:
#    - spaCy предоставляет компонент конвейера (pipeline component) `textcat`
#      (и его варианты `textcat_bow`, `textcat_cnn`, `textcat_ensemble`),
#      специально разработанный для классификации текстов.
#    - Он обучается на ваших данных и может быть добавлен в конвейер spaCy.
#    - **Это основной способ, который мы рассмотрим в этом туториале.**

# 2. Извлечение Признаков + Внешний Классификатор:
#    - Использовать spaCy для предобработки и извлечения признаков из текста:
#      - Векторы слов/документов (из моделей `md` или `lg`).
#      - Частоты токенов/лемм (похоже на BoW/TF-IDF).
#      - POS-теги, информация о зависимостях.
#    - Затем использовать эти признаки для обучения классификатора из другой
#      библиотеки, например, Scikit-learn (SVM, Logistic Regression, Naive Bayes).
#    - Гибкий подход, но требует больше ручной работы по извлечению признаков.

# 3. Использование Трансформеров через `spacy-transformers`:
#    - Библиотека `spacy-transformers` интегрирует модели из Hugging Face
#      (BERT, RoBERTa, GPT и т.д.) в конвейер spaCy.
#    - Можно использовать предобученные трансформеры для классификации или
#      дообучить их на своих данных внутри экосистемы spaCy.
#    - Обеспечивает state-of-the-art результаты, но требует больше ресурсов.

# Мы сфокусируемся на встроенном компоненте `textcat`.

# --------------------------------------------------

# Блок 3: Компонент `textcat` в spaCy

# Архитектура `textcat`:
# - spaCy предлагает несколько архитектур для `textcat`:
#   - `textcat_bow` (Bag-of-Words): Использует простой подход "мешка слов"
#     (учитывает n-граммы слов/символов) для создания вектора признаков,
#     который затем подается в линейный классификатор или простую нейросеть.
#     Быстрый, хорошо работает на простых задачах или как базовый вариант.
#   - `textcat_cnn` (Convolutional Neural Network): Использует сверточную
#     нейронную сеть (обычно с эмбеддингами слов) для извлечения признаков
#     из текста. Учитывает локальный порядок слов. Часто дает лучшие
#     результаты, чем BoW, но медленнее обучается и работает.
#   - `textcat_ensemble`: Комбинирует предсказания `textcat_bow` и `textcat_cnn`
#     для потенциально лучшей точности.
# - Выбор архитектуры происходит при конфигурации конвейера. По умолчанию
#   (если просто добавить `textcat`) часто используется ансамбль или CNN.

# Типы Классификации:
# - Эксклюзивная (Exclusive): Текст может принадлежать только к ОДНОМУ классу.
#   (Например, тональность: только позитивная ИЛИ негативная).
# - Мульти-лейбл (Multi-label): Текст может принадлежать к НЕСКОЛЬКИМ классам
#   одновременно. (Например, темы: текст может быть и про "спорт", и про "политику").
# - `textcat` поддерживает оба типа.

# Формат Данных для Обучения:
# - Обучающие данные должны быть представлены в виде списка кортежей.
# - Каждый кортеж: `(текст, словарь_аннотаций)`
# - `текст`: Строка с текстом для классификации.
# - `словарь_аннотаций`: Словарь, содержащий ключ `'cats'`.
#   - Значение по ключу `'cats'`: Другой словарь, где ключи - это имена ваших
#     классов (строки), а значения - это оценки (scores):
#     - Для эксклюзивной классификации: 1.0 для истинного класса, 0.0 для остальных.
#       Пример: `{"cats": {"POSITIVE": 1.0, "NEGATIVE": 0.0}}`
#     - Для мульти-лейбл классификации: 1.0 для классов, к которым текст относится,
#       0.0 для тех, к которым не относится.
#       Пример: `{"cats": {"SPORTS": 1.0, "POLITICS": 1.0, "TECHNOLOGY": 0.0}}`

# Пример данных для эксклюзивной классификации (тональность):
# TRAIN_DATA = [
#     ("This is great!", {"cats": {"POSITIVE": 1.0, "NEGATIVE": 0.0}}),
#     ("I hated it.", {"cats": {"POSITIVE": 0.0, "NEGATIVE": 1.0}}),
#     ("What a wonderful movie.", {"cats": {"POSITIVE": 1.0, "NEGATIVE": 0.0}}),
#     ("Terrible experience.", {"cats": {"POSITIVE": 0.0, "NEGATIVE": 1.0}}),
#     # ... больше данных
# ]

# --------------------------------------------------

# Блок 4: Обучение Модели `textcat`

# Шаги Обучения:

# 1. Загрузка Базовой Модели или Создание Пустой:
#    - Можно начать с предобученной модели spaCy (например, `en_core_web_sm`)
#      и дообучить ее компонент `textcat` (если он там есть) или добавить новый.
#    - Часто лучше начать с пустой модели (`spacy.blank("en")`), особенно если
#      ваши данные сильно отличаются от тех, на которых обучалась базовая модель,
#      или если вам не нужны другие компоненты (POS, NER).
import spacy
import random
from spacy.training.example import Example # Для создания обучающих примеров

# nlp = spacy.load("en_core_web_sm") # Вариант 1: Загрузить существующую
nlp = spacy.blank("en") # Вариант 2: Создать пустую модель для английского

# 2. Добавление Компонента `textcat` в Конвейер:
#    - Если компонент еще не существует, его нужно добавить.
#    - Нужно указать конфигурацию, включая архитектуру (`"cnn"`, `"bow"`, `"ensemble"`)
#      и тип классификации (`exclusive_classes=True` или `False`).
if "textcat" not in nlp.pipe_names:
    # Указываем архитектуру (например, CNN) и тип (эксклюзивные классы)
    config = {
        "threshold": 0.5,
        # "model": { # Можно детальнее настроить архитектуру
        #     "@architectures": "spacy.TextCatCNN.v2",
        #     "exclusive_classes": True,
        #     "ngram_size": 1,
        #     "pretrained_vectors": None, # Использовать ли векторы из базовой модели
        #     "width": 64
        # }
    }
    # Добавляем компонент с настройками по умолчанию (часто ensemble или cnn)
    # и указываем, что классы эксклюзивные
    textcat = nlp.add_pipe("textcat", last=True, config={"exclusive_classes": True})
    print("Added 'textcat' component to the pipeline.")
else:
    textcat = nlp.get_pipe("textcat")
    print("Found existing 'textcat' component.")

# 3. Добавление Меток Классов:
#    - Компоненту `textcat` нужно сообщить, какие классы он должен предсказывать.
textcat.add_label("POSITIVE")
textcat.add_label("NEGATIVE")
print("Added labels 'POSITIVE', 'NEGATIVE' to textcat.")

# 4. Подготовка Обучающих Данных:
#    - Данные должны быть в формате `(text, {"cats": {"LABEL1": score1, ...}})`
#    - (См. пример TRAIN_DATA в Блоке 3)

# 5. Обучающий Цикл:
#    - Обучение происходит итеративно, прогоняя данные через модель несколько раз (эпох).
#    - Используется `nlp.update()` для обновления весов модели.
#    - Важно перемешивать данные (`random.shuffle`) перед каждой эпохой.
#    - Рекомендуется отключать другие компоненты конвейера (`ner`, `parser`),
#      если они не нужны для `textcat`, чтобы ускорить обучение.

# Пример обучающего цикла (псевдокод):
# n_iterations = 10 # Количество эпох
# optimizer = nlp.begin_training() # Инициализация оптимизатора
#
# for itn in range(n_iterations):
#     random.shuffle(TRAIN_DATA)
#     losses = {}
#     for text, annotations in TRAIN_DATA:
#         # Создаем объект Example для обучения
#         doc = nlp.make_doc(text) # Создаем Doc без аннотаций
#         example = Example.from_dict(doc, annotations) # Объединяем текст и аннотации
#         # Обновляем модель
#         nlp.update([example], sgd=optimizer, losses=losses)
#     print(f"Epoch {itn+1}, Losses: {losses}")

# 6. Сохранение Обученной Модели:
#    - После обучения модель можно сохранить на диск.
# output_dir = "./my_textcat_model"
# nlp.to_disk(output_dir)
# print(f"Model saved to {output_dir}")

# 7. Загрузка Обученной Модели:
# nlp_loaded = spacy.load(output_dir)
# print(f"Loaded model from {output_dir}")

# --------------------------------------------------

# Блок 5: Оценка и Инференс

# Оценка Модели:
# - После обучения модель нужно оценить на отложенной тестовой выборке (данные, которые модель не видела).
# - Используйте стандартные метрики классификации: Accuracy, Precision, Recall, F1-score.
# - spaCy предоставляет утилиту `Scorer` для оценки.
#   ```python
#   from spacy.scorer import Scorer
#
#   def evaluate(nlp_model, test_data):
#       examples = []
#       scorer = Scorer()
#       for text, annotations in test_data:
#           doc = nlp_model.make_doc(text)
#           example = Example.from_dict(doc, annotations)
#           # Предсказываем на тексте из примера
#           pred_doc = nlp_model(example.predicted)
#           # Создаем Example с предсказанным и истинным документом
#           example.reference = pred_doc # Используем предсказанный как референс для оценки? Нет, наоборот
#           # Нужно создать Example с истинными аннотациями и предсказанным текстом
#           # Или проще: передать предсказанный doc и example с истинными данными
#           examples.append(Example(pred_doc, example.reference)) # Нужно уточнить API Scorer
#
#       # Оценка по категориям (textcat)
#       scores = scorer.score_cats(examples, "textcat", labels=nlp_model.get_pipe("textcat").labels)
#       return scores
#   ```
#   *Примечание: API оценки может меняться, сверяйтесь с документацией spaCy.*
#   Проще может быть вручную прогнать модель по тестовым данным и посчитать метрики.

# Инференс (Использование Модели):
# - Загрузите обученную модель (`nlp = spacy.load(path)`).
# - Обработайте новый текст: `doc = nlp("Текст для классификации")`.
# - Результаты классификации хранятся в атрибуте `doc.cats`.
#   Это словарь, где ключи - имена классов, а значения - предсказанные оценки (обычно вероятности после softmax или sigmoid).

# Пример инференса:
# test_text_positive = "I really enjoyed this movie, it was fantastic!"
# doc_pos = nlp_loaded(test_text_positive)
# print(f"\nText: '{test_text_positive}'")
# print(f"Predicted scores: {doc_pos.cats}")
# # Определение предсказанного класса (для эксклюзивной классификации)
# predicted_label_pos = max(doc_pos.cats, key=doc_pos.cats.get)
# print(f"Predicted label: {predicted_label_pos}")
#
# test_text_negative = "Absolutely terrible, I want my money back."
# doc_neg = nlp_loaded(test_text_negative)
# print(f"\nText: '{test_text_negative}'")
# print(f"Predicted scores: {doc_neg.cats}")
# predicted_label_neg = max(doc_neg.cats, key=doc_neg.cats.get)
# print(f"Predicted label: {predicted_label_neg}")

# --------------------------------------------------

# Блок 6: Пример Задачи и Решения (Обучение `textcat`)

# --- Условие Задачи ---
# Задача: Обучить модель spaCy (`textcat`) для классификации коротких
# текстовых сообщений на два класса: "SPAM" и "HAM" (не спам).
# Используем небольшой синтетический набор данных.

# --- Решение (Полный Код) ---

import spacy
import random
from spacy.training.example import Example
from spacy.util import minibatch, compounding
import os

# --- 0. Настройки ---
NUM_EPOCHS = 10
BATCH_SIZE = 4
LEARNING_RATE = 0.001 # Не используется напрямую в nlp.update, но для информации
MODEL_SAVE_DIR = "./spam_textcat_model"
LABELS = ["SPAM", "HAM"]

# --- 1. Подготовка Обучающих Данных ---
# Формат: (текст, {"cats": {"SPAM": 0/1, "HAM": 0/1}})
# Эксклюзивная классификация: только один класс может быть 1.0
TRAIN_DATA = [
    ("URGENT! You have won a 1 week FREE membership", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("Free entry in 2 a wkly comp to win FA Cup final tkts", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("Winner!! As a valued network customer you have been selected", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("Had your mobile 11 months or more? U R entitled to Update", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("SIX chances to win CASH! From 100 to 20,000 pounds", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("Ok lar... Joking wif u oni...", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Sorry, I'll call later", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("I'm going to try for 2 months ha ha only joking", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Fine if that's the way u feel. That's the way its gota b", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Is that seriously how you spell his name?", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("I‘m going to try for 2 months ha ha only joking", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Just forced myself to eat a slice. I'm really not hungry tho.", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Did you catch the bus ? Are you frying an egg ? ", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("I'm back & we're packing the car now, I'll let you know if there's room", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Ahhh. Work. I vaguely remember that! What does it feel like?", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Yeah he got in at 2 and was v apologetic. n had fallen out", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("You have WON a guaranteed £1000 cash or a £2000 prize!", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("PRIVATE! Your 2003 Account Statement for 077xxx shows 800 un-redeemed points.", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
]

# Разделим на обучающую и тестовую (для примера просто возьмем часть)
random.shuffle(TRAIN_DATA)
split_point = int(len(TRAIN_DATA) * 0.8)
train_data = TRAIN_DATA[:split_point]
test_data = TRAIN_DATA[split_point:]
print(f"Training data size: {len(train_data)}")
print(f"Test data size: {len(test_data)}")

# --- 2. Создание Модели и Конвейера ---
# Начнем с пустой английской модели
nlp = spacy.blank("en")

# Добавляем textcat в конвейер
# Используем настройки по умолчанию, но указываем exclusive_classes
config = {"exclusive_classes": True, "architecture": "simple_cnn"} # Попробуем CNN
textcat = nlp.add_pipe("textcat", last=True, config=config)

# Добавляем метки
for label in LABELS:
    textcat.add_label(label)

print(f"Pipeline: {nlp.pipe_names}")

# --- 3. Обучение Модели ---
print("\nStarting training...")
training_start_time = time.time()

# Отключаем другие пайпы (если бы они были) для эффективности
other_pipes = [pipe for pipe in nlp.pipe_names if pipe != "textcat"]
with nlp.disable_pipes(*other_pipes): # Контекстный менеджер для отключения
    optimizer = nlp.begin_training() # Инициализация оптимизатора

    for epoch in range(NUM_EPOCHS):
        random.shuffle(train_data)
        losses = {}
        # Используем батчинг
        batches = minibatch(train_data, size=BATCH_SIZE)
        for batch in batches:
            # Преобразуем тексты и аннотации в объекты Example
            examples = []
            for text, annotations in batch:
                doc = nlp.make_doc(text)
                examples.append(Example.from_dict(doc, annotations))

            # Обновляем модель на батче
            nlp.update(examples, sgd=optimizer, losses=losses)

        print(f"Epoch {epoch+1}/{NUM_EPOCHS}, Losses: {losses}")

training_end_time = time.time()
print(f"Training finished in {training_end_time - training_start_time:.2f} seconds.")

# --- 4. Сохранение Модели ---
if not os.path.exists(MODEL_SAVE_DIR):
    os.makedirs(MODEL_SAVE_DIR)
nlp.to_disk(MODEL_SAVE_DIR)
print(f"Model saved to {MODEL_SAVE_DIR}")

# --- 5. Тестирование (Инференс) ---
print("\nLoading trained model and testing...")
nlp_trained = spacy.load(MODEL_SAVE_DIR)

# Тестируем на данных, которые модель не видела
print("\n--- Test Results ---")
correct_predictions = 0
for text, true_annotations in test_data:
    doc = nlp_trained(text)
    predicted_label = max(doc.cats, key=doc.cats.get)
    true_label = max(true_annotations["cats"], key=true_annotations["cats"].get)

    is_correct = predicted_label == true_label
    if is_correct:
        correct_predictions += 1

    print(f"Text: {text[:50]}...")
    print(f"  True: {true_label}, Predicted: {predicted_label} (Scores: {doc.cats}) - Correct: {is_correct}")

accuracy = correct_predictions / len(test_data)
print(f"\nTest Accuracy: {accuracy:.4f}")

# Пример на новом тексте
print("\n--- New Example ---")
test_text_spam = "Claim your free prize now! Click link!"
doc_spam = nlp_trained(test_text_spam)
print(f"Text: '{test_text_spam}'")
print(f"Scores: {doc_spam.cats}")
print(f"Predicted: {max(doc_spam.cats, key=doc_spam.cats.get)}")

test_text_ham = "Hey, are you free for lunch tomorrow?"
doc_ham = nlp_trained(test_text_ham)
print(f"Text: '{test_text_ham}'")
print(f"Scores: {doc_ham.cats}")
print(f"Predicted: {max(doc_ham.cats, key=doc_ham.cats.get)}")

# --- Конец Примера ---

# --------------------------------------------------


In [None]:
# Блок 1: Введение в spacy-transformers

# Что такое spacy-transformers?
# Это пакет расширения для spaCy, который обеспечивает бесшовную интеграцию
# с популярной библиотекой Hugging Face Transformers.
# Он позволяет использовать state-of-the-art модели Трансформеров (BERT, RoBERTa,
# XLNet, GPT-2, DistilBERT и многие другие) внутри конвейера (pipeline) spaCy.

# Зачем использовать spacy-transformers?
# - Доступ к Мощным Моделям: Позволяет легко применять передовые модели
#   Трансформеров, которые отлично улавливают контекст и семантику языка.
# - Улучшенная Точность: Использование Трансформеров в качестве источника
#   признаков часто приводит к значительному повышению точности для
#   последующих компонентов spaCy (NER, POS-tagging, Text Classification и т.д.).
# - Единый Интерфейс: Работа с Трансформерами происходит через привычный
#   объектно-ориентированный интерфейс spaCy (`nlp`, `Doc`, `Token`, `Span`).
# - Fine-tuning: Поддерживает дообучение (fine-tuning) Трансформеров на
#   пользовательских данных в рамках экосистемы spaCy (через `spacy train`).

# Основная Идея:
# `spacy-transformers` добавляет компонент `transformer` в конвейер spaCy.
# Этот компонент генерирует выходы Трансформера (обычно контекстуализированные
# эмбеддинги слов или подслов). Другие компоненты spaCy (например, `tagger`,
# `parser`, `ner`, `textcat`) могут затем использовать эти богатые признаки
# вместо или в дополнение к своим стандартным признакам.

# --------------------------------------------------

# Блок 2: Установка и Настройка

# 1. Установка spacy-transformers:
#    - Убедитесь, что у вас установлен spaCy v3+.
#    - Установите пакет:
#      `pip install -U spacy-transformers`
#    - Вам также понадобится один из бэкендов глубокого обучения, поддерживаемый
#      Hugging Face Transformers (PyTorch или TensorFlow):
#      `pip install -U torch`  # Рекомендуется PyTorch
#      # или
#      # `pip install -U tensorflow`

# 2. Загрузка Transformer-моделей spaCy:
#    - `spacy-transformers` работает с моделями spaCy, которые включают
#      конфигурацию для использования Трансформера.
#    - Эти модели обычно имеют суффикс `_trf` в названии.
#    - Они значительно больше по размеру, чем стандартные модели (`sm`, `md`, `lg`),
#      так как содержат веса Трансформера.
#    - Загрузка модели (пример для английского языка):
#      `python -m spacy download en_core_web_trf`
#    - Существуют `_trf` модели и для других языков (проверяйте доступность).

# 3. Требования к Ресурсам:
#    - **Важно:** Transformer-модели требуют значительно больше вычислительных
#      ресурсов (ЦП, ОЗУ и особенно ГП) по сравнению со стандартными моделями spaCy.
#    - Наличие GPU сильно рекомендуется для приемлемой скорости обработки и обучения.

# --------------------------------------------------

# Блок 3: Использование Моделей с `spacy-transformers`

import spacy

# 1. Загрузка Transformer-модели spaCy:
#    - Используйте `spacy.load()` с именем загруженной `_trf` модели.
model_name = "en_core_web_trf"
try:
    nlp_trf = spacy.load(model_name)
    print(f"Loaded Transformer model: '{model_name}'")
except OSError:
    print(f"Error: Model '{model_name}' not found. Please run:")
    print(f"python -m spacy download {model_name}")
    # Создадим пустой объект для предотвращения ошибок далее, но он бесполезен
    nlp_trf = spacy.blank("en")

# 2. Просмотр Конвейера (Pipeline):
#    - В конвейере загруженной модели должен присутствовать компонент `transformer`.
#    - Другие компоненты (tagger, parser, ner и т.д.) будут сконфигурированы
#      для использования выходов `transformer`.
# print(f"\nPipeline components: {nlp_trf.pipe_names}")
# Ожидаемый вывод (может немного отличаться): ['transformer', 'tagger', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

# 3. Обработка Текста:
#    - Используйте объект `nlp` как обычно. Обработка может занять больше времени.
text_example = "Apple Inc. is planning to open a new store in London."
# doc = nlp_trf(text_example)
# print(f"\nProcessed text: '{text_example}'")

# 4. Доступ к Аннотациям:
#    - Доступ к POS-тегам, зависимостям, сущностям и т.д. осуществляется
#      так же, как и в стандартном spaCy (`token.pos_`, `token.dep_`, `doc.ents`).
#    - Однако эти аннотации теперь генерируются с использованием признаков
#      из Трансформера, что обычно повышает их качество.

# print("\nTokens and POS tags (Transformer-backed):")
# for token in doc:
#     print(f"  {token.text:<10} {token.pos_:<8} {token.tag_:<8}")

# print("\nNamed Entities (Transformer-backed):")
# if doc.ents:
#     for ent in doc.ents:
#         print(f"  {ent.text:<20} {ent.label_:<10}")
# else:
#     print("  No entities found.")

# 5. Доступ к Выходам Трансформера (Продвинутый Уровень):
#    - `spacy-transformers` сохраняет детальные выходы Трансформера
#      (эмбеддинги токенов, скрытые состояния) в пользовательских атрибутах `Doc`.
#    - Доступ через `doc._.trf_data`. Это может быть полезно для специфических задач.
# try:
#     trf_data = doc._.trf_data
#     # print(f"\nTransformer data available: {trf_data is not None}")
#     # print(f"Type of trf_data: {type(trf_data)}") # Обычно свой класс TrfData
#     # Пример доступа к эмбеддингам последнего слоя (может зависеть от версии)
#     # last_hidden_states = trf_data.last_hidden_state
#     # print(f"Shape of last hidden states: {last_hidden_states.shape}") # (num_wp_tokens, hidden_size)
#     # Эмбеддинги уровня spaCy токенов (усредненные для токенов, разбитых на подслова)
#     # token_embeddings = trf_data.tensors[-1] # Может быть в другом месте
#     # print(f"Shape of token embeddings: {token_embeddings.shape}") # (num_spacy_tokens, hidden_size)
# except AttributeError:
#      print("\nTransformer data (`doc._.trf_data`) not found. Model might be blank.")


# 6. Сходство (Similarity):
#    - Если модель `_trf` включает векторы (обычно это так), методы `.similarity()`
#      будут использовать контекстуализированные эмбеддинги Трансформера,
#      что дает более точную оценку семантического сходства в контексте.
# doc1 = nlp_trf("The cat sat on the mat.")
# doc2 = nlp_trf("The feline rested on the rug.")
# doc3 = nlp_trf("Berlin is the capital of Germany.")
#
# print(f"\nSimilarity (Transformer-based):")
# print(f"doc1 vs doc2: {doc1.similarity(doc2):.4f}") # Ожидается высокое сходство
# print(f"doc1 vs doc3: {doc1.similarity(doc3):.4f}") # Ожидается низкое сходство

# --------------------------------------------------

# Блок 4: Классификация Текста с `spacy-transformers`

# Использование `textcat` с Трансформером:
# - Вы можете добавить компонент `textcat` в конвейер, который уже содержит
#   компонент `transformer`.
# - При обучении `textcat` автоматически будет использовать выходы
#   Трансформера в качестве признаков (если настроено соответствующим образом,
#   что обычно происходит по умолчанию в spaCy v3 при наличии `transformer`).
# - Это позволяет обучать классификатор текста, используя мощные
#   контекстуализированные представления.

# Процесс Обучения:
# 1.  **Загрузить `_trf` модель:** `nlp = spacy.load("en_core_web_trf")`
# 2.  **Добавить `textcat`:**
#     ```python
#     if "textcat" not in nlp.pipe_names:
#         # Конфигурация может указывать на использование Transformer features
#         # Часто это происходит автоматически, если 'transformer' есть в пайплайне
#         config = {"exclusive_classes": True} # Пример для эксклюзивной
#         textcat = nlp.add_pipe("textcat", last=True, config=config)
#     else:
#         textcat = nlp.get_pipe("textcat")
#     ```
# 3.  **Добавить метки:** `textcat.add_label("LABEL1")`, ...
# 4.  **Подготовить данные:** Формат `(text, {"cats": {...}})` остается тем же.
# 5.  **Обучающий цикл:** Используйте `nlp.update()` как и раньше. spaCy
#     автоматически передаст признаки из `transformer` в `textcat`.
#     ```python
#     optimizer = nlp.resume_training() # Или begin_training, если textcat новый
#     # ... цикл по эпохам и батчам ...
#     # Отключаем другие компоненты, КРОМЕ 'transformer' и 'textcat'
#     other_pipes = [p for p in nlp.pipe_names if p not in ["transformer", "textcat"]]
#     with nlp.disable_pipes(*other_pipes):
#          for batch in batches:
#              examples = [...] # Создаем Example
#              nlp.update(examples, sgd=optimizer, losses=losses)
#     ```
# 6.  **Сохранить/Загрузить/Оценить/Использовать:** Так же, как и для обычной модели `textcat`.

# Преимущество: `textcat` обучается на гораздо более мощных признаках,
# что обычно приводит к лучшей точности по сравнению с `textcat_bow` или `textcat_cnn`
# на стандартных эмбеддингах.

# Недостаток: Обучение и инференс будут значительно медленнее и требовательнее к ресурсам.

# --------------------------------------------------

# Блок 5: Fine-tuning Трансформеров (Продвинутый Уровень)

# `spacy-transformers` также позволяет дообучать (fine-tune) сами веса
# Трансформера на вашей конкретной задаче (например, классификации текста)
# одновременно с обучением компонента задачи (например, `textcat`).

# Как это работает:
# - Используется команда `spacy train` с детальным файлом конфигурации (`config.cfg`).
# - В конфигурации указывается базовая Transformer-модель, компоненты конвейера
#   (включая `transformer` и, например, `textcat`), данные для обучения/валидации,
#   параметры обучения (learning rate, batch size, эпохи).
# - Во время `spacy train` градиенты проходят через компонент задачи (`textcat`)
#   и обратно в компонент `transformer`, обновляя веса базовой модели Hugging Face.

# Пример Фрагмента Конфигурации (`config.cfg`):
# ```ini
# [nlp]
# lang = "en"
# pipeline = ["transformer", "textcat"]
# batch_size = 128
#
# [components]
#
# [components.transformer]
# factory = "transformer"
# model = "roberta-base" # Указываем модель Hugging Face
# # ... другие параметры transformer ...
#
# [components.textcat]
# factory = "textcat"
# # Указываем, что textcat должен использовать выходы transformer
# upstream_name = "transformer" # Не всегда нужно явно указывать в spaCy v3+
# exclusive_classes = true
# # ... другие параметры textcat ...
#
# [training]
# frozen_components = [] # Пусто, значит обучаем и transformer, и textcat
# # Или frozen_components = ["transformer"] для обучения только textcat поверх замороженного трансформера
# # ... параметры оптимизатора, расписания LR ...
# ```

# Запуск Обучения:
# `python -m spacy train config.cfg --output ./my_tuned_trf_model --paths.train train.spacy --paths.dev dev.spacy`
# (Требует данные в формате `.spacy`, создаваемом с помощью `spacy convert`)

# Это мощный подход для достижения максимальной точности, но он сложнее в настройке
# и требует значительных вычислительных ресурсов (GPU обязателен).

# --------------------------------------------------

# Блок 6: Пример Задачи - Классификация Спама с `spacy-transformers`

# --- Условие Задачи ---
# Задача: Повторно решить задачу классификации SMS на "SPAM" и "HAM",
# но на этот раз используя предобученную Transformer-модель (`_trf`)
# в качестве основы для обучения компонента `textcat`.

# --- Решение (Полный Код) ---

import spacy
import random
from spacy.training.example import Example
from spacy.util import minibatch, compounding
import os
import time
import torch # Проверим наличие GPU

# --- 0. Настройки ---
NUM_EPOCHS = 5 # Меньше эпох, т.к. трансформеры дольше обучаются
BATCH_SIZE = 2 # Маленький батч из-за памяти
LEARNING_RATE = 2e-5 # Типичный LR для fine-tuning трансформеров (но spaCy управляет им)
MODEL_SAVE_DIR_TRF = "./spam_textcat_trf_model"
LABELS = ["SPAM", "HAM"]
BASE_MODEL = "en_core_web_trf" # Используем Transformer-модель

# Проверка GPU
use_gpu = spacy.prefer_gpu()
print(f"Using GPU: {use_gpu}")
if use_gpu:
    torch.set_default_tensor_type("torch.cuda.FloatTensor") # Опционально, для ускорения

# --- 1. Подготовка Обучающих Данных ---
# Используем те же данные, что и в предыдущем примере textcat
TRAIN_DATA = [
    ("URGENT! You have won a 1 week FREE membership", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("Free entry in 2 a wkly comp to win FA Cup final tkts", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("Winner!! As a valued network customer you have been selected", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("Had your mobile 11 months or more? U R entitled to Update", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("SIX chances to win CASH! From 100 to 20,000 pounds", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("Ok lar... Joking wif u oni...", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Sorry, I'll call later", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("I'm going to try for 2 months ha ha only joking", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Fine if that's the way u feel. That's the way its gota b", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Is that seriously how you spell his name?", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("I‘m going to try for 2 months ha ha only joking", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Just forced myself to eat a slice. I'm really not hungry tho.", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Did you catch the bus ? Are you frying an egg ? ", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("I'm back & we're packing the car now, I'll let you know if there's room", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Ahhh. Work. I vaguely remember that! What does it feel like?", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("Yeah he got in at 2 and was v apologetic. n had fallen out", {"cats": {"SPAM": 0.0, "HAM": 1.0}}),
    ("You have WON a guaranteed £1000 cash or a £2000 prize!", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
    ("PRIVATE! Your 2003 Account Statement for 077xxx shows 800 un-redeemed points.", {"cats": {"SPAM": 1.0, "HAM": 0.0}}),
]
random.shuffle(TRAIN_DATA)
split_point = int(len(TRAIN_DATA) * 0.8)
train_data = TRAIN_DATA[:split_point]
test_data = TRAIN_DATA[split_point:]
print(f"Training data size: {len(train_data)}")
print(f"Test data size: {len(test_data)}")

# --- 2. Загрузка Модели и Добавление/Настройка textcat ---
try:
    nlp = spacy.load(BASE_MODEL)
    print(f"Loaded base Transformer model: '{BASE_MODEL}'")
except OSError:
    print(f"Error: Model '{BASE_MODEL}' not found. Please run:")
    print(f"python -m spacy download {BASE_MODEL}")
    exit()

# Проверяем, есть ли textcat, и добавляем/настраиваем его
if "textcat" not in nlp.pipe_names:
    # Конфигурация для textcat, использующего трансформер
    # В spaCy v3+ обычно достаточно добавить его после трансформера
    config = {"exclusive_classes": True}
    textcat = nlp.add_pipe("textcat", last=True, config=config)
    print("Added 'textcat' component.")
else:
    textcat = nlp.get_pipe("textcat")
    print("Found existing 'textcat' component.")

# Добавляем метки (если textcat был добавлен или пуст)
existing_labels = textcat.labels
needs_labels = False
for label in LABELS:
    if label not in existing_labels:
        textcat.add_label(label)
        needs_labels = True
if needs_labels:
    print(f"Added labels {LABELS} to textcat.")

print(f"Pipeline: {nlp.pipe_names}")

# --- 3. Обучение Модели ---
print("\nStarting training (will be slower due to Transformer)...")
training_start_time = time.time()

# Отключаем все компоненты, кроме transformer и textcat
# Это важно, чтобы не тратить время на ненужные вычисления (NER, parser и т.д.)
# и чтобы они не мешали обучению textcat
pipe_exceptions = ["transformer", "textcat"]
other_pipes = [pipe for pipe in nlp.pipe_names if pipe not in pipe_exceptions]

with nlp.disable_pipes(*other_pipes):
    # Можно использовать nlp.resume_training() если textcat уже был в модели,
    # или nlp.begin_training() если он только что добавлен или мы хотим начать с нуля.
    # begin_training безопаснее, если мы не уверены в состоянии textcat.
    optimizer = nlp.begin_training()

    for epoch in range(NUM_EPOCHS):
        random.shuffle(train_data)
        losses = {}
        batches = minibatch(train_data, size=BATCH_SIZE)
        batch_num = 0
        for batch in batches:
            batch_num += 1
            examples = []
            for text, annotations in batch:
                doc = nlp.make_doc(text)
                examples.append(Example.from_dict(doc, annotations))

            # Обновляем и transformer, и textcat (если не заморожен)
            nlp.update(examples, sgd=optimizer, losses=losses)
            # Печатаем лосс реже, т.к. батчи медленные
            # if batch_num % 5 == 0:
            #     print(f"  Epoch {epoch+1}, Batch {batch_num}, Losses: {losses}")


        print(f"Epoch {epoch+1}/{NUM_EPOCHS}, Losses: {losses}")

training_end_time = time.time()
print(f"Training finished in {training_end_time - training_start_time:.2f} seconds.")

# --- 4. Сохранение Модели ---
if not os.path.exists(MODEL_SAVE_DIR_TRF):
    os.makedirs(MODEL_SAVE_DIR_TRF)
nlp.to_disk(MODEL_SAVE_DIR_TRF)
print(f"Model saved to {MODEL_SAVE_DIR_TRF}")

# --- 5. Тестирование (Инференс) ---
print("\nLoading trained Transformer model and testing...")
nlp_trained_trf = spacy.load(MODEL_SAVE_DIR_TRF)

print("\n--- Test Results (Transformer) ---")
correct_predictions_trf = 0
for text, true_annotations in test_data:
    doc = nlp_trained_trf(text)
    predicted_label = max(doc.cats, key=doc.cats.get)
    true_label = max(true_annotations["cats"], key=true_annotations["cats"].get)

    is_correct = predicted_label == true_label
    if is_correct:
        correct_predictions_trf += 1

    print(f"Text: {text[:50]}...")
    print(f"  True: {true_label}, Predicted: {predicted_label} (Scores: {doc.cats}) - Correct: {is_correct}")

accuracy_trf = correct_predictions_trf / len(test_data)
print(f"\nTest Accuracy (Transformer): {accuracy_trf:.4f}")

# Ожидается, что точность будет выше (или сравнимой, на таком маленьком датасете разница может быть невелика),
# чем в предыдущем примере с CNN/BOW, но обучение и инференс будут медленнее.

# --- Конец Примера ---

# --------------------------------------------------

# Блок 7: Преимущества и Недостатки spacy-transformers

# Преимущества:
# + State-of-the-Art Точность: Использование Трансформеров значительно повышает
#   качество понимания контекста и точность для многих задач NLP.
# + Интеграция: Плавное включение мощных моделей в удобный пайплайн spaCy.
# + Единый API: Работа с результатами (Doc, Token, Span) остается прежней.
# + Fine-tuning: Возможность дообучения Трансформеров на своих данных внутри spaCy.

# Недостатки:
# - Требования к Ресурсам: Значительно выше потребление CPU/RAM, GPU крайне желателен.
# - Скорость: Обработка текста (инференс) и обучение медленнее, чем у стандартных моделей.
# - Размер Моделей: Модели `_trf` занимают гораздо больше места на диске.
# - Сложность Конфигурации: Fine-tuning и детальная настройка требуют работы с файлами конфигурации.

# Вывод: `spacy-transformers` - это мощный инструмент для тех, кому нужна
# максимальная точность в задачах NLP и кто готов выделить необходимые
# вычислительные ресурсы. Он успешно объединяет удобство spaCy с мощью
# современных Трансформеров.

# --------------------------------------------------

In [None]:
# Блок 1: Задача Прогнозирования Следующего Слова (Next Word Prediction)

# Что такое Прогнозирование Следующего Слова?
# Это задача NLP, цель которой - предсказать наиболее вероятное слово (или слова),
# которое последует за заданной последовательностью слов (контекстом).
# Вход: Последовательность токенов (слов, подслов).
# Выход: Вероятностное распределение по словарю для следующего токена,
#        или непосредственно наиболее вероятный следующий токен(ы).

# Применение:
# - Автодополнение текста (Text Autocompletion) в клавиатурах, IDE, поисковых системах.
# - Помощь при письме (Writing Assistance).
# - Основа для генерации текста (хотя полная генерация обычно сложнее).
# - Компонент в системах распознавания речи или машинного перевода.

# Это Фундаментальная Задача Языкового Моделирования (Language Modeling - LM):
# По сути, прогнозирование следующего слова - это основная задача, на которой
# обучаются многие языковые модели. Модель учится присваивать вероятности
# последовательностям слов: P(w_n | w_1, w_2, ..., w_{n-1}).

# --------------------------------------------------

# Блок 2: Роль spaCy в Прогнозировании Следующего Слова

# Важное Замечание:
# spaCy **не предназначен** напрямую для задачи прогнозирования следующего слова
# или генерации текста в том виде, в каком это делают специализированные
# языковые модели (как GPT или RNN/LSTM).
# У spaCy **нет встроенного компонента конвейера**, который бы принимал
# последовательность токенов и напрямую выдавал предсказание следующего слова.

# Основная Цель spaCy:
# spaCy фокусируется на **анализе и понимании** существующего текста:
# - Токенизация
# - POS-теггинг
# - Синтаксический анализ зависимостей
# - Распознавание именованных сущностей (NER)
# - Классификация текста (`textcat`)
# - Извлечение признаков (векторы слов/документов)

# Как spaCy Может Быть Полезен (Косвенно):
# 1.  **Предобработка Текста:** spaCy отлично подходит для подготовки текста
#     (токенизация, лемматизация, удаление стоп-слов), который затем может
#     быть подан в отдельную модель для прогнозирования следующего слова.
# 2.  **Извлечение Признаков:** Векторные представления слов или документов,
#     полученные с помощью моделей spaCy (`md`, `lg`, `trf`), могут служить
#     входными признаками для вашей собственной модели прогнозирования.
# 3.  **Доступ к Трансформерам (`spacy-transformers`):** Хотя `spacy-transformers`
#     интегрирует модели типа BERT/GPT, сам интерфейс spaCy не предоставляет
#     прямого и удобного способа использовать эти модели для *генерации* или
#     *прогнозирования следующего токена* так, как это делает библиотека
#     Hugging Face Transformers. spaCy использует их для улучшения *анализа*.

# Вывод: Для непосредственного решения задачи прогнозирования следующего слова
# следует использовать другие инструменты, более подходящие для языкового моделирования
# и генерации последовательностей.

# --------------------------------------------------

# Блок 3: Подходящие Инструменты и Подходы

# 1. N-граммы (Классический Статистический Подход):
#    - Принцип: Вероятность следующего слова зависит только от `N-1` предыдущих слов.
#      Например, в триграммной модели P(w_n | w_1..w_{n-1}) ≈ P(w_n | w_{n-2}, w_{n-1}).
#    - Обучение: Подсчет частот n-грамм в большом текстовом корпусе.
#    - Библиотеки: NLTK предоставляет инструменты для работы с n-граммами.
#    - Недостатки: Плохо справляется с длинными зависимостями, проблема разреженности данных
#      (многие n-граммы не встречаются в обучающих данных), большой размер модели.

# 2. Рекуррентные Нейронные Сети (RNN, LSTM, GRU):
#    - Принцип: Нейронные сети, специально разработанные для обработки последовательностей.
#      Они имеют "память" (скрытое состояние), которая передается от одного шага
#      последовательности к другому, позволяя учитывать предыдущий контекст.
#    - Обучение: Модель обучается предсказывать следующий токен на основе предыдущих
#      токенов и своего скрытого состояния.
#    - Библиотеки: PyTorch, TensorFlow/Keras позволяют строить и обучать такие модели.
#    - Преимущества: Учитывают контекст произвольной длины (теоретически), лучше обобщаются.
#    - Недостатки: Могут страдать от затухания/взрыва градиента (особенно простые RNN),
#      сложности с очень длинными зависимостями (LSTM/GRU помогают, но не идеально),
#      обработка происходит последовательно (сложно параллелизовать).

# 3. Трансформеры (Transformers - GPT, BERT и др.):
#    - Принцип: Используют механизм внимания (self-attention), который позволяет модели
#      напрямую взвешивать важность всех предыдущих слов при предсказании следующего,
#      не полагаясь на последовательную передачу скрытого состояния как в RNN.
#    - Модели:
#      - **GPT-подобные (Авторегрессионные):** Обучаются именно на задаче предсказания
#        следующего слова (GPT, GPT-2, GPT-3, GPT-Neo, XLNet в авторегрессионном режиме).
#        **Идеально подходят для этой задачи.**
#      - **BERT-подобные (Автокодировщики):** Обучаются на задаче предсказания
#        маскированных (пропущенных) слов (Masked Language Model - MLM) и предсказания
#        следующего предложения. Не предназначены напрямую для предсказания *следующего*
#        слова, но могут быть адаптированы или использованы для оценки вероятности предложений.
#    - Библиотеки: **Hugging Face Transformers** - стандарт де-факто для работы
#      с Трансформерами. Предоставляет тысячи предобученных моделей и удобные API.
#    - Преимущества: State-of-the-art результаты, хорошо работают с длинными зависимостями,
#      легко параллелизуются.
#    - Недостатки: Требуют много данных для обучения с нуля, большие размеры моделей,
#      высокие вычислительные требования.

# --------------------------------------------------

# Блок 4: Концептуальный Пример с Hugging Face Transformers

# Поскольку spaCy не подходит напрямую, покажем, как это делается с помощью
# библиотеки, предназначенной для этой задачи.

# Установка:
# pip install transformers torch # или tensorflow

from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer
import torch

# --- Вариант 1: Использование pipeline (Самый простой) ---
# Pipeline 'text-generation' по сути решает задачу предсказания следующих слов много раз.
# Мы можем ограничить количество генерируемых токенов.
generator_pipeline = pipeline('text-generation', model='gpt2') # Используем GPT-2

prompt = "The quick brown fox jumps over the"
# max_new_tokens=1 предскажет только одно следующее слово (токен)
# num_return_sequences позволяет получить несколько вариантов
results = generator_pipeline(prompt, max_new_tokens=5, num_return_sequences=3)

# print(f"\n--- Pipeline Results for: '{prompt}' ---")
# for i, result in enumerate(results):
#     # Извлекаем только сгенерированную часть
#     generated_text = result['generated_text'][len(prompt):].strip()
#     # Первое слово в сгенерированной части - наше предсказание
#     next_word_prediction = generated_text.split()[0] if generated_text else "[No prediction]"
#     print(f"Option {i+1}: Next word -> '{next_word_prediction}' (Full: '{generated_text}')")

# --- Вариант 2: Ручное использование Модели и Токенизатора ---
model_name = "gpt2" # Можно использовать другие авторегрессионные модели
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
model.eval() # Переводим в режим оценки

input_text = "My name is Clara and I am"

# 1. Токенизация входа
inputs = tokenizer(input_text, return_tensors="pt").to(device)
input_ids = inputs["input_ids"]

# 2. Получение выходов модели (логитов)
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits # Форма: [batch_size, sequence_length, vocab_size]

# 3. Логиты для ПОСЛЕДНЕГО токена во входной последовательности
#    Эти логиты представляют предсказание для СЛЕДУЮЩЕГО токена
next_token_logits = logits[:, -1, :] # Берем логиты последнего токена

# 4. Применение Softmax для получения вероятностей (опционально)
# probabilities = torch.softmax(next_token_logits, dim=-1)

# 5. Нахождение наиболее вероятных следующих токенов
top_k = 5 # Сколько лучших предсказаний мы хотим
top_k_logits, top_k_indices = torch.topk(next_token_logits, top_k, dim=-1)
top_k_indices = top_k_indices.squeeze(0).tolist() # Убираем batch dim, конвертируем в список

# 6. Декодирование индексов обратно в токены (слова/подслова)
predicted_next_tokens = tokenizer.convert_ids_to_tokens(top_k_indices)

# print(f"\n--- Manual Prediction Results for: '{input_text}' ---")
# print(f"Top {top_k} predicted next tokens:")
# for i, token in enumerate(predicted_next_tokens):
#     print(f"  {i+1}. {token}")

# --------------------------------------------------

# Блок 5: Использование spaCy для Предобработки (Пример)

# Хотя spaCy не предсказывает следующее слово, его можно использовать для
# подготовки текста перед подачей в модель языкового моделирования.

import spacy

# Загружаем модель spaCy (можно и маленькую, если нужны только токены/леммы)
try:
    nlp_spacy = spacy.load("en_core_web_sm")
    print("\nLoaded 'en_core_web_sm' for preprocessing.")
except OSError:
    print("\nWarning: 'en_core_web_sm' not found. Preprocessing example might fail.")
    nlp_spacy = spacy.blank("en")


raw_text = "   This is an example sentence, with punctuation! And numbers 123.  "

# Обработка с помощью spaCy
doc = nlp_spacy(raw_text)

# Извлечение лемм, удаление стоп-слов, пунктуации, пробелов, приведение к нижнему регистру
processed_tokens = [
    token.lemma_.lower()
    for token in doc
    if not token.is_stop and not token.is_punct and not token.is_space
]

# Результат можно использовать как вход для N-граммной модели или RNN/Transformer
preprocessed_text = " ".join(processed_tokens)
# print(f"\nRaw text: '{raw_text}'")
# print(f"Preprocessed text for LM input: '{preprocessed_text}'")

# --------------------------------------------------

# Блок 6: Выводы

# - **spaCy не предназначен для прогнозирования следующего слова.** Его сила - в анализе и извлечении информации из существующего текста.
# - Для задачи прогнозирования следующего слова (языкового моделирования) используйте:
#   - **Hugging Face Transformers:** Библиотека выбора для state-of-the-art результатов с моделями типа GPT. Предоставляет как высокоуровневые `pipeline`, так и низкоуровневый доступ к моделям.
#   - **RNN/LSTM/GRU:** Можно реализовать и обучить с помощью PyTorch/TensorFlow.
#   - **N-граммы:** Простой статистический метод (можно использовать NLTK), но с ограничениями.
# - **spaCy может быть полезен на этапе предобработки** данных для этих моделей.

# --------------------------------------------------

In [None]:
# Блок 1: Введение в Классификацию Текста по Темам (Topic Classification)

# Что такое Классификация по Темам?
# Это задача NLP, в которой текст (документ, статья, сообщение) автоматически
# распределяется по одной или нескольким предопределенным тематическим категориям.
# Вход: Текст.
# Выход: Одна или несколько меток тем (например, "Спорт", "Технологии", "Политика").

# Цель:
# Автоматически организовать, фильтровать или маршрутизировать текстовую информацию
# на основе ее основного содержания или темы.

# Примеры Применения:
# - Категоризация новостных статей.
# - Маршрутизация запросов в службу поддержки по отделам (технический, биллинг).
# - Анализ отзывов клиентов по аспектам продукта (цена, функциональность, дизайн).
# - Фильтрация контента в социальных сетях.
# - Организация научных публикаций.

# Типы Классификации по Темам:
# - Однометочная (Single-label): Каждый документ относится ровно к одной теме.
# - Многометочная (Multi-label): Документ может относиться к нескольким темам одновременно
#   (например, статья о влиянии технологий на политику может быть отнесена и к "Технологии", и к "Политика").

# --------------------------------------------------

# Блок 2: Ключевые Концепции и Представление Текста

# 1. Темы/Категории:
#    - Заранее определенный набор тем, релевантных для конкретной задачи.
#    - Требуется наличие размеченных данных, где для каждого текста указана его тема(ы).

# 2. Извлечение Признаков (Feature Extraction):
#    - Преобразование текста в числовой формат, понятный моделям машинного обучения.
#    - Распространенные методы:
#      - **Bag-of-Words (BoW):** Представление текста как вектора частот слов.
#        Просто, но игнорирует порядок и семантику.
#      - **TF-IDF (Term Frequency-Inverse Document Frequency):** Улучшение BoW,
#        взвешивающее слова по их важности в документе и редкости в корпусе.
#        Часто является сильным базовым вариантом для классических моделей ML.
#      - **Векторные Представления Слов (Word Embeddings - Word2Vec, GloVe, FastText):**
#        Плотные векторы, захватывающие семантику слов. Для представления документа
#        векторы слов часто усредняют или суммируют (что может терять информацию).
#      - **Векторные Представления Документов (Document Embeddings - Doc2Vec, Sentence-BERT):**
#        Модели, специально обученные генерировать единый вектор для всего текста,
#        стараясь сохранить его семантический смысл.
#      - **Контекстуализированные Эмбеддинги (BERT, RoBERTa и др.):** Генерируются
#        моделями глубокого обучения (Трансформерами) и учитывают контекст.
#        Обычно используются как вход для DL моделей, а не как статические признаки.

# --------------------------------------------------

# Блок 3: Подходы и Алгоритмы

# --- 3.1 Традиционное Машинное Обучение (Supervised ML) ---
# # Требует явного шага извлечения признаков (BoW, TF-IDF).
# # Алгоритмы:
# # - Наивный Байес (Naive Bayes - MultinomialNB, BernoulliNB):
# #   - Вероятностный подход, основанный на теореме Байеса.
# #   - Простой, быстрый, часто дает удивительно хорошие результаты для текста (особенно с TF-IDF).
# #   - Хороший базовый вариант (baseline).
# # - Метод Опорных Векторов (Support Vector Machines - SVM):
# #   - Находит оптимальную гиперплоскость для разделения классов.
# #   - Очень эффективен для высокоразмерных и разреженных данных (как TF-IDF векторы).
# #   - Часто показывает высокую точность. Рекомендуется LinearSVC для текста.
# # - Логистическая Регрессия (Logistic Regression):
# #   - Линейная модель, предсказывающая вероятность принадлежности к классу.
# #   - Простая, интерпретируемая, хороший baseline.
# # - Деревья Решений и Ансамбли (Random Forest, Gradient Boosting):
# #   - Могут использоваться, но часто уступают SVM или Naive Bayes на текстовых данных с высокой размерностью признаков.
# # Библиотеки: Scikit-learn (`sklearn`) - основной инструмент в Python.

# --- 3.2 Глубокое Обучение (Deep Learning) ---
# # Автоматически изучает признаки из текста. Не требует ручного feature engineering.
# # Архитектуры:
# # - Сверточные Нейронные Сети (CNN):
# #   - Используют 1D свертки для захвата локальных паттернов (n-грамм) в тексте.
# #   - Эффективны для классификации, могут быть быстрыми.
# # - Рекуррентные Нейронные Сети (RNN - LSTM, GRU):
# #   - Обрабатывают текст последовательно, учитывая порядок слов и зависимости.
# #   - Хороши для понимания структуры предложения, но могут быть медленными.
# # - Трансформеры (Transformers - BERT, RoBERTa, XLNet, DistilBERT и др.):
# #   - Используют механизм self-attention для улавливания зависимостей между словами независимо от их расстояния.
# #   - **State-of-the-art подход.** Обычно используется fine-tuning предобученной модели
# #     на конкретную задачу классификации тем.
# # Библиотеки: PyTorch, TensorFlow/Keras, Hugging Face Transformers.

# --- 3.3 Тематическое Моделирование (Topic Modeling - Unsupervised) ---
# # Важно отличать от классификации тем!
# # Цель: Автоматически обнаружить скрытые ("латентные") темы в коллекции *неразмеченных* документов.
# # Алгоритмы: LDA (Latent Dirichlet Allocation), NMF (Non-negative Matrix Factorization).
# # Выход: Распределение тем для каждого документа и распределение слов для каждой темы.
# # Не использует предопределенные категории.
# # Может использоваться для анализа данных или как шаг для генерации признаков для последующей *супервизорной* классификации.
# # Библиотеки: Gensim, Scikit-learn.

# --------------------------------------------------

# Блок 4: Подготовка Данных и Предобработка

# 1. Сбор Данных: Нужен корпус текстов с присвоенными метками тем (для supervised learning).
# 2. Очистка Текста:
#    - Приведение к нижнему регистру.
#    - Удаление HTML-тегов, URL, email-адресов.
#    - Удаление специальных символов, лишних пробелов.
#    - Обработка чисел (удалить или заменить на специальный токен).
# 3. Токенизация: Разделение на слова или подслова (для некоторых моделей).
# 4. Удаление Стоп-слов: Удаление неинформативных слов.
# 5. Стемминг / Лемматизация:
#    - Приведение слов к базовой форме. Лемматизация предпочтительнее, так как сохраняет смысл.
#    - Может быть полезно для BoW/TF-IDF, но не всегда нужно (или даже вредно) для моделей на основе эмбеддингов или трансформеров, которые могут извлекать пользу из морфологии.
# 6. Векторизация: Преобразование очищенных токенов в числовые векторы (BoW, TF-IDF, Embeddings).
# 7. Разделение Данных: Разбить на обучающую (train), валидационную (validation) и тестовую (test) выборки. Валидационная используется для настройки гиперпараметров, тестовая - для финальной оценки.
# 8. Обработка Несбалансированных Классов: Если какие-то темы встречаются гораздо реже других, это может сместить модель. Техники:
#    - Взвешивание классов (class weighting) в функции потерь.
#    - Undersampling (уменьшение выборки мажоритарного класса).
#    - Oversampling (увеличение выборки миноритарного класса, например, с помощью SMOTE).

# --------------------------------------------------

# Блок 5: Метрики Оценки

# Выбор метрики зависит от задачи (одно- или многометочная) и баланса классов.

# - Accuracy (Точность): Доля правильно классифицированных документов.
#   `accuracy = (TP + TN) / (TP + TN + FP + FN)`
#   Проста, но неинформативна при дисбалансе классов.
# - Precision (Точность для класса): Доля документов, верно отнесенных к классу X, среди всех документов, которые модель отнесла к классу X.
#   `precision = TP / (TP + FP)`
#   Важна, когда цена ложноположительного срабатывания высока.
# - Recall (Полнота для класса): Доля документов класса X, которые модель правильно идентифицировала.
#   `recall = TP / (TP + FN)`
#   Важна, когда цена пропуска (ложноотрицательного срабатывания) высока.
# - F1-Score (F1-мера): Гармоническое среднее Precision и Recall.
#   `F1 = 2 * (precision * recall) / (precision + recall)`
#   Хороший баланс между Precision и Recall, полезна при дисбалансе классов.
# - Усреднение Метрик (для многоклассовой классификации):
#   - Macro Average: Рассчитать метрику для каждого класса и усреднить (все классы равноправны).
#   - Micro Average: Рассчитать метрику по всем документам глобально (учитывает общий вклад каждого документа). Эквивалентна Accuracy для однометочной классификации.
#   - Weighted Average: Как Macro, но усреднение взвешено по количеству примеров в каждом классе.
# - Confusion Matrix (Матрица Ошибок): Таблица, показывающая, какие классы модель путает друг с другом. Полезна для анализа ошибок.
# - Hamming Loss (для Multi-label): Доля неправильно предсказанных меток (как отсутствующих, так и лишних).
# - Jaccard Score (для Multi-label): Средний IoU между предсказанными и истинными наборами меток для каждого документа.

# --------------------------------------------------

# Блок 6: Пример Задачи и Решения (Традиционный ML с Scikit-learn)

# --- Условие Задачи ---
# Задача: Классифицировать новостные заголовки по 4 темам:
# 'Business', 'Sci/Tech', 'Sports', 'World'.
# Используем встроенный датасет 20 Newsgroups (упрощенный).

# --- Решение (Концептуальный Код) ---

from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline # Для объединения шагов
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
import numpy as np

# 1. Загрузка Данных (только нужные категории)
categories = ['rec.sport.hockey', 'sci.electronics', 'comp.graphics', 'soc.religion.christian'] # Пример категорий
# Загрузим подмножество для примера
# newsgroups_train = fetch_20newsgroups(subset='train', categories=categories, shuffle=True, random_state=42, remove=('headers', 'footers', 'quotes'))
# newsgroups_test = fetch_20newsgroups(subset='test', categories=categories, shuffle=True, random_state=42, remove=('headers', 'footers', 'quotes'))
#
# X_train = newsgroups_train.data
# y_train = newsgroups_train.target # Метки - это индексы категорий
# X_test = newsgroups_test.data
# y_test = newsgroups_test.target
# target_names = newsgroups_train.target_names # Названия категорий
# print(f"Categories: {target_names}")
# print(f"Number of training samples: {len(X_train)}")
# print(f"Number of test samples: {len(X_test)}")

# 2. Создание Конвейера (Pipeline)
#    Объединяет векторизацию и классификацию в один шаг.
#    Pipeline для Naive Bayes
# nb_pipeline = Pipeline([
#     ('tfidf', TfidfVectorizer(stop_words='english', max_df=0.95, min_df=2)), # TF-IDF векторизация
#     ('clf', MultinomialNB(alpha=0.1)), # Классификатор Naive Bayes
# ])
#
# # Pipeline для SVM
# svm_pipeline = Pipeline([
#     ('tfidf', TfidfVectorizer(stop_words='english', max_df=0.95, min_df=2)),
#     ('clf', LinearSVC(C=1.0, random_state=42)), # Классификатор SVM
# ])

# 3. Обучение Моделей
# print("\nTraining Naive Bayes model...")
# nb_pipeline.fit(X_train, y_train)
# print("Naive Bayes training complete.")
#
# print("\nTraining SVM model...")
# svm_pipeline.fit(X_train, y_train)
# print("SVM training complete.")

# 4. Оценка Моделей
# print("\n--- Naive Bayes Evaluation ---")
# y_pred_nb = nb_pipeline.predict(X_test)
# print(f"Accuracy: {accuracy_score(y_test, y_pred_nb):.4f}")
# print("Classification Report:")
# print(classification_report(y_test, y_pred_nb, target_names=target_names))
# print("Confusion Matrix:")
# print(confusion_matrix(y_test, y_pred_nb))
#
# print("\n--- SVM Evaluation ---")
# y_pred_svm = svm_pipeline.predict(X_test)
# print(f"Accuracy: {accuracy_score(y_test, y_pred_svm):.4f}")
# print("Classification Report:")
# print(classification_report(y_test, y_pred_svm, target_names=target_names))
# print("Confusion Matrix:")
# print(confusion_matrix(y_test, y_pred_svm))

# 5. Предсказание на Новых Данных
# new_docs = [
#     "The graphics card market is booming with new releases.", # Sci/Tech or Comp.Graphics
#     "The hockey team won the championship last night.", # Sports
#     "Discussion about the role of faith in modern society." # Religion
# ]
# pred_nb = nb_pipeline.predict(new_docs)
# pred_svm = svm_pipeline.predict(new_docs)
#
# print("\n--- Predictions for New Docs ---")
# for doc, nb_idx, svm_idx in zip(new_docs, pred_nb, pred_svm):
#     print(f"Doc: {doc[:50]}...")
#     print(f"  Naive Bayes Prediction: {target_names[nb_idx]}")
#     print(f"  SVM Prediction:         {target_names[svm_idx]}")

# --- Конец Примера (Scikit-learn) ---

# --------------------------------------------------

# Блок 7: Пример Задачи и Решения (Deep Learning с Hugging Face)

# --- Условие Задачи ---
# Задача: Та же - классифицировать новостные заголовки по темам.
# Используем предобученную модель BERT и fine-tuning.

# --- Решение (Концептуальный Код) ---

# from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
# from datasets import load_dataset # Для загрузки датасетов из Hugging Face Hub
# import numpy as np
# from sklearn.metrics import accuracy_score, f1_score

# 1. Загрузка Данных (Пример с Hugging Face Datasets)
# # Многие стандартные датасеты доступны в хабе HF
# # dataset = load_dataset("ag_news") # AG News - 4 класса: World, Sports, Business, Sci/Tech
# # dataset = dataset.map(lambda x: {"labels": x["label"]}) # Переименовать колонку для Trainer
# # num_labels = dataset['train'].features['labels'].num_classes
# # id2label = {i: label for i, label in enumerate(dataset['train'].features['labels'].names)}
# # label2id = {label: i for i, label in id2label.items()}
# # print(f"Labels: {id2label}")

# 2. Загрузка Токенизатора и Модели
# model_name = "distilbert-base-uncased" # Более легкий вариант BERT
# tokenizer = AutoTokenizer.from_pretrained(model_name)
# model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=num_labels, id2label=id2label, label2id=label2id)
# device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
# model.to(device)

# 3. Токенизация Данных
# def tokenize_function(examples):
#     return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=128)
#
# tokenized_datasets = dataset.map(tokenize_function, batched=True)
# # Удаляем ненужные колонки, переименовываем 'label' в 'labels'
# tokenized_datasets = tokenized_datasets.remove_columns(["text"])
# # tokenized_datasets = tokenized_datasets.rename_column("label", "labels") # Уже сделали в map выше
# tokenized_datasets.set_format("torch") # Устанавливаем формат PyTorch
#
# small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(1000)) # Уменьшим для примера
# small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(1000))

# 4. Определение Метрик для Оценки
# def compute_metrics(eval_pred):
#     logits, labels = eval_pred
#     predictions = np.argmax(logits, axis=-1)
#     f1 = f1_score(labels, predictions, average="weighted")
#     acc = accuracy_score(labels, predictions)
#     return {"accuracy": acc, "f1": f1}

# 5. Настройка Аргументов Обучения и Trainer
# training_args = TrainingArguments(
#     output_dir="./results_topic_clf",
#     num_train_epochs=1, # Для примера достаточно 1 эпохи
#     per_device_train_batch_size=16,
#     per_device_eval_batch_size=16,
#     warmup_steps=100,
#     weight_decay=0.01,
#     logging_dir='./logs_topic_clf',
#     logging_steps=10,
#     evaluation_strategy="epoch", # Оценивать после каждой эпохи
#     save_strategy="epoch",       # Сохранять после каждой эпохи
#     load_best_model_at_end=True, # Загрузить лучшую модель в конце
#     report_to="none", # Отключить логирование в wandb/tensorboard для примера
# )
#
# trainer = Trainer(
#     model=model,
#     args=training_args,
#     train_dataset=small_train_dataset,
#     eval_dataset=small_eval_dataset,
#     compute_metrics=compute_metrics,
# )

# 6. Запуск Fine-tuning
# print("\nStarting Transformer fine-tuning...")
# trainer.train()
# print("Fine-tuning complete.")

# 7. Оценка
# print("\nEvaluating fine-tuned model...")
# eval_results = trainer.evaluate()
# print(f"Evaluation results: {eval_results}")

# 8. Предсказание
# print("\n--- Predictions for New Docs (Transformer) ---")
# new_docs = [
#     "The graphics card market is booming with new releases.",
#     "The hockey team won the championship last night.",
#     "Global leaders met to discuss climate change.",
#     "New smartphone announced with amazing camera features."
# ]
#
# for doc in new_docs:
#     inputs = tokenizer(doc, return_tensors="pt", padding=True, truncation=True, max_length=128).to(device)
#     with torch.no_grad():
#         logits = model(**inputs).logits
#     predicted_class_id = logits.argmax().item()
#     predicted_label = model.config.id2label[predicted_class_id]
#     print(f"Doc: {doc[:50]}...")
#     print(f"  Predicted Topic: {predicted_label}")

# --- Конец Примера (Hugging Face) ---

# --------------------------------------------------

# Блок 8: Выбор Подхода

# - **Мало данных / Нужен быстрый baseline:** TF-IDF + Naive Bayes / SVM (Scikit-learn).
# - **Среднее количество данных / Нужна хорошая точность:** TF-IDF + SVM или fine-tuning простой DL модели (CNN/RNN).
# - **Много данных / Нужна максимальная точность / Есть ресурсы (GPU):** Fine-tuning предобученных Трансформеров (Hugging Face).
# - **Нужно автоматически *обнаружить* темы (нет разметки):** Тематическое моделирование (LDA, NMF - Gensim, Scikit-learn).

# --------------------------------------------------

In [None]:
# Блок 1: Подход "Embedding + CNN/RNN" для Задач NLP

# Основная Идея:
# Вместо использования сложных признаков (как TF-IDF) или больших предобученных
# моделей (как BERT), мы можем построить свои модели глубокого обучения,
# которые сначала преобразуют слова в плотные векторы (эмбеддинги), а затем
# обрабатывают последовательность этих векторов с помощью Сверточных (CNN)
# или Рекуррентных (RNN/LSTM/GRU) слоев для решения конкретной задачи NLP.

# Компоненты:
# 1. Слой Эмбеддингов (Embedding Layer):
#    - Преобразует целочисленные индексы слов (из словаря) в плотные векторы
#      фиксированной размерности (`embedding_dim`).
#    - Эти векторы могут быть:
#      - Обучаемыми с нуля вместе с остальной моделью.
#      - Инициализированы предобученными векторами (Word2Vec, GloVe, FastText)
#        и затем дообучены (fine-tuned) или оставлены замороженными.
#    - В PyTorch: `torch.nn.Embedding(num_embeddings=vocab_size, embedding_dim=embed_dim)`
# 2. Слой Обработки Последовательности:
#    - **CNN (Сверточная Нейронная Сеть):** Использует 1D свертки для извлечения
#      локальных признаков (похожих на n-граммы) из последовательности эмбеддингов.
#      Часто используется с max-pooling для получения вектора фиксированной длины.
#    - **RNN (Рекуррентная Нейронная Сеть - LSTM/GRU):** Обрабатывает
#      последовательность эмбеддингов шаг за шагом, сохраняя информацию
#      о предыдущих шагах в скрытом состоянии. Учитывает порядок слов.
# 3. Выходной Слой (Output Layer):
#    - Обычно один или несколько полносвязных слоев (`torch.nn.Linear`),
#      которые принимают выход CNN/RNN и преобразуют его в предсказание
#      для конкретной задачи (например, вероятности классов для классификации).

# Преимущества:
# - Автоматическое извлечение признаков (в отличие от TF-IDF).
# - Учет семантики слов (через эмбеддинги).
# - Учет порядка слов (в RNN) или локального контекста (в CNN).
# - Меньше по размеру и требованиям, чем большие Трансформеры (если не использовать предобученные эмбеддинги большого размера).

# Недостатки:
# - Требуют больше данных для обучения с нуля, чем классические ML модели на TF-IDF.
# - Простые эмбеддинги (обучаемые с нуля или статические) не учитывают контекст слова так, как Трансформеры.
# - Обучение может быть дольше, чем у классических моделей.

# --------------------------------------------------

# Блок 2: Архитектура с CNN для NLP

# Принцип Работы CNN для Текста:
# - Текст представляется как матрица `(sequence_length, embedding_dim)`.
# - 1D Свертки (`nn.Conv1d`) применяются вдоль оси последовательности.
# - Фильтры (ядра) имеют размер `(kernel_size, embedding_dim)`, где `kernel_size`
#   определяет, сколько слов (n-грамма) фильтр "видит" за раз.
# - Разные фильтры учатся распознавать разные паттерны n-грамм.
# - Часто используют несколько сверточных слоев с разными размерами ядер
#   (например, 3, 4, 5) для захвата n-грамм разной длины.
# - После сверток обычно идет функция активации (ReLU).
# - Затем применяется Max-Pooling (часто Max-over-time pooling), который берет
#   максимальное значение по всей длине последовательности для каждого фильтра.
#   Это создает вектор фиксированной длины независимо от длины входного текста.
# - Этот вектор подается на полносвязные слои для финального предсказания.

# Концептуальная Модель PyTorch (Классификация Текста):
import torch
import torch.nn as nn
import torch.nn.functional as F

class CNNTextClassifier(nn.Module):
    def __init__(self, vocab_size, embed_dim, num_filters, filter_sizes, num_classes, dropout_prob=0.5):
        super(CNNTextClassifier, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0) # padding_idx=0 если 0 используется для паддинга

        # Список сверточных слоев для разных размеров n-грамм
        self.convs = nn.ModuleList([
            nn.Conv1d(in_channels=embed_dim,
                      out_channels=num_filters,
                      kernel_size=fs)
            for fs in filter_sizes
        ])

        # Полносвязный слой
        # Входной размер = количество фильтров * количество разных размеров ядер
        self.fc = nn.Linear(num_filters * len(filter_sizes), num_classes)
        self.dropout = nn.Dropout(dropout_prob)

    def forward(self, text_indices):
        # text_indices: [batch_size, seq_len]

        embedded = self.embedding(text_indices)
        # embedded: [batch_size, seq_len, embed_dim]

        # CNN ожидает вход [batch_size, channels, seq_len]
        # В нашем случае channels = embed_dim
        embedded = embedded.permute(0, 2, 1)
        # embedded: [batch_size, embed_dim, seq_len]

        # Применяем свертки и max-pooling
        conved = [F.relu(conv(embedded)) for conv in self.convs]
        # conved[i]: [batch_size, num_filters, seq_len - filter_sizes[i] + 1]

        # Max-over-time pooling
        # Применяем max pool по всей длине последовательности
        pooled = [F.max_pool1d(conv, conv.shape[2]).squeeze(2) for conv in conved]
        # pooled[i]: [batch_size, num_filters]

        # Конкатенируем выходы пулинга от фильтров разных размеров
        cat = self.dropout(torch.cat(pooled, dim=1))
        # cat: [batch_size, num_filters * len(filter_sizes)]

        # Полносвязный слой для классификации
        logits = self.fc(cat)
        # logits: [batch_size, num_classes]
        return logits

# Параметры:
# vocab_size: Размер словаря.
# embed_dim: Размерность эмбеддингов (e.g., 100, 300).
# num_filters: Количество фильтров для каждого размера ядра (e.g., 100, 128).
# filter_sizes: Список размеров ядер (n-грамм) (e.g., [3, 4, 5]).
# num_classes: Количество выходных классов.
# dropout_prob: Вероятность Dropout для регуляризации.

# --------------------------------------------------

# Блок 3: Архитектура с RNN (LSTM/GRU) для NLP

# Принцип Работы RNN для Текста:
# - Текст представляется как последовательность эмбеддингов слов `(seq_len, batch_size, embedding_dim)`
#   (или `(batch_size, seq_len, embedding_dim)` если `batch_first=True`).
# - RNN (обычно LSTM или GRU для лучшей работы с длинными зависимостями)
#   обрабатывает эту последовательность шаг за шагом.
# - На каждом шаге `t` RNN принимает эмбеддинг слова `x_t` и предыдущее
#   скрытое состояние `h_{t-1}` (и ячейку памяти `c_{t-1}` для LSTM)
#   и вычисляет новый выход `output_t` и новое скрытое состояние `h_t` (и `c_t`).
# - Скрытое состояние `h_t` несет в себе информацию о всей предыдущей
#   последовательности до шага `t`.
# - Для задач классификации всего текста часто используется:
#   - Выход RNN на последнем временном шаге (`output[-1]`).
#   - Последнее скрытое состояние (`h_n`).
# - Этот итоговый вектор подается на полносвязные слои для предсказания.
# - Можно использовать двунаправленные RNN (BiLSTM/BiGRU), которые обрабатывают
#   последовательность в двух направлениях (вперед и назад), что позволяет
#   учитывать и правый, и левый контекст. Выходы конкатенируются.

# Концептуальная Модель PyTorch (Классификация Текста):
import torch
import torch.nn as nn

class RNNTextClassifier(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, num_layers, num_classes,
                 rnn_type='LSTM', bidirectional=True, dropout_prob=0.5):
        super(RNNTextClassifier, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=0)

        rnn_module = None
        if rnn_type == 'LSTM':
            rnn_module = nn.LSTM
        elif rnn_type == 'GRU':
            rnn_module = nn.GRU
        else:
            raise ValueError("Unsupported RNN type. Choose 'LSTM' or 'GRU'.")

        self.rnn = rnn_module(embed_dim,
                              hidden_dim,
                              num_layers=num_layers,
                              bidirectional=bidirectional,
                              batch_first=True, # Вход: [batch, seq, feature]
                              dropout=dropout_prob if num_layers > 1 else 0) # Dropout между слоями RNN

        # Рассчитываем размер входа для FC слоя
        fc_in_features = hidden_dim * (2 if bidirectional else 1)
        self.fc = nn.Linear(fc_in_features, num_classes)
        self.dropout = nn.Dropout(dropout_prob)

    def forward(self, text_indices):
        # text_indices: [batch_size, seq_len]

        embedded = self.embedding(text_indices)
        # embedded: [batch_size, seq_len, embed_dim]

        # Пропускаем через RNN
        # outputs: [batch_size, seq_len, hidden_dim * num_directions] - выходы каждого шага
        # hidden: [num_layers * num_directions, batch_size, hidden_dim] - финальное скрытое состояние
        # cell (только для LSTM): [num_layers * num_directions, batch_size, hidden_dim] - финальное состояние ячейки
        outputs, (hidden, cell) = self.rnn(embedded) # Для GRU будет только outputs, hidden

        # Используем финальное скрытое состояние последнего слоя
        # Если bidirectional=True, hidden будет содержать состояния прямого и обратного прохода.
        # hidden[-1] - скрытое состояние последнего слоя прямого прохода
        # hidden[-2] - скрытое состояние последнего слоя обратного прохода (если bidirectional)
        if self.rnn.bidirectional:
            # Конкатенируем финальные скрытые состояния прямого и обратного проходов
            hidden_fwd = hidden[-2,:,:] # Последний слой, прямое направление
            hidden_bwd = hidden[-1,:,:] # Последний слой, обратное направление
            hidden_cat = torch.cat((hidden_fwd, hidden_bwd), dim=1)
        else:
            hidden_cat = hidden[-1,:,:] # Последний слой, одно направление

        # hidden_cat: [batch_size, hidden_dim * num_directions]

        # Применяем Dropout и полносвязный слой
        dropped_hidden = self.dropout(hidden_cat)
        logits = self.fc(dropped_hidden)
        # logits: [batch_size, num_classes]
        return logits

# Параметры:
# vocab_size: Размер словаря.
# embed_dim: Размерность эмбеддингов (e.g., 100, 300).
# hidden_dim: Размерность скрытого состояния RNN (e.g., 128, 256).
# num_layers: Количество слоев RNN (e.g., 1, 2).
# num_classes: Количество выходных классов.
# rnn_type: 'LSTM' или 'GRU'.
# bidirectional: Использовать ли двунаправленный RNN (True/False).
# dropout_prob: Вероятность Dropout.

# --------------------------------------------------

# Блок 4: Подготовка Данных для Моделей

# Общие Шаги:
# 1. Загрузка Данных: Тексты и соответствующие метки.
# 2. Предобработка Текста:
#    - Токенизация (например, `spaCy` или `nltk.word_tokenize`).
#    - Очистка (нижний регистр, удаление спецсимволов - опционально).
#    - *Лемматизация/стемминг - часто НЕ используются с эмбеддингами, т.к. модель может выучить разные формы слов.*
#    - *Удаление стоп-слов - также часто НЕ делается, т.к. они могут нести контекстную информацию для RNN/CNN.*
# 3. Построение Словаря (Vocabulary):
#    - Создание отображения каждого уникального токена в корпусе на целочисленный индекс.
#    - Добавление специальных токенов:
#      - `<PAD>` (Padding): Для выравнивания длины последовательностей в батче (обычно индекс 0).
#      - `<UNK>` (Unknown): Для слов, не встречавшихся в обучающем словаре (обычно индекс 1).
# 4. Численное Представление: Конвертация токенизированных текстов в последовательности индексов из словаря.
# 5. Паддинг (Padding): Дополнение коротких последовательностей индексом `<PAD>` до фиксированной максимальной длины (`max_seq_len`). Это необходимо для батчинга.
# 6. Создание `Dataset` и `DataLoader` (PyTorch):
#    - `Dataset` для загрузки одного примера (последовательность индексов, метка).
#    - `DataLoader` для формирования батчей, перемешивания данных.

# Пример использования `torchtext` (может потребовать адаптации под последние версии):
# import torchtext
# from torchtext.data import Field, LabelField, BucketIterator
#
# # 1. Определение полей (Fields)
# TEXT = Field(tokenize='spacy', # Использовать токенизатор spaCy
#              tokenizer_language='en_core_web_sm',
#              batch_first=True, # Важно для CNN/RNN с batch_first=True
#              # include_lengths=True # Полезно для RNN с PackedSequence
#              lower=True)
# LABEL = LabelField(dtype=torch.float) # Или long для CrossEntropyLoss
#
# # 2. Загрузка данных (пример с CSV или JSON)
# # train_data, test_data = TabularDataset.splits(...)
#
# # 3. Построение словаря
# TEXT.build_vocab(train_data, max_size=10000, vectors="glove.6B.100d", unk_init=torch.Tensor.normal_) # Можно загрузить предобученные векторы
# LABEL.build_vocab(train_data)
# vocab_size = len(TEXT.vocab)
# num_classes = len(LABEL.vocab)
#
# # 4. Создание итераторов (DataLoader)
# BATCH_SIZE = 64
# device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
# train_iterator, test_iterator = BucketIterator.splits(
#     (train_data, test_data),
#     batch_size=BATCH_SIZE,
#     sort_key=lambda x: len(x.text), # Группировка по длине для эффективности RNN
#     sort_within_batch=True,
#     device=device)
#
# # Использование итератора в цикле обучения:
# # for batch in train_iterator:
# #     text = batch.text # Тензор индексов [batch_size, seq_len]
# #     labels = batch.label # Тензор меток [batch_size]
# #     # ... обучение ...

# --------------------------------------------------

# Блок 5: Обучение и Инференс

# Обучающий Цикл (Стандартный PyTorch):
# 1. Инициализация модели, функции потерь (`nn.CrossEntropyLoss` для мультиклассовой, `nn.BCEWithLogitsLoss` для бинарной/мульти-лейбл), оптимизатора (`optim.Adam`).
# 2. Цикл по эпохам.
# 3. Внутри эпохи:
#    - `model.train()`
#    - Цикл по батчам из `DataLoader`.
#    - Перемещение данных на `device`.
#    - `optimizer.zero_grad()`
#    - Прямой проход: `outputs = model(batch_text)`
#    - Вычисление потерь: `loss = criterion(outputs, batch_labels)`
#    - Обратный проход: `loss.backward()`
#    - Обрезка градиента (опционально, полезно для RNN): `torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=1)`
#    - Шаг оптимизатора: `optimizer.step()`
#    - Подсчет метрик (accuracy, loss) на батче/эпохе.
# 4. Валидация после каждой эпохи:
#    - `model.eval()`
#    - `with torch.no_grad():`
#    - Цикл по валидационным батчам.
#    - Вычисление метрик на валидационном наборе.
#    - Сохранение лучшей модели.

# Инференс:
# 1. Загрузка обученной модели и словаря (`vocab`).
# 2. `model.eval()`
# 3. Предобработка входного текста: токенизация, конвертация в индексы словаря, паддинг, создание тензора.
# 4. `with torch.no_grad(): output = model(input_tensor)`
# 5. Постобработка выхода: применение `softmax` или `sigmoid` для получения вероятностей, `argmax` для получения предсказанного класса.

# --------------------------------------------------

# Блок 6: Выбор между CNN и RNN для Задачи

# - **CNN:**
#   - **Плюсы:** Быстрее обучаются и работают (параллельные вычисления), хорошо улавливают локальные признаки (важные ключевые слова/фразы), менее чувствительны к проблемам исчезающего градиента.
#   - **Минусы:** Менее эффективно улавливают длинные зависимости и строгий порядок слов по сравнению с RNN.
#   - **Подходит для:** Классификации текста (особенно анализ тональности, спам), где наличие определенных фраз важнее сложной грамматической структуры.

# - **RNN (LSTM/GRU):**
#   - **Плюсы:** Естественно моделируют последовательности, хорошо улавливают порядок слов и длинные зависимости, могут использоваться для генерации текста.
#   - **Минусы:** Медленнее из-за последовательной обработки, могут быть сложнее в обучении (градиенты).
#   - **Подходит для:** Классификации текста, где важен порядок и контекст (например, определение сарказма), машинного перевода, языкового моделирования, NER, POS-tagging.

# - **Комбинации:** Иногда используют гибридные модели, сочетающие CNN и RNN слои.

# Выбор часто зависит от конкретной задачи, размера данных и доступных ресурсов.
# Для многих задач классификации текста и CNN, и LSTM/GRU могут дать хорошие результаты.

# --------------------------------------------------

# Блок 7: Пример Задачи - Классификация Тональности (Концептуально)

# --- Условие Задачи ---
# Задача: Классифицировать отзывы на фильмы как "позитивные" или "негативные".

# --- Решение (Концептуальный Код на PyTorch) ---

# import torch
# import torch.nn as nn
# import torch.optim as optim
# from torch.utils.data import Dataset, DataLoader
# # Предполагается, что есть функции/классы для:
# # - load_data(): Загружает тексты и метки (0/1)
# # - build_vocab(texts): Строит словарь {word: index}
# # - text_to_indices(text, vocab): Конвертирует текст в индексы
# # - pad_sequence(indices, max_len): Дополняет последовательность
#
# # --- 1. Параметры ---
# VOCAB_SIZE = 10000 # Примерный размер словаря
# EMBED_DIM = 100
# HIDDEN_DIM_RNN = 128 # Для RNN
# NUM_FILTERS_CNN = 100 # Для CNN
# FILTER_SIZES_CNN = [3, 4, 5] # Для CNN
# NUM_CLASSES = 2 # Positive / Negative
# NUM_EPOCHS = 5
# BATCH_SIZE = 64
# MAX_SEQ_LEN = 150 # Максимальная длина последовательности после паддинга
#
# # --- 2. Данные ---
# # train_texts, train_labels = load_data('train')
# # test_texts, test_labels = load_data('test')
# # vocab = build_vocab(train_texts, max_size=VOCAB_SIZE)
# # VOCAB_SIZE = len(vocab) # Обновить размер словаря
#
# # class SentimentDataset(Dataset):
# #     def __init__(self, texts, labels, vocab, max_len):
# #         self.texts = texts
# #         self.labels = labels
# #         self.vocab = vocab
# #         self.max_len = max_len
# #
# #     def __len__(self):
# #         return len(self.texts)
# #
# #     def __getitem__(self, idx):
# #         text = self.texts[idx]
# #         label = self.labels[idx]
# #         indices = text_to_indices(text, self.vocab)
# #         padded_indices = pad_sequence(indices, self.max_len)
# #         return torch.tensor(padded_indices, dtype=torch.long), torch.tensor(label, dtype=torch.long) # long для CrossEntropy
#
# # train_dataset = SentimentDataset(train_texts, train_labels, vocab, MAX_SEQ_LEN)
# # test_dataset = SentimentDataset(test_texts, test_labels, vocab, MAX_SEQ_LEN)
# # train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
# # test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE)
#
# # --- 3. Модель (Выбираем одну: CNN или RNN) ---
# # model = CNNTextClassifier(VOCAB_SIZE, EMBED_DIM, NUM_FILTERS_CNN, FILTER_SIZES_CNN, NUM_CLASSES)
# model = RNNTextClassifier(VOCAB_SIZE, EMBED_DIM, HIDDEN_DIM_RNN, num_layers=2, num_classes=NUM_CLASSES, rnn_type='LSTM', bidirectional=True)
# device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
# model.to(device)
#
# # --- 4. Обучение ---
# criterion = nn.CrossEntropyLoss()
# optimizer = optim.Adam(model.parameters())
#
# # (Здесь стандартный цикл обучения PyTorch, как описан в Блоке 5)
# # for epoch in range(NUM_EPOCHS):
# #     model.train()
# #     for sequences, labels in train_loader:
# #         sequences, labels = sequences.to(device), labels.to(device)
# #         optimizer.zero_grad()
# #         outputs = model(sequences)
# #         loss = criterion(outputs, labels)
# #         loss.backward()
# #         optimizer.step()
# #     # Валидация на test_loader...
#
# # --- 5. Инференс ---
# # def predict_sentiment(text, model, vocab, max_len, device):
# #     model.eval()
# #     indices = text_to_indices(text, vocab)
# #     padded = pad_sequence(indices, max_len)
# #     tensor = torch.tensor(padded, dtype=torch.long).unsqueeze(0).to(device) # Добавить batch dim
# #     with torch.no_grad():
# #         output = model(tensor)
# #     probability = torch.softmax(output, dim=1)
# #     prediction = torch.argmax(probability, dim=1).item()
# #     return prediction, probability[0][prediction].item()
#
# # example_text = "This movie was great!"
# # pred_class, confidence = predict_sentiment(example_text, model, vocab, MAX_SEQ_LEN, device)
# # print(f"Text: '{example_text}' -> Predicted Class: {pred_class}, Confidence: {confidence:.4f}")

# --- Конец Примера ---

# --------------------------------------------------

In [None]:
# Блок 1: Задача - Классификация Тональности (Sentiment Analysis)

# Цель: Классифицировать текст (например, отзыв) как "позитивный" (1) или "негативный" (0).
# Подход: Используем модель глубокого обучения на PyTorch, состоящую из:
#   1. Слой Эмбеддингов (Embedding) для преобразования слов в векторы.
#   2. Слой Рекуррентной Нейронной Сети (BiLSTM) для обработки последовательности векторов.
#   3. Полносвязный слой (Linear) для финальной классификации.

# --------------------------------------------------

# Блок 2: Импорты и Настройки

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from collections import Counter # Для построения словаря
from tqdm import tqdm # Для индикатора прогресса
import numpy as np
import re # Для простой очистки текста

# Настройки
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Using device: {DEVICE}")

# Параметры модели и обучения
VOCAB_SIZE = 0 # Определится после построения словаря
EMBED_DIM = 100 # Размерность эмбеддингов
HIDDEN_DIM = 128 # Размерность скрытого состояния LSTM
NUM_CLASSES = 2 # Positive (1), Negative (0)
NUM_LAYERS = 2 # Количество слоев LSTM
BIDIRECTIONAL = True
DROPOUT_PROB = 0.5
NUM_EPOCHS = 10
BATCH_SIZE = 4 # Маленький батч для примера
LEARNING_RATE = 0.001
MAX_SEQ_LEN = 50 # Максимальная длина последовательности (для паддинга)

# Специальные токены
PAD_TOKEN = "<PAD>"
UNK_TOKEN = "<UNK>"

# --------------------------------------------------

# Блок 3: Подготовка Данных

# --- 3.1 Пример Данных ---
# В реальной задаче данные загружаются из файлов (CSV, JSON, etc.)
raw_train_data = [
    ("This movie is fantastic and amazing!", 1), # Positive
    ("I absolutely loved the plot.", 1),
    ("What a brilliant performance by the actors.", 1),
    ("Highly recommended, a must-see!", 1),
    ("The best film I have seen this year.", 1),
    ("A truly wonderful experience.", 1),
    ("It was a complete waste of time.", 0), # Negative
    ("The acting was terrible and the story boring.", 0),
    ("I hated every minute of it.", 0),
    ("Worst movie ever, do not watch.", 0),
    ("So disappointing, I expected much more.", 0),
    ("The plot made no sense at all.", 0),
]

raw_test_data = [
    ("Incredible film, very engaging.", 1),
    ("A masterpiece of cinema.", 1),
    ("Just awful, avoid at all costs.", 0),
    ("The direction was poor and the script weak.", 0),
]

# --- 3.2 Предобработка и Токенизация ---
def preprocess_text(text):
    text = text.lower()
    # Удаляем простую пунктуацию (можно использовать более сложные методы)
    text = re.sub(r'[^\w\s]', '', text)
    tokens = text.split() # Простая токенизация по пробелам
    return tokens

# Применяем предобработку
train_texts = [preprocess_text(text) for text, label in raw_train_data]
test_texts = [preprocess_text(text) for text, label in raw_test_data]
train_labels = [label for text, label in raw_train_data]
test_labels = [label for text, label in raw_test_data]

# --- 3.3 Построение Словаря ---
word_counts = Counter(token for text in train_texts for token in text)
# Создаем словарь: слово -> индекс
# Добавляем специальные токены PAD и UNK
vocab = {word: i+2 for i, (word, count) in enumerate(word_counts.items())} # Начинаем с индекса 2
vocab[PAD_TOKEN] = 0
vocab[UNK_TOKEN] = 1
VOCAB_SIZE = len(vocab) # Обновляем размер словаря
print(f"Vocabulary size: {VOCAB_SIZE}")
# print(f"Vocabulary sample: {list(vocab.items())[:10]}")

# --- 3.4 Конвертация в Индексы и Паддинг ---
def text_to_indices(text_tokens, vocab):
    return [vocab.get(token, vocab[UNK_TOKEN]) for token in text_tokens]

def pad_sequence(indices, max_len, pad_idx):
    current_len = len(indices)
    if current_len >= max_len:
        return indices[:max_len] # Обрезаем, если длиннее
    else:
        # Дополняем нулями (индекс PAD_TOKEN) в конец
        return indices + [pad_idx] * (max_len - current_len)

train_indices = [pad_sequence(text_to_indices(text, vocab), MAX_SEQ_LEN, vocab[PAD_TOKEN]) for text in train_texts]
test_indices = [pad_sequence(text_to_indices(text, vocab), MAX_SEQ_LEN, vocab[PAD_TOKEN]) for text in test_texts]

# --- 3.5 Создание PyTorch Dataset ---
class SentimentDataset(Dataset):
    def __init__(self, indices, labels):
        self.indices = indices
        self.labels = labels

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        # Возвращаем тензоры
        sequence = torch.tensor(self.indices[idx], dtype=torch.long)
        label = torch.tensor(self.labels[idx], dtype=torch.long) # long для CrossEntropyLoss
        return sequence, label

train_dataset = SentimentDataset(train_indices, train_labels)
test_dataset = SentimentDataset(test_indices, test_labels)

# --- 3.6 Создание DataLoader ---
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE) # shuffle=False для теста

# --------------------------------------------------

# Блок 4: Определение Модели (BiLSTM)

class RNNTextClassifier(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, num_classes,
                 num_layers, bidirectional, dropout_prob, pad_idx):
        super(RNNTextClassifier, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=pad_idx)

        self.rnn = nn.LSTM(embed_dim,
                           hidden_dim,
                           num_layers=num_layers,
                           bidirectional=bidirectional,
                           batch_first=True, # Ожидаем вход [batch, seq, feature]
                           dropout=dropout_prob if num_layers > 1 else 0)

        fc_in_features = hidden_dim * (2 if bidirectional else 1)
        self.fc = nn.Linear(fc_in_features, num_classes)
        self.dropout = nn.Dropout(dropout_prob)

    def forward(self, text_indices):
        # text_indices: [batch_size, seq_len]
        embedded = self.dropout(self.embedding(text_indices))
        # embedded: [batch_size, seq_len, embed_dim]

        # PackedSequence не используется для простоты, но может ускорить RNN
        outputs, (hidden, cell) = self.rnn(embedded)
        # hidden: [num_layers * num_directions, batch_size, hidden_dim]

        if self.rnn.bidirectional:
            # Конкатенируем финальные скрытые состояния последнего слоя (прямое и обратное)
            hidden = self.dropout(torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim=1))
        else:
            # Берем финальное скрытое состояние последнего слоя
            hidden = self.dropout(hidden[-1,:,:])

        # hidden: [batch_size, hidden_dim * num_directions]
        logits = self.fc(hidden)
        # logits: [batch_size, num_classes]
        return logits

# Инициализация модели
model = RNNTextClassifier(
    vocab_size=VOCAB_SIZE,
    embed_dim=EMBED_DIM,
    hidden_dim=HIDDEN_DIM,
    num_classes=NUM_CLASSES,
    num_layers=NUM_LAYERS,
    bidirectional=BIDIRECTIONAL,
    dropout_prob=DROPOUT_PROB,
    pad_idx=vocab[PAD_TOKEN]
)
model.to(DEVICE)
print("\nModel Initialized:")
print(model)

# Подсчет параметров (для информации)
def count_parameters(model):
    return sum(p.numel() for p in model.parameters() if p.requires_grad)
print(f'The model has {count_parameters(model):,} trainable parameters')

# --------------------------------------------------

# Блок 5: Обучение Модели

# Функция потерь и оптимизатор
criterion = nn.CrossEntropyLoss() # Подходит для мультиклассовой классификации (здесь 2 класса)
optimizer = optim.Adam(model.parameters(), lr=LEARNING_RATE)

print("\nStarting Training...")
training_start_time = time.time()

for epoch in range(NUM_EPOCHS):
    model.train() # Установить режим обучения
    epoch_loss = 0
    epoch_correct = 0
    epoch_total = 0

    # Используем tqdm для прогресс-бара
    pbar = tqdm(train_loader, desc=f"Epoch {epoch+1}/{NUM_EPOCHS} [Training]")
    for sequences, labels in pbar:
        sequences = sequences.to(DEVICE)
        labels = labels.to(DEVICE)

        optimizer.zero_grad()
        outputs = model(sequences) # Прямой проход
        loss = criterion(outputs, labels) # Вычисление потерь

        preds = torch.argmax(outputs, dim=1) # Получаем предсказания
        correct = (preds == labels).sum().item()
        total = labels.size(0)

        loss.backward() # Обратный проход
        optimizer.step() # Обновление весов

        epoch_loss += loss.item()
        epoch_correct += correct
        epoch_total += total

        # Обновляем описание прогресс-бара
        pbar.set_postfix({'Loss': loss.item(), 'Acc': correct/total})

    avg_epoch_loss = epoch_loss / len(train_loader)
    avg_epoch_acc = epoch_correct / epoch_total
    print(f"Epoch {epoch+1} Summary: Train Loss: {avg_epoch_loss:.4f}, Train Acc: {avg_epoch_acc:.4f}")

training_end_time = time.time()
print(f"Training finished in {training_end_time - training_start_time:.2f} seconds.")

# --------------------------------------------------

# Блок 6: Оценка Модели

print("\nStarting Evaluation...")
model.eval() # Установить режим оценки
test_loss = 0
test_correct = 0
test_total = 0

with torch.no_grad(): # Отключаем вычисление градиентов
    pbar_test = tqdm(test_loader, desc="[Evaluating]")
    for sequences, labels in pbar_test:
        sequences = sequences.to(DEVICE)
        labels = labels.to(DEVICE)

        outputs = model(sequences)
        loss = criterion(outputs, labels)

        preds = torch.argmax(outputs, dim=1)
        correct = (preds == labels).sum().item()
        total = labels.size(0)

        test_loss += loss.item()
        test_correct += correct
        test_total += total
        pbar_test.set_postfix({'Acc': correct/total})


avg_test_loss = test_loss / len(test_loader)
avg_test_acc = test_correct / test_total
print(f"\nEvaluation Results: Test Loss: {avg_test_loss:.4f}, Test Acc: {avg_test_acc:.4f}")

# --------------------------------------------------

# Блок 7: Инференс (Предсказание на Новом Тексте)

def predict_sentiment(text, model, vocab, max_len, pad_idx, device):
    model.eval() # Убедиться, что модель в режиме оценки
    # Предобработка
    tokens = preprocess_text(text)
    indices = text_to_indices(tokens, vocab)
    padded_indices = pad_sequence(indices, max_len, pad_idx)
    # Конвертация в тензор и добавление batch dimension
    tensor = torch.tensor(padded_indices, dtype=torch.long).unsqueeze(0).to(device)

    with torch.no_grad():
        output = model(tensor) # Получаем логиты [1, num_classes]

    # Получаем вероятности
    probabilities = torch.softmax(output, dim=1).squeeze(0) # Убираем batch dim
    # Получаем предсказанный класс
    prediction = torch.argmax(probabilities).item() # 0 или 1
    confidence = probabilities[prediction].item() # Уверенность в предсказанном классе

    label = "Positive" if prediction == 1 else "Negative"
    return label, confidence

# Примеры предсказаний
print("\n--- Inference Examples ---")
test_sentence_1 = "This was an absolutely brilliant and engaging movie!"
pred1, conf1 = predict_sentiment(test_sentence_1, model, vocab, MAX_SEQ_LEN, vocab[PAD_TOKEN], DEVICE)
print(f"Text: '{test_sentence_1}'")
print(f"Predicted: {pred1} (Confidence: {conf1:.4f})")

test_sentence_2 = "The plot was predictable and the acting felt very wooden."
pred2, conf2 = predict_sentiment(test_sentence_2, model, vocab, MAX_SEQ_LEN, vocab[PAD_TOKEN], DEVICE)
print(f"Text: '{test_sentence_2}'")
print(f"Predicted: {pred2} (Confidence: {conf2:.4f})")

test_sentence_3 = "It was okay, not great but not terrible either." # Нейтральный - посмотрим, куда отнесет
pred3, conf3 = predict_sentiment(test_sentence_3, model, vocab, MAX_SEQ_LEN, vocab[PAD_TOKEN], DEVICE)
print(f"Text: '{test_sentence_3}'")
print(f"Predicted: {pred3} (Confidence: {conf3:.4f})")

# --- Конец Примера ---


In [None]:
# Блок 1: Эмбеддинги в spaCy - Обзор

# Как spaCy Работает с Эмбеддингами:
# spaCy интегрирует векторные представления (эмбеддинги) непосредственно в свои
# языковые модели и конвейеры обработки (pipelines). Подход к эмбеддингам
# зависит от типа загруженной модели spaCy (`sm`, `md`, `lg`, `trf`).

# Основные Способы Получения и Использования Эмбеддингов в spaCy:
# 1. Статические Векторы Слов (Word Vectors):
#    - Присутствуют в моделях среднего (`md`) и большого (`lg`) размера (например, `en_core_web_md`, `en_core_web_lg`).
#    - Каждому слову из словаря модели сопоставлен один фиксированный вектор (похоже на Word2Vec/GloVe, но часто обучены иначе).
#    - Доступны через атрибут `.vector` у объектов `Token`, `Span`, `Doc`.
#    - Векторы для `Span` и `Doc` обычно вычисляются как усреднение векторов входящих в них токенов.
# 2. Контекстно-чувствительные Тензоры (Context-sensitive Tensors - Tok2Vec):
#    - Генерируются компонентом конвейера `tok2vec` (Token-to-Vector), который присутствует
#      во всех современных предобученных моделях spaCy (`sm`, `md`, `lg`, `trf` - в `trf` он заменяется трансформером).
#    - `tok2vec` использует неглубокую нейронную сеть (часто CNN) для создания векторов токенов,
#      учитывающих локальный контекст.
#    - Эти тензоры используются *внутренне* как признаки для последующих компонентов
#      конвейера (tagger, parser, ner и т.д.).
#    - Доступны через атрибут `doc.tensor`.
# 3. Контекстуализированные Эмбеддинги Трансформеров (Transformer Embeddings):
#    - Используются в моделях `_trf` (например, `en_core_web_trf`) при наличии
#      установленного пакета `spacy-transformers`.
#    - Генерируются компонентом `transformer` на основе моделей типа BERT, RoBERTa и т.д.
#    - Полностью контекстуальные: вектор токена зависит от всего предложения.
#    - Атрибуты `.vector` у `Token`, `Span`, `Doc` в `_trf` моделях будут основаны
#      на этих контекстуальных представлениях (например, усреднение выходов трансформера
#      для токенов, или вектор [CLS] для документа).
#    - Детальные выходы трансформера доступны через `doc._.trf_data` (требует `spacy-transformers`).

# Ключевое Различие:
# - Статические векторы (`md`/`lg`): Один вектор на слово -> Быстро, но не учитывает контекст.
# - Tok2Vec (`sm`/`md`/`lg`): Внутренние векторы, учитывают локальный контекст -> Используются для компонентов spaCy.
# - Трансформеры (`trf`): Контекстуальные векторы, учитывают глобальный контекст -> Наиболее мощные, но медленные.

# --------------------------------------------------

# Блок 2: Статические Векторы Слов (Модели `md`/`lg`)

# Требуется модель `md` или `lg`. Установите:
# python -m spacy download en_core_web_md
# или
# python -m spacy download en_core_web_lg

import spacy
import numpy as np

model_name_md = "en_core_web_md"
try:
    nlp_md = spacy.load(model_name_md)
    print(f"\nLoaded model with static vectors: '{model_name_md}'")

    # Проверка наличия векторов в словаре модели
    # print(f"Vocab vectors shape: {nlp_md.vocab.vectors.shape}") # (num_vectors, vector_dim)

    text = "Apple and orange are fruits."
    doc_md = nlp_md(text)

    # Доступ к векторам токенов
    apple_token = doc_md[0]
    orange_token = doc_md[2]
    fruits_token = doc_md[5]

    # print(f"\nToken: '{apple_token.text}'")
    # print(f"  Has Vector: {apple_token.has_vector}")
    # print(f"  Vector Norm (L2): {apple_token.vector_norm}")
    # print(f"  Is OOV (Out Of Vocabulary): {apple_token.is_oov}")
    # print(f"  Vector (first 5 dims): {apple_token.vector[:5]}")

    # Доступ к вектору документа (усреднение векторов токенов)
    # print(f"\nDocument: '{doc_md.text}'")
    # print(f"  Has Vector: {doc_md.has_vector}")
    # print(f"  Vector Norm: {doc_md.vector_norm}")
    # print(f"  Vector (first 5 dims): {doc_md.vector[:5]}")

    # Вычисление сходства (на основе статических векторов)
    # similarity_apple_orange = apple_token.similarity(orange_token)
    # similarity_apple_fruits = apple_token.similarity(fruits_token)
    # print(f"\nSimilarity ('apple' vs 'orange'): {similarity_apple_orange:.4f}") # Ожидается высокое
    # print(f"Similarity ('apple' vs 'fruits'): {similarity_apple_fruits:.4f}") # Ожидается среднее/высокое

    # Прямой доступ к векторам через словарь (если нужно)
    # apple_vector_vocab = nlp_md.vocab.vectors.get(key=nlp_md.vocab.strings["apple"])
    # print(f"\nVector for 'apple' from vocab (first 5 dims): {apple_vector_vocab[:5]}")

except OSError:
    print(f"\nError: Model '{model_name_md}' not found. Please run:")
    print(f"python -m spacy download {model_name_md}")
except Exception as e:
    print(f"\nAn error occurred loading/using {model_name_md}: {e}")

# --------------------------------------------------

# Блок 3: Контекстно-чувствительные Тензоры (Tok2Vec)

# Присутствуют во всех современных моделях (`sm`, `md`, `lg`).
# Используются внутренне, но можно получить доступ к финальному тензору.

model_name_sm = "en_core_web_sm" # Подойдет любая модель с tok2vec
try:
    nlp_sm = spacy.load(model_name_sm)
    print(f"\nLoaded model with Tok2Vec: '{model_name_sm}'")

    text = "This is a sample sentence."
    doc_sm = nlp_sm(text)

    # Доступ к тензору документа (выход компонента tok2vec)
    # Это НЕ то же самое, что doc.vector в md/lg моделях!
    doc_tensor = doc_sm.tensor
    # print(f"\nTok2Vec tensor shape for '{doc_sm.text}': {doc_tensor.shape}")
    # Форма: (num_tokens, hidden_width) - где hidden_width зависит от конфигурации tok2vec

    # Доступ к тензору для отдельного токена
    # token_sample = doc_sm[3] # 'sample'
    # token_tensor = token_sample.tensor # Не существует такого атрибута напрямую
    # Вместо этого берем срез из doc.tensor
    # token_tensor_slice = doc_tensor[token_sample.i] # Индекс токена в документе
    # print(f"Tok2Vec tensor for '{token_sample.text}' (first 5 dims): {token_tensor_slice[:5]}")
    # print(f"Shape: {token_tensor_slice.shape}")

    # Сходство `.similarity()` в моделях `sm` (без статических векторов)
    # может быть не определено или давать плохие результаты, так как оно
    # обычно ожидает статические векторы.
    # token1 = doc_sm[1] # 'is'
    # token2 = doc_sm[2] # 'a'
    # try:
    #     sim_sm = token1.similarity(token2)
    #     print(f"\nSimilarity in '{model_name_sm}' ('is' vs 'a'): {sim_sm}")
    #     # Может выдать UserWarning, что векторы не загружены.
    # except UserWarning as w:
    #     print(f"\nWarning when calculating similarity in '{model_name_sm}': {w}")


except OSError:
    print(f"\nError: Model '{model_name_sm}' not found. Please run:")
    print(f"python -m spacy download {model_name_sm}")
except Exception as e:
    print(f"\nAn error occurred loading/using {model_name_sm}: {e}")


# --------------------------------------------------

# Блок 4: Контекстуализированные Эмбеддинги (Модели `_trf`)

# Требуется модель `_trf` и `spacy-transformers`. Установите:
# pip install -U spacy-transformers torch # или tensorflow
# python -m spacy download en_core_web_trf

model_name_trf = "en_core_web_trf"
try:
    nlp_trf = spacy.load(model_name_trf)
    print(f"\nLoaded Transformer model: '{model_name_trf}'")

    text1 = "The bank on the river side." # 'bank' - берег
    text2 = "I need to go to the bank to withdraw money." # 'bank' - финансовое учреждение

    doc_trf1 = nlp_trf(text1)
    doc_trf2 = nlp_trf(text2)

    # Находим токены 'bank' в обоих документах
    token_bank1 = doc_trf1[1]
    token_bank2 = doc_trf2[6]

    # print(f"\nToken 1: '{token_bank1.text}' in '{doc_trf1.text}'")
    # print(f"  Has Vector: {token_bank1.has_vector}")
    # print(f"  Vector Norm: {token_bank1.vector_norm}")
    # print(f"  Vector (first 5 dims): {token_bank1.vector[:5]}")

    # print(f"\nToken 2: '{token_bank2.text}' in '{doc_trf2.text}'")
    # print(f"  Has Vector: {token_bank2.has_vector}")
    # print(f"  Vector Norm: {token_bank2.vector_norm}")
    # print(f"  Vector (first 5 dims): {token_bank2.vector[:5]}")

    # Сходство между двумя токенами 'bank' (ожидается не очень высоким из-за разного контекста)
    # similarity_banks = token_bank1.similarity(token_bank2)
    # print(f"\nSimilarity between 'bank' (river) and 'bank' (money): {similarity_banks:.4f}")

    # Сходство между документами (использует контекстуальные представления)
    # similarity_docs = doc_trf1.similarity(doc_trf2)
    # print(f"Similarity between the two documents: {similarity_docs:.4f}")

    # Доступ к необработанным данным трансформера (продвинутый)
    # try:
    #     trf_data1 = doc_trf1._.trf_data
    #     # print(f"\nAccessing raw Transformer data (doc1): {trf_data1 is not None}")
    #     # last_hidden_state1 = trf_data1.last_hidden_state
    #     # print(f"Shape of last hidden state (doc1): {last_hidden_state1.shape}")
    # except AttributeError:
    #     print("\nAttribute 'doc._.trf_data' not found. Is spacy-transformers installed and working?")


except OSError:
    print(f"\nError: Model '{model_name_trf}' not found. Please run:")
    print(f"python -m spacy download {model_name_trf}")
    print("And ensure 'spacy-transformers' and 'torch'/'tensorflow' are installed.")
except Exception as e:
    print(f"\nAn error occurred loading/using {model_name_trf}: {e}")

# --------------------------------------------------

# Блок 5: Сводка и Рекомендации

# | Тип Модели spaCy | Компонент Эмбеддингов | Тип Эмбеддинга        | Доступ через `.vector` | Учитывает Контекст? | Производительность | Размер Модели |
# |------------------|-----------------------|-----------------------|------------------------|---------------------|--------------------|---------------|
# | `sm`             | `tok2vec`             | Внутренний тензор     | Нет (или неинформативно)| Локальный           | Высокая            | Маленький     |
# | `md`             | `tok2vec`, `vectors`  | Статический + Внутр.  | Да (Статический)       | Локальный (внутр.)  | Средняя            | Средний       |
# | `lg`             | `tok2vec`, `vectors`  | Статический + Внутр.  | Да (Статический)       | Локальный (внутр.)  | Средняя/Низкая     | Большой       |
# | `trf`            | `transformer`         | Контекстуальный       | Да (Контекстуальный)   | Глобальный          | Низкая (GPU рек.)  | Очень большой |

# Рекомендации:
# - **Нужна скорость и базовый анализ (POS, Dep, NER)?** Используйте `sm` модели. Эмбеддинги здесь в основном внутренние.
# - **Нужно хорошее семантическое сходство на уровне слов без учета контекста или базовые векторы для внешних моделей?** Используйте `md` или `lg` модели и атрибут `.vector`.
# - **Нужна максимальная точность, учет контекста для сходства или state-of-the-art признаки для компонентов?** Используйте `trf` модели (с `spacy-transformers`). Будьте готовы к высоким требованиям к ресурсам.
# - **Нужен доступ к внутренним контекстно-чувствительным представлениям для кастомных моделей?** Используйте `doc.tensor` (из `tok2vec`) или `doc._.trf_data` (из `transformer`).

# Помните, что атрибут `.vector` ведет себя по-разному в зависимости от загруженной модели!
# --------------------------------------------------

In [None]:
# Блок 1: Введение в Multi-label Text Classification

# Что такое Multi-label Classification?
# Это задача классификации, в которой каждому экземпляру (в нашем случае, тексту)
# может быть присвоено **ноль или несколько** меток (классов, категорий)
# из предопределенного набора.

# Отличие от Multi-class Classification:
# - Multi-class (Многоклассовая): Каждый экземпляр принадлежит **ровно одному** классу
#   из нескольких возможных (например, тональность: позитивная ИЛИ негативная ИЛИ нейтральная).
#   Используется Softmax на выходе, CrossEntropyLoss.
# - Multi-label (Многометочная): Каждый экземпляр может принадлежать **любому количеству**
#   классов одновременно, включая ни одного. (например, жанры фильма: может быть
#   и "Боевик", и "Комедия", и "Фантастика" одновременно).
#   Используется Sigmoid на выходе (для каждого класса независимо), BinaryCrossEntropyLoss.

# Примеры Задач:
# - Определение жанров фильма по описанию/рецензии.
# - Присвоение тем новостной статье (может быть и "Политика", и "Экономика").
# - Тегирование поста в блоге (может быть "Python", "Machine Learning", "Tutorial").
# - Определение характеристик продукта, упомянутых в отзыве (цена, дизайн, производительность).
# - Категоризация медицинских текстов по нескольким симптомам или диагнозам.

# --------------------------------------------------

# Блок 2: Основные Подходы к Решению

# Существует несколько стратегий для решения задач multi-label классификации:

# 1. Трансформация Проблемы (Problem Transformation):
#    - Идея: Преобразовать multi-label проблему в одну или несколько single-label
#      (binary или multi-class) проблем, которые можно решить стандартными алгоритмами.
#    - Методы:
#      - **Binary Relevance (BR):** Самый простой подход. Обучается отдельный
#        бинарный классификатор для каждой метки (принадлежит ли текст метке X?).
#        Предсказания делаются независимо для каждой метки.
#        *Плюсы:* Простота, можно использовать любой бинарный классификатор.
#        *Минусы:* Игнорирует возможные корреляции между метками (например, "Комедия" и "Романтика" часто идут вместе).
#      - **Classifier Chains (CC):** Обучается цепочка бинарных классификаторов.
#        Первый классификатор обучается на исходных признаках. Второй обучается
#        на исходных признаках + предсказании первого классификатора, и так далее.
#        *Плюсы:* Учитывает корреляции между метками (в порядке цепочки).
#        *Минусы:* Порядок меток в цепочке важен, ошибки могут накапливаться.
#      - **Label Powerset (LP):** Рассматривает каждую уникальную *комбинацию* меток,
#        встречающуюся в обучающих данных, как отдельный класс в multi-class задаче.
#        *Плюсы:* Идеально учитывает корреляции меток.
#        *Минусы:* Количество классов может стать очень большим (до 2^L, где L - число меток),
#        проблема с редкими или невиданными комбинациями меток.
#    - Библиотеки: Scikit-learn (`sklearn.multiclass` содержит `OneVsRestClassifier` для BR,
#      `ClassifierChain`; `skmultilearn` - специализированная библиотека).

# 2. Адаптация Алгоритмов (Algorithm Adaptation):
#    - Идея: Модифицировать существующие алгоритмы машинного обучения так, чтобы
#      они напрямую работали с multi-label данными.
#    - Примеры: ML-kNN (Multi-label k-Nearest Neighbors), Multi-output Decision Trees/Random Forests.
#    - Менее распространены в стандартных библиотеках по сравнению с методами трансформации
#      или глубоким обучением.

# 3. Глубокое Обучение (Deep Learning):
#    - Идея: Использовать нейронные сети (CNN, RNN, Transformers) для извлечения
#      признаков из текста и модифицировать выходной слой для multi-label предсказаний.
#    - Реализация:
#      - **Выходной Слой:** Полносвязный слой с количеством нейронов, равным
#        количеству меток (`num_labels`).
#      - **Функция Активации:** Применяется **Sigmoid** к выходу каждого нейрона.
#        Sigmoid выдает вероятность от 0 до 1 для *каждой* метки независимо.
#      - **Функция Потерь:** Используется **Binary Cross-Entropy Loss** (BCE) или
#        `BCEWithLogitsLoss` (более стабильна, применяется к логитам до Sigmoid).
#        Лосс вычисляется для каждой метки и затем усредняется или суммируется.
#    - Преимущества: Автоматическое извлечение признаков, state-of-the-art результаты,
#      естественным образом обрабатывает multi-label выход.
#    - Библиотеки: PyTorch, TensorFlow/Keras, Hugging Face Transformers (модели
#      `ForSequenceClassification` можно использовать с BCEWithLogitsLoss).

# --------------------------------------------------

# Блок 3: Представление Текста и Подготовка Данных

# 1. Представление Текста (Feature Extraction):
#    - **TF-IDF:** Хороший выбор для методов трансформации проблемы с классическими ML алгоритмами (SVM, Logistic Regression).
#    - **Эмбеддинги (Word2Vec, GloVe, FastText, Sentence-BERT):** Могут использоваться как признаки для классических ML или как входные слои для DL моделей.
#    - **Выходы Трансформеров (BERT и др.):** Используются как вход для DL моделей.

# 2. Представление Меток (Labels):
#    - Обычно метки представляются в виде **бинарного вектора (или матрицы)**.
#    - Если у вас `L` возможных меток, то каждый текст будет иметь вектор длины `L`,
#      где `1` стоит на позициях, соответствующих присвоенным меткам, и `0` на остальных.
#    - Пример: Метки = ["Спорт", "Политика", "Технологии"].
#      Текст про спорт и политику: `[1, 1, 0]`
#      Текст только про технологии: `[0, 0, 1]`
#      Текст ни о чем из этого: `[0, 0, 0]`
#    - Scikit-learn предоставляет `MultiLabelBinarizer` для такого преобразования.

# 3. Предобработка Текста:
#    - Стандартные шаги: нижний регистр, удаление шума (HTML, URL), токенизация.
#    - Удаление стоп-слов, стемминг/лемматизация - по необходимости, в зависимости от выбранного метода векторизации и модели.

# 4. Разделение Данных: Train / Validation / Test.

# --------------------------------------------------

# Блок 4: Метрики Оценки для Multi-label Классификации

# Стандартная Accuracy (доля полностью правильно предсказанных *наборов* меток)
# часто бывает слишком строгой и низкой. Используют другие метрики:

# 1. Метрики на Основе Примеров (Example-Based):
#    - Вычисляются для каждого примера, затем усредняются по всем примерам.
#    - **Subset Accuracy (Exact Match Ratio):** Доля примеров, для которых *все* метки предсказаны абсолютно правильно. `accuracy_score` в sklearn.
#    - **Hamming Loss:** Доля неправильно предсказанных меток (1 - (TP+TN)/(TP+TN+FP+FN) для каждой метки, усредненное). Чем меньше, тем лучше. `hamming_loss` в sklearn.
#    - **Accuracy (Example-Based):** Jaccard-индекс для каждого примера, усредненный. |Intersection| / |Union|.
#    - **Precision (Example-Based):** |Intersection| / |Predicted Labels|. Усредненное.
#    - **Recall (Example-Based):** |Intersection| / |True Labels|. Усредненное.
#    - **F1-Score (Example-Based):** Гармоническое среднее Precision и Recall. Усредненное.

# 2. Метрики на Основе Меток (Label-Based):
#    - Вычисляются для каждой метки отдельно, затем усредняются.
#    - **Micro-Average (Precision, Recall, F1):** Считает метрики глобально по всем парам (пример, метка). Хорошо отражает общую производительность, чувствительна к большим классам.
#    - **Macro-Average (Precision, Recall, F1):** Считает метрики для каждой метки и усредняет (не взвешивая). Дает равный вес каждой метке, полезна, если важна производительность на редких метках.
#    - **Weighted-Average (Precision, Recall, F1):** Как Macro, но усреднение взвешено по количеству истинных примеров для каждой метки.
#    - **Samples-Average (Precision, Recall, F1):** Считает метрики для каждого примера и усредняет (то же, что Example-Based F1 и т.д.).

# `classification_report` из Scikit-learn поддерживает вычисление Micro, Macro, Weighted и Samples average для multi-label задач при передаче бинаризованных меток.

# --------------------------------------------------

# Блок 5: Пример Задачи и Решения (Binary Relevance с Scikit-learn)

# --- Условие Задачи ---
# Задача: Классифицировать короткие тексты по нескольким возможным тегам (меткам).
# Например: "python tutorial", "machine learning book", "python machine learning".
# Метки: "python", "tutorial", "machine learning", "book".

# --- Решение (Полный Код) ---

import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import MultiLabelBinarizer # Для преобразования меток
from sklearn.model_selection import train_test_split
from sklearn.multiclass import OneVsRestClassifier # Реализует Binary Relevance
from sklearn.svm import LinearSVC # Базовый бинарный классификатор
from sklearn.pipeline import Pipeline
from sklearn.metrics import hamming_loss, accuracy_score, classification_report

# 1. Пример Данных (Тексты и Списки Меток)
texts = [
    "learn python programming basics",
    "advanced machine learning techniques",
    "a good book on python data science",
    "tutorial for machine learning beginners",
    "python for machine learning tutorial and book",
    "deep learning concepts explained",
    "introduction to python",
    "best machine learning books 2024",
    "python web development tutorial",
    "natural language processing with python book"
]
# Метки для каждого текста (списки строк)
labels = [
    ["python", "tutorial"],
    ["machine learning"],
    ["python", "book", "data science"], # Добавим data science для примера
    ["machine learning", "tutorial"],
    ["python", "machine learning", "tutorial", "book"],
    ["deep learning"], # Добавим deep learning
    ["python", "tutorial"],
    ["machine learning", "book"],
    ["python", "web development", "tutorial"], # Добавим web development
    ["python", "natural language processing", "book"] # Добавим nlp
]

# 2. Подготовка Данных
# Бинаризация меток
mlb = MultiLabelBinarizer()
y_binarized = mlb.fit_transform(labels)

# print("Classes found by MultiLabelBinarizer:", mlb.classes_)
# print("\nBinarized labels (first 5):")
# print(y_binarized[:5])
# print(f"\nShape of binarized labels: {y_binarized.shape}") # (num_samples, num_classes)

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(
    texts, y_binarized, test_size=0.3, random_state=42
)
# print(f"\nTrain samples: {len(X_train)}, Test samples: {len(X_test)}")

# 3. Создание и Обучение Модели (Pipeline + Binary Relevance)
# Используем TF-IDF для векторизации и LinearSVC как базовый классификатор
# OneVsRestClassifier обучит по одному LinearSVC для каждой метки
pipeline = Pipeline([
    ('tfidf', TfidfVectorizer(stop_words='english')),
    ('clf', OneVsRestClassifier(LinearSVC(random_state=42, dual='auto'), n_jobs=-1)) # n_jobs=-1 для параллелизма
])

# print("\nTraining the model...")
pipeline.fit(X_train, y_train)
# print("Training complete.")

# 4. Предсказание на Тестовой Выборке
y_pred = pipeline.predict(X_test)
# print("\nPredictions (binary matrix, first 3):")
# print(y_pred[:3])

# 5. Оценка Модели
# Subset Accuracy (Exact Match Ratio)
subset_acc = accuracy_score(y_test, y_pred)
print(f"\nSubset Accuracy (Exact Match): {subset_acc:.4f}")

# Hamming Loss
h_loss = hamming_loss(y_test, y_pred)
print(f"Hamming Loss: {h_loss:.4f}")

# Classification Report (Micro, Macro, Weighted, Samples averages)
# target_names передает имена классов для отчета
print("\nClassification Report:")
print(classification_report(y_test, y_pred, target_names=mlb.classes_, zero_division=0))

# 6. Предсказание на Новых Данных
new_texts = [
    "machine learning tutorial using python",
    "best books about deep learning",
    "web development guide"
]
new_pred_binarized = pipeline.predict(new_texts)

# Преобразование бинарных предсказаний обратно в списки меток
new_pred_labels = mlb.inverse_transform(new_pred_binarized)

print("\n--- Predictions for New Texts ---")
for text, pred_labels in zip(new_texts, new_pred_labels):
    print(f"Text: '{text}'")
    print(f"  Predicted Labels: {pred_labels if pred_labels else 'None'}")


# --- Конец Примера (Scikit-learn) ---

# --------------------------------------------------

# Блок 7: Рекомендации по Выбору Подхода

# - **Binary Relevance (BR) с TF-IDF + SVM/Logistic Regression:** Отличный и сильный baseline. Прост в реализации (Scikit-learn). Хорошо работает, если корреляции между метками не очень сильные или не критичны.
# - **Classifier Chains (CC):** Попробуйте, если BR недостаточно и есть основания полагать, что учет предсказаний предыдущих меток поможет. Требует подбора оптимального порядка цепочки.
# - **Label Powerset (LP):** Используйте с осторожностью, только если количество уникальных комбинаций меток не слишком велико.
# - **Deep Learning (CNN/RNN/Transformers + Sigmoid + BCE Loss):** Подход выбора для достижения state-of-the-art результатов, особенно при наличии больших данных. Естественным образом обрабатывает multi-label выход и может неявно улавливать корреляции меток через общие слои извлечения признаков. Требует больше ресурсов и данных.

# Начинать часто стоит с Binary Relevance как с базовой модели.
# --------------------------------------------------


In [None]:
# Блок 1: Задача Multi-label Классификации с Нейронными Сетями

# Цель: Классифицировать тексты по нескольким возможным тегам (меткам)
#       ("python", "tutorial", "machine learning", "book", и т.д.),
#       используя нейронную сеть (BiLSTM) на PyTorch.

# Подход:
# 1. Предобработка текста и меток (токенизация, словарь, паддинг, бинаризация меток).
# 2. Создание PyTorch Dataset и DataLoader.
# 3. Определение архитектуры модели (Embedding -> BiLSTM -> Linear).
# 4. Использование Sigmoid активации (неявно через лосс) и Binary Cross-Entropy Loss.
# 5. Обучение и оценка модели.

# --------------------------------------------------

# Блок 2: Импорты и Настройки

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
from collections import Counter
from tqdm import tqdm
import numpy as np
import re
import os
from sklearn.preprocessing import MultiLabelBinarizer # Используем для удобства бинаризации
from sklearn.model_selection import train_test_split
from sklearn.metrics import hamming_loss, accuracy_score, classification_report

# Настройки
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Using device: {DEVICE}")

# Параметры модели и обучения
VOCAB_SIZE = 0
EMBED_DIM = 100
HIDDEN_DIM = 128
NUM_CLASSES = 0 # Определится после бинаризации меток
NUM_LAYERS = 1 # Упростим до 1 слоя BiLSTM
BIDIRECTIONAL = True
DROPOUT_PROB = 0.4
NUM_EPOCHS = 20 # Увеличим эпохи для DL
BATCH_SIZE = 2 # Маленький батч для примера
LEARNING_RATE = 0.002
MAX_SEQ_LEN = 20 # Макс длина для коротких текстов
PAD_TOKEN = "<PAD>"
UNK_TOKEN = "<UNK>"

# --------------------------------------------------

# Блок 3: Подготовка Данных (Схожа, но с бинаризацией меток)

# --- 3.1 Пример Данных (Те же) ---
texts = [
    "learn python programming basics",
    "advanced machine learning techniques",
    "a good book on python data science",
    "tutorial for machine learning beginners",
    "python for machine learning tutorial and book",
    "deep learning concepts explained",
    "introduction to python",
    "best machine learning books 2024",
    "python web development tutorial",
    "natural language processing with python book"
]
labels = [
    ["python", "tutorial"], ["machine learning"],
    ["python", "book", "data science"], ["machine learning", "tutorial"],
    ["python", "machine learning", "tutorial", "book"], ["deep learning"],
    ["python", "tutorial"], ["machine learning", "book"],
    ["python", "web development", "tutorial"],
    ["python", "natural language processing", "book"]
]

# --- 3.2 Предобработка Текста (Та же) ---
def preprocess_text(text):
    text = text.lower()
    text = re.sub(r'[^\w\s]', '', text)
    tokens = text.split()
    return tokens

processed_texts = [preprocess_text(text) for text in texts]

# --- 3.3 Построение Словаря (То же) ---
word_counts = Counter(token for text in processed_texts for token in text)
vocab = {word: i+2 for i, (word, count) in enumerate(word_counts.items())}
vocab[PAD_TOKEN] = 0
vocab[UNK_TOKEN] = 1
VOCAB_SIZE = len(vocab)
print(f"Vocabulary size: {VOCAB_SIZE}")

# --- 3.4 Конвертация Текста в Индексы и Паддинг (Те же) ---
def text_to_indices(text_tokens, vocab):
    return [vocab.get(token, vocab[UNK_TOKEN]) for token in text_tokens]

def pad_sequence(indices, max_len, pad_idx):
    current_len = len(indices)
    if current_len >= max_len: return indices[:max_len]
    else: return indices + [pad_idx] * (max_len - current_len)

text_indices = [pad_sequence(text_to_indices(text, vocab), MAX_SEQ_LEN, vocab[PAD_TOKEN]) for text in processed_texts]

# --- 3.5 Бинаризация Меток ---
mlb = MultiLabelBinarizer()
y_binarized = mlb.fit_transform(labels)
NUM_CLASSES = len(mlb.classes_) # Обновляем количество классов
print("Classes found by MultiLabelBinarizer:", mlb.classes_)
print(f"Number of classes: {NUM_CLASSES}")
# print("Binarized labels shape:", y_binarized.shape)

# --- 3.6 Разделение Данных ---
X_train_idx, X_test_idx, y_train_bin, y_test_bin = train_test_split(
    text_indices, y_binarized, test_size=0.3, random_state=42
)
print(f"\nTrain samples: {len(X_train_idx)}, Test samples: {len(X_test_idx)}")

# --- 3.7 Создание PyTorch Dataset ---
class MultiLabelDataset(Dataset):
    def __init__(self, indices, labels):
        self.indices = indices
        # **Важно:** BCEWithLogitsLoss ожидает метки типа float
        self.labels = labels.astype(np.float32)

    def __len__(self):
        return len(self.labels)

    def __getitem__(self, idx):
        sequence = torch.tensor(self.indices[idx], dtype=torch.long)
        label_vector = torch.tensor(self.labels[idx], dtype=torch.float) # Float для BCE
        return sequence, label_vector

train_dataset = MultiLabelDataset(X_train_idx, y_train_bin)
test_dataset = MultiLabelDataset(X_test_idx, y_test_bin)

# --- 3.8 Создание DataLoader ---
train_loader = DataLoader(train_dataset, batch_size=BATCH_SIZE, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=BATCH_SIZE)

# --------------------------------------------------

# Блок 4: Определение Модели (BiLSTM для Multi-label)

class BiLSTMMultiLabelClassifier(nn.Module):
    def __init__(self, vocab_size, embed_dim, hidden_dim, num_classes,
                 num_layers, bidirectional, dropout_prob, pad_idx):
        super(BiLSTMMultiLabelClassifier, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim, padding_idx=pad_idx)

        self.rnn = nn.LSTM(embed_dim, hidden_dim, num_layers=num_layers,
                           bidirectional=bidirectional, batch_first=True,
                           dropout=dropout_prob if num_layers > 1 else 0)

        fc_in_features = hidden_dim * (2 if bidirectional else 1)
        self.fc = nn.Linear(fc_in_features, num_classes) # Выход = количество классов
        self.dropout = nn.Dropout(dropout_prob)

    def forward(self, text_indices):
        # text_indices: [batch_size, seq_len]
        embedded = self.dropout(self.embedding(text_indices))
        # embedded: [batch_size, seq_len, embed_dim]

        outputs, (hidden, cell) = self.rnn(embedded)

        if self.rnn.bidirectional:
            hidden = self.dropout(torch.cat((hidden[-2,:,:], hidden[-1,:,:]), dim=1))
        else:
            hidden = self.dropout(hidden[-1,:,:])

        # hidden: [batch_size, hidden_dim * num_directions]
        logits = self.fc(hidden) # Получаем логиты для каждого класса
        # logits: [batch_size, num_classes]
        # **НЕ применяем Sigmoid здесь**, т.к. будем использовать BCEWithLogitsLoss
        return logits

# Инициализация модели
model = BiLSTMMultiLabelClassifier(
    vocab_size=VOCAB_SIZE,
    embed_dim=EMBED_DIM,
    hidden_dim=HIDDEN_DIM,
    num_classes=NUM_CLASSES,
    num_layers=NUM_LAYERS,
    bidirectional=BIDIRECTIONAL,
    dropout_prob=DROPOUT_PROB,
    pad_idx=vocab[PAD_TOKEN]
)
model.to(DEVICE)
print("\nModel Initialized:")
# print(model)
print(f'The model has {sum(p.numel() for p in model.parameters() if p.requires_grad):,} trainable parameters')

# --------------------------------------------------

# Блок 5: Обучение Модели

# Функция потерь и оптимизатор
# Используем BCEWithLogitsLoss для multi-label классификации
criterion = nn.BCEWithLogitsLoss()
optimizer = optim.Adam(model.parameters(), lr=LEARNING_RATE)

print("\nStarting Training...")
training_start_time = time.time()

for epoch in range(NUM_EPOCHS):
    model.train()
    epoch_loss = 0
    pbar = tqdm(train_loader, desc=f"Epoch {epoch+1}/{NUM_EPOCHS} [Training]")
    for sequences, labels in pbar:
        sequences = sequences.to(DEVICE)
        labels = labels.to(DEVICE) # Метки уже float

        optimizer.zero_grad()
        logits = model(sequences) # Прямой проход -> логиты
        loss = criterion(logits, labels) # Считаем BCE лосс

        loss.backward()
        optimizer.step()
        epoch_loss += loss.item()
        pbar.set_postfix({'Loss': loss.item()})

    avg_epoch_loss = epoch_loss / len(train_loader)
    print(f"Epoch {epoch+1} Summary: Train Loss: {avg_epoch_loss:.4f}")

training_end_time = time.time()
print(f"Training finished in {training_end_time - training_start_time:.2f} seconds.")

# --------------------------------------------------

# Блок 6: Оценка Модели

print("\nStarting Evaluation...")
model.eval()
all_preds = []
all_labels = []

with torch.no_grad():
    pbar_test = tqdm(test_loader, desc="[Evaluating]")
    for sequences, labels in pbar_test:
        sequences = sequences.to(DEVICE)
        # labels остаются на CPU для sklearn метрик, но копируем для сравнения
        labels_cpu = labels.numpy()
        all_labels.extend(labels_cpu)

        logits = model(sequences)
        # Применяем Sigmoid к логитам, чтобы получить вероятности
        probabilities = torch.sigmoid(logits)
        # Применяем порог (0.5) для получения бинарных предсказаний
        preds = (probabilities > 0.5).cpu().numpy().astype(int)
        all_preds.extend(preds)

# Конвертируем списки в numpy массивы
all_preds = np.array(all_preds)
all_labels = np.array(all_labels)

# Расчет метрик
subset_acc = accuracy_score(all_labels, all_preds) # Exact Match Ratio
h_loss = hamming_loss(all_labels, all_preds)

print(f"\nEvaluation Results:")
print(f"Subset Accuracy (Exact Match): {subset_acc:.4f}")
print(f"Hamming Loss: {h_loss:.4f}")
print("\nClassification Report (Label-Based Averages):")
# Используем MultiLabelBinarizer для получения имен классов
print(classification_report(all_labels, all_preds, target_names=mlb.classes_, zero_division=0))

# --------------------------------------------------

# Блок 7: Инференс (Предсказание на Новом Тексте)

def predict_multilabel(text, model, vocab, max_len, pad_idx, mlb_instance, device, threshold=0.5):
    model.eval()
    tokens = preprocess_text(text)
    indices = text_to_indices(tokens, vocab)
    padded_indices = pad_sequence(indices, max_len, pad_idx)
    tensor = torch.tensor(padded_indices, dtype=torch.long).unsqueeze(0).to(device)

    with torch.no_grad():
        logits = model(tensor)
        probabilities = torch.sigmoid(logits).squeeze(0) # [num_classes]

    # Применяем порог
    predictions_binary = (probabilities > threshold).cpu().numpy().astype(int)
    # Преобразуем бинарный вектор обратно в метки
    predicted_labels = mlb_instance.inverse_transform(predictions_binary.reshape(1, -1)) # reshape для одного примера

    # Собираем вероятности для предсказанных меток
    predicted_confidences = {}
    for i, label_name in enumerate(mlb_instance.classes_):
        if predictions_binary[i] == 1:
            predicted_confidences[label_name] = probabilities[i].item()

    return predicted_labels[0], predicted_confidences # [0] т.к. inverse_transform возвращает список списков

# Примеры предсказаний
print("\n--- Inference Examples (Neural Network) ---")
new_texts = [
    "machine learning tutorial using python",
    "best books about deep learning",
    "web development guide"
]

for text in new_texts:
    pred_labels, pred_confs = predict_multilabel(text, model, vocab, MAX_SEQ_LEN, vocab[PAD_TOKEN], mlb, DEVICE)
    print(f"Text: '{text}'")
    print(f"  Predicted Labels: {pred_labels if pred_labels else 'None'}")
    if pred_confs:
        conf_str = ", ".join([f"{k}: {v:.2f}" for k, v in pred_confs.items()])
        print(f"  Confidences: {{{conf_str}}}")

# --- Конец Примера ---